Documentos de Académico
Documentos de Profesional
Documentos de Cultura
y lingüística histórica
iberorrománica
Editado por
Johannes Kabatek
Con la colaboración de
Carlota de Benito Moreno
ISBN 978-3-11-046022-3
e-ISBN (PDF) 978-3-11-046235-7
e-ISBN (EPUB) 978-3-11-046050-6
ISSN 0084-5396
www.degruyter.com
Índice
Johannes Kabatek
Un nuevo capítulo en la lingüística histórica iberorrománica:
el trabajo crítico con los corpus. Introducción a este volumen 1
Joan Torruella
Tres propuestas en el ámbito de la lingüística de corpus 90
Guillermo Rojo
Citius, maius, melius: del CREA al CORPES XXI 197
Dorien Nieuwenhuijsen
Notas sobre la aportación del análisis estadístico
a la lingüística de corpus 215
Miriam Bouzouita
La posposición pronominal con futuros y condicionales en el códice
escurialense I.i.6: un examen de varias hipótesis morfosintácticas 270
Olivier Iglesias
«Se le quedó mirando»: la atracción de clíticos en un corpus
de idiolectos (s. XIX–XXI) 424
Johannes Kabatek
Un nuevo capítulo en la lingüística
histórica iberorrománica: el trabajo crítico
con los corpus. Introducción a este volumen
1 Introducción a la introducción
Mucho se ha escrito en los últimos años sobre la lingüística histórica y los corpus y
mucho se ha trabajado en el ámbito de las lenguas iberorrománicas para mejorar
tanto los corpus como los trabajos que se basan en ellos. El volumen que presen-
tamos a continuación se enmarca en una nueva etapa de la lingüística de corpus,
una etapa caracterizada por una visión crítica, tal vez menos entusiasta que hace
veinte o treinta años, pero también más refinada y más adecuada a su objeto de
estudio. Mientras que hace unos años la aparición de los primeros grandes corpus
históricos de las lenguas iberorrománicas (sobre todo del español) fue recibida
con general entusiasmo ante las posibilidades casi interminables de observar muy
fácilmente fenómenos cuyo estudio antes exigía un arduo y dificultoso trabajo a
mano, en la actualidad la disponibilidad masiva de datos y el fácil acceso a
ellos se considera algo ya completamente normal y forma parte del día a día de
investigadores y estudiantes. Al mismo tiempo, como es habitual en el avance de
una disciplina, junto con las nuevas posibilidades aparecieron también nuevos
problemas y surgieron nuevas tareas. Una mirada menos entusiasta, más sobria y
más crítica ha creado nuevas exigencias, basadas en (a) el cuestionamiento de la
relación entre datos primarios e historia de la lengua; (b) el cuestionamiento de
los mismos datos primarios; (c) la crítica hacia el diseño de los corpus; (d) la crítica
hacia las posibilidades ofrecidas por los corpus y los bancos de datos. Pero, como
es natural, los investigadores no solo se han dedicado a la crítica, sino también al
remedio. Gracias a ello, hoy en día ya disponemos de más y mejores corpus, de
más y mejores herramientas para el tratamiento de los datos y, finalmente, de una
serie de nuevos estándares más o menos establecidos en la comunidad, algunos
de ellos presentados a lo largo de las páginas de este libro.
2 Lenguas iberorrománicas
Antes de entrar en el debate acerca de los cuatro puntos mencionados, me parece
oportuno decir algo sobre el enfoque iberorrománico de este libro. Por un lado, las
limitaciones areales y tipológicas son en cierta medida arbitrarias y se deben a
circunstancias a veces casuales. Por otro lado, si frente a las visiones monolin-
gües existe, con amplia tradición, una filología románica bien establecida que se
justifica por el origen común de las lenguas neolatinas, no podemos decir lo
mismo de las lenguas romances de la Península Ibérica. Hay, sin embargo, una
serie importante de antecedentes, sobre todo en geografía lingüística (si pensa-
mos por ejemplo en el ALPI) o en obras que relacionan la historia de la lengua con
la historia de los espacios, como el famoso manual de Baldinger (1971). Aun así,
es más común que los espacios investigados tomen como punto de partida las
configuraciones políticas actuales y no las geográficas. Pero no hay que olvidar
que la consideración de un determinado espacio histórico a partir de espacios
nacionales actuales corresponde a la tan citada «teleología invertida» (Oesterrei-
cher 2007), difícilmente justificable desde la perspectiva de la emergencia histó-
rica y debida en gran parte a limitaciones derivadas de fronteras actuales y de
posibilidades de financiación de proyectos, marcadas por un pensamiento territo-
rial y político. Es fuera de los ámbitos políticos peninsulares —muchas veces por
falta de recursos y de posibilidades de crear departamentos separados, pero
también por una tradición que privilegia lo plural frente a lo monolítico y que es
consciente del provecho de la comparación— donde la iberorromanística es ya un
hecho establecido, y su tarea consiste precisamente en propagar el mensaje de
que la comparación de lo semejante puede ser altamente provechosa.1
Los corpus históricos no escapan al efecto de esta «teleología invertida»:
suelen estar hechos por instituciones nacionales o de un ámbito lingüístico actual
determinado y construyen el pasado a partir del presente, ignorando por tanto el
hecho de que los límites claros se van borrando conforme retrocedemos en el
tiempo. Así pues, juntar aquí trabajos sobre diferentes lenguas iberorrománicas
tiene una doble finalidad: por un lado, las razones están en los mismos objetos de
1 La base de la mayoría de las contribuciones a este volumen fueron los trabajos presentados en
el marco del Tercer Coloquio Internacional sobre Corpus diacrónicos en lenguas iberorrománicas
(CODILI III), celebrado en la Universidad de Zúrich en verano del 2014 (www.codili.ch). Algunas
de las reflexiones aquí presentadas también se deben a las discusiones llevadas al cabo durante
el curso de invierno ALPES (Abriendo Líneas en el Pasado del Español) en Kandersteg, Berna, en
enero de 2016. Agradezco a los participantes de ambos encuentros (en parte coincidentes) sus
valiosas contribuciones, y al Fondo Nacional Suizo y a la Confederación de las Universidades
Suizas su generoso apoyo.
Un nuevo capítulo en la lingüística histórica iberorrománica 3
2 El llamado «principio de la actualidad» suele atribuirse hoy en día a Labov (1974) aunque fue
ya muy claramente formulado por Osthoff y Brugmann (1878, IX–X) en su manifiesto neogramá-
tico. Es este un principio que deriva de la empatía que tenemos como hablantes con cualquier
otro hablante y, a partir de ahí, con cualquier situación lingüística, presente o pasada (cf.
Kabatek 2015).
Un nuevo capítulo en la lingüística histórica iberorrománica 5
3 Para dar cuenta de los hechos individuales, Mario Barra ha insistido últimamente en lo que ha
denominado el «método idiolectal» (Barra 2015; ver también Iglesias, en este volumen), consis-
tente en el estudio de la historia de la lengua basado en «gramáticas individuales». Aunque me
parece problemática la noción de «gramática individual», medir el espectro de posibilidades
gramaticales de las que dispone un individuo sí resulta un acercamiento muy interesante que
habría, en todo caso, que relacionar con su interacción con variedades y tradiciones discursivas
para la reconstrucción de lo que al final llamaremos diacronía.
4 Se desarrolla este principio en Rosemeyer/Enrique-Arias (en prensa): «Longitudinal analyses
of syntactic change, however, need language examples that differ with regard to the state of
development of the language rather than their usage contexts. This methodological challenge
has been formulated in terms of a comparability paradox in historical corpus design (Enrique-
Arias 2012, 97): a historical corpus has to be diverse because it must contain texts that represent
different periods, genres or dialects. At the same time this corpus must be uniform (that is, the
distribution of content type, genres or dialects along the different chronological sections in the
corpus must be as similar as possible so they can be compared).»
6 Johannes Kabatek
5 Nuevos estándares
5.1 La base: los documentos y las ediciones
cada vez más aplicación hoy en día es el establecido por la red CHARTA,7 según
el cual el corpus no se limita a una edición cualquiera, sino que presenta una
«edición múltiple», con la versión paleográfica al lado de una edición crítica y
con acceso a la imagen de manuscrito, que permite comprobar la fiabilidad de
ambas versiones. Varios de los trabajos aquí presentes trabajan con datos de
CHARTA o de otros corpus relacionados con esta red, como CODEA (cf. Marcet
Rodríguez & Sánchez González de Herrero; Moral del Hoyo, en este volumen).8
razón para el rechazo del CORDE como fuente, sino que exigen una utilización
crítica del corpus. Por ejemplo, como acabamos de señalar, existen casos de
erratas que se deben a errores de pasaje de los datos primarios y sería de agradecer
que hubiese un mecanismo de corrección continua del corpus.
Otra cuestión que se ha señalado (cf. Octavio de Toledo, en este volumen) es la
del desequilibrio textual: la cantidad de los textos varía considerablemente en las
diferentes épocas y también varía, lógicamente, la gama de tradiciones discursivas
disponible de cada época. No obstante, el mayor problema del CORDE tal vez sea,
por lo menos para las épocas remotas, el de las fechas de los documentos, que es
en realidad un problema no exclusivo del CORDE, sino de la lingüística histórica
como tal. Una práctica bastante general en la tradición de la disciplina (y no solo
en el mundo iberorrománico) solía ser suponer que la fecha de supuesta o compro-
bada composición de una obra era la relevante, proporcionándose solo esta, sin
importar que el texto manejado procediera de copias o de ediciones posteriores. La
RAE, poniendo a disposición del público el Corpus del Nuevo Diccionario Histórico
del Español (CDH / CNDHE), ha puesto remedio a ese defecto, indicando entre
corchetes la información sobre la fecha del «testimonio base», es decir, del manus-
crito, frente a la supuesta fecha de composición del texto «original». Sin embargo,
sigue siendo frecuente encontrar en trabajos de historia de la lengua un texto como
el Calila e Dimna, por poner un ejemplo, como representante del siglo XIII, aunque
sabemos que los dos manuscritos en los que se basan las ediciones son del
siglo XV y que el lapso de dos siglos no se produjo sin dejar huellas en el texto. Hay
suficientes estudios de originales y copias (cf. p. ej. Morala 2002; Santiago 2004;
Díez de Revenga 2012; Miguel Franco 2012) en diferentes ámbitos textuales como
para poder afirmar que la idea tradicional de que en el acto de copia del texto se
preserva lo fundamental (o que, como mucho, se cambian algunas grafías) carece
de fundamento empírico. Para poner remedio a ese problema, Octavio de Toledo /
Rodríguez Molina (en prensa) han preparado una lista de los documentos conteni-
dos en el CORDE en la que se evalúa la calidad de estos para los estudios
diacrónicos, llegando a establecer una tripartición entre documentos perfectamen-
te válidos y bien fechados (luz verde), documentos algo problemáticos (ámbar) y
documentos muy problemáticos (rojo) —en los que la fecha de composición no
coincide con la fecha del documento utilizada en el corpus—. Tal «Cordemáforo»
permitirá, pues, limitar los estudios a los documentos fiables o, incluso, comparar
un estudio que no aplique el filtro de calidad de documento con otro que sí lo tome
en consideración, lo que seguramente ofrecerá resultados sorprendentes en algu-
nos casos. Evidentemente, la diferencia entre las tres categorías no es tajante, sino
relativa, pero permite en todo caso establecer «jerarquías de fiabilidad» de los
textos: un original siempre es más fiable que una copia, un fenómeno basado en
varios testimonios es siempre más fiable que un hápax, etc.
Un nuevo capítulo en la lingüística histórica iberorrománica 9
10 Rojo (en este volumen) menciona, al lado del CORPES XXI, el Gigacorpus esTenTen, el mayor
corpus del español disponible actualmente.
10 Johannes Kabatek
puede ser larga (cf. p. ej. Bouzouita, o Schulte/Blas Arroyo, en este volumen).
A los factores lingüísticos se añaden factores extralingüísticos (históricos, socia-
les, culturales). Así, al considerar las dimensiones de variación arriba menciona-
das, además de la tradicionalidad discursiva de los fenómenos y la posible
individualidad de su uso concreto, puede parecer que los árboles son tan nume-
rosos y diversos que ya no hay bosque visible. Esto no es así, sin embargo: una
lingüística histórica con una base de datos fiables más amplia es precisamente la
que produce los análisis más complejos y completos de las evoluciones y permite
que nos acerquemos más a la reconstrucción adecuada del cambio.
Por otro lado, resulta evidente que no todos los factores tienen el mismo peso
en cada cuestión empírica concreta y que la tarea del lingüista no consiste
únicamente en la recolección de datos y la enumeración de factores, sino en su
ponderación e interpretación. Nos hallamos, pues, en una fase de la lingüística
histórica en la que hay más complejidad, más datos y más factores de lo que solía
haber, pero también nuevas posibilidades de ordenar los datos y de presentarlos
de forma que nos ofrezcan una imagen cada vez más acertada de lo ocurrido en la
historia de las lenguas.
o un contenido semejante. Claro está que los corpus paralelos no son de por sí
mejores que otros corpus, pero permiten otro tipo de acercamiento a la materia y
complementan en el estudio diacrónico a los corpus que el autor llama «conven-
cionales».
En la misma línea, Santiago del Rey Quesada también subraya la utilidad de
los corpus paralelos: su aportación es una apología de los estudios de traducción
basados en corpus (Corpus-based Translation Studies o CTS) para el estudio de la
historia de la lengua. Sus reflexiones se basan en un corpus paralelo de los
Colloquia de Erasmo de Rotterdam y desarrollan temas como la relevancia de la
lengua de origen, las tradiciones discursivas y el estilo personal en las traduccio-
nes. El autor postula la necesidad de disponer de más corpus paralelos con textos
traducidos para poder medir el impacto de la traducción en comparación con las
producciones originales de una lengua en diferentes épocas.
La contribución de Álvaro Octavio de Toledo y Huerta tiene, por un lado,
una finalidad práctica y ejemplar, a saber, la de mostrar cómo se puede sacar
provecho del CORDE como herramienta para el estudio del «primer español
moderno» —definido por él como el español del periodo que comprende desde
finales del siglo XVII hasta principios del XIX—. Así, el autor insiste en la
importancia de esa época para el estudio de la historia del español, a pesar de la
tendencia de la lingüística histórica de prestarle poca atención. Pero, más allá de
la finalidad empírica (demostrada con una serie de ejemplos), el trabajo insiste en
la necesidad de la ponderación de los datos y de la preparación equilibrada de lo
que en el corpus se encuentra de una forma más bien desequilibrada, e identifica
diferentes tipos de «difusión de los fenómenos y su dinámica variacional». Estas
reflexiones van mucho más allá del periodo estudiado y muestran retos importan-
tes para la lingüística diacrónica basada en trabajos con corpus.
También son de índole general las reflexiones de Joan Torruella, que, aunque
versan acerca de una serie de propuestas concretas de mejora del Corpus Informa-
titzat del Català Antic (CICA), tratan también de la cuestión general de la represen-
tatividad del corpus y del equilibrio de los datos contenidos en él. Torruella se
refiere a la cuestión de los cortes diacrónicos en un corpus (para lo que propone
cortes de 50 años), el equilibrio textual (en una línea parecida a de Octavio de
Toledo) y la comparabilidad de diferentes secciones de corpus, intentando ofrecer
soluciones a la paradoja entre homogeneidad y heterogeneidad arriba menciona-
da. Además, el autor discute la pertinencia de diversos parámetros lexicométricos,
diseñados con el fin de que el corpus represente, en la medida de lo posible, la
mayor riqueza léxica posible de la lengua estudiada.
zada en 1998) y la nueva plataforma del CORPES XXI: la nueva generación de los
corpus de la RAE permite búsquedas mucho más sofisticadas; visualizaciones de
diferentes épocas y de diferencias regionales; búsquedas por formas, lemas y
categorías gramaticales. Es fundamental resaltar que la interfaz del CORPES XXI
no se ha creado únicamente para este corpus, sino que también se ha usado para
la modernización de los corpus anteriores: así, la nueva versión de CREA presenta
los textos hasta 2000 con la misma anotación que el CORPES XXI (que enlaza con
el CREA a partir de 2000) y el CDH presenta los textos de CORDE con las nuevas
herramientas de búsqueda. Por último, es de notar que el CORPES XXI, puesto
que se presenta en diferentes secciones de cinco años cada una, ofrece también el
acceso inmediato a la microdiacronía y el «change in progress».
8 Referencias bibliográficas
Baldinger, Kurt, La formación de los dominios lingüísticos en la Península Ibérica, trad. de
E. Lledó y M. Macau, 2a. ed. corr. y aum., Madrid, Gredos, 1971.
Barra Jover, Mario, Método y teoría del cambio lingüístico: argumentos en favor de un «método
idiolectal», in: García Martín, José María (dir.), Actas del IX Congreso Internacional de
Historia de la Lengua Española (Cádiz 2012), Madrid, Iberoamericana/Vervuert, 2015,
263–292.
Díez de Revenga, Pilar, La tradición textual en la Edad Media: una muestra de los siglos XIII y XIV,
in: Torrens Álvarez, María Jesús/Sánchez-Prieto Borja, Pedro (edd.), Nuevas perspectivas
para la edición y el estudio de documentos hispánicos antiguos, Bern et al., Lang, 2012,
47–58.
Enrique-Arias, Andrés, Dos problemas en el uso de corpus diacrónicos del español: perspectiva y
comparabilidad, Scriptum Digital 1 (2012), 85–106.
Kabatek, Johannes, ¿Es posible una lingüística histórica basada en un corpus representativo?,
Iberoromania 77 (2013), 8–28.
Kabatek, Johannes, Lingüística empática, Rilce 30–3 (2014), 705–723.
Kabatek, Johannes, reseña de Torrens Álvarez/Sánchez-Prieto Borja, Nuevas perspectivas para
la edición y el estudio de documentos hispánicos antiguos, Bern et al., Lang, 2012, Roma-
nische Forschungen 128 (2016), 243–248.
Koch, Peter/Oesterreicher, Wulf, Lengua hablada en la Romania: francés, italiano, español, trad.
de Araceli López Serena, Madrid, Gredos, 2007.
Labov, William, The use of the present to explain the past, in: Heilmann, L. (ed.), Proceedings of
the 11th International Congress of Linguistics, Bologna, il Mulino, 1975, 825–851.
Marcos Marín, Francisco, La biblioteca electrónica en el Archivo Digital de Manuscritos y Textos
Españoles, Lexis XVII, (1993), 33–56.
Miguel Franco, Ruth, Documentos originales y cartularios del archivo de la Catedral de Toledo:
propuestas para un estudio comparativo, in: Torrens Álvarez, María Jesús/Sánchez-Prieto
Borja, Pedro (edd.), Nuevas perspectivas para la edición y el estudio de documentos
hispánicos antiguos, Bern et al., Lang, 2012, 197–218.
Morala, José Ramón, «Originales y copias», El proceso de castellanización en el área leonesa, in:
María Teresa Echenique Elizondo/Juan Sánchez Méndez (edd.), Actas del Quinto Congreso
Un nuevo capítulo en la lingüística histórica iberorrománica 17
1 Introducción1
La investigación en diacronía del español se ha visto beneficiada en los tiempos
recientes por la disponibilidad de grandes bases de datos textuales de uso libre
en la red. La funcionalidad más inmediata de estos recursos —la posibilidad de
rastrear en un instante a lo largo de millones de palabras de textos históricos— ha
facilitado la aplicación de análisis cuantitativos a gran escala en los estudios de
la historia del español.
La amplia aceptación de estos nuevos recursos entre los investigadores se ha
visto acompañada de un número apreciable de trabajos que examinan diversos
problemas metodológicos relacionados con la aplicación de los corpus informati-
zados a investigaciones de orientación diacrónica. En términos generales estos
análisis críticos se centran en señalar problemas relacionados con los parámetros
de representatividad (carencias de la composición de los corpus) (Kabatek 2013);
calidad (cuestiones filológicas relacionadas con los criterios de edición y presen-
tación de los textos) (Sánchez-Prieto Borja 2012) y acceso (inconvenientes que
dificultan ciertos tipos de búsquedas) (Rojo 2010; Davies 2009).
Sin embargo, no es tan frecuente detenerse a analizar el aspecto de los corpus
informatizados que sin duda conlleva el cambio metodológico más radical respec-
to de los medios tradicionales; me refiero al parámetro de perspectiva, entendido
como la manera en que el usuario del corpus accede a los datos lingüísticos. En el
1 Una parte sustancial de las investigaciones reflejadas en este trabajo se llevaron a cabo
durante una estancia de investigación en el Departamento de Lingüística de Harvard University
(2013–2015). Quisiera expresar mi gratitud a Francisco J. Pueyo Mena, autor de los desarrollos
informáticos del proyecto Biblia Medieval, por su continuado apoyo y por sus atinadas observa-
ciones. También estoy en deuda con Luis M. Girón Negrón por su asesoramiento en cuestiones
relacionadas con la Biblia Hebrea, con Malte Rosemeyer por los análisis estadísticos del trabajo
de los posesivos y con Claudio Garrido Sepúlveda por haberme proporcionado los ejemplos de
estructuras condicionales. Cualquier error es la sola responsabilidad del autor.
acceder a los datos, los usuarios necesitan introducir una palabra o frase en un
cuestionario de consulta y la aplicación de búsqueda crea una concordancia que
muestra todos los ejemplos del texto buscado en el corpus junto a su contexto de
aparición, con información básica sobre el texto de origen, como título, autor y
fecha de composición.
A diferencia de las bases de datos textuales que acabo de describir, BM es un
corpus paralelo, es decir, una colección de textos originales y sus equivalentes de
traducción. En los corpus paralelos los textos están alineados de tal forma que es
posible identificar palabras o frases en el texto original y emparejarlas con la
expresión correspondiente en las demás versiones paralelas.2 En el caso de BM el
corpus está compuesto por la Biblia hebrea y la Vulgata Latina, que son los textos
originales, y las versiones en español medieval.3 Así, cuando el usuario introduce
una consulta para cualquiera de las versiones paralelas en el corpus, ya sea en el
texto original, o en cualquiera de las trece versiones en español medieval que
contiene, la aplicación de búsqueda muestra todas las ocurrencias de la consulta
en la versión correspondiente al lado de los equivalentes de traducción en todas
las demás versiones.
El corpus BM, consta de más de cinco millones de palabras de textos com-
puestos entre ca. 1200 y 1450, y va acompañado de 17.000 imágenes digitales de
los códices bíblicos medievales. El corpus permite dos tipos básicos de búsque-
das: por pasaje y por palabra. Cuando se busca por pasaje el usuario selecciona el
libro y el capítulo correspondiente a la sección que quiere consultar y la pantalla
muestra todas las versiones disponibles para ese pasaje en particular. Todo el
texto que aparece en la interfaz web es, al mismo tiempo, un enlace que descarga
imágenes digitales del manuscrito en que aparece el texto en cuestión.
Además de las consultas sencillas que muestran las diferentes versiones de la
Biblia en un pasaje concreto, también es posible realizar búsquedas de una
palabra o frase en una versión particular, o en el latín o el texto hebreo, para a
continuación, comparar la forma en que la palabra o frase se expresa en las otras
versiones de la Biblia. Es posible además hacer búsquedas con parámetros com-
plejos, como por ejemplo buscar los versículos que contienen una expresión dada
en una de las versiones que coinciden con otra expresión en otra versión, o incluso
búsquedas negativas (por ejemplo buscar los versículos que no contengan deter-
minada expresión). Otra funcionalidad importante es que tanto la totalidad del
2 Para un estado de la cuestión sobre la metodología de los corpus paralelos véase McEnery /
Xiao (2007).
3 Para cuestiones relacionadas con la solidez metodológica del uso de textos bíblicos en la
investigación lingüística, véase Resnik et al. (1999); Kaiser (2005); De Vries (2007); Enrique-Arias
(2008, 2009, 2012).
24 Andrés Enrique-Arias
corpus como las búsquedas concretas hechas por el usuario se pueden descargar
como archivo de texto; de este modo el investigador puede modificar o analizar
los textos usando los programas de su preferencia.4
3 Perspectiva
El diseño y la arquitectura de un corpus condicionan la perspectiva de sus
usuarios, es decir, la manera en que los estudiosos acceden a los datos lingüísti-
cos. Como ya he señalado, los formatos electrónicos han supuesto un cambio
sustancial desde el punto de vista del acceso al texto por parte de los destinatarios
(Enrique-Arias 2015a, 398). En el libro impreso en soporte físico la vía de acceso a
los datos históricos se produce mediante la lectura lineal, de la que se pueden
derivar incursiones en los elementos auxiliares (aparato crítico, glosario, índice,
concordancias); es decir, el lector va procesando los contenidos del texto en su
orden de aparición para, en su caso, detenerse a hacer un análisis más detallado
de formas o estructuras lingüísticas concretas. En el texto electrónico es mucho
más habitual acceder al texto a través de una concordancia generada por una
máquina de búsqueda. Así pues, el usuario accede a un listado de formas concre-
tas con información contextual limitada para, de acuerdo con sus intereses,
seleccionar las formas relevantes y consultar por extenso su contexto de ocurren-
cia en el texto. Dicho de manera más esquemática, en la lectura lineal se accede a
las estructuras lingüísticas en el orden contexto → forma, mientras que en el
corpus informatizado se accede en el orden contrario, es decir, forma → contexto.
La principal limitación del acceso a las estructuras lingüísticas en el orden forma
→ contexto, típico de los corpus electrónicos, es que obliga a conocer de ante-
mano, a partir de gramáticas históricas, diccionarios o estudios previos, cuáles
son las formas utilizadas para expresar la función que el investigador se propone
rastrear en el corpus (Enrique-Arias 2012, 88). El mayor inconveniente es que, las
formas desconocidas, no documentadas o que no están en un formato reconocible
quedan fuera de los resultados de las búsquedas y por tanto no son recuperables;
por el contrario, en la lectura lineal de textos impresos en soporte físico no existe
esta limitación. Por ello, el modo de acceso a las estructuras lingüísticas en los
medios electrónicos es un elemento crucial que no puede ignorarse a la hora de
entender las limitaciones de la lingüística de corpus.
4 En la web donde está alojado el corpus se pueden descargar manuales en los que se explican
con detalle todas las funcionalidades del corpus así como los criterios empleados en la trans-
cripción de los textos.
Sobre la noción de perspectiva en lingüística de corpus 25
5 Todos los ejemplos de traducciones bíblicas medievales en castellano proceden del corpus BM
y han sido normalizados siguiendo en términos generales las normas de presentación crítica de
la red CHARTA (Corpus Hispánico y Americano en la Red: Textos Antiguos), disponibles en www.
charta.es. Para información completa sobre los manuscritos que han transmitido traducciones de
la Biblia y las abreviaturas que empleo para referirme a ellos, consúltese la página del proyecto
Biblia medieval (www.bibliamedieval.es).
6 El pasaje se refiere al momento en que los hermanos de José le muestran a su padre las ropas
rasgadas y ensangrentadas de su hermano dando a entender que ha sido devorado por una fiera
salvaje.
Sobre la noción de perspectiva en lingüística de corpus 27
7 Para un análisis de varios casos semejantes en los que las opciones de los traductores bíblicos
responden a un fondo exegético véase Girón Negrón / Enrique-Arias (2012).
8 Las herramientas de análisis lingüístico del corpus y el acceso al texto subyacente y a las
versiones paralelas no solamente sirven para aclarar pasajes oscuros sino que además son un
recurso efectivo para enfrentarse a problemas de autoría y de filiación de los textos. Por ejemplo,
Pueyo Mena / Enrique-Arias (2013) han podido determinar a partir de un análisis exhaustivo de
28 lemas hebreos y de sus correspondientes traducciones al castellano cuántas traducciones
diferentes hay en los once códices medievales que contienen romanceamientos cuatrocentistas
de la Biblia Hebrea.
28 Andrés Enrique-Arias
der de esta forma estamos adoptando una perspectiva del tipo forma → función; la
consecuencia inmediata es que no hay manera de saber si el corpus contiene otros
elementos que pueden ser utilizados con la misma función y en los mismos
contextos, pues solamente exploramos las formas que conocemos de antemano.
El basarse exclusivamente en la literatura descriptiva existente equivale a dar por
hecho que la lengua medieval ya ha sido descrita de manera exhaustiva, una
afirmación que ningún lingüista se atrevería a suscribir.
La perspectiva de los textos paralelos es radicalmente diferente en este
aspecto. En un corpus como BM no es necesario partir de una lista exhaustiva de
las formas relevantes pues la exploración del corpus y las comparaciones con las
versiones paralelas nos guiarán en la búsqueda de las unidades de expresión
posibles para la estructura que se está investigando. En BM tenemos varias vías
para extraer los pasajes que contienen los elementos que son relevantes para
nuestra investigación. Podemos, por ejemplo buscar en el original latino formas
exceptivas conocidas como absque, praeter, nisi, non . . . sed, o hacer lo propio
con cualquiera de las palabras relevantes en la versión hebrea, o buscar las
formas que conozcamos en cualquiera de los textos en español, y luego observar
las formas que se utilizan en el mismo contexto y con las mismas funciones en las
versiones paralelas. A su vez, podemos buscar las formas que encontramos en
estos escarceos, lo cual dará lugar a más formas que pueden ser utilizadas para
nuevas búsquedas. Esta perspectiva, en que partimos de determinados conteni-
dos incorporados en el texto y observamos las formas empleadas en las versiones
paralelas (es decir, función → forma), facilita la observación de elementos que de
otro modo habrían sido ignorados.
Siguiendo este mismo sistema podemos, por ejemplo, rastrear la variedad de
elementos que expresan condicionalidad en el español medieval a partir de
búsquedas de las conjunciones condicionales del latín (si, nisi), o de conjuncio-
nes concesivas o temporales con esa función. En el ejemplo a continuación se
ilustra una búsqueda de antequam en 2Samuel: 3:13.
Vulg non videbis faciem meam antequam adduxeris Michol filiam Saul
E8 no me vengas veyer ata que traigas a Micol fija de Saúl
GE faré yo contigo amiztad muy buena a pleito que me traigas a Micol, fija de
Saul, e non nos veremos antes
E3 non veas mi rostro salvo que antes me traigas a Migal Fija de Saúl
E5 non parescas ante mí sin que me trayas delante ty a Mihal la fija de Saúl
Oxford non veas la faz mía ante que primera mente me trayas a Mical fija de Saúl
Santillana non veas mi rostro sin que traigas a Mical fija de Saúl
Arragel non veas mi cara a menos que tú contigo trayas a Micol fija de Saúl
En los resultados tenemos junto a los conocidos elementos temporales ata que,
ante que y los exceptivos salvo que, sin que, a menos que la expresión a pleito
Sobre la noción de perspectiva en lingüística de corpus 29
Ex 8:24 Dixo·l Faraón essora: Dexar vos é salir fasta alli a pleito que non vayades
d’allí adelant
1Sam 11: 2 lo faría a pleito que se le diesen todos a sacar los diestros ojos
Hay que destacar, no obstante, que un corpus paralelo como BM nunca debe ser
la única fuente de información en un estudio diacrónico. Otras fuentes, tales
como diccionarios, gramáticas, estudios, y sobre todo grandes corpus convencio-
nales, como CORDE o CE, son fuentes indispensables para asegurarse de que las
formas que descubrimos gracias al corpus paralelo no son solo palabras emplea-
das en traducción bíblica, sino que tienen empleo en otros géneros. Una búsque-
da de a pleito que en el CORDE revela que la forma aparece con valor condicional
en otras obras del corpus alfonsí.
Job 6:5
Gén 9:6
GE Otrossí, si alguno de vós esparziere sangre de otro omne, d’él la requiriré yo.
E3 El que vertiere la sangre del omne por omne, su sangre será vertida.
E7 E el que derramare sangre de omne por omne, su sangre sea derramada.
Santillana: E el que derramare la sangre del omne por los omnes, su sangre sea derramada.
Arragel Qualquier que sangre humana derramare, la su sangre derramada será.
Vulgata quicumque effuderit humanum sanguinem fundetur sanguis illius
La perspectiva abierta de los corpus paralelos nos permite también localizar estruc-
turas en que no se emplea un marcador explícito. Esta es sin duda la característica
más singular de este tipo de corpus. Si, pongamos por caso, nos proponemos
emplear un corpus convencional para estudiar las formas de expresar la posesión
de tercera persona en español medieval nos encontramos con el problema de que
no es posible hacer un rastreo automático. Mientras que puede ser relativamente
sencillo extraer ejemplos que contengan formas del adjetivo posesivo (su casa, la
su casa, la su casa de él, la casa suya) las cosas se complicarán a la hora de extraer
los casos en que la posesión se expresa con dativo posesivo (le quemaron la casa, se
quitó el sombrero) pues nos vemos obligados a buscar todos los casos de le, les con
sus variantes formales (li, –l apocopado, ge) así como los casos de se, y a continua-
ción discriminar cuáles tienen una interpretación posesiva. Por último sería mate-
rialmente imposible extraer automáticamente los casos en que se da expresión de
la posesión con el artículo determinado o sin marca explícita.
Un corpus paralelo como BM nos permite superar este problema pues el
acceso al texto fuente nos guiará en la localización de ocurrencias del fenómeno
estudiado. Introduciendo la siguiente búsqueda en BM podemos localizar auto-
máticamente un gran número de casos de estructuras posesivas y examinar cómo
están expresadas en las versiones castellanas:
suus | sua | suum | sui | suae | suorum | suarum | suo | suis | suam | suos | suas | sue | eius | eorum
| illius | illorum | earum | ipsius | illarum
Los resultados de esta búsqueda nos permiten extraer ejemplos de todas las
maneras de expresar posesión, incluso los casos en que el traductor emplea un
pronombre de dativo o un sustantivo con artículo determinado. El ejemplo de
1Sam 17:49 a continuación ilustra cómo las traducciones de ‘su mano’ y ‘su
zurrón’ incluyen varios casos sin posesión explícita:
1Sam 17:49
9 En nuestro análisis consideramos también las interacciones entre los distintos factores pues
estos no son enteramente independientes. Por ejemplo, la animacidad del poseedor se solapa con
la persona y el estatus pues cuando se trata de la primera o la segunda persona, o cuando es un
ser de estatus superior como Dios o el rey, el poseedor es necesariamente animado. Lo mismo
sucede con la presencia de un pronombre dativo o la posesión inalienable, factores que están
estrechamente asociados con la estructura sin marcador posesivo explícito.
Sobre la noción de perspectiva en lingüística de corpus 35
5 Conclusión
En este trabajo he presentado una serie de problemas metodológicos del uso de
corpus informatizados que tienen relación con el parámetro de perspectiva para
mostrar cómo la vía de acceso a los datos condiciona de manera fundamental la
investigación de fenómenos de variación y cambio en la historia del español. En
este sentido el corpus BM constituye un complemento útil y valioso de los corpus
existentes por ofrecer una perspectiva que conlleva ventajas metodológicas
sustanciales. En primer lugar, la perspectiva abierta de los corpus paralelos
permite extraer y analizar sin restricciones las formas utilizadas para expresar
una función o significado. Del mismo modo, los textos paralelos facilitan el
estudio de la variación, pues permiten la comparabilidad inmediata de estructu-
ras que se insertan en los mismos contextos de ocurrencia. En el cuadro a
continuación se presentan resumidas las características de los corpus paralelos
en lo que respecta al parámetro de perspectiva y se contrastan con las caracterís-
ticas de los corpus convencionales.
10 Enumero a continuación los pasajes concretos en que aparecen estas voces: goy ‘extranjero’:
Génesis 10:5, Isaías 5:26, 11:12, 14:9, 25:7, 33:3, Ezequiel 25:10, 28:25, 29:12, 30:23, 30:26, 36:3,
Oseas 8:10, Joel 4:2, Amos 9:9, Zacarías 14:14, Salmos 18:50, 22:28, 22:29, 44:12, 79:10, 106:27,
106:47, 110:6, 147:20, 149:7, Crónicas 2 32:23, 33:2; areŝ ‘tierra, región’: Isaías 14:9, Ezequiel 22:15,
25:7, 36:19, 36:24; ‘am ‘pueblo’: Ezequiel 28:19, Ester 3:6; ’umim ‘pueblo’: Salmos 108:4; mišpaḥah
‘clan’: Amos 3:2; šegar ‘prole, crías’: Deuteronomio 7:13, 28:4, 28:18; biṭnam ‘útero’: Oseas 9:16.
Hay además dos casos en que Arragel utiliza la palabra en amplificaciones sin correspondencia
en el texto fuente: Génesis 6:4, Crónicas 1 16:29.
Sobre la noción de perspectiva en lingüística de corpus 37
elementos mínimos para comprender el texto más recursos para comprender el texto
limitación a buscar y encontrar lo que ya es valor heurístico: las versiones paralelas nos
conocido permiten descubrir formas relevantes
6 Bibliografía
Company Company, Concepción, Persistencia referencial, accesibilidad y tópico. La semántica
de la construcción artículo + posesivo + sustantivo en el español medieval, Revista de
Filología Española 86:1 (2006), 65–103.
Davies, Mark, Creating Useful Historical Corpora: A Comparison of CORDE, the Corpus del
Español, and the Corpus do Português, in: Enrique-Arias, Andrés (ed.), Diacronía de las
lenguas iberorromances: nuevas perspectivas desde la lingüística de corpus, Frankfurt am
Main/Madrid, Vervuert/Iberoamericana, 2009, 137–66.
De Vries, Lourens, Some remarks on the use of Bible translations as parallel texts in linguistic
research, in: Cysow, Michael/Wälchli, Bernhard (edd.), Parallel Texts: Using translational
equivalents in linguistic typology, Sprachtypologie und Universalienforschung 60 (2007),
95–99.
Enrique-Arias, Andrés, Texto subyacente hebreo e influencia latinizante en la traducción de la
Biblia de Alba de Moisés Arragel, in: Alsina, Victòria et al: Traducción y estandarización. La
incidencia de la traducción en la historia de los lenguajes especializados, Frankfurt am
Main/Madrid, Iberoamericana/Vervuert, 2004, 99–111.
Enrique-Arias, Andrés, Sobre el parentesco entre la Biblia de Alba y la Biblia de la Real Academia
de la Historia ms. 87, Romance Philology 59 (2006), 21–43.
38 Andrés Enrique-Arias
Resnik, Philip/Olsen, Mari B./Diab, Mona, The Bible as a Parallel Corpus: Annotating the «Book
of 2000 Tongues», Computers and the Humanities 33:1–2 (1999), 129–153.
Rojo, Guillermo, Sobre codificación y explotación de corpus textuales: Otra comparación del
Corpus del español con el CORDE y el CREA, Lingüística 24 (2010), 11–50.
Rosemeyer, Malte/Enrique-Arias, Andrés, A match made in heaven. Using parallel corpora and
multinomial logistic regression to analyze the expression of possession in Old Spanish,
Language Variation and Change, 28.3 (2016).
Sánchez-Prieto Borja, Pedro, Desarrollo y explotación del «Corpus de Documentos Españoles
Anteriores a 1700» (CODEA), Scriptum Digital 1 (2012), 5–35.
Tagliamonte, Sali, Analysing Sociolinguistic Variation, Cambridge: Cambridge University Press,
2006.
Wanner, Dieter, The corpus as a key to diachronic explanation», in: Pusch, Claus D./Kabatek,
Johannes/Raible, Wolfgang (edd.), Romance Corpus Linguistics II. Corpora and Diachronic
Linguistics, Tübingen, Gunter Narr, 2005, 31–44.
Santiago del Rey Quesada
Traducción y tradición en los corpus:
nuevas perspectivas para la lingüística
histórica
1 Introducción1
Los Corpus-based Translation Studies (CTS) se perfilan como un paradigma prome-
tedor que gravita en torno a dos conceptos no fáciles de definir: corpus y traduc-
ción. Mientras los corpus se han incorporado ya de manera casi constitutiva a gran
parte de los estudios lingüísticos desde diversos enfoques, la traducción es un
fenómeno que aún dista de estar plenamente integrado en las distintas disciplinas
lingüísticas más cultivadas. Y es que la traducción como disciplina de estudio
científico se ha sentido frecuentemente como independiente de la Filología o, en
el mejor de los casos, como una herramienta auxiliar de esta. La cada vez más
acusada parcelación del saber en el ámbito universitario ha contribuido a este
distanciamiento que, solo desde hace algunas décadas, y sobre todo en el marco
de los estudios literarios, ha tendido visiblemente hacia la reconciliación. En el
caso de la Hispanística, la traducción como objeto de estudio, teórico y analítico,
no tuvo en los siglos XIX y XX la extensión y la profundidad científica que alcanzó
en otros países europeos, lo que resulta especialmente evidente si lo comparamos
con la atención que se le ha dedicado al fenómeno en Alemania (cf. Schleierma-
cher 1813 [2000]).2
Por este motivo entre otros, puede afirmarse que la relación entre traducción
y lingüística todavía se halla en una etapa inicial (cf. Coseriu 1978 [1988], 295).
Como acaba de apuntarse, la vertiente literaria de este campo de estudios está
más desarrollada (cf. Albrecht 2003a, 16), mientras que no se han extraído las
innumerables posibilidades de estudio que ofrece el hecho y el proceso de traduc-
1 Este trabajo forma parte del proyecto de investigación «Tradiciones discursivas, tradiciones
idiomáticas y unidades de análisis del discurso en la historia del español moderno» (FFI2014-
51826-P). Agradezco a Araceli López Serena los comentarios hechos al borrador de este trabajo.
2 Vienen, quizá, aquí al caso las palabras de García Yebra (1982 [1989], 329): «nunca ha tenido
entre nosotros la traducción el aprecio que goza en otros países, señaladamente en Alemania».
3 Tal vez una de las principales causas que han llevado a la dispersión o incluso a la indebida
desatención por parte de los filólogos de los estudios traductológicos haya sido la dificultad de
delimitación del concepto y de explicación satisfactoria del fenómeno. Preguntas como «¿Cuáles
son los límites entre traducción, adaptación, exégesis, paráfrasis, etc.?» (en alemán, Übersetzung,
Anpassung, Exegese, Bearbeitung, etc.) o «¿Cuáles son los límites de la traductibilidad?», «¿Cuál
es la tarea del traductor?» no son en absoluto fáciles de responder. Por lo demás, la respuesta a
estas preguntas varía según la época para la que estén formuladas. Por eso, una postura más o
menos conservadora (cf. Albrecht 2003a, 47) como la de García Yebra (1982 [1989], I, 43), «[l]a
regla de oro para toda traducción es, a mi juicio, decir todo lo que dice el original, no decir nada
que el original no diga, y decirlo todo con la corrección y naturalidad que permita la lengua a la
que se traduce» o una de base más semántica como la de Coseriu (1978 [1988], 299), «[d]ie
Aufgabe der Übersetzung ist es nun, in sprachlicher Hinsicht, nicht die gleiche Bedeutung,
sondern die gleiche Bezeichnung und den gleichen Sinn durch die Mittel (d. h. eigentlich durch die
Bedeutungen) einer anderen Sprache wiederzugeben», son difícilmente aplicables a momentos
históricos en que tales propósitos están subordinados a otros de diversa naturaleza, tanto
lingüística (estilística, retórica, etc.) como extralingüística (contexto cultural, características del
encargo de la obra traducida, etc.). Estos parámetros, familiares a los analistas del discurso, son
frecuentemente obviados por parte de los teóricos de la traducción, muchas veces obcecados en
la formulación de reglas aplicables a cualquier situación.
4 En este sentido, la continuidad de forma o de contenido motiva en la lengua de acogida de la
tradición nuevos moldes lingüísticos y características textuales que redundan en la elaboración
intensiva (cf. Koch/Oesterreicher 1990 [2007], 187). Kabatek (2003, 16) resume bien la idea de que
el componente tradicional-discursivo de una lengua está íntimamente ligado al fenómeno de la
traducción: «[p]arece que las tradiciones discursivas no son más que textos, enunciados concretos
42 Santiago del Rey Quesada
con formas transferibles de lengua en lengua. Se podría decir que la adopción de nuevas
tradiciones discursivas es simplemente una especie de traducción, procedimiento por excelencia
de adopción de textos de otras culturas sin mayores consecuencias para la lengua. Sin embargo,
[. . .] la introducción de nuevos contenidos y de nuevas formas textuales produce necesidades
expresivas que llevan a la formación de nuevos elementos lingüísticos».
5 Para una revisión bibliográfica del concepto, cf. Del Rey (2015b, 47–60) y Vincis/Miotto
(2016).
Traducción y tradición en los corpus 43
6 Aunque pretendidamente empírica, la lingüística de corpus dista de ser tal en sentido estricto,
es decir, en el sentido en que es empírico el estudio de los objetos de las ciencias naturales. Es
cierto que, como apunta Kabatek (2013, 5), «la lingüística se está volviendo una de las disciplinas
de las humanidades de más éxito precisamente por su cercanía a las ciencias naturales, por el
simple hecho de que el lenguaje humano es un fenómeno también natural. Pero lo que tiene éxito
es sobre todo la lingüística que imita o adopta los modelos de las ciencias naturales, y hay que
preguntarse si esto corresponde realmente al objeto de estudio en cuestión». Sin duda la
connotación positiva del adjetivo empírico (cf. López Serena 2011, 428) motiva su a veces excesivo
empleo en los estudios lingüísticos, en una manifestación del «innecesario complejo de inferio-
ridad de los lingüistas frente a las ciencias llamadas ‹exactas›» (Kabatek 2013, 13). Frente a los
que intentan trazar a toda costa paralelismos entre las ciencias naturales y las ciencias sociales,
Kabatek (2014, 711) arguye que «[e]s falso [. . .] suponer que las hipótesis en ciencias naturales son
iguales que en la investigación lingüística y es un profundo error pensar que el experimento o el
análisis cuantitativo funciona de la misma manera en las ciencias naturales y en las ciencias del
hombre». Por ello, hablar de empirismo strictu sensu en lingüística es temerario, pues, incluso en
la lingüística de corpus, pese a quien le pese, es necesaria (o inevitable) la intuición, que
constituye un «acto epistémico completamente opuesto a la observación propia de lo empírico»
(López Serena 2011, 438). Cf. asimismo López Serena (2014b, 733).
44 Santiago del Rey Quesada
I intend to use corpus to mean any collection of running texts (as opposed to examples/
sentences), held in electronic form and analysable automatically or semi-automatically
(rather than manually) (Baker 1995, 226).
Partiendo de este concepto de corpus, Mona Baker inaugura en 1993 una corriente
de estudios sobre traducción que va a alcanzar gran éxito en los años siguientes:
los CTS. Interesada por la lingüística de corpus, la investigadora se queja de la
escasa atención prestada por los lingüistas de corpus hacia los textos traducidos.
Esa falta de atención se sustentaba, según la autora, en un prejuicio que justifica-
ba para algunos especialistas la exclusión sistemática de los textos traducidos de
los estudios científicos sobre una lengua dada, en tanto que las traducciones
serían textos «de segunda mano»:7
Given that translated texts play such an important role in shaping our experience of life and
our view of the world, it is difficult to understand why translation has traditionally been
viewed as a second-rate activity, not worthy of serious academic enquiry, and why trans-
lated texts have been regarded as no more than second-hand and distorted versions of ‘real’
texts (Baker 1993, 233).
7 Cf. también Baker (1996, 175, 176; 1998, 5). Chesterman (2004, 36–37) entiende esta margina-
ción del texto traducido como una manifestación de la «ruta peyorativa», una de las sendas a las
que conduce el intento de generalización teórica acerca de la traducción. Por su parte, Olohan
(2002, 419) descubre la escasa consideración mostrada a los textos traducidos por parte de la
lingüística de corpus a partir del hecho de que estos no han sido incorporados a varios corpus de
referencia, como el British National Corpus.
Traducción y tradición en los corpus 45
Zohar (1978) al final de los años setenta. De acuerdo con este autor, la literatura
traducida es contemplada como un sistema de pleno derecho que interactúa con
sus co-sistemas y con polisistemas literarios de otras culturas. De esta manera,
como señala Baker (ibid.), se cambió la tendencia de prestar atención a las
traducciones literarias individuales para estudiar un mayor número de traduc-
ciones de manera que pudieran establecerse sus características sistemáticas.
Al conceder estatus propio a la literatura de traducción, la teoría polisistémi-
ca reconocía a los textos traducidos la capacidad de influir en la configuración
literaria y lingüística de la cultura meta. Se destacaba también que la traducción
es una actividad creativa más que derivativa y postulaba la idea de que existen
normas entendidas como elecciones sistemáticas tomadas por el traductor en
un momento determinado de la historia y en una cultura dada (Laviosa 2002, 20).
Las posibilidades de estudio variacional que ofrecía este marco teórico no han
sido suficientemente explotadas por los CTS, especialmente interesados por el
estudio y establecimiento de los universales de traducción.9
Varios investigadores, como Chesterman (2004, 46), han puesto de manifiesto
el avance metodológico que han representado los CTS. Ello se percibe en los
numerosos corpus creados desde hace dos décadas que incorporan total o parcial-
mente textos traducidos o que, sin contenerlos, se consideran herramientas de
trabajo útiles para el traductor en virtud de su vocación comparativa interlingüís-
tica —cf. §2.2—. Esta clase de corpus, basados en textos literarios y no literarios
contemporáneos, posee, según sus creadores e investigadores, características
específicas que los diferencian de corpus monolingües al uso. Mona Baker (1995,
229s.) distingue tres tipos de corpus que habría que tener en cuenta en los CTS y
que describimos en los siguientes subapartados.10
(1) E. Quod si quando commotior erat, aut blando sermone leniebam aut silentio concede-
bam iracundiae, donec ea refigerata, tempus se daret vel purgandi, vel admonendi [Um,
lín. 146–148, p. 305].
―E. Y quando le via mas fuera de razon: alagauale con blandas palabras: o con callar
daua lugar asu yra: haunque aquella amansada: ouiesse tiempo de corregirle: o de
amonestarle [Bat. 474, lín. 18–21, f. a5r].
―E. y quando lo via masfuera de razon, alagaua lo con blandas palabras: o con callar
daua lugar a su yra :hasta que aquella amansada ouiesse tiempo de corregirlo:o de
amonestar lo [Bat. 479, lín. 4–7, f. CIXv].
―O. Si alguna vez via que estaua enojado o con blandas palabras le amansaua/o
callando sufria/todo lo que me dezia/hasta que viendole mas manso hallaua tiempo
de satisfazelle o de dezille mi parecer [Bat. 478, lín. 16–20, f. g6r].
(2) Po: Post rescitum est meae Gallae Gallum esse maritum, vnde pridem se subduxerat.
―Po: Despues vino a oydos de mi gallina que el gallo era ya marido de aquella de
quiense auia apartado.
―Po: Despues se descubrio que mi francesa estaua casada con vn frances/ alla en su
tierra.
E: Segun esso muger tienes ahora [Bat. 478, lín. 11–13, f. x8r].
Traducción y tradición en los corpus 49
of language», pues muchos de los corpus comparables que han sido reunidos con
posterioridad han obviado las diferencias entre géneros y clases textuales, de tal
forma que muchos corpus comparables inventariarían textos muy heterogéneos. A
esta reticencia apunta Kenny (1998, 53) cuando alude a un aspecto crucial en el
devenir histórico de las lenguas en contacto con otras: el de que los nuevos géneros
se trasvasan de una literatura a otra en virtud de la actividad traductora, de manera
que puede no haber nada «comparable» en la literatura receptora con un texto
introducido en ella a partir de la traducción desde otra tradición textual previa-
mente inexistente (por ejemplo, en gaélico existen numerosos tipos textuales —no
literarios— que solo existen en la lengua como traducciones, fundamentalmente
del inglés).
En la actualidad, hasta donde mis conocimientos alcanzan, no existen corpus
diacrónicos comparables, y sin duda su existencia contribuiría a perfilar más
integralmente las supuestas características que comparten los textos traducidos de
una lengua frente a los originales. Los corpus diacrónicos que conocemos incor-
poran sin duda material traducido, pero si lo hacen, sobre todo en épocas como la
medieval, no es más que porque la cultura literaria de las lenguas romances no se
forja sino por emulación y tutela de la lengua latina (y, eventualmente, sobre todo
en épocas más tardías, también de lenguas de territorios vecinos). Para elaborar un
corpus comparable del español, por ejemplo, quizás «bastaría» con cribar aún más
la naturaleza de las obras y textos incorporados, aunque eso sin duda conduciría a
un laberinto de difícil salida: el de determinar qué es literatura traducida y qué
literatura recreada, adaptada, etc. En cualquier caso, sin duda para los historia-
dores de la lengua sería de gran utilidad la creación y desarrollo de corpus
paralelos y comparables en distintas lenguas.
13 «Un corpus es sólo una colección finita de un universo infinito» (Parodi 2010, 24).
14 Algunos autores, como Francis (1992, citado por Laviosa 2002, 6), se refieren también a
dialectos y tipos de lengua, incorporando así en la definición de corpus aspectos variacionales:
«[a corpus is] a collection of texts assumed to be representative of a given language, dialect or
other subset of a language, to be used for linguistics analysis».
15 Notado, entre otros, por Davies (2009, 137).
16 Al concepto de representatividad, muchas veces determinado en la reflexión científica sobre
las lenguas por el elenco de autores y/o géneros canonizados en las distintas épocas del idioma,
se refiere también Lola Pons (2006).
17 El mismo Enrique-Arias (2009b, 280) parece caer en este prejuicio cuando escribe que «[h]oy
día no consideraríamos que las traducciones bíblicas en una lengua constituyen un corpus
52 Santiago del Rey Quesada
4 Conclusión
Los corpus han permitido la aducción de datos cuantitativos que se consideran
prueba irrefutable de la constatación de tendencias susceptibles de ser postula-
das como leyes. Así, desde Baker (1993, 1995, 1996) y Toury (1995), numerosos
autores han hablado de universales como los de normalización, explicitación y
simplificación, que se cumplirían en todas las leguas independientemente de la
naturaleza de la lengua fuente (cf. Del Rey 2015a). Para que esto pueda ser
posible, los CTS parten del convencimiento de que las traducciones son textos de
una índole particular que reflejan, por un lado, los complejos procesos cogniti-
vos y los contextos sociales particulares en que nacieron, pero que, por otro,
comparten características que los distinguen de otros tipos de textos (Mauranen
2008, 45).
Cabe preguntarse hasta qué punto una lingüística de la variación es compa-
tible con una concepción universalista de las tendencias traductoras. Los condi-
cionamientos variacionales que influyen a la hora del proceso traductor han
representativo de la lengua en cuestión». Cabría apuntar que ningún corpus, por extenso que
sea, es representativo de todas las manifestaciones posibles de una lengua, pues siempre habrá
factores históricos y variacionales que no sean tenidos en cuenta en la composición del corpus:
o, como apunta Kabatek (2013, 1), «un corpus representativo para la historia de una lengua es
una construcción teóricamente imposible ya que la lengua, aunque solo se manifieste en textos,
no es la suma de los textos sino algo distinto». En parte este contraargumento al primer
enunciado de Enrique-Arias se verbaliza en la continuación del párrafo del autor (ibid.): «[p]ero
también es cierto que cualquier análisis lingüístico se basa en ejemplos concretos obtenidos de
textos concretos (texto aquí incluye interacciones orales) lo que siempre nos deja con la duda de
si los ejemplos son representativos de la lengua en conjunto o solamente de las tipologías
textuales en que se insertan». En fin, estamos de acuerdo con Kabatek (2013, 19) cuando afirma
que «no existe representatividad cuantitativa de un corpus, lo que (teóricamente) podría existir
es una cierta representatividad cualitativa: un corpus con (casi) toda la gama de posibilidades de
una lengua en un momento dado».
18 O, como quiere Kabatek (2013, 9), una «lengua histórica no es un sistema sino un conjunto de
sistemas».
Traducción y tradición en los corpus 53
Of course, any particular translation will contain a number of idiosyncrasies and the
translator in trying to get the best overall translation may have to make compromises […] in
order to get the best overall result. The translator has to strive for an optimal solution for a
translation in the face of competing pressures. The way in which a work is translated in a
particular instance will depend on a number of factors, including the form of the previous
discourse and other contextual influences, including perhaps how much wine the translator
had at lunch time (Barlow 2000, 110–111, apud Olohan 2002, 420).
5 Referencias bibliográficas
Albrecht, Jörn, Die Berücksichtigung des Faktors ,Übersetzung‘ in der Sprachgeschichtsschrei-
bung, in: Gil, Alberto/Schmitt, Christian (edd.), Aufgaben und Perspektiven der romanischen
Sprachgeschichte im dritten Jahrtausend, Bonn, Romanistischer Verlag, 2003, 1–37
(= 2003a).
Albrecht, Jörn, Können Diskurstraditionen auf dem Wege der Übersetzung Sprachwandel auslö-
sen?, in: Aschenberg, Heidi/Wilhelm, Raymund (edd.), Romanische Sprachgeschichte und
Diskurstraditionen. Akten der gleichnamigen Sektion des XXVII. Deutschen Romanistentags,
Tübingen, Narr, 2003, 37–52 (= 2003b).
Albrecht, Jörn, Übersetzung und Linguistik, Tübingen, Narr, 2005.
Baker, Mona, Corpus Linguistics and Translation Studies – Implications and Applications, in:
Baker, Mona/Francis, Gill/Tognini-Bonelli, Elena (edd.), Text and Technology: In Honour of
John Sinclair, Amsterdam/Philadelphia, John Benjamins, 1993, 233–250.
Baker, Mona, Corpora in Translation Studies: an Overview and Some Suggestions for Future
Research, Target 7:2 (1995), 223–243.
Baker, Mona, Corpus-based Translation Studies: The Challenges that Lie Ahead, in: Somers,
Harold (ed.), Terminology, LSP and Translation. Studies in Language Engineering in Honour
of Juan C. Sager, Amsterdam/Philadelphia, John Benjamins, 1996, 175–186.
Baker, Mona, Réexplorer la langue de la traduction: une approche par corpus, Meta: journal des
traducteurs 43:4 (1998), 480–485.
Baker, Mona (ed.), Routledge Encyclopedia of Translation Studies, London/New York, Routledge,
1998.
Barlow, Michael, Parallel texts in language teaching, in: P. Botley, Simon/McEnery, Tony/Wilson,
Andrew (edd.), Multilingual Corpora in Teaching and Research, Amsterdam/Atlanta, Rodopi,
2000, 106–115.
Bataillon, Marcel, Erasmo y España, Traducción de Antonio Alatorre, México, D.F., Fondo de
Cultura Económica, 11966 [12007].
Biber, Douglas/Conrad, Susan/Reppen, Randi, Corpus Linguistics. Investigating Language
Structure and Use, Cambridge, Cambridge University Press, 1998.
BM – Corpus Biblia Medieval [en línea] <http://corpus.bibliamedieval.es>.
Chesterman, Andrew, Beyond the Particular, in: Mauranen, Anna/Kujamäki, Pekka (edd.), Trans-
lation Universals: Do They Exist?, Amsterdam, John Benjamins, 2004, 33–49.
Corpas Pastor, Gloria, Investigar con corpus en traducción: los retos de un nuevo paradigma,
Frankfurt am Main, Peter Lang (Band 49), 2008.
Traducción y tradición en los corpus 55
Koch, Peter, Diskurstraditionen: zu ihrem sprachtheoretischen Status und ihrer Dynamik, in:
Frank, Barbara/Haye, Thomas/Tophinke, Doris (edd.), Gattungen mittelalterlicher Schrift-
lichkeit, Tübingen, Narr, 1997, 43–79.
Koch, Peter, Tradiciones discursivas y cambio lingüístico: el ejemplo del tratamiento vuestra
merced en español, in: Kabatek, Johannes (ed.), Sintaxis histórica del español y cambio
lingüístico: Nuevas perspectivas desde las Tradiciones Discursivas, Madrid/Frankfurt am
Main, Iberoamericana/Vervuert, 2008, 53–87.
Koch, Peter/Oesterreicher, Wulf, Lengua hablada en la Romania: español, francés, italiano.
Versión española de Araceli López Serena, Madrid, Gredos, 11990 [12007].
Laviosa, Sara, Corpus-based Translation Studies: Theory, Findings, Applications, Amsterdam/
New York, Rodopi, 2002.
López Serena, Araceli, ¿Es empírico el estudio de la (des)cortesía verbal? El estatus epistemológi-
co de la lingüística de la (des)cortesía, in: Fuentes, Catalina/Alcaide, Esperanza/Brenes,
Ester (edd.), Aproximaciones a la (des)cortesía verbal en español, Bern, Peter Lang, 2011,
425–442.
López Serena, Araceli, Historia de la lengua e intuición. Presentación del volumen, RILCE 30:3
(2014), 691–704 (= 2014a).
López Serena, Araceli, Selección natural, explicación racional y cambio lingüístico: Hacia una
fundamentación epistemológica no evolucionista de la teoría de la gramaticalización,
RILCE 30.3 (2014), 724–775 (= 2014b).
Mauranen, Anna, Universal Tendencies in Translation, in: Gunilla/Rogers, Margaret (edd.),
Incorporating Corpora: The Linguist and the Translator, Clevedon/Buffalo/Toronto, Multi-
lingual Matters LTD, 2008, 32–48.
Olohan, Maeve, Corpus Linguistics and Translation Studies: Interaction and Reaction, Linguistica
Antverpiensia (2002), 419–429.
Parodi, Giovanni, Lingüística de Corpus: de la teoría a la empiria, Madrid/Frankfurt am Main,
Iberoamericana/Vervuert, 2010.
Pons Rodríguez, Lola, Una reflexión sobre el cambio lingüístico en el siglo XV, in: Luque Durán,
Juan de Dios (ed.), Actas del V Congreso Andaluz de Lingüística General. Homenaje a J.A. de
Molina Redondo, Granada, Granada Lingvistica (Serie Collectae), III, 2006, 1563–1577.
Schleiermacher, Friedrich, Sobre los diferentes métodos de traducir. Traducción y comentario de
Valentín García Yebra, Madrid, Gredos, 11813 [12000].
Toury, Gideon, Descriptive Translations Studies and Beyond, Amsterdam, John Benjamins, 1995.
Vincis, Valentina/Miotto, Carla, Algunas consideraciones en torno al concepto de tradiciones
discursivas, in: Albertin, Chiara/Del Rey Quesada, Santiago (coords.), Hispanica Patavina.
Estudios de historiografía e historia de la lengua española en homenaje a José Luis Rivarola,
Padova, CLEUP, 2016, 199–215.
Álvaro S. Octavio de Toledo y Huerta
Aprovechamiento del CORDE para el estudio
sintáctico del primer español moderno (ca.
1675–1825)
1 Este artículo se incluye entre los trabajos financiados por el proyecto de investigación «Proce-
sos de Gramaticalización en la Historia del Español (ProGramEs) IV», de referencia FFI2012-
31427.
2 Suele hacerse coincidir el límite del español clásico con las postrimerías del Siglo de Oro
literario, esto es, con el lapso que media entre la muerte de Gracián en 1658 y la de Calderón en
1681 (cf. sobre todo Eberenz 1991, Girón 2004a). Adoptamos en este trabajo de manera convencio-
nal una fecha intermedia, la de 1675, que marca igualmente el inicio de la actividad de los
novatores (cf. principalmente Mestre 1998, Pérez Magallón 2002 y, para los aspectos lingüísticos,
Álvarez de Miranda 1990, 1996). En cuanto a la época contemporánea, su arranque podría
hacerse corresponder con el triunfo del Romanticismo en la tercera década del siglo XIX y la
consolidación del sistema parlamentario (y, por tanto, del discurso político y el periodismo) o la
ciencia moderna, con la consiguiente aparición de un conjunto amplio de tradiciones discursivas
sociohistóricamente características (para la necesidad de buscar correspondencias entre los
periodos de la historia lingüística y la configuración de nuevas constelaciones discursivas, cf.
Eberenz 2009; Kabatek 2012). Propongo aquí, de nuevo convencionalmente, la fecha de 1825.
3 Cf. Octavio de Toledo (2007; 2008; 2014a; 2014b; 2016). Para la periodización lapesiana y su
motivación, cf. Martínez/Quilis (1996), Abad (1998) o, más recientemente, Arenas (2007). El
marbete de primer español moderno ha conocido cierta fortuna (cf. principalmente García Godoy
2012a), pero conviene señalar que hay igualmente quien niega a esta franja cronológica una
identidad lingüística suficiente como para poder constituirla en un nuevo periodo (cf. sobre todo
Sánchez Lancis 2012). En cualquier caso, la cuestión de cómo conceptuar historiográficamente la
evolución del español a partir de 1650 (esto es, a lo largo de los últimos 365 años, nada menos)
no es trivial y debe acometerse: como apunta Weber (2011, 225–226), «periodization is historically
constructed, ideologically laden, cognitively necessary, and provisionally useful for teaching and
research».
estudios,4 conocemos hoy día mucho mejor que hace apenas diez años la
morfosintaxis de ese siglo y medio al que previamente apenas se había prestado
atención, sobre todo en España.5
Es fácil identificar las causas de este abandono relativo. En la historiografía
tradicional del español (la venerable tradición de las «historias de la lengua» y las
monografías que siguen su método), «los criterios de periodización […] correspon-
den en lo esencial a la historia literaria y, como esta, reflejan los de los historiado-
res generales» (Marcos Marín 1995, 329). Para la segunda mitad del siglo XVII y la
primera del XVIII, en especial, la mutua implicación de la historia social y
política, la historia literaria y la historia lingüística ha tenido como consecuencia
una visión muy negativa de este periodo, caracterizado, especialmente por parte
de los historiadores españoles del siglo XIX y la mayor parte del XX, como una
época de colapso institucional y postración frente a las potencias extranjeras
(encarnadas metonímicamente en la pálida figura de Carlos II y la supuesta
atmósfera de extenuación finisecular que precede a las querellas por su sucesión
en el trono), de marasmo económico y social y, por consiguiente, de hundimiento
cultural, especialmente en la literatura, donde la escasez de grandes autores de
4 La bibliografía va camino de ser muy abundante: baste citar aquí, sin ánimo de exhaustividad,
las contribuciones de Company (2007), Company (2012), Espinosa (2012), Girón (2004a; 2012),
Guzmán/Sáez (en prensa), Melis/Flores/Bogard (2003) o Ramírez (2011; 2012). En lo que atañe al
desarrollo en este periodo de algunos grandes procesos sintácticos, cf. ya Company (2002) o
Girón (2002) y, más recientemente, Melis/Flores (2009), así como varios de los trabajos en los
volúmenes colectivos citados. Hace tiempo que se atiende, por otra parte, a la caracterización de
(aspectos de) la sintaxis de autores concretos —cf. por ejemplo Ariza (1981), Ramírez (2002), Sáez
(2003), Girón (2004b; 2008), Octavio de Toledo (2016)—, mientras es más reciente la atención a la
sintaxis de ciertas tradiciones discursivas o conjuntos de producción textual (cf. entre otros
Octavio de Toledo/Pons 2009; García Godoy 2012b; Sáez 2014). Mediante aportaciones como
estas, el estudio de la morfosintaxis ha logrado acortar la distancia muy considerable que lo
separaba del análisis del léxico y la producción metalingüística en este periodo.
5 Como apunta Girón (2012, 30), «[h]asta hace poco era general el lamento de que la historia de
la lengua estaba por hacer» para este periodo. En efecto, hace pocos años una destacada
especialista podía quejarse de que «[s]olo unos pocos estudios sobre determinados rasgos
morfosintácticos de las modalidades americanas constituyen fértiles parcelitas de ese gran erial
que, todavía hoy, es el español de los siglos XVIII y XIX» (García Godoy 2008, 33), mientras otro
invitaba a investigar una época que «resulta interesantísima para la historia del español por dos
razones: suponemos que es el germen de la modernidad lingüística y resulta una casi absoluta
zona ciega de datos y estudios» (Sáez Rivera 2003, 327). La asimetría que produce el estudio en
detalle de las variedades americanas (cf. ya la presentación panorámica de Fontanella 1994) o de
algunas variedades del español peninsular (cf. por ejemplo Isasi 2006) frente a las carencias en el
análisis de la lengua estándar supone un obstáculo a la hora de obtener el contraste y el refrendo
necesarios para formular observaciones de mayor precisión y alcance en torno al elenco de usos
generalizados en este periodo.
Aprovechamiento del CORDE para el estudio sintáctico del primer español moderno 59
(1) Tras la serie de adversidades que habían jalonado los reinados de Felipe IV y Carlos II,
[España] quedaba sacrificada en la paz de Utrecht. Todas las actividades parecían
muertas. Se imponía una tarea de reconstrucción vivificadora (Lapesa 1981, 418)
(2) Nunca, en verdad, estuvo más justificada que en el siglo XVIII la preocupación por el
idioma. En los dos primeros tercios del Setecientos se prolongaban, envilecidos, los
gustos barrocos de la extrema decadencia [. . .]. Una caterva de escritorzuelos bárbaros
y predicadores ignaros emplebeyecía la herencia de nuestros grandes autores del
siglo XVII (Lapesa 1981, 424)
6 La palabra clave para referirse a este tramo de la historia de España es, en definitiva,
decadencia, la misma que titula el panorama historiográfico de estos años dentro de la prestigio-
sa Historia de España Menéndez Pidal (Molas 1993) y la misma también que asoma en el título del
libro en que Kamen (2006) trata de desmontar el mito del progresivo hundimiento de España a lo
largo del XVII, íntimamente ligado a la construcción de una cierta idea de la «España imperial»
y, naturalmente, a la idea de un empeoramiento sucesivo del gobierno de los «Austrias meno-
res», que solo podría rescatarse con el benéfico advenimiento de la nueva dinastía Borbón. Esta
visión hace tiempo que ha sido matizada y corregida por los historiadores: en palabras de Kagan
(1996, 442), existe desde hace dos décadas «a willingness to challenge the old teleology of
Spanish economic backwardness and decline», acometida por «scholars less interested in the
ups and downs of the Spanish empire than in the internal character of Spanish society and
culture». El impacto de las tesis decadentistas en la historia de la lengua, sin embargo, no ha sido
aún eficazmente corregido, quizá por su mayor afinidad con la historia literaria, donde no hace
tanto que los estudiosos se afanan por manifestar la existencia de un ideario creativo propio del
periodo (cf. Bègue 2010; Pérez Magallón 2001; 2008; 2012), que no puede despacharse sin más
como el escenario de una pugna maniquea entre el tardobarroco anquilosado y una protoilus-
tración balbuciente. Resume acertadamente la orientación estética de este tiempo Bègue (2008,
35–36): «con la progresiva difusión del estilo llano en el siglo XVII, la rota Virgilii cojea hasta
romperse y quedar hecha pedazos. La escritura de las últimas décadas del siglo XVII y primeras
del XVIII es una escritura de transición, todavía llena de fórmulas gongorizantes confrontadas
con otras, triviales, sencillas, hasta vulgares, pero cuyo contraste con las primeras resultaba
altamente significativo. […] [S]entimos prefigurarse ya una poética de lo común, de lo «llano», de
lo «sencillo», de lo familiar, de lo cotidiano». Y no es poco, en fin, lo que cambia la teoría del
estilo de la Agudeza de Gracián (1648) a la Poética de su paisano Luzán (1737).
60 Álvaro S. Octavio de Toledo y Huerta
esta visión tradicional (que, por lo demás, se extiende hasta el presente), encon-
trar ya cambios morfosintácticos, y si los hay, resultan triviales (3).7 A esta
impresión coadyuva, sin duda, la escasa distancia lingüística que nos separa aún
de aquella época (4).
(4) al lector actual no extraña prácticamente nada de los textos del siglo XVIII (Narbona
2004, 1023; énfasis del autor)
7 El pasaje de (3) parafrasea, empeorándolo notablemente, este otro de Cano (1988, 255): «Con el
siglo XVIII puede decirse que concluyen los grandes procesos históricos constitutivos de la
lengua española. A partir de entonces, […] las grandes líneas de la estructura idiomática no han
variado: ni en el plano fónico ni en el morfosintáctico puede señalarse en este periodo ninguna
alteración fundamental». En sentido similar se manifiesta Lapesa (1996, 61) a propósito de la
segunda mitad del Seiscientos: «La grave crisis política sufrida por España a partir de 1640 no
repercutió directa ni indirectamente en el espíritu ni en las estructuras formales de nuestra
lengua. No es que hayan dejado de producirse cambios fonéticos, gramaticales ni léxicos después
de aquel desastre, sino que se han debido a otros factores».
8 Cf. ahora, sin ir más lejos, el caso del dequeísmo, oportunamente explorado por Serradilla
(2014).
Aprovechamiento del CORDE para el estudio sintáctico del primer español moderno 61
pionero de Sánchez Lancis 2001 y, más recientemente, Sánchez Lancis 2009). Menos frecuente
aún es la consideración específica de los hechos de frecuencia, esto es, el estudio de la difusión
de los esquemas sintácticos (cf. ahora Rojo 2014 para la distinción crucial entre frecuencia global
y de inventario). Y aún menos habitual es la reflexión en torno a la posibilidad de obtener curvas
de frecuencia auténticamente representativas a partir de las frecuencias parciales obtenidas a
través del CORDE para cada periodo (cf. igualmente Rojo 2014): a este último empeño pretende
contribuir el presente trabajo.
13 En la Tabla I figura, en la segunda columna y expresado en porcentajes, el volumen textual
que representa cada uno de los periodos señalados sobre el total para 1541–1975: para el tramo
1661–1700, por ejemplo, dicho volumen es unas 6 veces inferior al del tramo 1541–1580 y unas
7,5 veces inferior al del tramo 1861–1900. En la tercera columna se ofrece el número de documen-
tos de extensión media o superior (más de 250 apariciones de la palabra de; considero extensos
los documentos con más de 500 casos de de). Como puede apreciarse, las cifras resultan
especialmente reducidas entre 1660 y 1740. El Gráfico 1 representa los datos de la segunda
columna de la Tabla I. En esta tabla y gráfico, al igual que en los siguientes, el volumen textual
se ha calculado a partir del número de apariciones de la palabra de en cada periodo: es posible
hoy día consultar directamente el número exacto de palabras para cada periodo que se desee
delimitar a través de la «Nómina de autores y obras» del CORDE (agradezco esta importante
observación a Guillermo Rojo); los datos que se obtienen mediante esas consultas no difieren
sustancialmente, sin embargo, de los que ofrezco aquí.
14 Basta consultar los elocuentes datos de Montaner (2011) acerca del espacio dedicado en los
manuales recientes de literatura española a cada periodo histórico individual: con cierta diferen-
cia, el tramo más desatendido es el siglo XVIII, cuyo peso en el canon literario es, así, mucho más
limitado que el de otras épocas.
15 Para los problemas de canonicidad que presentan los autores del siglo XVIII y para la
relación entre cristalización del canon y actividad editorial, cf. Lorenzo (2008). La gestación del
canon literario influye en la selección de los textos editados y difundidos y, por lo tanto,
determina la nómina de documentos con mayores posibilidades de ser empleados para la
investigación diacrónica, como ha mostrado Pons (2006a) para el caso del Cuatrocientos caste-
llano.
Aprovechamiento del CORDE para el estudio sintáctico del primer español moderno 63
la base textual tuvo como resultado, a falta de una nómina extensa de escritores
consagrados por el canon a los que acudir, el aumento del volumen textual
representado por un puñado de autores de referencia.16 Así, por ejemplo, aproxi-
madamente una de cada cuatro palabras que ofrece el CORDE para la primera
mitad del siglo XVIII pertenece a las obras de Feijoo, y el 38 % de los documentos
extensos de este mismo periodo (29 de un total de 76) se debe a tan solo cuatro
autores (Torres Villarroel, Mayans y Luzán, además de Feijoo).17
Tabla I: Volumen de datos (%) y documentos medios y extensos por periodos de 40 años
(CORDE, 1541–1975)
1661–1700 2,0 % 69
1701–1740 2,7 % 64
preponderancia del esquema si tuviera, diera en este periodo, esto es, la tendencia
a emplear los tiempos en las condicionales a la manera de Torres, que continúa la
tendencia dominante en el siglo anterior. Cabe preguntarse, pues, si el fuerte
descenso de dicho esquema detectado por Bartol, con el consiguiente avance
de –ría en la apódosis, no es más aparente que real, pues podría deberse al
extraordinario peso en la muestra de los datos de Feijoo, que rechazaba las formas
en –ra en este entorno, posiblemente de acuerdo con su origen noroccidental.20 El
idiolecto feijoniano,21 así, podría distorsionar notablemente los datos de este
fenómeno para la primera mitad del Setecientos, hecho tanto más grave cuanto
que, en principio, tendemos a otorgar a los datos del CORDE, por su mera abun-
dancia, una fiabilidad mayor a efectos de generalización estadística que a los de
las búsquedas en autores u obras individuales.22
Hechas estas precisiones, creemos no obstante que el CORDE proporciona
materiales de gran valor para abordar el estudio cuantitativo de los fenómenos
sintácticos que caracterizan el primer español moderno, bien por darse solo dentro
de sus límites, bien por haber conocido entonces una difusión significativamente
mayor que en tiempos anteriores y posteriores. Esto es, pensamos que el CORDE es
una herramienta irrenunciable para contribuir a un intento de periodización del
23 Para un intento semejante en otro límite cronológico crucial, el que separa el español
medieval del (proto)clásico, cf. de nuevo Sánchez Lancis (2001, 2009).
24 El refuerzo puede ser igualmente también para el caso de la relación aditiva con no solo: «Es
constante que el ojo no solo ve aquel punto del objeto donde se termina el exe óptico, sí también
un espacio mui dilatado en torno de él» (Feijoo, Teatro crítico III, 1729). Para la gramaticalización
de antes con valor adversativo, cf. Azofra (2010) y Nieuwenhuisjen (2012). El fenómeno de (5a) se
gestó en la lengua barroca de la distancia (en el sentido de Koch/Oesterreicher 2011) y empieza a
menudear a mediados del Seiscientos. Además de sí solo existe, con una historia levemente
diferente (por su mayor longevidad, principalmente), la combinación solo sí: «No vengo triste e
infeliz suplicante a desarmar en favor de esos reos la justicia; sólo sí a implorar vuestra piedad»
(Pedro Montengón, Eusebio, 1786). Ofrezco algunos detalles más acerca de estos esquemas en
Octavio de Toledo (2008).
Aprovechamiento del CORDE para el estudio sintáctico del primer español moderno 67
presta atención a este periodo);25 y, de los dos esquemas, el reforzado con antes
posiblemente alimentó la difusión del reforzado con solo, pues su auge es previo,
mientras que el declive de ambos se produce de manera acompasada, según lo
esperable si la difusión de un esquema B está condicionada por la de un esquema
A: antes de que B llegue a manifestarse, A experimenta un crecimiento aprecia-
ble, y en caso de que A se hunda, B le sigue sin excesiva demora.
(5) a. Halló lo primero que la bacanal estancia no se componía de doradas salas, sino de
ahumadas çaurdas, no de quadras de respeto, sí de ranchos de vileza (Baltasar Gracián,
El Criticón III, 1657).
b. no hallé […] que el cometa se acercase más aprisa al occidental horizonte que la
estrella, ni esta con más velocidad que el cometa, antes sí que ambos casi guardaron
un mismo tenor de movimiento (Carlos de Sigüenza y Góngora, Libra astronómica y
filosófica, 1690).
Gráfico 2: Cifras absolutas en el CORDE para las construcciones adversativas antes sí y sí solo
Suele ser bastante más útil, sin embargo, poder acceder a una curva evolutiva
libre del efecto deformante que introducen las diferentes masas textuales corres-
pondientes a cada periodo. Un primer modo de obviar este efecto consiste en
obtener frecuencias correlativas. Para ello es necesario poder definir un ámbito
de variación (ing. envelope of variation) que conste de un número cerrado de
alternativas. Cada una de las alternativas posee entonces una frecuencia respecto
de las otras, de modo que todas juntas suman 1 o un 100 % de los casos. El ámbito
25 Esto no quiere decir, naturalmente, que los cambios no se encuentren conectados con procesos
de más amplio recorrido: el ascenso de antes sí a fines del XVII y principios del XVIII coincide en el
tiempo con el de antes bien y con el declive del simple antes adversativo, cuyo empleo había
alcanzado su cenit en el siglo XVI (Nieuwenhuijsen 2012, 1003), lo que sugiere que la pérdida de
terreno de antes dio lugar a un proceso de especialización que explica la génesis de los esquemas
reforzados, de los que antes bien perdura, aunque con frecuencias escasas, hasta hoy día.
68 Álvaro S. Octavio de Toledo y Huerta
de variación puede ser binario, si la oposición entre las variantes tiene la estruc-
tura de un par mínimo. Es lo que ocurre con las dos opciones que presentan los
indefinidos negativos en español, que activan la concordancia negativa cuando
se posponen al verbo finito, pero no cuando se anteponen: así, en el caso de
nada, el esquema del tipo nada sé se opone de forma constante al del tipo no sé
nada, de modo que para cada periodo puede obtenerse una correlación porcen-
tual entre los dos esquemas, que naturalmente es independiente del número
concreto de casos. Una cuantificación de este tipo permite observar como nada
SV, apenas presente en la Edad Media, avanzó a lo largo del español clásico
respecto de no SV nada para alcanzar cotas máximas de difusión, por encima
incluso de su competidor, justamente durante el primer español moderno, perio-
do a partir del cual ha entrado en un lento abandono (Gráfico 3).26
26 En el gráfico 2, la curva de trazo continuo mide el porcentaje correlativo del esquema del tipo
nada sé respecto del esquema alternativo no sé nada (una línea discontinua a la altura del 50 %
permite apreciar con mayor claridad cómo aquel supera a este justamente entre 1650 y 1850). La
curva discontinua de trazo corto mide el porcentaje de textos que en cada periodo presentan más
casos de nada SV que de no SV nada. Aunque las dos curvas discurren paralelamente, confirman-
do la misma cronología para la fase de mayor éxito del fenomeno, la segunda corresponde a un
cálculo distinto, pues relaciona el uso del fenómeno con su grado de difusión textual. Una tercera
curva, discontinua de trazo alterno, muestra el porcentaje de textos en los que está totalmente
ausente la anteposición de nada al verbo. Para más detalles sobre la evolución de estos esquemas
y la información que proporciona la curva del Gráfico 3, cf. Octavio de Toledo (2014a).
Aprovechamiento del CORDE para el estudio sintáctico del primer español moderno 69
(6) a. comenzaron a poner fuego en la ciudad en el ínterin que los vecinos estaban
embebecidos en matar enemigos (Francisco Cervantes de Salazar, Crónica de la Nueva
España, 1560)
b. para que descansasen de las fatigas del viaje, en ínterin que disponían casa para su
habitación (Fray Gaspar de San Agutín, Conquistas de las Islas Filipinas, 1698)
dio orden […] que escoltasse a los trabajadores de los ranchos y se mantuviesse en
aquellos parages, ínterin que llegava para disponer su entrada (Juan de Villagutierre
Sotomayor, Historia de la conquista de la provincia del Itzá, 1701)
c. y que dichos 100 ducados se le mantengan ínterin le dure la voz (Documentos sobre
música en la catedral de Sigüenza, 3. 1. 1738)
Gráfico 4: Evolución de los usos relacionales de ínterin y comparación con el sintagma adverbial
en el ínterin
70 Álvaro S. Octavio de Toledo y Huerta
27 De hecho, esto es justamente lo que ocurre: el tipo nada sé presenta 3167 casos en la primera
mitad del Ochocientos y más del doble (6554) en la segunda mitad, pero la proporción frente a no
sé nada es casi veinte puntos superior en el primero de estos periodos (71 % frente a 52 %). Lo
mismo ocurre con el ínterin nexual, que ofrece 98 casos para el periodo 1751–1800, 86 para el
tramo siguiente (1801–1850) y un número máximo, 114, para 1851–1900; en cambio, la frecuencia
correlativa frente al resto de esquemas es máxima para el segundo de estos periodos (65,2 %),
seguido del tercero (61,3 %) y del primero (44,5 %).
Aprovechamiento del CORDE para el estudio sintáctico del primer español moderno 71
28 Es sencillo ver que la ventaja de este tercer cálculo frente al anterior es que excluye el efecto
de la posible concentración, para cualquier periodo dado, de un número muy elevado de casos
de un fenómeno en un grupo muy reducido de documentos, lo que fácilmente puede ocurrir por
razones de adscripción diatópica, de registro, de tradicionalidad discursiva, etc.
29 Me refiero en particular a Joan Bybee y algunos de sus discípulos y colaboradores: cf. en
especial Bybee/Hopper (2000), Bybee (2003), Bybee (2011), Schwenter/Torres (2010). En este
último trabajo se define incluso el proceso mismo en términos de incrementos de frecuencia:
«Grammaticalization is the diachronic process whereby existing constructions with particular
lexical items gain frequency and become new constructions, following cross-linguistic evolution-
ary paths» (Schwenter/Torres 2010, 15).
30 Naturalmente, el problema de este último tipo de cálculo es que mientras o entretanto poseen,
al igual que ínterin, su propia dinámica histórica, de modo que no puede darse por hecho que sus
frecuencias sean diacrónicamente constantes, ni que puedan compararse sin más, por ello
mismo, las cifras de los distintos periodos: de hecho, los datos de la Tabla II, especialmente para
el periodo 1550–1650 y para los siglos XIX–XX, sugieren que existen diferencias entre estas dos
piezas, pues la proporción de ínterin no crece (en el caso del primero de esos periodos) o
disminuye (en el segundo tramo) a la misma velocidad respecto de una y otra. Ello se debe
principalmente al hecho de que entretanto conoció una difusión particularmente alta en el
siglo XVI, pero perdió presencia a continuación y se volvió claramente recesiva (aunque no de
forma tan pronunciada como ínterin) a partir del siglo XIX (cf. Eberenz 1982; Herrero 2005, 240).
72 Álvaro S. Octavio de Toledo y Huerta
Frec1 4 24 38 72 43 20 10 1 1
Frec2 2 14 18 29 11 9 11 1 0,05
Frec3 % 2,5 7,7 11,7 28,6 11,8 3,3 1,7 0,2 0,1
Frec4 % 3,5 23,8 39,6 59,7 26,3 9,7 8,5 3,4 2,5
Gráfico 5: Valores globales de AC por periodos, en tantos por ciento sobre el total
Gráfico 7: Difusión del artículo ante oraciones de infinitivo (frecuencias ponderadas por
periodos). Muestra: todos los infinitivos comenzados por a– o por r– (cf. Octavio de Toledo 2014b)
31 Para la extensión del artículo de las oraciones de infinitivo a las completivas con que como
último paso en un continuo o cadena de gramaticalización y para la naturaleza de las fases o
etapas de dicho continuo, cf. Octavio de Toledo (2014b).
32 Esta evolución se da a través del tránsito inferencial desde la excepción débil que representa
(7a) a la excepción total o fuerte que representa (7b) en entornos donde las dos entidades
presentan un contraste de propiedades suficiente como para que deje de resultar preferible la
interpretación en que ambos pertenecen a un ámbito (o frame semántico) común, y se destaque
la lectura que asigna a una y otra entidad ámbitos diferenciados. Para este proceso, por lo demás
muy común en las lenguas, cf. Octavio de Toledo (2008).
76 Álvaro S. Octavio de Toledo y Huerta
(7) a. los mas tienen ya recibida paga, sino es los portugueses («Carta escrita en Sevilla al
Rey de Portugal por Sebastián Álvarez su factor», 1519)
Gráfico 9: Curvas de difusión del fenómeno AC (pico máximo ca. 1700), del relativo el que no
oblicuo (pico máximo ca. 1750) y del relativo el que oblicuo (curva «en S» o de incremento gradual)
él.33 Sin embargo, como ha mostrado Postma (2010), un cambio fracasado (esto
es, un fenómeno que pierde frecuencia bruscamente) puede no obstante contri-
buir, antes de quedar marginado o extinguirse, a activar la gramaticalización de
un esquema formal o semánticamente afín. Es lo que pudo ocurrir, según
propuesta de Girón (2004c), con el fenómeno AC y la consolidación del relativo
compuesto homónimo el que (Gráfico 9); y parece fuera de duda, a la vista
igualmente del Gráfico 9, que el relativo compuesto no oblicuo o de sujeto
(llamamos un coche, el que [= el cual] nos llevó a nuestro destino), cuyo auge y
pérdida se produce dentro de los límites del primer español moderno, estimuló
34 Para los cálculos que sustentan las cifras del Gráfico 9, de la misma naturaleza que los Gráficos
6–7, cf. Octavio de Toledo (2014b). Para la homonimia como fuente de cambios sintácticos, cf.
Espinosa (2008). Para la historia del relativo compuesto en español, cf. Girón (2009). Conviene
advertir que las curvas de Gráfico 9 no demuestran la interrelación entre los fenómenos citados,
aunque sí la apoyan: naturalmente, dicha interrelación es más probable si existe, además de
homonimia, homofuncionalidad, como en el caso de los dos entornos del relativo compuesto.
35 Para el papel de la analogía en la actualización de cambios sintácticos sucesivos derivados
de la gramaticalización de una marca (sí adversativo, el como elemento de rección), cf. sobre todo
Fischer (2010) y De Smet (2012).
36 Se trata en todos los casos, en efecto, de desarrollos a partir de un elemento ya gramaticaliza-
do, proceso que se conoce con el término de gramaticalización secundaria o ulterior (further
grammaticalization: Lehmann 2002) para diferenciarlo de la gramaticalización primaria o a partir
de unidades léxicas. Para las diferencias entre gramaticalización primaria y secundaria, cf.
Traugott (2002), Detges/Waltereit (2002), Norde (2012), Breban (2014), Breban (2015).
37 Para el priming desde un punto de vista psicológico y las dificultades en el manejo experi-
mental y metodológico de esta noción, cf. por ejemplo Cesario (2014). Para el priming lingüístico,
cf. con carácter general Jäger/Rosenbach (2008); para la selección mediante priming entre formas
morfológicas alternantes, cf. Mackenzie (2012); para una aplicación reciente de esta noción a la
historia de la extensión de estar + participio en español, cf. Marco (2012).
38 Como señala Traugott (2004, 151), «[i]ndividual cases of grammaticalization always originate
in exploratory uses of lexical items, constructions, or grammatical forms».
Aprovechamiento del CORDE para el estudio sintáctico del primer español moderno 79
39 Naturalmente, los términos fagocítica, vírica y parasítica deben entenderse en sentido trasla-
ticio y ceñido exclusivamente a las analogías parciales entre fenómenos naturales y procesos
80 Álvaro S. Octavio de Toledo y Huerta
Gráfico 10: Tipos de difusión y dinámica variacional de tres cambios típicos del primer español
moderno
Los datos del CORDE para el primer español moderno, una época con un espectro
notable de formas de producción textual distintas, permiten, en fin, abordar una
faceta crucial del cambio lingüístico en que se viene insistiendo repetidamente en
los últimos años: la difusión de los fenómenos se inserta en un espacio comunica-
tivo históricamente determinado y concebible como un continuo marcado por los
polos de la inmediatez y la distancia (cf. Koch/Oesterreicher 2011).40 Las diferentes
las tradiciones discursivas: «Erst wenn eine Übernahme der Innovation erfolgt (was in der Regel in
Etappen über bestimmten Diskurstraditionen geschieht), dann ist tatsächlich Sprachwandel ein-
getreten» (Koch 2005, 248). Para la aplicación de estas ideas a la historia del español, cf.
principalmente Kabatek (2004, 2005, 2012) y Oesterreicher (2007).
41 Para la distribución textual que lleva a esta caracterización individual de los fenómenos, cf.
Octavio de Toledo (2007) y Octavio de Toledo (2008).
42 Como bien dice Eberenz (2009, 196), «el estudio de la periodización nos obliga a plantear con
toda claridad las cuestiones del edificio variacionista en los distintos momentos de la historia, y
del lugar que en él ocupa la norma de prestigio reflejada en las tradiciones discursivas». Para una
discusión teórica acerca de las formas de periodización perfectamente aplicable a la historia del
español, cf. Curzan (2012). La idea de una periodización inspirada en la noción semántica del
prototipo, esto es, integrada por periodos con núcleos estables y bordes o periferias con rasgos
más difusos, procede —hasta donde sé— de Fife (1992).
82 Álvaro S. Octavio de Toledo y Huerta
6 Referencias bibliográficas
Abad Nebot, Francisco, Problemas de periodización y caracterización en historia de la lengua
literaria española, Revista de Filología Románica 15 (1998), 13–33.
Álvarez de Miranda de la Gándara, Pedro, Palabras e ideas: el léxico de la Ilustración temprana
en España (1680–1760), Madrid, Real Academia Española, 1990.
Álvarez de Miranda de la Gándara, Pedro, La época de los novatores, desde la historia de la
lengua, Studia Historica. Historia Moderna 14 (1996), 85–94.
Arenas Olleta, Julio, Pidal y Lapesa: dos historias de la lengua, in: Hafner, Jochen/Oesterreicher,
Wulf (edd.), Mit Clio im Gespräch: Romanische Sprachgeschichten und Sprachges-
chichtsschreibung, Tubinga, Narr, 2007, 233–254.
Ariza Viguera, Manuel, Materiales para el estudio de las oraciones condicionales y concesivas en
Feijoo y Torres Villarroel, in: II Simposio sobre el Padre Feijoo y su Siglo, vol. 1, Oviedo,
Centro de Estudios del Siglo XVIII, 1981, 205–218.
Azofra Sierra, María Elena, Antes y ahora en la diacronía del español. Sintaxis histórica y
aplicación lexicográfica, Revista de Historia de la Lengua 5 (2010), 3–34.
Barra Jover, Mario, Variantes invisibles, emergencia y cambio lingüístico, in: Castillo, Mónica/
Pons, Lola (edd.), Así se van las lenguas variando: nuevas tendencias en la investigación
del cambio lingüístico en español, Berna et al., Peter Lang, 2011, 75–105.
Bartol Hernández, José Antonio, Condicionales: del español clásico al español moderno, Verba
32 (2005), 371–383.
Bartol Hernández, José Antonio, La expresión de la irrealidad condicional en el siglo XVIII, in:
Bustos, José Jesús de/Girón, José Luis (edd.), Actas del VI Congreso Internacional de
Historia de la Lengua Española, vol. 1, Madrid, Arco Libros, 2006, 469–488.
Bartol Hernández, José Antonio, Habría dado con el valor dedissem, in: Montero Cartelle, Emilio
(ed.), Actas del IX Congreso Internacional de Historia de la Lengua Española, vol. 1, Santiago
de Compostela, Meubook, 2012, 643–657.
Bègue, Alain, «Degeneración» y «prosaísmo» de la escritura poética de finales del siglo XVII y
principios del XVIII: análisis de dos nociones heredadas, Criticón 103–104 (2008), 21–38.
Bègue, Alain, Albores de un tiempo nuevo: la escritura poética de entre siglos (XVII–XVIII), in:
Egido, Aurora/Laplana, José Enrique (edd.), La luz de la razón. Literatura y cultura del siglo
XVIII, Zaragoza, Institución Fernando el Católico, 2010, 37–69.
Bertolotti, Virginia/Company Company, Concepción, El Corpus Diacrónico y Diatópico del Es-
pañol de América (CORDIAM). Propuesta de tipología textual, Cuadernos de la ALFAL 6
(2014), 130–148.
Blasco Pascual, Javier/Ruiz Urbón, Cristina, Evaluación y cuantificación de algunas técnicas de
«atribución de autoría» en textos españoles, Castilla, Estudios de Literatura 0 (2009), 27–47.
Blythe, Richard/Croft, William, S-curves and the mechanisms of propagation in language chan-
ge, Language 88:2 (2012), 269–304.
Aprovechamiento del CORDE para el estudio sintáctico del primer español moderno 83
Breban, Tine, What is secondary grammaticalization? Trying to see the wood for the trees in a
confusion of interpretations, Folia Linguistica 48 (2014), 469–502.
Breban, Tine, Refining secondary grammaticalization by looking at subprocesses of change,
Language Sciences 47 (2015), 161–171.
Bybee, Joan, Mechanisms of change in grammaticization: The role of frequency, in: Joseph,
Brian/Janda, Richard D. (edd.), The Handbook of Historical Linguistics, Oxford et al., Black-
well, 2003, 602–623.
Bybee, Joan, Usage-based theory and grammaticalization, in: Narrog, Heiko/Heine, Bernd
(edd.), The Oxford Handbook of Grammaticalization, Oxford, Oxford University Press, 2011,
69–78.
Bybee, Joan/Hopper, Paul J., Introduction to frequency and the emergence of linguistic structure,
in: Bybee, Joan/Hopper, Paul J. (edd.), Frequency and the emergence of linguistic structure,
Amsterdam, John Benjamins, 2000, 1–24.
Buenafuentes de la Mata, Cristina/Sánchez Lancis, Carlos, Procesos de gramaticalización y
lexicalización a la luz de los corpus académicos, in: Jiménez Juliá, Tomás, et al. (edd.), Cum
corde et in nova grammatica: estudios ofrecidos a Guillermo Rojo, Santiago de Compostela,
Universidad de Santiago de Compostela, 2012, 153–165.
Cano Aguilar, Rafael, El español a través de los tiempos, Madrid, Arco Libros, 1988.
Carrasco Manchado, Ana Isabel, Nuevas herramientas para la historia de la Edad Media hispá-
nica: los corpus textuales informatizados, En la España Medieval 34 (2011), 343–372.
Cesario, Joseph, Priming, replication, and the hardest science, Perspectives on Psychological
Science 9:1 (2014), 40–48.
Company Company, Concepción, Gramaticalización y dialectología comparada: Una isoglosa
sintáctico-semántica del español, Dicenda 20 (2002), 39–72.
Company Company, Concepción, El siglo XVIII y la identidad lingüística de México, México,
UNAM/Academia Mexicana de la Lengua, 2007.
Company Company, Concepción, El español del siglo XVIII. Un parteaguas lingüístico entre
México y España, in: García Godoy, Ma Teresa (ed.), El español del siglo XVIII: cambios
diacrónicos en el primer español moderno, Berna et al., Peter Lang, 2012, 255–291.
Cuervo, Rufino José, Notas [1874], in: Andrés Bello, Gramática de la lengua castellana, ed.
Trujillo, Ramón, vol. 2, Madrid, Arco Libros, 1988, 837–973.
Curzan, Anne, Periodization in the history of the English language, in: Bergs, Alex/Brinton, Laurel
(edd.), English historical linguistics: an international handbook, vol. 2, Berlín/Nueva York,
De Gruyter, 2012, 1233–1255.
Davies, Mark, Creating useful historical corpora: A comparison of CORDE, the Corpus del Español,
and the Corpus do Português, in: Enrique, Andrés (ed.), Diacronía de las lenguas iberorro-
mances: nuevas perspectivas desde la lingüística de corpus, Madrid/Frankfurt am Main,
Iberoamericana/Vervuert, 2010, 137–166.
De Smet, Hendrik, The course of actualization, Language 88:3 (2012), 601–633.
Denison, Daniel, Log(ist)ic and simplistic S-curves, in: Hickey, Raymond (ed.), Motives for
Language Change, Cambridge, Cambridge University Press, 2003, 54–70.
Detges, Ulrich/Waltereit, Richard, Grammaticalization vs. reanalysis: a semantic-pragmatic ac-
count of functional change in grammar, Zeitschrift für Sprachwissenschaft 21:2 (2002),
151–195.
Eberenz, Rolf, Las conjunciones temporales del español. Esbozo del sistema actual y de la
trayectoria histórica de la norma peninsular, Boletín de la Real Academia Española 62
(1982), 289–385.
84 Álvaro S. Octavio de Toledo y Huerta
Lleal Galcerán, Coloma, Rigor metodológico e investigación filológica, Scriptum Digital 2 (2013),
107–121.
López Serena, Araceli, Selección natural, explicación racional y cambio lingüístico: hacia una
fundamentación epistemológica no evolucionista de la teoría de la gramaticalización,
RILCE 30 (2014), 724–775.
Lorenzo Álvarez, Elena de, Hacia un siglo XVIII «con comento»: la edición como construcción y
difusión del canon, in: Calzón García, José Antonio, et al. (edd.), Actas del I Congreso
Internacional de Filología Hispánica: jóvenes investigadores. Orientaciones metodológicas,
Oviedo, Universidad de Oviedo, 2008, 313–328.
Lorenzo Criado, Emilio, El español de hoy, lengua en ebullición, Madrid, Gredos, 41994 (primera
ed. 1966).
Lucía Megías, José Manuel, La informática humanística: notas volanderas en el ámbito hispáni-
co, Incipit 23 (2003), 91–114.
Mackenzie, J. Lachlan, Cognitive adequacy in a dialogical Functional Discourse Grammar, Lan-
guage Sciences 34 (2012), 421–432.
Marcos Marín, Francisco, La periodización, in: Homenaje a Félix Monje: estudios de lingüística
hispánica, Madrid, Gredos, 1995, 325–334.
Martínez Alcalde, Mª José/Quilis Merín, Mercedes, Nuevas observaciones sobre periodización en
la historia de la lengua española, in: Alonso, Alegría, et al. (edd.), Actas del III Congreso
Internacional de Historia de la Lengua Española, vol. 1, Madrid, Arco Libros/Fundación
Duques de Soria, 1996, 873–885.
Melis, Chantal/Flores, Marcela/Bogard, Sergio, La historia del español. Propuesta de un tercer
periodo evolutivo, Nueva Revista de Filología Hispánica 51 (2003), 1–56.
Melis, Chantal/Flores, Marcela, On the interplay between forces of erosion and forces of repair in
language change. A case study, Folia Linguistica Historica 30 (2009), 271–310.
Mestre Sanchis, Antonio, La aportación cultural de los novatores, Torre de los Lujanes 37 (1998),
99–118.
Molas Ribalta, Pere (ed.), La transición del siglo XVII al XVIII: entre la decadencia y la recons-
trucción, Madrid, Espasa Calpe, 1993.
Montaner Frutos, Alberto, Factores empíricos en la conformación del canon literario, Studia
Aurea 5 (2011), 49–70.
Moore, Colette, The spread of grammaticalized forms: the case of be + supposed to, Journal of
English Linguistics 35 (2007), 117–131.
Muñoz Armijo, Laura, Herramientas para la investigación sobre lingüística diacrónica en la
web, in: Romero Aguilera, Laura/Julià Luna, Carolina (edd.), Tendencias actuales en la
investigación diacrónica de la lengua, Barcelona, Universitat de Barcelona, 2009,
103–116.
Narbona, Antonio, Cambios y tendencias gramaticales en el español moderno, in: Rafael Cano
(ed.), Historia de la lengua española, Barcelona, Ariel, 2004, 1011–1035.
Nieuwenhuijsen, Dorien, El rastreo del desarrollo de algunos pronombres personales en
español: (im)posibilidades de los corpus diacrónicos digitales, in: Enrique-Arias,
Andrés (ed.), Diacronía de las lenguas iberorrománicas. Nuevas aportaciones desde la
lingüística de corpus, Madrid/Frankfurt am Main, Iberoamericana/Vervuert, 2009,
365–384.
Nieuwenhuijsen, Dorien, No es temporal, antes es adversativo: historia del valor adversativo de
antes, in: Montero Cartelle, Emilio (ed.), Actas del VIII Congreso Internacional de Historia de
la Lengua Española, vol. 1, Santiago de Compostela, Meubook, 2012, 995–1005.
Aprovechamiento del CORDE para el estudio sintáctico del primer español moderno 87
Norde, Muriel, Lehmann’s parameters revisited, in: Davidse, Kristin, et al. (edd.), Grammaticali-
zation and language change. New reflections, Ámsterdam/Filadelfia, John Benjamins, 2012,
73–110.
Octavio de Toledo y Huerta, Álvaro S., Un rasgo sintáctico del primer español moderno (ca. 1675–
1825): las relaciones interoracionales con ínterin (que), in: Fernández Alcaide, Marta/López
Serena, Araceli (edd.), Cuatrocientos años de la lengua del Quijote: estudios de historiogra-
fía e historia de la lengua española, Sevilla, Universidad de Sevilla, 2007, 421–442.
Octavio de Toledo y Huerta, Álvaro S., Un nuevo esquema adversativo en el primer español
moderno (h.1675–1825): la historia del nexo sino es, in: Company, Concepción/Moreno de
Alba, José G. (edd.), Actas del VII Congreso Internacional de Historia de la Lengua, vol. 1,
Madrid, Arco Libros, 2008, 877–908.
Octavio de Toledo y Huerta, Álvaro S., Entre gramaticalización, estructura informativa y tradicio-
nes discursivas: algo más sobre nada, in: Girón Alconchel, José Luis/Sáez Rivera, Daniel
(edd.), Procesos de gramaticalización en la historia del español, Madrid/Frankfurt am Main,
Iberoamericana/Vervuert, 2014, 263–319.
Octavio de Toledo y Huerta, Álvaro S., Espejismo de la frecuencia creciente: gramaticalización y
difusión del artículo ante oraciones sustantivas, RILCE 30:3 (2014), 916–958.
Octavio de Toledo y Huerta, Álvaro S., Antonio Muñoz y la sintaxis de la lengua literaria durante
el primer español moderno (ca. 1675–1825), in: Guzmán Riverón, Martha/Sáez Rivera,
Daniel M. (edd.), Márgenes y centros en el español del s. XVIII, Valencia, Tirant Lo Blanch,
2016, 201–299.
Octavio de Toledo y Huerta, Álvaro S./Pons Rodríguez, Lola, ¿Mezclando dos hablas? La imitación
de la lengua medieval castellana en la novela histórica del XIX, La Corónica 37 (2009),
157–183.
Octavio de Toledo y Huerta, Álvaro S./Rodríguez Molina, Javier, La necesaria distinción entre
texto y testimonio: el CORDE y los criterios de fiabilidad lingüística, Scriptum Digital 5,
2016.
Oesterreicher, Wulf , La historicidad del lenguaje: variación, diversidad y cambio lingüístico, in:
Bustos, José Jesús de/Girón, José Luis (edd.), Actas del VI Congreso Internacional de historia
de la Lengua Española, vol. 1, Madrid, Arco Libros, 2006, 137–158.
Oesterreicher, Wulf, Gramática histórica, tradiciones discursivas y variedades lingüísticas –
Esbozo programático, Revista de Historia de la Lengua Española 2 (2007), 109–128.
Pérez Magallón, Jesús, Hacia un nuevo discurso poético en el tiempo de los novatores, Bulletin
Hispanique 103 (2001), 449–480.
Pérez Magallón, Jesús, Construyendo la modernidad, la cultura española en el tiempo de los
novatores, (1675–1725), Madrid, CSIC, 2002.
Pérez Magallón, Jesús, Góngora y su ambigua apropiación en el tiempo de los novatores, Criticón
103–104 (2008), 119–130.
Pérez Magallón, Jesús, ¿Calderón y Zamora: un Barroco ilustrado?, Edad de Oro 31 (2012),
241–256.
Perona, José, Historias de la lengua, Revista de Investigación Lingüística 2 (2000), 355–378.
Pons Rodríguez, Lola, Canon, edición de textos e historia de la lengua cuatrocentista, in: Pons,
Lola (ed.), Historia de la lengua y crítica textual, Madrid/Frankfurt am Main, Iberoamerica-
na/Vervuert, 2006, 69–126.
Pons Rodríguez, Lola, Una reflexión sobre el cambio lingüístico en el siglo XV, in: Luque, Juan de
Dios (ed.), Actas del V Congreso Andaluz de Lingüística General, vol. 3, Granada, Granada
Lingvistica, 2006, 1563–1577.
88 Álvaro S. Octavio de Toledo y Huerta
Postma, Gertjan, The impact of failed changes, in: Breitbarth, Anne, et al. (edd.), Continuity and
change in grammar, Ámsterdam/Filadelfia, John Benjamins, 2010, 269–302.
Ramírez Luengo, José Luis, El pretérito de subjuntivo en la Venezuela de la Independencia:
alternancia –RA/–SE en el epistolario de Bolívar, Anuario de Lingüística Hispánica 17–18
(2002), 257–272.
Ramírez Luengo, José Luis (ed.), La lengua que hablaban los próceres: El español de América en
la época de las independencias, Buenos Aires, Voces del Sur, 2011.
Ramírez Luengo, José Luis (ed.), Por sendas ignoradas: estudios sobre el español del siglo XIX,
Lugo, Axac, 2012.
Ramírez Luengo, José Luis/Rubio Heras, Laura, Contribución al estudio de la oración condicional
en el siglo XVIII: el caso de Ramón de la Cruz, Res Diachronicae 2 (2003), 272–280.
Rodríguez Molina, Javier, La gramaticalización de los tiempos compuestos en español antiguo:
cinco cambios diacrónicos, Madrid, Universidad Autónoma de Madrid, 2010 (tesis doctoral).
Rojo, Guillermo, Sobre codificación y explotación de corpus textuales: otra comparación del
Corpus del Español con el CORDE y el CREA, Lingüística 24 (2010), 11–50.
Rojo, Guillermo, El papel de los corpus en el estudio de la historia del español, in: Montero
Cartelle, Emilio (ed.), Actas del IX Congreso Internacional de Historia de la Lengua Española,
vol. 1, Santiago de Compostela, Meubook, 2012, 433–444.
Rojo, Guillermo, Frecuencia de inventario y frecuencia de uso en los elementos gramaticales,
Revista Española de Lingüística 41:2 (2014), 5–43.
Rojo, Guillermo y Victoria Vázquez Rozas, Sobre las formas en -ra en el español de Galicia, in:
Enrique-Arias, Andrés, et al. (edd.), Perspectives in the study of Spanish language variation.
Papers in honor of Carmen Silva-Corvalán, Santiago de Compostela, Universidade de
Santiago de Compostela, 2014, 237–270.
Sáez Rivera, Daniel M., El doblado de clíticos en la obra de Francisco Sobrino, Res Diachronicae 2
(2003), 327–337.
Sáez Rivera, Daniel M., The interplay of object clitic doubling and the grammaticalization of
address forms in the genre of collections of letters in Spanish (Peliger, 1599; Páez, 1630;
Sobrino, 1720), in: Girón Alconchel, José Luis/Sáez Rivera, Daniel M. (edd.), Procesos de
gramaticalización en la historia del español. Madrid/Frankfurt am Main, Iberoamericana/
Vervuert, 2014, 321–360.
Sánchez Lancis, Carlos, Historia de la lengua, gramática histórica y periodización en español,
Estudi General 21 (2001), 395–412.
Sánchez Lancis, Carlos, Corpus diacrónicos y periodización del español, Cahiers d’Études
Hispaniques Médievales 32 (2009), 159–180.
Sánchez Lancis, Carlos, Periodización y cambio gramatical: el siglo XVIII, ¿frontera temporal del
español?, in: García Godoy, Mª Teresa (ed.), El español del siglo XVIII: cambios diacrónicos
en el primer español moderno, Berna et al., Peter Lang, 2012, 21–51.
Sánchez Marco, Cristina, Tracing the development of Spanish participial constructions: an empiri-
cal study in semantic change, Barcelona, Universitat Pompeu Fabra, 2012 (tesis doctoral).
Sánchez Martínez, Felipe/Martínez Sempere, Isabel/Ivars-Ribes, Xavier/Carrasco, Rafael C., An
open diachronic corpus of historical Spanish, Language Resources and Evaluation 47
(2013), 1327–1342.
Sánchez Méndez, Juan, Tiempos verbales y tipos de expresión condicional en documentos
coloniales novogradinos de los siglos XVII y XVIII, in: Montero Cartelle, Emilio (ed.), Actas
del IX Congreso Internacional de Historia de la Lengua Española, vol. 1, Santiago de
Compostela, Meubook, 2012, 1147–1158.
Aprovechamiento del CORDE para el estudio sintáctico del primer español moderno 89
1 Presentación1
En este trabajo se presentan algunas propuestas de reflexión sobre cuestiones que
creemos que son de debate en este momento en el campo de la lingüística de
corpus y más concretamente en el del diseño y construcción de estos.2 Dichas
reflexiones las hacemos a propósito de pensar en la manera de mejorar una nueva
versión del Corpus Informatitzat del Català Antic (CICA)3 de modo que la organiza-
ción de los materiales que lo configuran sea más eficiente y productiva y, a la vez,
pueda proporcionar la posibilidad de obtener datos de carácter lexicométrico que
alcancen cotas más interesantes que el puro recuento y distribución de frecuen-
cias. Estas reflexiones, a pesar de haber estado hechas para un corpus en particu-
lar, creemos que pueden ser extrapolables a los diseños de otros corpus textuales
y, en especial, a los de otros corpus histórico-diacrónicos.
En concreto, nos proponemos plantear una serie de consideraciones sobre
tres aspectos que creemos que pueden mejorar la construcción de algunos de los
corpus actuales y ser útiles si se tienen en cuenta en la elaboración de nuevos. Se
trata de: a) los criterios para la segmentación del eje diacrónico, b) el sistema para
establecer el reparto de los textos en los distintos apartados en que un corpus se
estructura, pensando en su representatividad, y c) cómo ofrecer información de la
riqueza léxica de los textos que componen un corpus y poderlos situar en una
escala de clasificación que permita establecer comparaciones entre ellos. A estos
tres puntos que aquí se plantean, inconexos a primera vista, les une la finalidad
de querer avanzar en algunos aspectos y ofrecer nuevas aportaciones en el campo
del diseño de corpus, siempre pensando en que en esta disciplina, la de la
lingüística de corpus, como en todas, constantemente se puede mejorar y buscar
nuevas posibilidades.
6 Es muy difícil equilibrar de manera completa los distintos ejes de un corpus, puesto que
cuando se equilibra uno, si no se está atento, se desequilibran los otros.
94 Joan Torruella
A – Prosa de ficción
B – Crónicas y obras historiográficas
C – Obras religiosas y morales
D – Prosa de la cancillería
E – Textos administrativos
F – Textos jurídicos
G – Libros de corte
H – Textos científicos y técnicos
I – Epistolarios y dietarios
J – Poesía
L – Obras gramaticales y lexicográficas
Tres propuestas en el ámbito de la lingüística de corpus 95
Aunque para el establecimiento del eje diacrónico y para el del eje tipológico se
han usado criterios extralingüísticos, en el caso del eje dialectal esto no ha sido
posible, puesto que el lugar de la copia o la zona geográfica del autor no son
elementos válidos para determinar la variedad dialectal de una obra. Por ello, en
este caso, para clasificar las obras se ha tenido que recurrir a criterios lingüísticos
sustentados en el análisis previo de las características dialectales de cada obra.
Por este motivo, el eje dialectal del CICA está estructurado siguiendo las divisiones
dialectales actuales establecidas en el siglo XIX y a principios del XX. De esta
manera el eje se organiza en dos grandes bloques: Catalán oriental y Catalán
occidental, con diferentes apartados en cada bloque. De todos modos, se debe
considerar que el catalán no es una lengua que en sus escritos presente grandes
diferencias dialectales, ya que «es uno de los idiomas más unitarios de la Romania
[. . .]; las diferencias que se observan están en función de la cronología de la
redacción más que de la procedencia geográfica de los autores» (Veny 1998, 11).
Con todo, el eje presenta los siguientes apartados:
CAT = Català
Oc = Occidental
NO = Nord occidental
V = Valencià
Or = Oriental
A = Alguerès
S = Septentrional
B = Balear
C = Central
7 En algunos pocos casos que considerábamos que una obra era importante que estuviese
presente en el corpus y no se podía disponer (por no existir) de una copia «contemporánea», se
ha incluido al corpus una copia más tardía advirtiendo de ello en su ficha de filiación.
98 Joan Torruella
si la distribución temporal es importante (y, sin duda, lo es), lo lógico sería estructurar en
períodos que se correspondieran con los habitualmente utilizados en los trabajos sobre
historia del español. Todavía mejor: dado que esa estructuración resulta siempre discutible
y los elementos evolucionan en épocas distintas y a ritmos diferentes, lo realmente útil y lo
único adecuado a las cambiantes necesidades de la investigación es que la determinación
de las fechas esté abierta a lo que precise quien hace la consulta y no que sea establecida de
modo innegociable simplemente porque esa es la única forma de poder precalcular las
frecuencias de cada tramo.
De todos modos, en el caso del CICA, finalmente, a pesar de estar de acuerdo con
los argumentos de Guillermo Rojo, después de sopesar pros y contras de cada uno
de los dos sistemas, el de franjas temporales establecidas o el de fechas abiertas,
nos hemos decantado por el primero, puesto que el sistema abierto implica que
todos los documentos que componen el corpus deben ir datados con una fecha
precisa, cosa que, al tratarse de un corpus histórico que abarca desde los orígenes
de la lengua, en nuestro caso no es posible, debido a que de una buena parte de
los documentos que usamos no sabemos la fecha exacta de su redacción y
solamente podemos saber su fecha aproximada (más aún cuando usamos la fecha
del documento que utilizamos y no la fecha en que se redactó el original). Lo ideal
sería que todos los documentos componentes de un corpus tuvieran una fecha
concreta, pero, siendo realistas, en el caso de la mayoría de corpus históricos esto
obligaría a dejar aparte un sinfín de documentos, algunos de ellos de gran interés,
de los que se desconoce la fecha exacta en que se copió.
del universo lingüístico (la población en términos estadísticos) que quiere repre-
sentar. Para que un corpus refleje a partir de las distintas muestras que lo
componen las características del total de la población, tiene que basarse en la
representatividad de sus componentes. Así, un corpus, para ser apto para trabajos
científicos, ha de mostrar, a partir de la suma de las particularidades de cada
apartado en que está estructurado, las características del universo lingüístico que
quiere simbolizar. Por ello, cuando se diseña el corpus y especialmente cuando se
organiza la selección de las obras que lo van a configurar, se debe pensar en que
estas serán la base que permitirá que los estudios que se hagan a partir de él se
sustenten sobre datos empíricos cuantificables.
En la concepción de un corpus la representatividad es un componente muy
importante, ya que valida las investigaciones realizadas a partir de este. Tal
como ya advirtieron en su momento Biber, Conrad y Reppen (1998, 246), «the
representativeness of the corpus, in turn, determines the kinds of research
questions that can be addressed and the generalizability of the results of the
research».
Sin embargo, en el tema de la representatividad de los corpus y especial-
mente de los corpus históricos, lo primero que debemos plantearnos es la
capacidad representativa que estos pueden tener, puesto que, al estar limitados
a utilizar solamente textos escritos, hemos de cuestionarnos forzosamente si el
hecho de estudiar la lengua a partir de material escrito es estudiarla en su
manifestación más natural y, consecuentemente, si ello posibilita extraer con-
clusiones respecto de la lengua en general. En este sentido, ya Chafe (1992, 88)
pronunció que
speaking is natural to the human organism in ways that writing can never be. It is plausible
to suppose that humans are ‹wired up› to speak and listen, than the evolution of speech was
inextricably interwoven with the physical evolution of our species. The same cannot be true
of writing. It is only for a brief moment in the scale of evolution that writing has been with us
at all, and widespread literacy, extending beyond a few scribes or a small elite, is more
recent still.
El texto escrito, aunque sólo sea por la distancia comunicativa entre emisor y
receptor, suele ser más formal y está más controlado que el acto de hablar, que,
por su naturaleza, implica proximidad comunicativa y una relación diferente
entre emisor y receptor.8 En este sentido se debe tener presente que, según la
8 Claro está que existen diferentes niveles de formalidad que implican una mayor o menor
aproximación al lenguaje más natural o a lo que en realidad fué la lengua hablada, aunque
nunca se puede tener el testimonio auténtico de la lengua hablada, porque, como han demos-
trado Eberenz/La Torre (2003), ni las transcripciones de diálogos habidos en juicios conservadas
100 Joan Torruella
teoría del cambio lingüístico, gran parte de las innovaciones lingüísticas suelen
tener su origen en registros no formales, de difusión oral, para extenderse poste-
riormente a los registros más formales de difusión escrita.
Además, el problema de la representatividad de los corpus históricos es
mayor si pensamos en que podemos disponer solamente de textos escritos y, de
entre estos, únicamente de aquellos que se han conservado (una número muy
pequeño en algunas épocas).
Diversos autores han cuestionado la representatividad de los corpus por
diferentes motivos, entre ellos:9
en las actas de los procesos se libran de «las manipulaciones que los escribanos someten tales
secuencias» (Eberenz/La Torre 2003, 12).
9 Para una descripción más completa y detallada de cada uno de estos argumentos, véase
Torruella (en prensa).
Tres propuestas en el ámbito de la lingüística de corpus 101
The concept of representativeness of a diachronic corpus has not been discussed in great
detail so far, but it seems that in the end it can only be based on the body of preserved texts
and the authenticity of those included in the corpus. However, the linking up of representa-
tiveness of diachronic corpora to the body of preserved texts means that the corpora reflect,
in fact, the skewed stylistic, genre and other proportions in the body of texts rather than the
characteristics of the real language of the time. This holds especially for the early periods of
history of languages, where the number of texts is usually very limited and very often of the
kind which was undoubtedly far removed from common communication (particularly texts
written in verse).
Con todo, no nos debemos desanimar por estos inconvenientes; a pesar de ellos,
tenemos que seguir intentando alcanzar la máxima representatividad posible en
la construcción de corpus históricos. Los inconvenientes presentados son aspec-
tos que se deben tener en mente a la hora de crear un corpus y, sobre todo, a la
hora de explotarlo, aceptando de entrada que la representatividad total es sola-
mente una ilusión y que nos debemos conformar, con una representatividad
condicionada, cosa que en muchos casos no es poco.10
Siguiendo con el tema de la representatividad, sabemos que en lingüística se
relaciona con el valor que tiene este término en sociología, el cual,
10 No es así en el caso de los corpus cerrados en los que se puede disponer de la totalidad del
material que existió. Por ejemplo, un corpus para estudiar la lengua literaria de Don Camilo José
Cela sí que puede contener todas las obras que este autor escribió.
102 Joan Torruella
– Representatividad
– Representatividad cualitativa
– Calidad de las muestras
– Diversificación de las muestras
– Representatividad cuantitativa
– Equilibrio externo: relación entre el número de muestras y la población
– Equilibrio interno: relación del número de muestras entre apartados
– Proporcional
– Equivalente
Tres propuestas en el ámbito de la lingüística de corpus 103
11 Se tiene que tener en cuenta que, si bien el equilibrio de un corpus suele establecerse a partir
del número de palabras contenidas en sus distintos apartados, también es conveniente procurar
un cierto equilibrio en cuanto al número de textos del que se extraen estas palabras. No es
aconsejable que un apartado esté compuesto por pocos textos de gran extensión sino que es
preferible que esté formado por un buen número de textos aunque sean de extensión más
reducida.
12 Sin embargo, el equilibrio entre todos los apartados de un corpus histórico no siempre es
posible, puesto que, a veces, por falta de material, no se puede disponer del volumen de obras o
de palabras necesarias para llegar a la cantidad mínima requerida establecida por la estadística.
En la mayoría de las lenguas románicas, por ejemplo, para las etapas anteriores a la segunda
mitad del siglo XIII no existen suficientes obras que permitan llegar a un número de palabras
aceptable para cada uno de los apartados de los distintos ejes que configuran el corpus. Cuando
el número de muestras posibles es pequeño e insuficiente, los resultados obtenidos se deben
considerar solamente indicativos de una posible tendencia pero no permiten hacer extrapola-
ciones de las características de la lengua ni comparaciones entre apartados.
104 Joan Torruella
que estime más adecuadas según sus conocimientos y necesidades. Sin embargo,
cuando el corpus es pequeño, los diseñadores son los que tienen que procurar
que, ya sea de manera proporcional o ya sea de manera equivalente, cumpla este
requisito, puesto que el usuario no tiene mucho margen de selección si quiere que
los resultados sean representativos.
¿Cuál de los dos sistemas, el proporcional o el equivalente, es el más apropia-
do? Al ser el CICA un corpus histórico y diacrónico dedicado a la lengua en
general difícilmente se puede saber el volumen total que tendría la población en
el uso real de la lengua (tendiendo al infinito), y, como es obvio, si no se conoce
el total no se puede establecer la proporción, por lo que no es posible precisar
ningún tanto por ciento para delimitar las muestras necesarias para que sean
representativas. Por ello, en el CICA, a la hora de establecer el volumen de las
muestras en los distintos apartados de los ejes diacrónico y tipológico, se ha
aplicado el sistema de correspondencia «equivalente», es decir, un número de
muestras iguales (o parecidas) en cada uno de ellos. En cambio, en el eje
dialectal, se ha aplicado el sistema de correspondencia «proporcional» a partir de
toda la producción que nos ha llegado, considerando que puede haber alguna
relación entre el peso de la producción en cada variedad y el total de la lengua.
5 Riqueza léxica
Otro tema de reflexión metodológica general acerca de los corpus es cómo
representar la riqueza léxica de la lengua que se refleja en sus textos tanto a nivel
individual como en relación con todos los otros textos que componen el corpus.
En el campo de la lingüística cuantitativa, y más concretamente en el de la
lexicometría, la medida de la riqueza léxica es un tema tratado bastante amplia-
mente. Diferentes autores han desarrollado su propuesta de índice para poder
resumir con la simplicidad de un número la complejidad lingüística de un texto,
de manera que se puedan ordenar y comparar los diversos textos que componen
un corpus según la profusión de su vocabulario.
Existen diversas denominaciones y matices a este respecto: variación o diver-
sidad léxica, que tiene que ver con la medida de la variedad del vocabulario;
sofisticación léxica, que se refiere a la selección de vocabulario de frecuencia baja;
densidad léxica, que trabaja con la proporción entre palabras con contenido y
palabras funcionales, etc. Sin embargo, no entraremos aquí en este tema y
consideraremos la riqueza léxica como la abundancia de vocabulario que tiene un
texto.
Las diferentes propuestas de medición de la riqueza léxica están encamina-
das no a ser aplicadas a textos de manera individual sino para poderse utilizar en
106 Joan Torruella
Para poder seleccionar los índices que después de las pruebas realizadas a
nuestro parecer se adaptan mejor para establecer comparaciones entre textos, se
definieron tres cualidades que creíamos importantes que tuviesen los índices:
estabilidad, sensibilidad y coherencia. Así, tal como se expone en Capsada /
Torruella (en prensa), un buen índice:
1. Debe ser estable, esto es, que para un texto determinado su valor se ha de mantener
constante independientemente del tamaño de la muestra.
2. Debe ser sensible, es decir, debe poder tomar una gama con una gradación de valores
suficientemente amplia que permita diferenciar todos los textos, también los que
tengan riqueza similar.
3. Debe ser coherente con los demás índices, de manera que los valores de un buen índice
calculados en conjuntos amplios de textos deben estar fuertemente relacionados con
los valores obtenidos con otros índices buenos, y no lo deben estar con los valores de
índices no buenos.
16 Sin ánimo de ser exhaustivos, en nuestro trabajo se analizaron 16 índices diferentes para
medir la riqueza léxica de un texto: TTR, RTTR, CTTR, Herdan, Somers, Maas, Dugast, Honoré,
MSTTR, MATTR, MTLD, parámetro D, HD-D, Z de Zipf, Sichel y K de Yule.
17 Para más detalles sobre el proceso de selección, véase Capsada y Torruella (en prensa).
108 Joan Torruella
1. Para cada uno de los cinco índices se calculan los resultados y se hace una ordenación
de todos los textos del corpus de menor a mayor según el valor que tiene cada uno en el
índice.
2. Como consecuencia, a cada texto se le asocian cinco números de orden según las
ordenaciones obtenidas en cada índice.
3. Para cada texto, se calcula la media aritmética de estos cinco números de orden. A esta
media la llamamos Número de Orden Medio en el Corpus (NOMC).
4. Se ejecuta una nueva ordenación de todos los textos del corpus, de menor a mayor
según el NOMC. El número de orden que corresponde a cada texto según esta nueva
ordenación lo llamamos Número de Orden Medio en el Corpus Relativo (NOMCr).
5. Para estandarizar este nuevo índice y conseguir una referencia convencional que
permita observar qué posición relativa tiene cada texto respecto a la totalidad del
corpus, se convierte el valor del NOMCr de cada texto en percentiles según el cálculo
que se indica a continuación. A este número lo llamamos Número de Orden Medio en el
Corpus Percentil (NOMC %).
NOMCr
N O M C % = N: total textos · 100
18 Valor que divide un conjunto ordenado de datos estadísticos de forma que un porcentaje de
tales datos sea inferior a dicho valor. Así, un individuo en el percentil 80 está por encima del
80 % del grupo a que pertenece (DRAE, sv. percentil). De esta manera, por ejemplo, hablando del
parámetro riqueza léxica, en un corpus, cuando un texto ocupa el percentil «x» significa que un
«x %» de textos del corpus tienen una riqueza léxica igual o menor que él y que un «(100 – x) %»
tienen una riqueza léxica superior.
Tres propuestas en el ámbito de la lingüística de corpus 109
Una vez establecida la posición de cada texto en relación a los demás textos
del corpus, para poder atribuir un calificativo al nivel de calidad de la riqueza
léxica de los distintos textos, se han establecido 7 niveles de riqueza léxica, uno
central y tres por encima y tres por debajo, colocados simétricamente (véase el
gráfico siguiente). Este tipo de clasificación, que está inspirado en la escala de
Wechsler, puesto que utiliza el número de desviaciones típicas que el valor del
índice está alejado respecto a la media, ha sido propuesto y utilizado por diversos
autores para clasificar en diferentes grados los valores de variables estadísticas
que siguen una distribución Normal, especialmente en el campo de la psicología
para establecer escalas de medición del nivel de inteligencia.
En el gráfico siguiente se representa la distribución Normal a partir de los
números obtenidos en los 414 textos que componen el CICA, con estas 7 zonas.
19 La desviación típica mide la dispersión de los diferentes valores de una variable, es decir, si
son muy diferentes o muy iguales entre sí, y lo hace calculando cuál es por término medio la
desviación de cada valor de la variable respecto a su valor medio.
110 Joan Torruella
6 Conclusiones
La lingüística de corpus es una disciplina relativamente nueva, con metodología
y presupuestos teóricos propios, que ha cambiado enormemente la manera de
llevar a cabo los estudios lingüísticos. Precisamente, por ser nueva, en muchos
aspectos se encuentra aún en una fase de experimentación y revisión de sus
postulados. Sin embargo, la novedad de la disciplina ha provocado que a veces
estructuremos y usemos los corpus un poco irreflexivamente, sin que previa-
mente se haya hecho una especulación sobre las posibilidades y los peligros que
su uso indiscriminado puede acarrear y sin tener en cuenta las características del
diseño de cada corpus. Como consecuencia de esto, puede que en la explotación
de corpus se lleguen a obtener resultados no representativos y a interpretar
erróneamente los datos obtenidos.
En este trabajo hemos querido aportar algunas reflexiones referidas a cues-
tiones que se están debatiendo actualmente en el campo de la lingüística de
corpus, en general, y en el del diseño de corpus, en particular. Su aplicación
puede ayudar a que podamos disponer de corpus más representativos y fiables.
Las primeras reflexiones están referidas a los corpus que tratan la lengua en
general y, más concretamente, a los de carácter histórico-diacrónico. Este tipo de
Tres propuestas en el ámbito de la lingüística de corpus 111
7 Referencias bibliográficas
Arias, Beatríz/Hernández, Juan Antonio, Importancia de la incorporación de los parámetros
diastráticos y diafásicos en la elaboración del corpus electrónico del español colonial
mexicano, Scriptum Digital 2 (2013), 5–20.
Baker, M., Corpora in Translation Studies: An Overview and Suggestions for Future Research,
Target 7:2 (1995), 223–244.
Biber, Douglas, Representativeness in Corpus Design, Literary and Linguistic Computing 8:4
(1993), 243–257.
Biber, Douglas/Conrad, Susan/Reppen, Randi, Corpus Linguistics. Investigating Language
Structure and Use, Cambridge, Cambridge University Press, 1998.
Capsada, Ramon/Joan Torruella, Métodos para medir la riqueza léxica de un texto. Revisión y
propuesta. Aplicación en el Corpus Informatizado del Catalán Antiguo, (en prensa).
Caravedo, Rocío, Gramática española: enseñanza e investigación. Apuntes metodológicos. Lin-
güística del corpus. Cuestiones teórico-metodológicas aplicadas al español, Salamanca,
Ediciones Universidad de Salamanca, 1999.
Chafe, Wallace, The importance of corpus linguistics to understanding the nature of language,
in: Svartvik, Jan (ed.), Directions in Corpus Linguistics (Proceedings of Nobel Symposium 82,
Stockholm, 4–8 August, 1991), Berlin/New York, Mouton de Gruyter, 1992, 79–97.
CICA – Corpus informatitzat del català antic, Joan Torruella, M. Pérez Saldanya y J. Martines
(dirs.). http://www.cica.cat.
CORDE – REAL ACADEMIA ESPAÑOLA: Banco de datos (CORDE) [en línea]. Corpus diacrónico del
español. http://www.rae.es.
Enrique-Arias, Andrés, Biblia medieval: diseño y aplicación de un corpus paralelo y alineado del
español medieval, in: Montero, Emilio (ed.), Actas del VIII Congreso Internacional de
Historia de la lengua española (Santiago de compostela, 14–18 de setiembre de 2009), vol.
I, Santiago de Compostela, Meubook, 2012, 421–431 (= 2012a).
Enrique-Arias, Andrés, Dos problemas en el uso de corpus discrónicos del español: perpectiva y
comparabilidad, Scriptum Digital, 1 (2012), 85–106 (= 2012b).
Fernández-Ordóñez, Inés, La historiografía medieval como fuente de datos lingüísticos. Tradi-
ciones consolidadas y rupturas necesarias, in: Bustos Tovar, José Jesús de/Girón, José Luis
112 Joan Torruella
(edd.), Actas del VI Congreso Internacional de Historia de la Lengua Española, Madrid, Arco,
2006.
Guerreau, Alain, École d’été Création et utilisation de corpus de textes médiévaux. COST:
European Cooperation in Science and Technology, 2014.
Jacob, Daniel, ¿Representatividad lingüística o autonomía pragmática del texto antiguo? El
ejemplo del pasado compuesto, in: Jacob Daniel/Kabatek, Johannes (edd.), Lengua medie-
val y tradiciones discursivas en la Península Ibérica: descripción gramatical – pragmática
histórica – metodología, Frankfurt am Main/Madrid, Vervuert/Iberoamericana, 2001,
153–176.
Kabatek, Johannes, Nuevos rumbos en la sintaxis histórica, in: Actas del VIII Congreso Internacio-
nal de Historia de la Lengua Española, vol. I, Santiago de Compostela, Meubook, 2013,
77–100 (= 2013a).
Kabatek, Johannes, ¿Es posible una lingüística histórica basada en un corpus representativo?,
Iberoromania 77 (2013), 8–28 (= 2013b).
Kučera, Karel, Mapping the Time Continuum: A Major Raison D’être for Diachronic Corpora, in:
Matthew, Davies/Rayson, Paul/Hunston, Susan/Danielsson, Pernilla (edd.), Proceedings
of the Corpus Linguistics Conference CL2007, University of Birmingham, 2007,
http://ucrel.lancs.ac.uk/publications/CL2007.
Marcos Marín, Francisco, Spanisch: Periodisierung. Periodización, in: Holtus, Günter/Metzeltin,
Michael/Schmitt, Christian (edd.), Lexikon der Romanistischen Linguistik, Band VI, 1, Tübin-
gen, Max Niemeyer, 1992, 602–607.
Parodi, Giovanni, Lingüistica de corpus: una introduccion al ambito, Revista de Lingüística
Teórica y Aplicada 46:1 (2008), 93–119.
Rojo, Guillermo, Sobre codificación y explotación de corpus textuales: Otra comparación del
Corpus del español con el CORDE y el CREA, Lingüística, 24 (2010), 11–50.
Sánchez, Aquilino, Definición e historia de los corpus, in: Sánchez, Aquilino, et al. (edd.),
Cumbre: Corpus lingüístico del español contemporáneo, fundamentos, metodología y apli-
caciones, Madrid, SGEL, 1995, 7–24.
Sánchez-Prieto Borja, Pedro, Un corpus para el estudio integral de fuentes documentales
(CODEA), in: Montero, Emilio (ed.), Actas del VIII Congreso Internacional de Historia de la
lengua española (Santiago de compostela, 14–18 de setiembre de 2009), vol. I, Santiago de
Compostela, Meubook, 2012.
Torruella, Joan, Lingüística de corpus: génesis y bases metodológicas de los corpus (históricos)
para la investigación en lingüística, (en preparación).
Veny, Joan, Els parlars catalans (síntesi de dialectologia), Mallorca, Moll, 1998.
II. Corpus iberorrománicos
Rosario Álvarez y Ernesto González Seoane
Iluminar los Séculos Escuros: Gondomar, un
corpus para el estudio del gallego en la Edad
Moderna
1 Introducción1
En la historiografía lingüística y literaria gallega viene empleándose la etiqueta
de Séculos Escuros para designar el período de tres siglos comprendido entre el
final de la Edad Media y los inicios de la Edad Contemporánea. Esta denomina-
ción contrasta aguda y dolorosamente con las etiquetas, de connotaciones ine-
quívocamente positivas, que estos mismos siglos reciben en otras tradiciones
historiográficas nacionales o internacionales (Renacimiento, Siglo de Oro, Siglo de
las Luces, Edad Moderna. . .).
La oscuridad a que se refiere esta denominación hace referencia, como es
sabido, a la pérdida de visibilidad del gallego que deriva de la práctica desapari-
ción de su cultivo como lengua literaria y, más en general, como lengua escrita.
Esta desaparición lleva además aparejada una fuerte estigmatización social,
algunos de cuyos efectos todavía son perceptibles hoy en día.
Este apagamiento coincide, por otra parte, con el período en que se gestaron
muchos de los rasgos lingüísticos que acabarían cristalizando en el gallego actual
(en sus diferentes registros y variedades), y en el que se consolidaron algunas
formas y tendencias ya apuntadas en el gallego medieval. De otra parte, es
también este el período en que se acentúa el distanciamiento del gallego con
respecto al portugués.
Ni que decir tiene que la escasez de testimonios complica enormemente el
trabajo de descripción, datación y análisis de estas transformaciones. Por esta
razón, para llenar en lo posible este vacío y, sobre todo, para construir un marco
general que nos permita interpretar adecuadamente los datos de que disponemos,
por escasos que estos sean, surge el proyecto Gondomar. Corpus dixital de textos
galegos da Idade Moderna. En las páginas que siguen trataremos de abordar
algunos de los problemas que entraña la definición y construcción del corpus,
dirigiendo nuestra atención en una doble dirección, y deteniéndonos, por una
parte, en la caracterización de los textos que lo integran, en la definición de los
parámetros que deben ser tenidos en cuenta a la hora de realizar una clasificación
tipológica aplicable a ellos y en las implicaciones de carácter lingüístico que se
derivan de la diversidad de tipos de texto existente; por otra, en el análisis de
algunas muestras relevantes de cómo el trabajo sistemático con estos textos puede
arrojar luz sobre la génesis y datación de fenómenos lingüísticos de amplísima
difusión en el gallego actual o en alguna de sus variedades.
2 Los textos
2.1 Caracterización general
Tal como señalábamos poco más arriba, el nivel de cultivo alcanzado por el
gallego a lo largo de la Edad Moderna presenta unas cifras absolutas muy modes-
tas y, por otra parte, una trayectoria notoriamente irregular. El reducido volumen
de textos producidos (o conservados) en un período tan dilatado determina por sí
solo una muy baja densidad de textos por unidad de tiempo. Si además tenemos
en cuenta que la producción textual no se distribuye de manera homogénea a lo
largo del eje cronológico, podremos observar que existen numerosas lagunas
temporales, algunas de ellas muy extensas, para las que no contamos con ningún
testimonio directo.
Por otra parte, cabe decir que se trata de textos en su mayoría breves, muchos
de ellos poemas de unas pocas líneas, aunque con alguna que otra excepción
notable, entre las que destaca sin duda el Coloquio de veinticuatro gallegos
rústicos de Sarmiento, integrado por mil doscientas una coplas. Una buena parte
de ellos comparte el hecho de ser textos de circunstancias, creados para conme-
morar un acontecimiento destacado o bien para concurrir a un certamen, o
efímeros, concebidos específicamente para ser empleados en una celebración o
en una fecha señalada, pero no para ser conservados para la posteridad. De
hecho, solo el azar o la intervención providencial de personajes como el conde de
Gondomar, cuya pasión bibliófila le llevó a construir una monumental biblioteca
y archivo privados, posibilitó que algunos de estos textos efímeros consiguiera
sobrevivir.
Iluminar los Séculos Escuros 117
En otro orden de cosas, una buena parte de los textos que han conseguido
llegar hasta nosotros es de autor desconocido. En algunos casos, esta circunstan-
cia es consustancial al propio género o tradición textual. Tal es lo que acontece,
por ejemplo, con los villancicos. En otros, en cambio, la anonimia viene impuesta
de algún modo por la finalidad para la que el texto fue creado. Así se explica, por
ejemplo, que los textos efímeros, destinados para ser consumidos de forma
inmediata y en un acto único, sean también, por regla general, anónimos.
Por lo que se refiere a los autores conocidos, cabe destacar que se trata en
todos los casos de productores letrados, funcionarios algunos de ellos, como Juan
Gómez Tonel o Pedro Vázquez de Neira, al servicio de la Real Audiencia del Reino
de Galicia; pertenecientes a sectores eclesiásticos otros, como el Padre Sarmiento
o Diego Antonio Cernadas y Castro, cura de Fruíme, o, en fin, vinculados a casas
nobles, como es el caso de algunos autores del círculo del conde de Gondomar.
Todos ellos son cultivadores solo ocasionales de la escritura en gallego, casi
siempre autores de una única pieza, por más que algunos cuenten con obra
extensa en castellano.
En algunos casos, el empleo del gallego viene impuesto por la tradición
textual. Podría decirse que la adopción del gallego constituye una de las conven-
ciones del género. Esto es lo que sucede, muy notoriamente, en los villancicos en
gallego o de gallegos, pero también en los parlamentos en gallego (o en algo que
se le parece) insertados en entremeses y comedias, que permiten a los autores
caracterizar un personaje, un tipo humano estereotipado (el criado, arriero o
mozo de cuerda gallego que sirve en la capital). En otros casos, en cambio, y
singularmente en las piezas literarias de más porte o ambición, la adopción del
gallego entraña otras implicaciones que de ningún modo convendría ignorar,
pues, como indica Joseph (1987, 76), «literature begins at the moment of con-
sciousness of language as a vehicle that can be manipulated to produce qualitati-
ve effects». Por consiguiente, el empleo del gallego en determinadas piezas es
indicador de una convicción firme por parte de su autor acerca de su dignidad
estética y de su aptitud para ser vehículo de expresión de sentimientos elevados.
En este sentido, no es casual tampoco que un conjunto no despreciable de los
textos que conservamos aparezca vinculado a determinados círculos en los que es
dado suponer que la escritura en gallego era favorecida o, al menos, considerada.
Uno de ellos es, sin duda, el creado alrededor de la figura de Diego Sarmiento de
Acuña, primer conde de Gondomar. Él es, con toda seguridad, el promotor,
incitador, apreciador o coleccionista de diversas piezas literarias, como el Diálogo
de Alberte e Bieito (ca. 1600) o la Canción galega en loor de don Diego das Mariñas
Parragués (ca. 1594). Además, su querencia por el gallego es también lo que
explica que entre su correspondencia figure un pequeño número de cartas dirigi-
das a él redactadas completa o parcialmente en gallego.
118 Rosario Álvarez y Ernesto González Seoane
A este respecto, conviene tener presente, por una parte, que el tipo de texto puede
imponer ciertos elementos estructurales o formales. Piénsese, por ejemplo, en los
condicionantes métricos, rítmicos y estróficos de los textos poéticos, o en la
estructura recurrente que caracteriza los epistolares. Pero además, en ocasiones,
el género o tipo de texto puede propiciar la aparición de ciertas formas lingüísti-
cas, o dificultar la de otras. Así, por ejemplo, los textos teatrales y, en general, los
textos dialogados favorecen la aparición de formas de primera y segunda perso-
nas o de determinados tiempos verbales, como el imperativo, que en general
tienen más difícil encaje en textos narrativos puros. Del mismo modo, el tipo de
texto puede determinar la adopción por parte de su autor de una cierta variedad o
registro en función de su estrategia discursiva. Estas consideraciones tienen una
importancia especial en casos como el que nos ocupa, en que el cultivo de una
lengua aparece fuertemente restringido tanto cuantitativa como cualitativamente
a una serie muy limitada de tipos de texto.
A lo largo de las últimas décadas han sido muchas y muy diversas las
tentativas de clasificación de tipos de texto que se han propuesto, como muchos
son también los criterios empleados para fundamentarlas. Sí parece, en todo caso,
que la tendencia dominante en la actualidad apunta a la adopción de «enfoques
multinivel, capaces de considerar rasgos internos y externos» (Ciapuscio 1994,
16). No es nuestra pretensión abordar aquí un análisis crítico de estas propuestas,
y mucho menos proponer una clasificación con valor general. Nuestro objetivo en
este trabajo, mucho más modesto, consiste simplemente en identificar, con carác-
ter preliminar, los parámetros de clasificación que resultan pertinentes para la
identificación de tipos de texto dentro de nuestro corpus y señalar algunos
ejemplos que pueden resultar representativos. Somos conscientes, en todo caso,
120 Rosario Álvarez y Ernesto González Seoane
– Poesía culta, de corte académico, dentro de la que ocupa un lugar central la poesía de
circunstancias. Pertenecerían a este grupo las piezas compuestas para festejar un
acontecimiento gozoso o para lamentar uno luctuoso (como, por ejemplo, los sonetos
compuestos en 1612 con motivo de las exequias de la reina Doña Margarita), para
participar en justas y certámenes literarios (como los poemas que concurrieron a las
Fiestas Minervales celebradas en Santiago de Compostela en 1697), o simplemente para
halagar a un personaje poderoso (como la canción compuesta alrededor de 1594
en honor de Diego das Mariñas Parragués). Por más que en este grupo sea factible
encontrar algún que otro poema de temática religiosa, como el Romancillo da cea do
cordeiro (ca. 1680), o los versos compuestos a comienzos del siglo XVIII en honor de
Nosa Señora de Reza, los textos conservados son en su mayoría de naturaleza profana.
La poesía culta está representada prácticamente a lo largo de toda la Edad Moderna,
desde finales del siglo XVI hasta las postrimerías del siglo XVIII. En todo caso, cabe
señalar que la concentración de textos se incrementa a medida que avanzamos en el
tiempo, hasta alcanzar una mayor densidad en la segunda mitad del setecientos.
– Poesía popular y popularizante. Se trata por lo general de pequeñas piezas, mayorita-
riamente coplas, transmitidas oralmente y registradas por algún autor a lo largo del
período de referencia (cf. por ejemplo las registradas por diversos autores en la
segunda mitad del siglo XVIII recogidas en Blanco 1992). A ellas podrían añadírseles
las compuestas a imitación de este modelo, como las coplas que integran el Coloquio
de veinticuatro gallegos rústicos de Sarmiento (1746).
– Poesía cancioneril. Integrarían este grupo los poemas presentes en diversos cancione-
ros hispánicos, mayoritariamente castellanos, del siglo XVI. Se trata, por lo general, de
textos de transmisión dudosa, escritos en un gallego estereotipado o fuertemente
hibridado.
– Villancicos. Conforman este grupo las composiciones «en gallego» o «de gallegos» que
eran cantadas, sobre todo en Navidad y Reyes, en iglesias y catedrales, por lo general
fuera del territorio gallegófono, en España, Portugal o la América Hispánica. Aunque
los villancicos comparten algunas de las características señaladas a propósito de otros
grupos (transmisión irregular, hibridación lingüística y, ocasionalmente, intencionali-
dad paródica), constituyen una tradición bien diferenciada que, por esta razón, debe
ser mantenida como tipo aparte.
– Textos dramáticos y dialogados. Se trata de un género poco representado en el corpus.
De hecho, contamos únicamente con dos pequeñas piezas completas, el Diálogo de
Iluminar los Séculos Escuros 121
2.2.3 Autonomía
Otro parámetro sin duda relevante para una clasificación de los textos es su grado
de autonomía. Tomando como base este criterio podemos distinguir tres grupos:
– Textos autónomos, completos e independientes, que no forman parte de una obra más
extensa. En esta misma categoría se podrían integrar también los textos autónomos
que figuran en antologías o compilaciones de diverso tipo, pero que no mantienen una
relación formal o temática directa con otros textos contenidos en el mismo volumen.
Cabría incluir en esta categoría también obras como el Coloquio de Sarmiento, incluso
a pesar de tratarse de una obra concebida como punto de partida o pretexto para el
comentario filológico de las formas empleadas en sus coplas. De este modo, conside-
ramos que el Coloquio en sí mismo puede considerarse, tanto desde un punto de vista
formal como temático, una pieza autónoma, por más que su composición esté guiada
en buena medida por el propósito de seleccionar soluciones que den juego para el
comentario. Así, podría decirse que, contrariamente a lo que por lo general sucede, en
el caso de Sarmiento es el texto el que está al servicio de la glosa, y no la glosa al
servicio del texto.
– Textos autónomos integrados en antologías o volúmenes colectivos junto con otros
textos con los que comparten rasgos formales o temáticos. Tal sería el caso, por
ejemplo, de los sonetos incluidos en la Relación de las exequias de la reina doña
Margarita (1612) o de los romances gallegos que concurrieron al «asumpto segundo» de
las Fiestas Minervales de 1697.
Iluminar los Séculos Escuros 123
Nos encontramos, por tanto, ante un corpus textual no muy extenso, a pesar de
abarcar un amplio arco temporal de tres siglos, y muy heterogéneo, sea cual sea
el parámetro que utilicemos, de forma que en algunas de las posibles subclasifi-
caciones faltan muestras y en ninguna las hay en número suficiente para poder
definir un modelo de referencia; el problema de la escasez aumenta y muestra un
corpus verdaderamente lagunar si combinamos dos o más parámetros. De todos
modos, estas características determinan solo algunas de las dificultades de esta-
blecimiento del corpus.
124 Rosario Álvarez y Ernesto González Seoane
Uno de los problemas más graves para la constitución del corpus textual es la
dispersión física y la invisibilidad de sus piezas. Por lo general estos textos
sobrevivieron ocultos en archivos y bibliotecas, en su mayoría fuera de Galicia, de
modo que uno de los objetivos de Gondomar es hacer y ampliar el inventario,
localizando y dando a conocer nuevas muestras de escritura en esta época.
La dispersión física dificulta la búsqueda sistemática en archivos y bibliote-
cas. La observación de este corpus muestra hasta qué punto el marasmo de Galicia
en los Séculos Escuros fue perjudicial para su lengua y cultura, incluida la pérdida
de su patrimonio documental. El que se salvó de la destrucción se conserva con
frecuencia fuera de Galicia: bien por el traslado de los archivos familiares de las
grandes familias nobiliarias, que buscaron poder y fortuna más cerca de la corte o
que en sus sucesivas alianzas familiares dejaron de tener presencia en los domi-
nios gallegos; bien por el expolio de gran parte de los archivos eclesiásticos, sobre
todo a consecuencia de la expulsión de los jesuitas y de la desamortización; bien
por otras acciones públicas tendentes a concentrar la documentación de Galicia
en la meseta. Únase el hecho de que una buena parte de estos textos no fue
producida en Galicia (de forma singular, los villancicos) o no nació destinada a un
receptor residente en el país (por ejemplo, la correspondencia o las obras manus-
critas remitidas al conde de Gondomar).
Las razones de la invisibilidad son múltiples, pero creemos necesario señalar
el escaso valor como objeto patrimonial y la recurrente falta de autonomía, por lo
que los textos forman parte de cartapacios misceláneos, facticios con diversos
grados de homogeneidad, colecciones documentales no clasificadas o, simple-
mente, anotaciones usando los huecos en blanco en la obra principal; por eso no
son catalogados como piezas autónomas y solo merecen una anotación en fichas
catalográficas muy elaboradas. Contribuye al ocultamiento el hecho de no ser
literarios o ser muestras de literatura efímera, de estar en buena parte manuscritos
(autógrafos o copias) y de no estar pensados para la difusión pública o, por lo
menos, no a través de edición autónoma. Valgan como ejemplos una hoja que
contiene un poema en gallego (el Romancillo ya aludido, ca. 1680) en un volumen
de 248 páginas manuscritas titulado Poesías varias escritas principalmente por
jesuitas, compilado probablemente en Aragón, del que, por fortuna, el catálogo de
la Biblioteca Nacional de España (Mss/4103) advierte «Algunos textos en latín,
catalán y gallego»; el poema satírico dedicado a María Pita (1619–1620), ejercicio
con que entretiene las horas muertas el escribano que toma notas durante un
juicio y que por eso quedó ligado al expediente; un villancico que es el tercero en
el folleto publicado como Divinos elogios, alegres villancicos que al nacimiento
del maior senor, al Dios humano cantò la Capilla de la parrochia de la Virgen
siempre santa Maria, cantados e impresos en Écija, en 1640; o el fragmento en
gallego, puesto en boca de un hidalgo, que ocupa las páginas 118–119 del Theatro
Iluminar los Séculos Escuros 125
2 Queiro está dentro del sistema aunque debía ser muy infrecuente en la Edad Media, a juzgar
por el escaso número de atestaciones, solo 4, registradas en TMILG. Repárese en que gall. mod.
quero/queira es una excepción en el cumplimiento de la regla gramatical que iguala el tema de
las formas atemáticas, P1 del Presente de Indicativo y todo el Presente de Subjuntivo (collo e colla
/o/, caibo y caiba, fago y faga, vexo y vexa, veño y veña, etc.
3 Incluso en los más fácilmente clasificables como «gallego» se da en algún grado, al menos a
nivel gráfico y en palabras gramaticales muy frecuentes: es, lo, mi, etc.
Iluminar los Séculos Escuros 127
último documento es de 1577. Por lo que se refiere al TILG, según declaran los
responsables en las páginas descriptivas, «a versión actual inclúe 1.958 obras de
704 autores e autoras, producidas todas elas entre 1612 e 2013, e permite realizar
consultas nunha base integrada por máis de 26 millóns de palabras, correspon-
dentes a 95.409 lemas diferentes». Pues bien, los registros del TILG anteriores a
1800 suponen en cifras redondas el 0,1 % del corpus; únase a esta escasez el
hecho de que en el estado actual ninguno de los dos corpus incluye textos datados
entre 1577 y 1612.
Los datos anteriores pretenden mostrar hasta qué punto carecemos de fuen-
tes para describir el estado y evolución de la lengua gallega en una dilatada época
histórica en que se producen las grandes transformaciones que derivan en el
gallego moderno, tal y como lo conocemos hoy o desde principios del siglo XIX.
Compárese con la historia evolutiva de las lenguas más próximas, singularmente
el castellano y el portugués, y se comenzará a comprender la magnitud del
problema; si a esto le sumamos que la progresiva minorización del gallego desde
las últimas décadas de la Edad Media colocó esta lengua en una posición
subalterna respecto del español, y, por lo tanto, en situación de previsible
hibridación durante toda la Edad Moderna, la importancia del período se multi-
plica. Reconstruir la evolución lingüística del gallego durante estos algo más de
trescientos años requiere de algo más que de hipótesis: son necesarios datos,
testimonios, fuentes fiables. Por ello, es preciso localizar todos los textos que
lograron sobrevivir, editarlos con el máximo rigor, difundirlos y elaborar recursos
a partir de ellos.
Con el objetivo de mostrar la importancia lingüística de este corpus, que no
siempre se corresponde con la importancia artística ni patrimonial de las piezas
que lo integran, vamos a mostrar algunos testimonios que se comprueban en estos
textos y que ayudan a datar hechos lingüísticos. Seleccionamos para este fin tres
fenómenos de tipología diversa, ilustrados preferentemente con el testimonio de
textos que hasta el momento no fueron valorados debidamente por los estudiosos.
L’hiatus entre deux voyelles orales est évité par l’intercalation d’un i ou d’un u, par ex. a i
água (Nort et Centre) (Leite de Vasconcelos 1987, 77).
De esta solución fonética para resolver el encuentro /aa/, así como de su carácter
dialectal ya había dado cuenta Barretto (1671, 72–73):
He esta letra a fatal para os de entre Douro, & Minho, & Beyrões, siguindoselhe outro a
porque nã os podem pronunciar ambos ũ detras do outro, sẽ lhes meter de permeyo ũ y, &
assi havendo de dizer, a agua, a alma, infalivelmente hã de dizer ay agua, ay alma.
Pues bien, sin perjuicio de que sobre otros textos se puedan ofrecer dataciones
anteriores, nosotros daremos, a modo de ejemplo, estas dos que confirman y
anticipan la de Barretto. El primer testimonio procede del parlamento que hace en
gallego la representación de Lugo en la Comedia de la invención de la sortija,
representada en Monforte de Lemos en el año 1594. Los otros dos proceden de un
mismo villancico gallego cantado en la Navidad de 1666 en la Capela Real de
1. Ay, Xan, cata, non te enfermes / Nen sentencies con malicia, / Cata que ay alma perdes.
2. Garulho da minha y alma, / non choreis com tanto afeito / (. . .) / Ay, Ay, Ay, / tocay,
tocay, / a gaita do fole / que a y-alma me bolle.
5 Téngase presente que en el gallego hablado en Asturias la forma dominante es miroulo, sin
pérdida de la lateral, y por tanto sin el problema de la resolución de un encuentro de tres vocales.
Iluminar los Séculos Escuros 131
¿Cuándo comenzó este proceso? Hasta fechas muy recientes, veníamos dan-
do como registro más antiguo botouno ‘lo echó’, en la Historia de don Servando
(ca. 1630), como destaca su editor:
3. Mirouno todo nas pallas Anton / o Neno dos Ceos o irse à deitar / e penado de velo
afrigido, / co a gaytiña o quer alegrar (Toledo 1656).
4. Mirouno todo nas pallas, Antón, / o neno dos ceos o irse deitar / e penado de velo
afligido, / coa gaitiña o quer alegrar (Segovia 1657).
5. No dia càtorce / dò mes e ano mesmo / que foy quinta feira / se bem che me lembro
(copla 267).
6. Elle tan bizarro / anque è pasteleiro / que dobrons á pote / gastòu sen receo (copla 725).
7. et nõ lles faças nẽhũu mal, ca elles nõ che am y culpa nẽhũa (Lorenzo 1975, 129).
Pues bien, también en este caso nuestro corpus textual ofrece ejemplos con que
llenar el vacío e iluminar la lengua de los Séculos Escuros, como se puede
comprobar en la siguiente muestra. El primero procede del Diálogo de Alberte e
Bieito (ca. 1600): de los 10 registros de che en el texto, solo dos escapan a este
uso, en nuestra opinión en consonancia con la caracterización popular y colo-
quial que el autor quiso imprimir a todo el texto (Álvarez/Montederramo 2002,
265, 292). El segundo, procedente de un villancico cantado en Lisboa en la
Navidad de 1640 (Lapa 1930, 35), es dudoso: en la interpretación más probable,
que nosotros sostenemos, es un complemento de solidaridad, pero también
podría tratarse de un benefactario (‘para vós’). El tercero, con un verso repetido
en cinco estrofas diferentes, procede de un villancico cantado en Jerez de la
Frontera en la Navidad de 1649; «dochome» debe ser interpretado como dóu-
cheme:7
3 Conclusión
En las páginas anteriores nos hemos ocupado de la caracterización del corpus
textual producido en lengua gallega durante los Séculos Escuros, hasta donde ha
podido ser ya desvelado, así como de mostrar su extraordinario valor como fuente
de información con que lingüistas y filólogos puedan abalizar tres siglos de
oscuridad.
7 Cf., por exemplo, «¡Ai Canté! pero doume a Dios si a ti te deixan emprensar nada; nin ti sabes
parolá-lo para levar a pór no deáreo» (Diálogo en la Alameda 1836, apud TILG).
134 Rosario Álvarez y Ernesto González Seoane
4 Referencias bibliográficas
Álvarez, Rosario, O complemento de solidariedade. A complicidade entre os interlocutores, in:
Fernández Salgado, Benigno (ed.), Proceedings of the 4th International Conference of
Galician Studies/Actas do IV Congreso Internacional de Estudios Galegos (Universidade
de Oxford, 26–28 Setembro 1994), vol. 1, Oxford, Center for Galician Studies, 1997, 37–53.
Álvarez, Rosario/González Seoane, Ernesto, O «romancillo» da cea do cordeiro, texto galego do
século XVII, in: Dubert García, Francisco/Rei-Doval, Gabriel/Sousa, Xulio (edd.), En memoria
de tanto miragre. Estudos dedicados ó profesor David Mackenzie, Santiago de Compostela,
Universidade de Santiago de Compostela, 2015, 21–40.
Álvarez, Rosario/Rodríguez Montederramo, Xosé Luís, O «Diálogo de Alberte e Bieito». Drama-
turxia, elites letradas e escrita en galego a fins do século XVI, Boletín da Real Academia
Galega 363 (2002), 241–311.
Álvarez Blázquez, Xosé María, Escolma de poesía galega, 4 vol., Vigo, Galaxia, 1959.
Barretto, Joam Franco, Ortografia da Lingua Portugueza, Lisboa, Officina de Joam da Costa,
1671.
Blanco, Domingo, Textos do século XVIII, in: Blanco, Domingo, A poesía popular en Galicia
(1745–1885), vol. 1, Vigo, Xerais, 1992, 119–144.
Bouza Álvarez, Fernando, Dar Galicia y el gallego a la imprenta: As Galegadas y A História de
Galicia de Lobariñas Feijoo, La Verdadera descripción de Ojea y algunas iniciativas histori-
gráficas de la primera mitad del siglo XVII, Obradoiro de historia moderna 18 (2009), 9–49.
Castro, Rosalía de, Cantares Gallegos, Vigo, Imp. de D. Juan Compañel, 1863.
Ciapuscio, Guiomar Elena, Tipos textuales, Buenos Aires, Universidad de Buenos Aires, 1994.
Cortijo Ocaña, Antonio, Un texto galego descoñecido do século XVI: a «Comedia de la invención
de la sortija» da Bancroft Library (Berkeley), Anuario de Estudios Literarios Galegos (2001),
17–49.
Farias de Souza, Cecilia, Estudos em corpora de dados do pronome dativo galego, in: Actas do I
Encontro Brasileiro de Estudos Galegos. Homenaxe a Rosário Suárez Albán, Salvador
(Bahia, Brasil), 13 a 15 de abril de 2015 (en prensa).
Gonçalves Viana, Aniceto dos Reis, Essai de phonétique et de phonologie de la langue portugaise
d’après le dialecte actuel de Lisbonne, Boletim de Filologia 7:2 2(1941), 161–243 (Roma-
nia 12, 1883, 29–98).
González Montañés, Julio I., La égloga «De Virgine Deipara» y el teatro de los jesuitas en Galicia
durante la Edad Moderna, Anuario del Instituto Ignacio de Loyola/Loiolako Inazio Institu-
tuen Urtekaria 14 (2007), 247–286.
Joseph, John Earl, Eloquence and power. The rise of language standards and standard langua-
ges, London, Frances Pinter, 1987.
Kabatek, Johannes, Tradiciones discursivas y cambio lingüístico, in: Ciapuscio, Guiomar, et al.
(edd.), Sincronía y diacronía de tradiciones discursivas en Latinoamérica, Madrid, Iberoa-
mericana/Vervuert, 2006, 151–172.
Kabatek, Johannes, Las tradiciones discursivas entre conservación e innovación, Rivista di
Filologia e Letterature Ispaniche 10 (2007), 331–345.
Kloss, Heinz, «Abstand languages» and «Ausbau languages», Anthropological Linguistics 9:7
(1967), 29–41.
Lapa, Manuel Rodrigues, Os vilancicos. O vilancico galego nos séculos XVII e XVIII, Lisboa, Seara
Nova, 1930.
136 Rosario Álvarez y Ernesto González Seoane
1 Introdução
Em finais de 1992 um grupo de linguistas da Universidade Nova de Lisboa
estabeleceu como objetivo desenvolver estudos linguísticos diacrónicos, os quais
viriam a ser complementados por um Dicionário e uma Gramática, tendo por base
corpora textuais dos primeiros tempos da História da Língua Portuguesa. A
preparação para o desenvolvimento destes projetos iniciou-se com a decisão sobre
a necessidade de proceder ao levantamento de edições fiáveis de textos medievais
que pudessem servir de fonte para a análise gramatical e lexical programada pela
equipa. Começou-se então, já em 1993, a seleção e digitalização de uma coleção de
textos antigos representativos do Português Medieval (PM) —séculos XII a XVI—,
a que se deu o nome de CIPM – Corpus Informatizado do Português Medieval.
Para a constituição do CIPM foram identificadas e listadas, por ordem crono-
lógica, as edições existentes na altura, as quais estavam apenas publicadas em
papel. Deu-se assim prioridade à digitalização dos textos portugueses e galegos
mais antigos, então conhecidos: Notícia de Torto (1214?); Testamento de D. Afon-
so II (1214); Documentos Portugueses da Chancelaria de D. Afonso III (1255–1279);
Foro Real (1280?); Tempos dos Preitos (1280?); Textos Notariais da Galiza e do
Noroeste de Portugal (1262–1300). Este primeiro corpus de textos digitalizados do
século XIII permitiu de imediato constituir-se como fonte primária para os come-
ços da desejada investigação linguística diacrónica do Português programada
pela equipa. Através de uma comunicação ao Congresso Nacional da Associação
Portuguesa de Linguística foram apresentados os motivos e os objetivos da criação
e do desenvolvimento previsto do CIPM (cf. Xavier/Brocardo/Vicente 1994). Ini-
ciou-se, então, a elaboração de um dicionário de verbos do corpus textual já
informatizado. Os critérios estabelecidos para o dicionário de verbos foram publi-
cados em artigo por Xavier/Vicente (1997). Foi também defendida a primeira
dissertação de Mestrado com dados do corpus do século XIII (cf. Fiéis 1997).
Lançou-se o primeiro Dicionário de Verbos Portugueses do Século 13 (cf. Xavier/
Vicente/Crispim 1999).
gueses mais antigos, conhecidos e transcritos nos nossos dias (cf. Xavier/Crispim
2003).1
O maior problema que a equipa teve de enfrentar e resolver logo no início da
constituição do CIPM consistiu no facto de as edições a integrar o corpus, embora
fossem todas elaboradas por especialistas, apresentarem diferentes critérios de
transcrição dos textos manuscritos e, consequentemente, diferentes sinais de
notação, os quais levantaram alguns obstáculos à digitalização, bem como à
utilização de ferramentas informáticas para extração de dados dos textos. Acresce
que os editores são de formações diversas: uns são linguistas, outros historiado-
res e outros estudiosos de literatura. Por esta razão, realizam edições com diferen-
tes objetivos, destinando-as a públicos diferenciados. Umas edições resultam
muito conservadoras, sendo os textos transcritos completamente fiéis aos textos
manuscritos, estas são destinadas a especialistas, em particular linguistas; outras
são modernizadoras, nas quais o editor intervém, por exemplo, atualizando a
grafia, separando palavras e introduzindo pontuação moderna, visando facultar
uma leitura acessível a um público mais vasto.
Deste modo, embora sejam respeitadas as decisões dos editores ao preparar
os textos para incluir no CIPM, revelou-se necessário proceder à redução dos
sinais de notação de algumas edições mais conservadoras. Considerou-se impres-
cindível, por um lado, obter alguma uniformização das transcrições, por outro,
facilitar a utilização de um primeiro sistema de concordâncias, oferecido por
Stephen Parkinson, o OCP – Oxford Concordance Program, assim como de outras
ferramentas informáticas, nomeadamente um etiquetador morfossintático, um
analisador sintático e um extrator de expressões relevantes. Estas haviam sido
desenvolvidas para o Português Contemporâneo e adaptadas para o Português
Medieval pelo grupo de investigação de Tecnologias de Linguagem Natural da
Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa (Cf. Xavier et
al. 1999; Xavier/Vicente/Crispim 1999; Rocio et al. 2003).
No entanto, a utilização pelos membros das equipas dos corpora de textos do
CIPM associados a um ágil sistema de concordâncias mais recente do que o
anterior tem sido o método mais produtivo para facilitar e possibilitar a extração
dos dados necessários para a concretização de diferentes projetos de investiga-
ção.
1 A maior parte dos textos do CIPM encontra-se integralmente acessível em: http://cipm.fcsh.
unl.pt.
140 Maria Francisca Xavier
As Referências de cada texto fazem parte da lista seguinte: Texto; Século; Data;
Região (província); Lugar (proveniência do texto); Notário/Autor; Documento e
nº do texto; Livro/Parte; Título/Capítulo; Lei. Quando a informação é duvidosa, é
seguida de ponto de interrogação ou apresentam-se duas alternativas, por exem-
plo: Século: 13?; Século: 13/14; Data: 1214?; Lugar: Guarda?
Os Comentários existentes na edição são transcritos entre (( )), por exemplo:
Sempre que uma palavra esteja partida por uma referência ou comentário no
texto editado, fonte do CIPM, a referência ou comentário encontra-se no texto
integrado no CIPM a seguir à palavra e esta mantém-se inteira antes da referência
ou comentário, por exemplo: mã((L003))do → mãdo ((L003)).
2 A lista completa das Normas de Transcrição dos textos do CIPM encontra-se disponível em/
/http//cipm.fcsh.unl.pt.
142 Maria Francisca Xavier
<pf 813> D(e)_P noticia_NC d(e)_P torto_NC que_C fece(ru~)_V a_P Laure~ci(us)_NP Ferna~
diz_NP por_P plazo_NC qve_C fec(e)_V Go~cauo_NP Ramiriz_NP antre_P suos_POS fi-
lios_NC e_C Loure~zo_NP Ferrna~diz_NP q(u)ale_QU podedes_V saber_VINF : e_C oue_V
au(e)r_NC , d(e)_P erdad(e)_NC e_C [[dau(e)r]]DE=_P=HAVER_NC , ta~to_PI q(u)ome_C
uno_PI d(e)_P suos_POS filios_NC , [daq(u)a~to]]DE=_P=AQUANTO_QU podes(e~)_V au(e)
r_VINF d(e)_P bona_NC d(e)_P seuo_POS pater_NC ; e_C [[fiolios]]FIOU=_V=LHE_P-
CL=OS_PCL seu_POS pater_NC e_C sua_POS mater_NC . E_C d(e)pois_ADV fecer(u~)_V
plazo_NC nouo_A e_C co~ue~_V uos_PCL a_P saber_VINF q(u)ale_QU : <pf 814> in_P
ille_PES seem_V taes_PD firmam(en)tos_NC q(u)ales_QU podedes_V saber_VINF
problemas, o que permite tentar soluções melhores. Por exemplo, a frase relativa
« que este scripto uire~ y oyre~ » foi primeiramente mal analisada devido a falta de
informação sobre a morfologia flexional verbal, o que levou a que o sintagma
nominal SNsn[este scripto] fosse considerado sujeito de [uire~ y oyre~], em vez de
objecto direto posicionado à esquerda do verbo, construção que é frequente no
PM. A introdução da flexão verbal veio então permitir uma análise bastante
melhor daquela frase:
Também a sequência « Aras Dias, filo de Diago La'á », que contém um aposto, foi
inicialmente mal analisada como sendo a coordenação de dois sintagmas nomi-
nais. A deteção deste problema permitiu que se procurasse o modo de obter uma
análise mais satisfatória. Procedeu-se à neutralização da vírgula por meio de
parênteses duplos —« Aras Dias ((,)) filo de Diago La'á »—, o que, de facto,
resultou. A análise sintática obtida automaticamente foi então satisfatória, embo-
ra a estrutura de aposição não esteja ainda completamente conseguida:
< Aras Diaz > *** *** < filo de Diago La'á >
[SNsn (name(det([ ])),[Aras, Diaz])] ***
*** [SNsn(nucleo(det([ ])),filo),[SPsp(de,[SNsn(name(det([ ])),[Diago, La'á])])]]
4 Têm vindo a ser incorporados no CIPM mais textos pelo que este Dicionário tem como fonte
textual um subcorpussibcorpus do atual CIPM.
5 A dimensão do subcorpus do CIPM constituído para fonte do Dicionário é, em número de
palavras, a seguinte:
Nº. de palavras
(i) Corpus textual dos sécs. 12, 13 e 13/14 612.613
(ii) Corpus Textual dos sécs. 14, 15 e 16 2.735.303
Total 3.347.916
As referências das fontes textuais apresentam-se no final deste texto.
O projeto deste Dicionário é coordenado por João Malaca Casteleiro da Academia de Ciências de
Lisboa, por Maria de Lourdes Crispim e por mim própria, ambas investigadoras do Centro de
Linguística da Universidade Nova de Lisboa. Vários bolseiros da Fundação para a Ciência e a
Tecnologia elaboraram a primeira versão das fichas lexicográficas. Na atual fase de revisão dos
verbetes, a equipa conta com M. Alexandra Fiéis, Investigadora do CLUNL, Miguel Magalhães e
Sandro Dias, Bolseiros da FCT, enquanto, entre 2005 e 2010, a equipa de elaboração dos artigos
era constituída por mais quatro bolseiros: João Loureiro, M. de Fátima Martins, Raquel Oliveira e
Ricardo Duarte, também financiados pela FCT.
6 Xavier/Silva/Fiéis (2002).
O CIPM – Corpus Informatizado do Português Medieval 147
3.1 Metodologia
<u> com valor consonântico → <b>, quando o étimo e a forma moderna tiverem b (uure →
ubre, do lat. ubere, port. actual úbere). <gu> antes de <a>, <o> → <g> (acesseguado →
acessegado)
<v> com valor vocálico → <u>;
<~> ou <m> representando a nasalação da vogal antes de consoante não labial → <n>
<n>, <m> ou <~> representando a nasalação do ditongo → <~> (absolviçaom → absolvição)
-grafemas duplos, iniciais ou internos, com o mesmo valor fonético dos correspondentes
simples → grafemas simples, exemplos: – <ss> em posição inicial de palavra → <s> (sse →
se); <ss> em ataque de sílaba interna depois de consoante → <s> (uerssa → uersa); <rr>
intervocálico com valor de vibrante simples → <r> (barroes → barões).
5 Bibliografia
Fiéis, Maria Alexandra, Clíticos num Corpus do Português do Século 13, Dissertação de Mestrado
em Linguística, FCSH-UNL, 1997.
Fiéis, Maria Alexandra, Ordem de Palavras, Transitividade e Inacusatividade. Reflexão Teórica e
Análise do Português dos Séculos 13 a 15, Tese de Doutoramento em Linguística, FCSH-UNL,
2003.
Fiéis, Alexandra/Lobo, Maria, Propriedades de gerúndios e de infinitivos em português antigo,
in: Selecionados. 26º. Encontro Nacional da APL, Lisboa, APL, 2011, 256–265.
Fiéis, Alexandra/Madeira, Ana, Modals and tense in Contemporary European Portuguese and in
Old Portuguese, in: Labeau, Emmanuelle/Bres, Jacques (edd.) Evolution in Romance Verbal
Systems, Bern, Peter Lang, 2013, 261–284.
Oliveira, Raquel, Temporalidade em Orações Completivas Infinitivas Subcategorizadas por Ver-
bos Perceptivos e Causativos. Análise de um Corpus do Português Medieval, Dissertação de
Mestrado em Ciências da Linguagem, FCSH-UNL, 2008.
Rocio, Vítor, et al., Automated Creation of a Medieval Portuguese Treebank, in: Abeillé, Anne
(ed.), Treebanks. Building and Using Parsed Corpora, Dordrecht, Kluwer Academic Publish-
ers, 2003, 211–227.
152 Maria Francisca Xavier
Silva, Joaquim Ferreira, et al., Relevant Expressions in Large Corpora, TALN99 Conference,
Toulouse, 1999.
Silva, Maria Cristina Vieira da, A Complementação Infinitiva em Textos Latinos dos Séculos 11 e
12 e Textos Portugueses dos Séculos 13 e 14, Tese de Doutoramento em Linguística, FCSH-
UNL, 2003.
Xavier, Maria Francisca, O Percurso Diacrónico dos Modais e Semimodais em Português e em
Inglês e as suas Gramáticas, in: Lima-Hernandes, Maria Célia, et al. (edd.), A Língua
Portuguesa no Mundo (I SIMELP), São Paulo, FFLCH-USP, 2008. http://www.fflch.usp.br/
eventos/simelp/new/pdf/slp02/01.pdf.
Xavier, Maria Francisca/Brocardo, Maria Teresa/Vicente, Maria da Graça, CIPM – Um Corpus
Informatizado do Português Medieval, in: Actas do 10º. Encontro da APL, Évora, 1994, 599–
612.
Xavier, Maria Francisca/Crispim, Maria de Lourdes, Das Edições Impressas às Versões Digitali-
zadas de Textos Medievais. O Caso do CIPM, in: Castro, Ivo de/Duarte, Inês (edd.), Razões e
Emoção. Miscelânea de Estudos em Homenagem a Maria Helena Mateus, vol. 2, Lisboa,
IN-CM, 2003, 437–448.
Xavier, Maria Francisca/Crispim, Maria de Lourdes, Um olhar sobre os modais dever, haver de e
ter de na história do português, in: Lobo, Tânia, et al. (edd.), ROSAE: linguística histórica,
história das língas e outras histórias, Salvador, UFB, 2012, 389–405.
Xavier, Maria Francisca/Crispim, Maria de Lourdes, Algumas decisões problemáticas sobre
vedetas, variantes e confrontos entre artigos do Dicionário da Língua Portuguesa Medieval,
in: Galvão, Vânia, et al. (org.), IV Simpósio Mundial de Estudos sobre o Português (SIMELP).
Anais Língua portuguesa: ultrapassando fronteiras, unindo culturas, Simpósio 14, Goiânia,
Faculdade de Letras, UFG, 2013, 615–623, http://www.simelp.letras.ufg.br/anais.php.
Xavier, Maria Francisca/Crispim, Maria de Lourdes/Vicente, Graça, A Língua Portuguesa Medie-
val e o Diálogo Homem-Máquina, in: I.H. Faria (ed.), Lindley Cintra. Homenagem ao Mestre e
ao Cidadão. Lisboa, Edições Cosmos/FLUL, 1999, 749–760.
Xavier, Maria Francisca, et al., Utilizações Informáticas de Corpora Textuais Medievais, in:
Marrafa, Palmira/Mota, Maria Antónia (edd.), Linguística Computacional. Investigação Fun-
damental e Aplicações, Lisboa, APL/Colibri, 1999, 347–358.
Xavier, Maria Francisca/Silva, Maria Cristina/Fiéis, Maria Alexandra, Order Alternation in Medie-
val Portuguese, Santa Barbara Portuguese Studies 6 (2002), 307–325.
Xavier, Maria Francisca/Vicente, Graça, A Problemática de um Dicionário de Verbos do Século 13,
in: Brito, A., et al. (edd.), Sentido que a Vida Faz. Estudos para Óscar Lopes, Porto, Campo
das Letras, 1997, 897–904.
Xavier, Maria Francisca/Vicente, Graça/Crispim, Maria de Lourdes (edd.), Dicionário de Verbos
Portugueses do Século 13, Lisboa, CLUNL, 1999.
Xavier, Maria Francisca/Vicente, Graça/Crispim, Maria de Lourdes (edd.), Dicionário de Verbos
do Português Medieval – Séculos 12 e 13/14, Lisboa, CLUNL, 2002.
Xavier, Maria Francisca/Vicente, Graça/Crispim, Maria de Lourdes (edd.), Dicionário de Verbos
do Português Medieval – Séculos 12 a 16, Lisboa, CLUNL, 2003, http://cipm.fcsh.unl.pt
(= 2003a).
Xavier, Maria Francisca/Vicente, Graça/Crispim, Maria de Lourdes, Velhas Palavras, Novos
Recursos, in: Actas do 18º. Encontro Nacional da Associação Portuguesa de Linguística,
Lisboa, APL, 2003, 873–883 (= 2003b).
O CIPM – Corpus Informatizado do Português Medieval 153
Século 13
NT – Notícia de Torto (1214?), in: Cintra, Luís Filipe Lindley, Sobre o mais antigo texto não-literário
português: a Notícia de Torto. Leitura crítica, data, redacção e comentário linguístico,
Boletim de Filologia 31 (1990), 21–77. (Texto crítico, 37–41). Edição digitalizada para o CIPM.
TL e TT – Testamento de D. Afonso II (1214), in: Costa, Pe. Avelino Jesus da (1979), Os mais
Antigos Documentos Escritos em Português, Revista Portuguesa de História 17, 307–321.
(dois manuscritos: Lisboa e Toledo). Edição digitalizada para o CIPM.
CA – 34 Documentos Portugueses da Chancelaria de D. Afonso III (1255–1279), in: Duarte, Luiz
Fagundes, Os Documentos em Português da Chancelaria de D. Afonso III (Edição), Disserta-
ção de Mestrado, FLUL, 1986, 68–295. Edição digitalizada para o CIPM.
HGP – 61 Textos Notariais da Galiza e do Noroeste de Portugal (1262–1300), in: Maia, Clarinda de
Azevedo, História do Galego-Português, Coimbra, INIC, 1986, 19–295. Edição digitalizada
para o CIPM.
DN – 73 Textos Notariais (sem data ou datados entre 1214 e 1300), in: Martins, Ana Maria (ed.)
Documentos Notariais dos Séculos 12 a 16, 2000. Edição digitalizada, cedida pela editora.
CHP – 2 Textos Notariais (1275; 1278), in: Martins, Ana Maria (ed.), Clíticos na História do
Português – Apêndice Documental, vol. 2, Dissertação de Doutoramento, Lisboa, 1994.
Edição digitalizada, cedida pela editora.
FG – 6 Foros de Garvão (1267–1280), in: Garvão, Maria Helena (ed.), Foros de Garvão, Edição e
Estudo Linguístico, Dissertação de Mestrado, Lisboa, FLUL, 1992, 65–99. Edição digitali-
zada, cedida pela editora.
TOX – 21 Textos Notariais (sem data ou datados entre 1269 e 1300), in: Parkinson, Stephen (ed.),
Arquivo de Textos Notariais em Português Antigo, Oxford, 1983. Edição digitalizada, cedida
pelo editor.
FR – Foro Real (1280?), in: Ferreira, José de Azevedo (ed.), Afonso X, Foro Real, Lisboa, I.N.I.C.,
1987, 125–309. Edição digitalizada para o CIPM.
TP – Tempos dos Preitos (1280?), Ferreira, José de Azevedo (ed.), in: Roudil, Jean, Summa de los
Neuve Tiempos de los Pleitos. Édition et étude d’une variation sur un thème, Paris, Klinck-
sieck, 1986, 151–169. Edição digitalizada para o CIPM.
CS – 1 Dos Costumes de Santarém (1294), in: Rodrigues, Maria Celeste Matias, Dos Costumes de
Santarém, Dissertação de Mestrado, Lisboa, FLUL, 1992, 160–251. Edição digitalizada,
cedida pela editora.
CAmi – 513 Cantigas de Amigo (sem data ou datados entre 1220–1300), in: Cohen, Rip (ed.),
500 Cantigas de Amigo, Porto, Campo das Letras, 2003. Edição digitalizada, cedida pelo
editor.
154 Maria Francisca Xavier
Camo – 517 Cantigas de Amor (sem data), in: Brea, Mercedes (coord.), Lírica Profana Galego-
Portuguesa, Santiago de Compostela, Centro Ramón Piñeiro, 1996. Edição digitalizada in
Base de Datos en liña da Lírica Profana Galego-Portuguesa do Centro Ramón Piñeiro,
www.cirp.es.
CSM – 419 Cantigas de Santa Maria (datadas entre 1270 e 1282), in: Mettman, Walter (ed.),
Afonso X, o Sábio (século 13), Cantigas de Santa Maria, Vigo, Ediciones Xerais de Galicia,
SA, 1981. Edição digitalizada cedida por Xavier Varela, Tesouro Medieval Informatizado da
Lingua Galega.
CEM – 403 Cantigas de Escárnio e Maldizer (sem data), in: Lopes, Graça Videira, Cantigas de
Escárnio e Maldizer dos Trovadores e Jograis Galego-Portugueses, Lisboa, Editorial Estam-
pa, 2002. Edição digitalizada, cedida pela editora.
Séculos 13/14
Camo – 159 Cantigas de Amor (sem data), in: Brea, Mercedes (coord.), Lírica Profana Galego-
Portuguesa, Santiago de Compostela, Centro Ramón Piñeiro, 1996. Edição digitalizada in
Base de Datos en liña da Lírica Profana Galego-Portuguesa do Centro Ramón Piñeiro,
www.cirp.es.
CEM – 69 Cantigas de Escárnio e Maldizer (sem data), in: Lopes, Graça Videira, Cantigas de
Escárnio e Maldizer dos Trovadores e Jograis Galego-Portugueses, Lisboa, Editorial Estam-
pa, 2002. Edição digitalizada, cedida pela editora.
VS – 7 Vidas de Santos de um Manuscrito Alcobacense (sem data; cópias do século XV), in:
Castro, Ivo, et al. (edd.), Vidas de Santos de um Manuscrito Alcobacense (Cod. Alc. cclxvi /
antt 2274), Lisboa, INIC, 1985, 16–52; 59–83. Edição digitalizada para o CIPM.
Século 14
Camo – 20 Cantigas de Amor (sem data), in: Brea, Mercedes (coord.), Lírica Profana Galego-
Portuguesa, Santiago de Compostela, Centro Ramón Piñeiro, 1996. Edição digitalizada in
Base de Datos en liña da Lírica Profana Galego-Portuguesa do Centro Ramón Piñeiro,
www.cirp.es.
CEM – 2 Cantigas de Escárnio e Maldizer (sem data), in: Lopes, Graça Videira, Cantigas de
Escárnio e Maldizer dos Trovadores e Jograis Galego-Portugueses, Lisboa, Editorial Estam-
pa, 2002. Edição digitalizada, cedida pela editora.
HGP – 62 Textos Notariais da Galiza e do Noroeste de Portugal (1301–1399), in: Maia, Clarinda de
Azevedo, História do Galego-Português, Coimbra, INIC, 1986, 19–295. Edição digitalizada
para o CIPM.
DN – 79 Textos Notariais (sem data ou datados entre 1304 e 1397), in: Martins, Ana Maria (ed.),
Documentos Notariais dos Séculos XII a XVI, 2000. Edição digitalizada, cedida pela
editora.
TOX – 15 Textos Notariais (sem data ou datados entre 1309 e 1336), in: Parkinson, Stephen (ed.)
Arquivo de Textos Notariais em Português Antigo, Oxford. Edição digitalizada, cedida pelo
editor.
CS – 3 Dos Costumes de Santarém (1340–1360), in: Rodrigues, Maria Celeste Matias (1992) Dos
Costumes de Santarém,
Dissertação de Mestrado, Lisboa, FLUL, 160–251. Edição digitalizada, cedida pela editora.
FG – 1 Foros de Garvão (sem data), in: Garvão, Maria Helena (ed.), Foros de Garvão. Edição e
Estudo Linguístico, Dissertação de Mestrado, Lisboa, FLUL, 1992, 65–99. Edição digitali-
zada, cedida pela editora.
O CIPM – Corpus Informatizado do Português Medieval 155
PP – Afonso X. Primeyra Partida (ca. 1350), in: Ferreira, José Azevedo, Alphonse X, Primeyra
Partida, Braga, INIC, 1980, 3–580. Edição digitalizada para o CIPM, financiada pelo editor.
CGE – Crónica Geral de Espanha de 1344 (sd), in: Cintra, Luís Filipe Lindley (ed.), Crónica Geral
de Espanha de 1344, Lisboa, INCM, 1951. Edição digitalizada para o CIPM.
CAXL – Crónica de Afonso X (manuscrito L) (sem data), in: Cintra, Luís Filipe Lindley (ed.), Crónica
Geral de Espanha de 1344, Lisboa, INCM, 1951. Edição digitalizada para o CIPM.
CAXP – Crónica de Afonso X (manuscrito P) (sem data), in: Cintra, Luís Filipe Lindley (ed.), Crónica
Geral de Espanha de 1344, Lisboa, INCM, 1951. Edição digitalizada para o CIPM.
CDA – Chancelarias Portuguesas de D. Afonso IV, Vols. 1, 2 e 3 (30 Textos seleccionados), in:
Dias, João J. Alves (ed.), Chancelarias Portuguesas de D. Afonso IV, Lisboa, I.N.I.C, 1990–
1992. Edição digitalizada, cedida pelo editor.
AT – Arte de Trovar, in: Tavani, Giuseppe (ed.), Arte de Trovar do Cancioneiro da Biblioteca
Nacional de Lisboa, Lisboa, Colibri, 1999. Edição digitalizada para o CIPM.
NLL – Narrativas dos Livros de Linhagens, in: Mattoso, José, Narrativas dos Livros de Linhagens,
Lisboa, INCM, 1983. Edição digitalizada para o CIPM.
LM – Livro de Montaria de João I, in: Calado, Adelino de Almeida, Vigo, ed. (no prelo). Edição
digitalizada, cedida pelo editor, através de Telmo Verdelho.
CI – Corte Imperial (anónima dos fins do século 14), in: Calado, Adelino de Almeida (ed.), Corte
enperial, Universidade de Aveiro, 2000. Edição digitalizada, cedida pelo editor, através de
Telmo Verdelho.
Século 15
HGP – 42 Textos Notariais da Galiza e do Noroeste de Portugal (1401–1497), in: Maia, Clarinda de
Azevedo, História do Galego-Português, Coimbra, INIC, 1986, 19–295. Edição digitalizada
para o CIPM.
DN – 46 Textos Notariais (sem data ou datados entre 1402 e 1499), in: Martins, Ana Maria (ed.),
Documentos Notariais dos Séculos XII a XVI, 2000. Edição digitalizada, cedida pela editora.
LC – Leal Conselheiro (1438?), in: Piel, Joseph (ed.), Leal Conselheiro, Lisboa, Livraria Bertrand,
1942. Edição digitalizada para o CIPM, revista por João Dionísio e Sandra Alvarez.
LEBC – Livro da Ensinança de Bem Cavalgar Toda Sela (1437?), in: Piel, Joseph (ed. crit.), Livro da
Ensinança de Bem Cavalgar Toda Sela, Lisboa, Bertrand, 1944. Edição digitalizada para o
CIPM, revista por João Dionísio.
CP – Castelo Perigoso (sem data), in: Neto, João António Santana (ed.), Duas Leituras do Tratado
Ascético-Místico Castelo Perigoso, Dissertação de Doutoramento, São Paulo, Faculdade de
Filosofia, Letras e Ciências Humanas, USP, 1997. Edição digitalizada cedida pelo editor e
revista por Irene Nunes.
DSG – Demanda do Santo Graal (sem data), in: NUNES, Irene Freire, A Demanda do Santo Graal,
Edição digitalizada para o CIPM com base na edição publicada pela Imprensa Nacional Casa
da Moeda, Lisboa, 1995, revista pela editora.
LTV – Livro das Tres Vertudes (1453?) Crispim, Maria de Lourdes (ed.) versão paradiplomática
digitalizada, cedida pela editora.
OE – Orto do Esposo (sem data), in: Maler, Bertil (ed.), Orto do Esposo, Rio de Janeiro,
Ministério da Educação e Cultura, Instituto Nacional do Livro, 1956. Edição digitalizada para
o CIPM.
CPVC – Carta de Pêro Vaz de Caminha (1500), in: Guerreiro, M. V./E. B. Nunes (edd.), Carta a el-
rey dom Manuel sobre o achamento do Brasil, Lisboa, I.N.C.M, 1974. Edição digitalizada
para o CIPM.
156 Maria Francisca Xavier
HRP – História dos Reis de Portugal, in: Cintra, Luís Filipe Lindley (ed.), Crónica Geral de Espanha
de 1344, Lisboa, INCM, 1951. Edição digitalizada para o CIPM.
ZPM – Crónica do Conde D. Pedro de Meneses (sem data), in: Brocardo, Maria Teresa (ed.),
Crónica do Conde D. Pedro de Meneses, Dissertação de Doutoramento, Lisboa, F.C.S.H.,
1994, 333–693. Edição digitalizada, cedida pela editora.
CDF – Crónica de D. Fernando, in: Macchi, Giuliano (ed.), Fernão Lopes, Cronica de D. Fernando,
Lisboa, INCM, 1975.
CDJI1 – Crónica de D. João I, parte 1, in: Lopes, Fernão, Crónica de D. João I, Porto, Livraria
Civilização Editora, 1945, (segundo o códice nº 352 do Arquivo Nacional da Torre do Tombo).
Edição digitalizada para o CIPM.
CDJI2 – Crónica de D. João I, parte 2, in: Lopes, Fernão, Crónica de D. João Primeiro, Porto, Livraria
Civilização Editora, 1949.
CDPI – Crónica de D. Pedro I, in: Peres, Damião (ed.), Lopes, Fernão, Crónica de D. Pedro I, Porto,
Livraria Civilização, 1965. Edição digitalizada e revista por José Barbosa Machado, cedida
pelo revisor.
TC – Tratado da Confissom (1489), in: Machado, José Barbosa (ed.), Tratado de Confissom, Vol I
(Chaves, 1489), Universidade de Trás-os-Montes e Alto Douro, 2003. Edição digitalizada,
cedida pelo editor.
PMP – Penitencial de Martim Pérez, in: Martins, Mário (ed.), Penitencial de Martim Pérez, 1957.
Edição digitalizada e revista por José Barbosa Machado, cedida pelo revisor.
S – Sacramental, de Cremente Sanchez de Vercial (1488), in: Machado, José Barbosa (ed.),
Clemente Sánchez de Vercial.
Sacramental, Minho, Pena Perfeita, 2005. Edição digitalizada, cedida pelo editor.
VDT – Vida de D. Telo, in: Nascimento, Aires Augusto (ed.), Hagiografia de Santa Cruz de
Coimbra, Lisboa, Colibri, 1998, 273–286. Edição digitalizada, cedida por José Barbosa
Machado.
VST – Vida de São Teotónio Tradução quatrocentista da vida de S. Teotónio. Edição digitalizada e
revista por Deolinda Rodrigues Cabrera, cedida por José Barbosa Machado.
LHB – Livro das Histórias da Bíblia (sem data), in: Castro, J. Mendes de (ed.), Bíblia de Lamego,
vol. I e vol. II, 1998. Edição digitalizada, cedida por José Barbosa Machado.
Século 16
Cat – Catecismo (1504), in: Silva, Elsa Branco da (ed.), O catecismo pequeno de Dom Diogo Ortiz,
Lisboa, Colibri, 2001. Edição digitalizada, cedida pela editora.
Vicente J. Marcet Rodríguez y
M.ª Nieves Sánchez González de Herrero
La documentación medieval de Miranda
de Ebro: Presentación del corpus y rasgos
lingüísticos
1 Introducción1
Nuestro propósito al abordar la transcripción y elaboración de un corpus que
recogiera la documentación medieval de Miranda de Ebro, hace ya cuatro años,
fue el de tratar de aportar datos directos sobre el registro escrito medieval de una
zona geográfica concreta, el norte de Burgos, a la que tradicionalmente se ha
atribuido una gran importancia en la constitución del castellano, pero que, sin
embargo, no ha merecido hasta ahora gran atención por parte de filólogos e
historiadores de la lengua.
Las fuentes bien editadas con que contamos hoy para estudiar el registro
medieval en el norte de Burgos son en su conjunto escasas; en consecuencia,
nuestro conocimiento de la lengua medieval de la zona es bastante pobre. En los
últimos años contamos con la edición de los becerros gótico y galicano de
Valpuesta (Ruiz Asencio/Ruiz Albi/Herrero 2010), y con la edición en línea de los
documentos de San Salvador de Oña contenidos en el CODEA o los editados por
1 La investigación que ha dado como resultado este estudio ha contado con el apoyo económico
del Ministerio de Ciencia y Tecnología del Gobierno de España, actual Ministerio de Economía y
Competitividad (FFI2010-15144), y de la Junta de Castilla y León (SA024A11-1), concedido al
proyecto Variación lingüística en la documentación de Castilla y León I. Los Documentos de Miranda
de Ebro. Edición y Estudio.
Asimismo, esta investigación se enmarca dentro de los trabajos del Grupo de Estudio de Docu-
mentos Históricos y Textos Antiguos de la Universidad de Salamanca (GEDHYTAS), entre cuyos
objetivos principales se hallan la edición y estudio de un corpus representativo de la documen-
tación medieval de las distintas variedades geolectales de Castilla y León y de un corpus
representativo de la documentación de la cancillería real castellana del siglo XIII. Puede verse
una relación de los resultados obtenidos hasta la fecha en la página del grupo: http://campus.
usal.es/~gedhytas/index.php/inv/dc/pbl [última consulta: 15.01.2016]. Además de los firmantes
de este trabajo, han colaborado en la edición del corpus los siguientes miembros de GEDHYTAS:
Clara Grande López, Ana Lobo Puga, Leyre Martín Aizpuru y Raquel Sánchez Romo.
Mª Jesús Torrens,2 pero aún son pocos los estudios publicados sobre estos mate-
riales.
En líneas generales, hay más trabajos específicos para las zonas vecinas; es
el caso del riojano (Alvar 1976 y 1996; Martínez Ezquerro 2000) o del navarro
(Ciérbide 1998; Enguita 2004; González Ollé 1996; Hilty 1995; Líbano 1979 y 1998;
Saralegui 1977 y 1992, algunos de los cuales estudian conjuntamente navarro y
aragonés). Para el castellano del País Vasco en época medieval contamos, entre
otros, con los estudios, léxicos sobre todo, de Líbano (2010 y 2012) y Líbano/
Villacorta (2013); los basados en distintos corpus de áreas vizcaínas de Gómez
Seibane/Sinner (2012), Isasi (2006) y Ramírez Luengo (2012); o los de áreas
guipuzcoanas de Osés Marcaida (1993).
Parece que asumimos que las descripciones generales del «castellano» cu-
bren la información lingüística de todas las zonas que pueden incluirse y general-
mente incluimos en dicha etiqueta, como si no existieran variedades diatópicas o
cronológicas, entre otras. Sin embargo la idea del castellano como complejo
dialectal no es precisamente nueva; puede remontarse al menos a 1950, con V.
García de Diego, y en fechas mucho más recientes I. Fernández-Ordóñez ha
insistido en la cuestión (1994 y 2001), mostrando de manera indiscutible diferen-
cias e isoglosas internas.3
No obstante, hay que reconocer que en los últimos tiempos algunos dominios
castellanos o castellano-leoneses norteños han recibido una mayor atención en lo
que se refiere a estudios de variación, al menos en aspectos específicos como la
metafonía, la referencia pronominal de los clíticos de tercera persona o el fenó-
meno comúnmente conocido como neutro de materia. La descripción de tales
hechos lingüísticos afecta a una extensa zona septentrional que incluye Asturias,
Cantabria, partes contiguas del País Vasco, Burgos, Palencia, el occidente de
León y Valladolid, y ha permitido establecer diferencias lingüísticas significativas
que muestran la variación en esta parcela del continuo septentrional (Isasi 2006;
Gómez Seibane/Sinner 2012, 13–14), en el que podemos incluir el norte de Burgos
y la zona mirandesa en concreto.
2 Los primeros están disponibles en http://corpuscodea.es/ [última consulta: 15. 01. 2016]. Los
segundos se encuentran incluidos en el corpus de la Red Internacional CHARTA (http://www.
charta.es/ [última consulta: 15. 01. 2016]), disponible en línea en breve.
3 También C. Hernández Alonso (1996, 197), al describir la situación lingüística de Castilla la
Vieja en nuestros días, señala que el castellano no es uniforme: «Es, como todo sistema
lingüístico comunicativo, un complejo de variedades diatópicas, diastráticas y diafásicas».
La documentación medieval de Miranda de Ebro 159
2 El corpus
2.1 Descripción
ARCHIVOS Y CRONOLOGÍA
A R CHIVO H ISTÓRICO
IS TÓR ICO P ROVINCIAL DE A RCHIVO
RCHIV O M UNICIPAL
UNIC IP AL DE M IRANDE DE E BRO T OTAL
B URGOS (AHPB) (AMME)
DOCUMENTOS
DOC UMENTOS REALES DOCUMENTOS REALES
RE ALES
Siglo XV 3 Siglo XV 6 9
DOCUMENTOS
DOC UMENTOS DE CONCE
CONC EJO
JO DOCUMENTOS DE CONCEJO
Siglo XV 19 Siglo XV 7 26
T OTAL 203
4 Martín Viso (2002, 151–152) subdivide estos avecindamientos en dos tipos diferentes; por un
lado estaría la integración de individuos pertenecientes a la baja nobleza local que se hacían
vecinos de Miranda en distintas aldeas y recibían a cambio una serie de exenciones fiscales; por
otro lado estaría la adscripción a Miranda de solares, palacios y dependientes de esa pequeña
nobleza que habitaba en localidades cercanas, pero no siempre en el ámbito jurisdiccional de la
villa. En los dos casos, los nuevos vecinos pasaban a formar parte de la villa fiscal y señorialmen-
te. En cuanto a las causas de este movimiento, Martín Viso apunta como factor clave el desarrollo
económico y político de Miranda de Ebro, «convertida en un eje comercial de importancia
supracomarcal, que convive con una debilidad demográfica y jurisdiccional».
5 Este último es el documento 10, de 1301, con signatura AMME, Libro H111, documento 01; es
un cuadernillo de diecinueve hojas de papel cosidas en desorden.
La documentación medieval de Miranda de Ebro 161
6 Los editores no explican sus criterios de edición, que es semipaleográfica, tampoco aclaran los
de selección y mezclan algún traslado muy posterior al original sin indicación explícita. En
muchas ocasiones no editan el documento completo, sino que eliminan fragmentos recurriendo
a puntos suspensivos, como sucede con algunos fragmentos ilegibles pero también, de forma
bastante arbitraria, con otros en los que abundan las fórmulas o contextos protocolarios. A modo
de ejemplo, podemos mencionar un breve documento, el nº 9 de la colección, que tiene dieciocho
líneas de extensión, en cuya trascripción recurren a los puntos suspensivos y al etc., con los
consiguientes saltos y omisiones, hasta en cinco ocasiones. Varias grafías y palabras nos
resultaron sospechosas desde el principio y efectivamente no son pocas las ocasiones en que
nuestras lecturas presentan diferencias.
7 También se encuentran disponibles en http://www.charta.es/criterios-de-edicion-/ [última
consulta: 15. 01. 2016].
162 Vicente J. Marcet Rodríguez y M.ª Nieves Sánchez González de Herrero
3 Análisis lingüístico
Uno de los principales objetivos perseguidos con la transcripción, edición y
análisis filológico de la documentación de Miranda de Ebro era la contribución a
los estudios más recientes sobre el continuo lingüístico del norte de la Península.
Con relación a la aportación que las investigaciones de este corpus añaden a
nuestro conocimiento del continuo norteño peninsular, creemos que ayudan a
delimitar mejor la extensión de diversos fenómenos que hasta la fecha se han
tenido en cuenta en su descripción.
Tal es el caso, por ejemplo, con relación a usos de escritura, del dígrafo –ij–,
que hallamos principalmente en diversos documentos de finales del siglo XIII y de
la primera mitad del XIV en la representación del resultado prepalatal fricativo
sonoro procedente de –LJ– y grupos análogos (como en coijedor, conceijo, conseijo,
espeijo, oijos, oueijas, semeijaua, uieijo o ujeija). También se registra este dígrafo,
aunque en menor medida, para representar la evolución de J–, –Gi– (aijuntaron,
privilleijo), el sufijo –aje (almaijerizo, carcelaije) y las realizaciones consonánticas
de palabras incorporadas del árabe (truijamanes) y de topónimos de diversa
procedencia (como canpaijares, limoijas, rrioija, saijuela, ssaija çaarra o uaroija)
(cf. Sánchez González de Herrero 2015, 1083).9 Podemos subrayar que se trata de
un empleo que no parece aislado, sino que cuenta con una cierta presencia en
tradiciones escriturarias ligadas al norte peninsular, desde Cantabria hasta Nava-
rra y Aragón (cf. Sánchez González de Herrero 2013, 19 y 2014).
En lo diatópico, hemos observado que la presencia de formas como yenero
muestra la pervivencia de un sonido consonántico inicial no exclusivo de las
variedades asturiano-leonesas o aragonesas, aunque haya divergencia en el resul-
tado concreto. La presencia de la misma voz en La Rioja y en el norte de Burgos
prueba la continuidad del fenómeno en los dominios norteños centro-orientales
(cf. Martínez Ezquerro 2000, 82). La misma continuidad suponen formas como
maor y mardomo, con pérdida de /–y–/ sin que medie la presencia de una vocal
palatal contigua, y que permiten enlazar la zona leonesa y cántabra con la
vizcaína, riojana y navarra (cf. Moral 2013, 619; Morala 2004, 558; Sánchez-Prieto/
Torrens 2008, 492).
Por lo que se refiere al uso de los posesivos, a grandes rasgos, la evolución
descrita es la general al castellano, con algunos matices particulares. Por un lado,
la evolución de so(s)/su(s) no presenta tendencias acordes con otros estudios, o,
al menos, no tan claras, si bien el resultado final es similar. Por otro lado, parece
que la fecha del establecimiento definitivo de mi, tu y su resulta tardía frente a lo
descrito en otros trabajos (cf. Sánchez Romo 2013). Ambas particularidades van
en dirección opuesta a la supuesta innovación y homogeneidad que se había
atribuido tradicionalmente al norte de Burgos como foco irradiador de los cam-
bios en el romance expandido por la Península. Recordamos a este respecto la
expansión de la extinción de la estructura determinante + posesivo + sustantivo,
que Fernández-Ordóñez (2012) situó de oriente a occidente, precisamente en
defensa de la descentralización de los cambios en el castellano que ha llegado a
la actualidad.
En lo que respecta a lo cronológico, registramos en la documentación medie-
val de Miranda de Ebro diversos fenómenos en proceso de cambio. Así, observa-
mos la persistencia hasta finales del siglo XIII e inicios del XIV de la asimilación
de preposición y artículo en enna, ennas, que marca también continuidad geográ-
fica con Cantabria (cf. Alvar/Pottier 1983, 114 y 115; Moral 2013, 680).
Otro de los fenómenos en marcha que parece reflejarse en el corpus de
Miranda es el aparente inicio del proceso de neutralización de las sibilantes. En
estudios anteriores ya señalados hemos podido observar que, en la documen-
tación del siglo XIII, las confusiones o alternancias gráficas entre sibilantes son
bastante frecuentes, pues registramos ejemplos en más de la mitad de los docu-
mentos de concejo.10 En el caso de la pareja de sibilantes apicoalveolares, los
ejemplos de confusiones, en ambas direcciones (ss en lugar de s y s en lugar de
ss, predominante), más del centenar, se concentran en veinticuatro documentos,
si bien la gran mayoría procede de una misma notaría, con lo que podrían tratarse
de preferencias o reajustes gráficos de determinados escribas, puesto que, en
términos generales, predominan de forma mayoritaria los usos rectos de ss y s.
En cuanto a las sibilantes dentoalveolares, predomina en la documentación
del siglo XIII el empleo de c/ç y z según los usos tradicionales del castellano, que
prefiere las primeras para la representación de la sorda /ts/ y la segunda para la
10 Cf. Marcet (2015a) para la confusión de sibilantes en el siglo XIII y Marcet (2015b) y (2015c)
para el siglo XIV.
La documentación medieval de Miranda de Ebro 165
sonora /dz/. Sin embargo, son varios los casos de confusión en posición intervo-
cálica, aunque casi todos ellos agrupados en seis documentos. Distinto es el caso
de las sibilantes prepalatales, las cuales apenas presentan casos de confusión
gráfica. De hecho, los ejemplos, bastante escasos, parecen deberse a una indistin-
ción gráfica entre x e y, y no a un posible ensordecimiento de /ʒ/ (cf. Sánchez
González de Herrero 2015).
A lo largo del siglo XIV nos encontramos con la paulatina indistinción gráfica
entre las sibilantes apicoalveolares. En el primer tercio de la centuria, entre 1300
y 1330, las confusiones son bastante escasas, en ambas direcciones; sin embargo,
entre 1330 y 1350 se tornan mucho más frecuentes, si bien siguen predominando
los casos rectos, con una frecuencia de en torno al 65 %. En la segunda mitad del
siglo se consolida esta tendencia de forma repentina, pues el dígrafo –ss–
prácticamente desparece de la escritura notarial, con tan solo dos ejemplos en
sendos documentos compuestos en 1358 y 1399. Su desaparición corre pareja a la
de ss– en posición inicial, que, durante la primera mitad de la centuria, predomi-
naba con una frecuencia del 70 %.
Una situación totalmente distinta es la que presentan las sibilantes dentoal-
veolares, ya que las confusiones a lo largo del siglo XIV son bastante escasas, y
concentradas en nueve documentos (el 31 % del total). Salvo en dos testimonios,
las confusiones tienden a ser a favor de la grafía ç, lo que podría deberse a una
incipiente pérdida de la sonoridad, al influjo de la grafía etimológica o a la
confluencia de ambos fenómenos. La oposición gráfica entre las sibilantes prepa-
latales se mantiene con regularidad también a lo largo de esta centuria.
Ya en el siglo XV, siguiendo con la situación imperante en la representación
de las sibilantes apicoalveolares en la segunda mitad de la centuria anterior,
predomina ampliamente el empleo de la grafía s, tanto en la representación de
/s/ como de la antigua /z/, en cualquier contexto fonético. Los escasos ejemplos
de ss se concentran en posición inicial (ssanchez, ssancho, ssennor, ssuarez) o
final de palabra (doss, ess, mess, tress), en nueve documentos compuestos entre
1416 y 1427. Se trata de usos superfluos del dígrafo ss sin matiz opositor. Los
únicos ejemplos en posición intervocálica corresponden a las formas assi y
passaren, en un documento de 1416, e interesse, en un documento de 1423; en
ambos predomina el empleo de s.
Igual suerte a la de ss corre el dígrafo ff, predominante durante el siglo XIII y
los dos primeros tercios del XIV, pero que queda desterrado de la escritura
notarial a partir de 1375, reemplazado por f. No sucede lo mismo con el empleo de
rr–, que en posición inicial sigue siendo habitual durante los siglos XIV y XV, en
algunos documentos alternando con R. En las dos neutralizaciones mencionadas
podría haber influido el nuevo trazo que adoptan las grafías s y f en la escritura
de albalaes en el siglo XIV, lo que hace que, en muchos casos, puedan llegar a
166 Vicente J. Marcet Rodríguez y M.ª Nieves Sánchez González de Herrero
11 Algo similar ha señalado Sánchez-Prieto (1998, 460 y 461), quien en una serie de documentos
cancillerescos observa que la escritura cortesana del siglo XIV tiende a rechazar los trazos
dobles.
La documentación medieval de Miranda de Ebro 167
E si disiéremos nós, o otro por nós o en nuestra boz, que non fuemos bien pagados e bien
entregados de todos los moravedís sobredichos, que nos non vala nin seamos sobre ello
oídos ante alcalle nin ante señor (AHPB, Concejil, 50/1, fol. 8, líneas 19–21).
E dissieron los dichos judíos que más judíos d’ellos non bivían en Miranda, salvo Çagui
Pardo, e que eran pagados de la vezindat e de lo que el concejo les fazían, segunt dicho
avían, salvo en razón del testimonio (AMME, libro H213, doc. 53, líneas 21–22).
Lo otro, porque, fablando con reberencia, como dicho é, la tal merced o gracia por vosotros
fecha era y es ninguna de derecho y por defecto de poderío que non teníades nin tenedes
para fazer la tal merced (AHPB, Concejil, 50/2, fol. 109, 2v, líneas 1–5).
170 Vicente J. Marcet Rodríguez y M.ª Nieves Sánchez González de Herrero
Salvo por nombramiento y voluntad del concejo de la dicha villa de Miranda, como dicho é
(AHPB, Concejil, 50/2, fol. 109, 3r, líneas 2–4).
4 Conclusiones
En líneas generales, hemos podido comprobar que la documentación medieval de
Miranda de Ebro refleja el estadio de lengua esperable en este tipo de escritos
redactados en esta región del norte peninsular durante la Edad Media.
En el caso de las confusiones de las sibilantes, fenómeno al que hemos
prestado una especial atención, dada su importancia en la historia del español,
podemos concluir que la situación que presenta su evolución en la documen-
tación concejil de Miranda de Ebro coincide con la cronología tradicional atribui-
da al ensordecimiento de las distintas sibilantes, según la cual en primer lugar se
ensordece la apicoalveolar /z/, posteriormente la dentoalveolar /dz/ y, en último
lugar, con posterioridad al siglo XV, la prepalatal /ʒ/ (o africada /dʒ/) (cf. Cano
2005, 837). También queremos destacar, nuevamente, la posible influencia que
pudieron haber ejercido los cambios de tipos de letra en la confusión o posterior
neutralización gráfica de algunas parejas de sibilantes; unos cambios que podrían
haber coincidido, coadyuvándolo, con el inicio del proceso de ensordecimiento de
estas consonantes.
Lo que este fenómeno, junto como otros fenómenos gráficos, morfológicos y
sintácticos ya comentados, revela es que, en el corpus documental de Miranda de
Ebro, nos encontramos ante una lengua todavía en fase de formación, que se va
despojando, de forma aún vacilante en numerosos casos, de algunas reminiscen-
cias arcaizantes, al tiempo que empieza a adoptar de forma mayoritaria, especial-
mente a lo largo de la segunda mitad del siglo XV, algunos fenómenos propios
del castellano moderno.
5 Referencias bibliográficas
Alvar, Manuel, El dialecto riojano, Madrid, Gredos, 1976.
Alvar, Manuel, Riojano, in: Alvar, Manuel (dir.), Manual de dialectología hispánica. El español de
España, Barcelona, Ariel, 1996, 81–96.
Alvar, Manuel/Pottier, Bernard, Morfología histórica del español, Madrid, Gredos, 1983.
Cano Aguilar, Rafael, Cambios en la fonología del español durante los siglos XVI y XVII, in:
Cano Aguilar, Rafael (coord.), Historia de la lengua española, Barcelona, Ariel, 2004,
825–916.
Cantera Burgos, Francisco/Andrío Gonzalo, Josefina, Historia medieval de Miranda de Ebro,
Miranda de Ebro, Fundación Cultural «Profesor Cantera Burgos», 1991.
La documentación medieval de Miranda de Ebro 171
Ciérbide, Ricardo, Notas gráfico-fonéticas sobre la documentación medieval navarra, in: Blecua,
José Manuel/Gutiérrez, Juan/Sala, Lidia (edd.), Estudios de grafemática en el dominio
hispano, Salamanca, Instituto Caro y Cuervo/Ediciones Universidad de Salamanca, 1998,
37–47.
Enguita Utrilla, José María, Evolución lingüística en la Baja Edad Media: aragonés, navarro, in:
Cano Aguilar, Rafael (coord.), Historia de la lengua española, Barcelona, Ariel, 2004,
571–592.
Fernández-Ordóñez, Inés, Isoglosas internas del castellano. El sistema referencial del pronombre
átono de tercera persona, Revista de Filología Española 74 (1994), 71–125.
Fernández-Ordóñez, Inés, Hacia una dialectología histórica: reflexiones sobre la historia del
leísmo, el laísmo y el loísmo, Boletín de la Real Academia Española 81 (2001), 389–464.
Fernández-Ordóñez, Inés, La lengua de Castilla y la formación del español, Discurso leído el
13 de febrero de 2011 en su recepción pública en la Real Academia Española, Madrid, Real
Academia Española, 2011. Disponible en http://www.rae.es/sites/default/files/Discur-
so_Ingreso_Ines_Fernandez_Ordonez.pdf [última consulta: 20. 03. 2015].
Fernández Ordóñez, Inés, El norte peninsular y su papel en la historia de la lengua española, in:
Gómez Seibane, Sara/Sinner, Carsten (edd.), Estudios sobre tiempo y espacio en el español
norteño, San Millán de la Cogolla, Cilengua, 2012, 23–68.
García de Diego, Vicente, El castellano como complejo dialectal y sus dialectos internos, Revista
de Filología Española 34 (1950), 107–124.
Gómez Seibane, Sara/Sinner, Carsten (edd.), Estudios sobre tiempo y espacio en el español
norteño, San Millán de la Cogolla, Cilengua, 2012.
González Ollé, Fernando, Navarro, in: Alvar, Manuel (dir.), Manual de dialectología hispánica. El
español de España, Barcelona, Ariel, 1996, 305–316.
Grande López, Clara, De cómo Semuel acabó senil. Errores de copia en la documentación
medieval de Miranda, Cuadernos del Instituto de Historia de la Lengua 8 (2013), 139–154.
Hernández Alonso, César, Castilla la Vieja, in: Alvar, Manuel (dir.), Manual de dialectología
hispánica. El español de España, Barcelona, Ariel, 1996, 197–212.
Hilty, Gerold, Las «scriptae» aragonesas y navarras, in: Holtus, Günter/Metzeltin, Michael/
Schmitt, Christian (edd.), Lexikon der Romanistischen Linguistik, vol. 8, I.2, Tubinga, Max
Niemeyer, 1995, 512–527.
Isasi Martínez, Carmen, El romance de los documentos vizcaínos en el espacio variacional
castellano, Oihenart 21 (2006), 209–227.
Líbano Zumalacárregui, Ángeles, Consideraciones lingüísticas sobre algunos tributos medieva-
les navarro-aragoneses y riojanos, Príncipe de Viana 40:154–155 (1979), 65–80.
Líbano Zumalacárregui, Ángeles, Diacronía de las alternancias gráficas navarro-aragonesas: las
sibilantes medievales, in: Blecua, José Manuel/Gutiérrez, Juan/Sala, Lidia (edd.), Estudios
de grafemática en el dominio hispano, Salamanca, Instituto Caro y Cuervo/Ediciones
Universidad de Salamanca, 1998, 135–148.
Líbano Zumalacárregui, Ángeles, Evolución y desarrollo del léxico romance en la sociedad
medieval vascongada: los grupos sociales, in: Medina Guerra, Antonia María/Ayala Castro,
Marta C. (coords.), Los diccionarios a través de la historia, Málaga, Universidad de Málaga,
2010, 349–370.
Líbano Zumalacárregui, Ángeles, Historia y léxico medieval del País Vasco: La tierra, el hombre y
su hábitat; transición del latín al romance, in: Clavería Nadal, Glòria/Freixas Alás, Margari-
ta/Prat Sabaner, Marta/Torruella Casañas, Joan (coords.), Historia del léxico: perspectivas
de investigación, Madrid, Iberoamericana, 2012, 93–125.
172 Vicente J. Marcet Rodríguez y M.ª Nieves Sánchez González de Herrero
Osés Marcaida, Cristina, El romance medieval en el País Vasco: los documentos del Concejo de
Segura (Guipúzcoa) (1290–1450), Bilbao, Universidad de Deusto, 1993.
Ramírez Luengo, José Luis, Diacronía y sincronía del uso del condicional por el pasado de
subjuntivo en el castellano del País Vasco, in: Camus Bergareche, Bruno/Gómez Seibane,
Sara (edd.), El castellano del País Vasco, Bilbao, Universidad del País Vasco, 2012, 235–253.
Rodríguez Molina, Javier, La extraña sintaxis verbal del Libro de Alexandre, Troianalexandrina 8
(2008), 115–146.
Ruiz Asencio, José Manuel, Propuesta de elaboración de unas normas de transcripción de textos
castellanos medievales, in: Díez Calleja, B. (ed.), El primitivo romance hispánico, Burgos,
Instituto Castellano y Leonés de la Lengua, 2008, 137–143.
Ruiz Asencio, José Manuel/Ruiz Albi, Irene/Herrero Jiménez, Mauricio (edd.), Los Becerros Gótico
y Galicano de Valpuesta, Burgos, Real Academia Española/Fundación Instituto Castellano y
Leonés de la Lengua, 2010.
Sánchez González de Herrero, M.ª Nieves, Prendas y peños en Miranda de Ebro a comienzos del
siglo XIV, Cuadernos de Historia de España 85–86 (2011–2012), 681–699.
Sánchez González de Herrero, M.ª Nieves, La documentación de Miranda de Ebro (siglos XIII y
XIV), Cuadernos del Instituto de Historia de la Lengua 7 (2012), 425–453.
Sánchez González de Herrero, M.ª Nieves, Aproximación al castellano medieval del norte de
Burgos. Algunas características lingüísticas de la documentación de Miranda de Ebro, in:
Bargalló Escrivá, María/Garcés Gómez, M.ª Pilar/Garriga Escribano, Cecilio (edd.), «Llane-
za». Estudios dedicados al profesor Juan Gutiérrez Cuadrado, La Coruña, Universidade da
Coruña, 2014, 234–247.
Sánchez González de Herrero, M.ª Nieves, De la foija del monte fasta la piera del rio. Variación
gráfica en la documentación de los siglos XIII y XIV de Miranda de Ebro, in: García Martín,
J. M. (dir.), Actas del IX Congreso Internacional de Historia de la Lengua Española, tomo I,
Madrid, Iberoamericana, 2015, 1079–1093.
Sánchez González de Herrero, M.ª Nieves, Algunas particularizaciones sobre el continuo norteño
peninsular en la Edad Media a propósito de la documentación de Miranda de Ebro, Oihenart
28 (2013), 9–47.
Sánchez González de Herrero, M.ª Nieves, et al. (dir.), Documentos medievales de Miranda de
Ebro (Archivos Municipal de Miranda de Ebro e Histórico Provincial de Burgos). I. Documen-
tación de concejo, Salamanca, Luso-Española de Ediciones, 2014 (= 2014a).
Sánchez González de Herrero, M.ª Nieves, et al. (dir.), Documentos medievales de Miranda de
Ebro (Archivos Municipal de Miranda de Ebro e Histórico Provincial de Burgos). II. Documen-
tación de cancillería, Salamanca, Luso-Española de Ediciones, 2014 (= 2014b).
Sánchez González de Herrero, M.ª Nieves, et al. (dir.), Textos para la historia del español
IX. Documentos medievales de Miranda de Ebro, Alcalá de Henares, Universidad de Alcalá,
2014 (= 2014c).
Sánchez Romo, Raquel, Los posesivos en la documentación medieval de Miranda de Ebro,
Cuadernos del Instituto de Historia de la Lengua 8 (2013), 269–298.
Sánchez-Prieto Borja, Pedro, Fonética común y fonética de la lectura en la investigación sobre los
textos castellanos medievales, in: Atti del XXI Congreso Internazionale di Lingüística e
Filologia Romanza, vol. 1, Tubinga, Max Niemeyer, 1998, 455–470.
Sánchez-Prieto Borja, Pedro, La edición de textos españoles medievales y clásicos. Criterios de
presentación gráfica, San Millán de la Cogolla, Cilengua, 2011.
Sánchez-Prieto Borja, Pedro/Torrens Álvarez, M.ª Jesús, Las tradiciones de escritura del País
Vasco comparadas con las regiones limítrofes, Oihenart 23 (2008), 481–502.
174 Vicente J. Marcet Rodríguez y M.ª Nieves Sánchez González de Herrero
Saralegui, Carmen, El dialecto navarro en los documentos del monasterio de Irache (958–1397),
Pamplona, Diputación Foral de Navarra/Institución Príncipe de Viana/CSIC, 1977.
Saralegui, Carmen, Aragonés/Navarro. Evolución lingüística externa e interna, in: Holtus, Gün-
ter/Metzeltin, Michael/Schmitt, Christian (edd.), Lexikon der Romanistischen Linguistik,
vol. 1, Tubinga, Niemeyer, 1992, 37–54.
Catarina Carvalheiro, Ana Luísa Costa, Rita Marquilhas,
Clara Pinto, Fernanda Pratas e Gael Vaamonde
A idade dos «desvios»: diacronia, variação
social e linguística de corpus
1 Introdução
Entre os corpora diacrónicos de línguas ibero-românicas atualmente em constru-
ção, figura o caso do P.S., Post Scriptum1 doravante Post Scriptum, sediado no
Centro de Linguística da Universidade de Lisboa e objeto deste trabalho. A sua
cronologia é a da Idade Moderna —recolhem-se textos de um intervalo que se
estende do século XVI ao início do século XIX— e as línguas em causa são o
espanhol e o português. Com este corpus pretende-se constituir uma amostragem
do uso das duas línguas nos seus espaços europeu e extraeuropeu ao longo
daqueles séculos.
Com efeito, verifica-se ao nível das fontes históricas portuguesas e espanho-
las que a documentação oficial dos tribunais dos dois reinos conservou peças de
especial relevância histórico-linguística: cartas particulares de gente diversa,
muita dela gente vulgar. Ficaram arquivadas dentro de processos civis e, sobretu-
do, de processos criminais, e foram contextualizadas pelos próprios tribunais que
as usaram como instrumento de prova para perseguir os respetivos autores,
destinatários, ou indivíduos com eles relacionados.
Apesar de ser evidentemente variado o tipo de utilização a que se presta um
recurso baseado em documentação que espelhe usos quotidianos da língua, ele é
sobretudo um recurso novo para a perspetiva da Sociolinguística Histórica.
Permite recolher dados abundantes e fidedignos no estudo da mudança linguísti-
ca, abrindo a hipótese de uma fina reconstituição diacrónica da sua variação
geográfica e social. Com fontes de tal natureza, e com esta facilidade de pesquisa,
minimiza-se consideravelmente um risco conhecido em Linguística Histórica: o
de se construir conhecimento pouco verificável do ponto de vista empírico. Terttu
Nevalainen descreveu assim esse risco:
1 O projeto P.S., Post Scriptum: Arquivo digital da escrita quotidiana em Portugal e Espanha na
época moderna é financiado pelo Conselho Europeu de Investigação (7FP/ERC Advanced Grant
2011, Grant Agreement 295562).
Catarina Carvalheiro, Ana Luísa Costa, Rita Marquilhas, Clara Pinto, Fernanda Pratas e
Gael Vaamonde: CLUL – Universidade de Lisboa
176 Catarina Carvalheiro et al.
O Post Scriptum estará finalizado em 2017, com uma envergadura de dois milhões
de palavras —um milhão para cada língua—, mas a partir dos materiais já
disponíveis, que ultrapassam meio milhão de palavras, é possível extrair amos-
tras para fundamentação dos dois argumentos que queremos defender concreta-
mente: i) o de que o conceito de desvio linguístico é facilmente desmontável com a
demonstração da antiguidade de processos que, enquanto «desvios», costumam
ser estigmatizados pelo público leigo; ii) o de que os atlas histórico-dialetais são
um recurso linguístico que se pode realizar, hoje em dia, com um grau de
incerteza cada vez mais insignificante. No presente artigo, após uma descrição
sumária do Post Scriptum (secção 2), apresentaremos exemplos ilustrativos dos
dois argumentos. Na secção 3, ocupamo-nos da existência de pois como marcador
discursivo em usos não descritos nas gramáticas tradicionais. Na secção 4, do uso
de cujo sem valor possessivo. Na secção 5, descrevemos o grau de difusão e a
distribuição geográfica dos usos inovadores dos pronomes átonos da terceira
pessoa em espanhol; estes usos não respeitam a função sintática do referente,
traduzindo-se em fenómenos conhecidos como leísmo, laísmo e loísmo. Final-
mente, na secção 6, apresentamos uma breve conclusão e perspetivas para traba-
lhos futuros.
A idade dos «desvios»: diacronia, variação social e linguística de corpus 177
2 Algumas cópias são também transcritas, no caso de serem historicamente relevantes. Mas
essas não integram o corpus linguístico anotado; só são utilizadas enquanto fontes históricas.
178 Catarina Carvalheiro et al.
(1) Mando o meu salteyro grande a Jo(han) Ean(e)s, sucelareyro, q(ue) o aia elle en sua
uida & poys sua mort(e) que fique ao m(o)est(e)i(r)o
(Doc. 55, Orense (1281); Maia 1986, 133)
(2) Outrossi pediu que pois o dito scudeiro nõ pagaua o dito trebuto ao dito Monsteiro que
lhj abrisse mão das ssas herdades
(DN091 (1339); Martins 2001, 571)
(3) Andei mais devagar do que o normal, pois não havia razão para correr riscos.
(CRPC, O Jogo, apud Mendes 2013, 1732)
(4) Pois vosa senhoria non fica Pobre / e non le sosedera mal Algum / Pois se nom me
mandar le aguro pe/lo santisimo sacramento tamta / huma Parte como hotra P fica
180 Catarina Carvalheiro et al.
(6) […] se não quer mandá-las, empreste-mas, porque me obrigo, pela fé que professo,
dentro em três meses mandá-las,
(4') Pois Vossa Senhoria não fica pobre e não lhe sucederá mal algum. Pois, se não me
mandar, lhe juro, pelo Santíssimo Sacramento, tanta uma parte como outra fica
queimada. E para este dinheiro são 20 e 4 [. . .] homes, e todos estão d'espias, e manda
rar outro entregaram. E o portador está inocente, pois é mandado. Pois os 20 e 4 estão
de parte. Pois, se não quer mandá-las, empreste-mas, pois obrigo-me, pela fé que
professo, dentro em três meses mandá-las. E saberá quem é, e me dará as alvíssaras.
(Ed. modernizada, CARDS0004 (1825); CLUL 2014)
A análise dos pois existentes nas cartas portuguesas do Post Scriptum, além de
atestar exemplos de usos conjuncionais e adverbais como os inicialmente descri-
tos, e de registar um elevado recurso a pois como marcador discursivo, com
diversas funções, permitiu identificar uma função de estruturador temático-infor-
macional e perceber que esta especificação tem um uso crescente até ao século XX.
Embora não haja eco da função de marcador discursivo estruturador nas gramáti-
cas e estudos que se debrucem sobre os valores de pois, o seu uso parece ter sido
produtivo no português da Idade Moderna e mantém-se ativo no português con-
temporâneo.
Os enunciados em (10), (11) e (12) incluem exemplos deste pois estruturador
dos séculos XVIII, XIX e XX, respetivamente.
(10) eu pesote pelo amor deos q(ue) te Lenbres q(ue) eu sou teu marido pois torna a pedir a
Senhora q(ue) pedia por mim que me valha
(CARDS0033 (1791), CLUL 2014)
182 Catarina Carvalheiro et al.
(11) [Munto estimarei que te tenhas tido felecidades Como eu p(ar)a mim dezejo i Junta-
mente em Comp(anhi)a da nosa Mai dos mais irmaus.]arenga
Pois eu sahi da cidade do porto a dezoito de no(vem)bro de mil 818 i chiguei aqui a esta
prisão de desta cida do Rio de jan(ei)ro Com trinta digo Com sesenta dias de viaige.
(CARDS7052 (1818), CLUL 2014)
(12) poues cá reçebim a aeçomenda que de lisboa poues esquzavas de andar a ecomodar
esa xente poues a gente ca gozaramos pouco pela pascoa que a gente não tinha alegria
para iço q estava pera açentar paraça o meu [N]
(FLY2153 (1917), Marquilhas 2010)
Em todas as fases da língua portuguesa, cujo está atestado como palavra relativa
que exprime uma relação semântica de «posse material ou jurídica, mas também
de parentesco ou relação entre a parte e o todo» (definição para o português
contemporâneo em Raposo 2013, 906). Cumulativamente, cujo apresenta-se tam-
bém, até ao séc. XVI, como uma variante de de quem, expressão relativa e
interrogativa (cf. Martins 2003, 57).
Enquanto palavra relativa, cujo desempenha duas funções. Por um lado, retoma o
antecedente nominal que corresponde ao possuidor, como ilustrado em (14):
Por outro lado, atribui uma interpretação definida ao «sintagma nominal que
forma o constituinte relativo», sendo, assim, proibida a sua ocorrência com um
determinante com valor (in)definido (15):
(16) […] e foi a mulher quem salvou a situação oferecendo um copo de água à velhota e um
anis ao senhor, cujo vestia um casaco de quarto agaloado, no fio, e calças creme
compridas de mais […]
(António Lobo Antunes, Fado Alexandrino, 1983)
Em Moreira (1907, 40), ficamos a saber a posição que este uso não possessivo de
cujo suscita da parte das gramáticas normativas: «A fórma cujo apparece uma ou
outra vez, todavia usada apenas por pessoas de limitada leitura e pretenciosas [e]
por pessoas letradas, de certo por descuido» […] «A sua construcção, porém,
afasta-se da que é ensinada pelos grammaticos». Estas observações tomavam
como exemplos frases como as que se seguem, de uma personagem criada por
Camilo Castelo Branco, que é satirizada pelo autor:
(17) […] tudo em nome do seu particular amigo José Bernardo e do mano conde, cujos,
dizia, são meus íntimos […]
(Camilo Castelo Branco, A Corja, 1880)
(19) entrego e outorgo. ao Mosteiro de san Saluador de Moreyra. Hũu casal que e en Rial de
Pereyra. o qual casal a dita dona Mayor uëegas (. . .) mandou ao dito Mosteiro.
(1282, Martins 2001)
(20) mostrarõ logo ẽ Jujzo húú testamẽto (21) intregara ao portador desta a quantia
[. . .] na qual mãda fazía mẽçom Antre de Sem mil reis em moeda papel e fixa-
as outras coussas que A mãdara fazer das dentro de huma carta pois he para
Sancha gíl. livramento de hum nosso companheiro
q(eu) se acha prezo nessa Cadeia e cujo
d(inhei)ro he p(ar)a sua soltura
(1328, Martins 2001) (CARDS0087 (1824), CLUL 2014)
Além disso, esse núcleo interno pode também ser modificado: em (22), o nome
«casal», núcleo interno do sintagma nominal encabeçado por o qual, é modifica-
do por «com suas perteenças»; em (23), «almocreve», núcleo interno do sintagma
nominal encabeçado por cujo, é modificado por «dito».
(22) o quall casal com suas perteenças dis- (23) vindo de palmela para as virtudes ca
se que trazia ẽ pregã por esta banda encontrei hum almocre-
ve e o cujo dito almocreve trazia duas
bestas dezocopadas
(1472, Martins 2001) (CARDS0002 (1827), CLUL 2014)
(24) os ditos cassaaes fforõ cõprados dos (25) Paçado o emtrudo paçamos a Almada
dinheiros do dito mosteiro polla quall fazer a Correição, em cuja ouCazião
Razom de derejto perteçem e perte- hei de paçar a essa Ci(da)de
çyam ao dito mosteiro
(1437, Martins 2001) (CARDS0292 (1827), CLUL 2014)
(26) — Senhor, chegou ally o allmocadẽ, e (27) intregara ao portador desta a quantia
pareçe-me que diz que lhe he neçessa- de Sem mil reis em moeda papel e fixa-
rio de vos fallar llogo amte que ama- das dentro de huma carta pois he para
nheça. O qual comde mamdou que livramento de hum nosso companheiro
viesse. q(eu) se acha prezo nessa Cadeia e cujo
d(inhei)ro he p(ar)a sua soltura
(séc. XV, Brocardo 1997) (CARDS0087 (1824), CLUL 2014)
Ainda em ambos os casos, a força ilocutória da oração relativa pode ser indepen-
dente da oração que inclui o antecedente. Assim, nas frases em (28) e (29), com o
qual e cujo, respetivamente, a oração que contém o antecedente tem um objetivo
diretivo e a força ilocutória de ‘instruções’, enquanto a oração relativa, manten-
do-se diretiva, já tem a força ilocutória de ‘pedido’ (Searle 1975, 346).
(28) Com o teor do qual mandei passar esta (29) Fasme o favor de ajuntares a demasia
carta testemunhável ao dito Bento q(u)e te pedi q(u)e são 240 o q(u)e te
Henriques, à qual mando que seja dada ficarei obrigado pois estou nesta ora
tanta fé e autoridade, em juízo e fora sem hum vintem em casa cujo favor eu
dele, e onde quer que fôr apresentada, to agradecerei
quanta por direito se lhe deve dar. O
qual uns e outros assim cumpram e al
não façais
(1578, Pereira 1987) (CARDS6069 (1828), CLUL 2014)
(30) custumarõ dauer e ouuerom no dicto (31) desta tua Molher e que munto te quer e
Monsteiro bõa raçom e mãtijmeto de a cucha te dezega para meu emparo de
pam aluo boroa. carne e vıho e o qual teos filhos
mãtijmeto os Priores [. . .] auiã e som
theudos de dar ao dicto conueto
(1364, Martins 2001) (CARDS5073 (1825), CLUL 2014)
(32) […] e foi a mulher quem salvou a situação oferecendo um copo de água à velhota e um
anis ao senhor, cujo vestia um casaco de quarto agaloado, no fio, e calças creme
compridas de mais […]
(António Lobo Antunes, Fado Alexandrino, 1983)
(33) Ali […] corre um rio, o Irati, que, nascido em França, vai desaguar no Erro, espanhol,
por sua vez afluente do Aragón, o qual é tributário do Ebro, cujo finalmente levará e
lançará no Mediterrâneo as águas de todos.
(José Saramago, Jangada de Pedra, 1986)
12 Para mais informação, consultar uma versão ampliada deste trabalho em Vaamonde (2015).
188 Catarina Carvalheiro et al.
A tabela que se segue permite verificar qual o panorama geral da variação dos
pronomes em causa no nosso corpus. Nela encontramos a percentagem de uso de
leísmo, laísmo e loísmo organizada por século. De notar que a coluna da direita
dá conta da percentagem total de inovação.13
séc. XVI 23 24 0 16
séc. XVII 26 14 1 16
séc. XVIII 27 42 2 22
séc. XIX 21 39 0 15
TOTAL 25 34 1 18
13 A percentagem de leísmo foi calculada contabilizando o número de formas le(s) com função
de OD no total de clíticos com função de OD (foram, portanto, descartados os casos de lo com
referente neutro, dado que não entram em competição com nenhuma outra forma pronominal em
espanhol). Chegou-se à percentagem de laísmo calculando o número de formas la(s) em função
de OI no total de clíticos com referente feminino em função de OI. Por último, chegou-se à
percentagem de loísmo contabilizando o número de formas lo(s) em função de OI no total de
clíticos com referente masculino ou neutro em função de OI. As frequências absolutas correspon-
dentes podem ser consultadas no Apêndice 1, no final do artigo.
A idade dos «desvios»: diacronia, variação social e linguística de corpus 189
ZD 26 25 15 9 4 29
ZC 63 61 136 80 10 71
Esperando expandir as nossas contagens, os dados, para já, apontam para uma
correlação entre estes três usos inovadores e a atual ZC, pois é dentro dos limites
desta que se registam as maiores percentagens. A confirmação de tal tendência,
que parece clara no caso do laísmo, poderá indicar um cenário dialetal de
variação muito semelhante ao que se conhece na atualidade, podendo sugerir
que a difusão da confusão pronominal terá tido início anteriormente à época
moderna.
Esta coincidência de isoglossas torna-se ainda mais evidente se atentarmos
nos territórios em que nos deparámos com ocorrências de usos inovadores. Nos
mapas que abaixo apresentamos, surgem destacadas, à esquerda, as províncias
em relação às quais se registou um ou mais autores exemplificando o fenómeno
em causa. Para minimizar a possibilidade de falsos positivos (i.e. erros de leitura
de manuscrito ou procedências geográficas duvidosas), foram incluídos os mapas
b. el cilicio nada incomoda a vezes pero al contado le pondre de modo que no ofenda si
se me permite.
(PS8083 (1799) autor de Guadalajara; CLUL 2014)
(35) a. Mi muger repite lo mismo q(u)e yo, y q(u)e manda a V(uestra) m(erce)d q(u)e la dijo
q(u)e era su verdadera amiga.
(PS9031 (1810) autor de Valladolid; CLUL 2014)
(36) a. y aran lo q(ue) quissieren, pues yo solo vine a salir de con ellos. y aun de esta suerte
no nos an de dejar. Dios los abra los ojos, q(ue) vien lo an Menester.
(PS6155 (1706) autor de Madrid; CLUL 2014)
b. i al istante que esta cantidad se de io en persona me vere con ustedes u los escrivire
un papel avisandolos lo que an de açer.
(PS5019 (1684) autor de Toledo; CLUL 2014)
6 Conclusão
Terminamos com uma nota sobre o conjunto dos três fenómenos que aqui
comentámos, a saber, o marcador discursivo POIS do português e duas estrutu-
ras anafóricas, o CUJO em português e os clíticos verbais de terceira pessoa em
espanhol, LE(S), LO(S), LA(S). A razão pela qual os três captaram a nossa
atenção logo nas primeiras análises teve a ver com o facto que aqui salientá-
mos: apesar de continuarem vivos nas duas línguas, todos se distanciam do
que se pode considerar usual nas suas variedades cultas. Mas não podemos
deixar de notar, também, que todos três são mecanismos de coesão textual, o
que não é certamente um acaso. Os dados das cartas do Post Scriptum contêm
advérbios e pronomes desafiantes para os linguistas, mas organizam-se tam-
bém, sobretudo, em enunciados cuja coesão, logo, coerência, foi instrumental
para os autores que os produziram. Um dos nossos próximos desafios é o de
conciliarmos análises gramaticais com análises discursivas, e assim contribuir-
mos para uma futura história das duas línguas na perspetiva dos seus falantes
vulgares.
7 Referências
Barreiros, Fernando Braga, Vocabulário Barrosão, Revista Lusitana 20:1–2 (1917), 137–161.
Bikel, Daniel, On the Parameter Space of Generative Lexicalized Statistical Parsing Models, PhD
Dissertation, University of Pennsylvania, 2004.
Brito, Ana Maria, A Sintaxe das Orações Relativas em Português, Porto, INIC & CLUP, 1991.
Brito, Ana Maria, Relativas de genitivo no Português Europeu e no Português de Moçambique, in:
Gonçalves, Anabela/Correia, Clara Nunes (edd.), Actas do XVI Encontro Nacional da APL,
Lisboa, Colibri/APL, 2001, 115–129.
Brito, Ana Maria, Subordinação adverbial, in: Mira Mateus, Maria Helena, et al. (edd.), Gramática
da Língua Portuguesa, Lisboa, Caminho, 2003, 695–728.
Camarinhas, Nuno, Juízes e administração da justiça no antigo regime: Portugal e o império
colonial, séculos XVII e XVIII, [Lisboa], Fundação Calouste Gulbenkian & Fundação para a
Ciência e a Tecnologia, 2010.
Cardoso, Adriana, Relativas com núcleo interno e relativo de ligação na história do português, in:
Frota, Sónia/Santos, Ana Lúcia (edd.), Actas do XXIII Encontro Nacional da Associação
Portuguesa de Linguística [Évora, 2007], Lisboa, Colibri/APL, 2008, 77–92.
Cardoso, Adriana, Variation and change in the syntax of relative clauses: new evidence from
Portuguese. Tese de Doutoramento, FLUL, 2010.
Cardoso, Adriana, Orações apositivas em português: entre a sincronia e a diacronia, Estudos de
Lingüística Galega 3 (2011), 5–29.
Carvalho, Joaquim Ramos de, A jurisdição episcopal sobre leigos em matéria de pecados
públicos: as visitas pastorais e o comportamento moral das populações portuguesas de
Antigo Regime, Revista Portuguesa de História 24 (1988), 121–163.
194 Catarina Carvalheiro et al.
Castro, Ivo, Metodologia do aparato genético, in: Simões, Manuel/Castro, Ivo/Pinto Correia, João
David (edd.), Memória dos afectos: homenagem a Giuseppe Tavani, Lisboa, Colibri, 2001,
69–81.
CLUL (ed.), P.S. Post Scriptum: A Digital Archive of Ordinary Writing (Early Modern Portugal and
Spain), 2014. Disponível em: http://ps.clul.ul.pt/index.php?action=home.
Collins, Michael, Head-Driven Statistical Models for Natural Language Processing, PhD Disserta-
tion, University of Pennsylvania, 1999.
Costa, Ana Luísa, Um Pois Comentador, in: Veloso, João, et al. (edd.), Textos selecionados.
XXIX Encontro Nacional da Associação Portuguesa de Linguística, Porto, APL, 2014,
199–211.
Cunha, Celso/Cintra, Lindley (edd.), Nova Gramática do Português Contemporâneo, Lisboa,
Edições João Sá da Costa, 1984.
Echenique Elizondo, María Teresa, El sistema referencial en español antiguo, Revista de Filología
Española 61 (1981), 113–157.
Fernández-Ordóñez, Inés, Leísmo, laísmo y loísmo: estado de la cuestión, in: Soriano, Olga
Fernández (ed.), Los pronombres átonos, Madrid, Taurus, 1993, 63–96.
Fernández-Ordóñez, Inés, Isoglosas internas del castellano. El sistema referencial del pronombre
átono de tercera persona, Revista de Filología Española 74 (1994), 71–125.
Fernández-Ordóñez, Inés, Leísmo, laísmo y loísmo, in: Bosque, Ignacio/Demonte, Violeta
(edd.), Gramática descriptiva de la lengua española, Madrid, Espasa Calpe, 1999,
1317–1397.
Fiéis, Alexandra/Lobo, Maria, Para uma diacronia das orações causais e explicativas do
português, in: Fiéis, Alexandra/Coutinho, Antónia (edd.), Textos seleccionados. XXIV En-
contro Nacional da Associação Portuguesa de Linguística, Lisboa, Colibri/APL, 2009,
265–280.
Flores Cervantes, Marcela, Leísmo, laísmo y loísmo, in: Company Company, Concepción (ed.),
Sintaxis histórica de la lengua española. Primera parte: La frase verbal, vol. 1, México,
Fondo de Cultura Económica, 2006, 669–749.
Fraser, Bruce, What are discourse markers?, Journal of Pragmatics 31 (1999), 931–952.
Grésillon, Almuth, Élements de critique génétique, Paris, PUF, 1994.
Hespanha, António Manuel, Cultura Jurídica Europeia: Síntese de um Milénio, 2.ª ed., Mem
Martins, Publicações Europa-América, 2003.
Klein-Andreu, Flora, Distintos sistemas de empleo de le, la, lo. Perspectiva sincrónica, diacrónica
y sociolingüística, Thesaurus: boletín del Instituto Caro y Cuervo 36:2 (1981), 284–304.
Kroch, Anthony/Santorini, Beatrice/Delfs, Lauren, The Penn-Helsinki parsed corpus of Early
Modern English (PPCEME), Department of Linguistics, University of Pennsylvania, CD-ROM,
first edition, 2004.
Lapesa, Rafael, Sobre los orígenes y evolución del leísmo, laísmo y loísmo, in: K. Baldinger (ed.),
Festschrift Walther von Wartburg, Tubinga, Max Niemeyer, 1968, 523–551.
Lima, José Pinto de, Grammaticalization, subjectification and the origin of phatic markers, in:
Wischer, Ilse/Diewald, Gabriele (edd.), New Reflections on grammaticalization, Amsterdam,
John Benjamins, 2002.
Lobo, Maria, Para uma sintaxe das orações causais do português, in: Actas do XVI Encontro
Nacional da Associação Portuguesa de Linguística, Lisboa, APL/Colibri, 2001, 291–306.
Lobo, Maria, Subordinação Adverbial, in: Raposo, Eduardo Buzaglo Paiva/Bacelar do Nascimen-
to, Maria Fernanda/Mota, Maria Antónia Coelho da/Segura, Luísa/Mendes, Amália (co-
ords.), Gramática do Português, Lisboa, Fundação Calouste Gulbenkian, 2013.
A idade dos «desvios»: diacronia, variação social e linguística de corpus 195
Lopes, Óscar, Da partícula pois ao conceito de apodeixis, in: Actas do VII Encontro da Associação
Portuguesa de Linguística, Lisboa, Colibri/APL, 1991, 179–192.
Maia, Clarinda de Azevedo, História do Galego-Português, Coimbra, INIC, 1986, 19–295.
Marquilhas, Rita (ed.), Forgotten Letters Years 1900–1974, 2014. Disponível em: http://fly.clul.ul.
pt/index.php?page=mainen.
Martín Zorraquino, María Antonia/Portolés Lázaro, José, Los marcadores del discurso, in: Bos-
que, Ignacio/Demonte, Violeta (edd.), Gramática Descriptiva de la Lengua Española, vol. 3.
Entre la oración y el discurso. Morfología, Madrid, Espasa, 1999, 4051–4213.
Martins, Ana Maria, Documentos Portugueses do Noroeste e da Região de Lisboa: Da Produção
Primitiva ao Século XVI, Lisboa, Imprensa Nacional – Casa da Moeda, 2001.
Martins, Ana Maria, Relatório da cadeira de História da Língua Portuguesa, apresentado a
concurso para Professor Associado, FLUL, 2003.
Matos, Gabriela/Raposo, Eduardo Paiva, Estruturas de coordenação, in: Raposo, Eduardo Buza-
glo Paiva/Bacelar do Nascimento, Maria Fernanda/Mota, Maria Antónia Coelho da/Segura,
Luísa/Mendes, Amália (coords.), Gramática do Português, Lisboa, Fundação Calouste Gul-
benkian, 2013.
Matute Martínez, Carmen, Los sistemas pronominales en español antiguo. Problemas y métodos
para una reconstrucción histórica, Madrid, Universidad Autónoma, 2004.
Mendes, Amália, Coesão Textual, in: Raposo, Eduardo Buzaglo Paiva/Bacelar do Nascimento,
Maria Fernanda/Mota, Maria Antónia Coelho da/Segura, Luísa/Mendes, Amália (coords.),
Gramática do Português, Lisboa, Fundação Calouste Gulbenkian, 2013.
Moreira, Julio, Estudos de Lingua Portuguesa, Lisboa, Livraria Clássica Editora, 1907 (2.ª ed.,
1922).
Nevalainen, Terttu, Historical Sociolinguistics, in: Wodak, Ruth/Johnstone, Barbara/Kerswill,
Paul (edd.), The SAGE Handbook of Sociolinguistics, Los Angeles, SAGE, 2011, 279–95.
Peres, João, Sobre conexões proposicionais em Português, in: Maria Brito, Ana, et al. (edd.),
O Sentido que a vida faz. Estudos para Óscar Lopes, Porto, Campo das Letras, 1997,
775–787.
Pierazzo, Elena, A rationale of digital documentary editions, Literary and linguistic computing
26:4 (2011), 463–77.
Randall, Beth, CorpusSearch 2, 2005–2007.
Raposo, Eduardo Buzaglo Paiva, Pronomes, in: Raposo, Eduardo Buzaglo Paiva/Bacelar do
Nascimento, Maria Fernanda/Mota, Maria Antónia Coelho da/Segura, Luísa/Mendes,
Amália (coords.), Gramática do Português, Lisboa, Fundação Calouste Gulbenkian, 2013,
881–918.
Searle, John R., A Taxonomy of Illocutionary Acts, in: Gunderson, Keith (ed.), Language, Mind and
Knowledge. Minnesota Studies in the Philosophy of Science, Minneapolis, University of
Minnesota Press, 1975, 344–369.
Vaamonde, Gael, Distribución de leísmo, laísmo y loísmo en un corpus diacrónico epistolar, Res
Diachronicae 61 (2015), 58–79.
Veloso, Rita, Subordinação Relativa, in: Raposo, Eduardo Buzaglo Paiva/Bacelar do Nascimento,
Maria Fernanda/Mota, Maria Antónia Coelho da/Segura, Luísa/Mendes, Amália (coords.),
Gramática do Português, Lisboa, Fundação Calouste Gulbenkian, 2013, 2059–2134.
Vries, Mark de, The Syntax of Relativization, Utrecht, LOT, 2002.
196 Catarina Carvalheiro et al.
1 Apêndice
Apêndice 1: Frequências absolutas e relativas de leísmo, laísmo e loísmo
1 Introducción
En 1995, la Real Academia Española tomó la decisión de acometer la construcción
del Corpus de referencia del español actual (CREA) para lograr así mayor amplitud
y seguridad en los materiales utilizados en la confección de su diccionario. Vistos
los primeros resultados obtenidos, se decidió ampliar el banco de datos que
comenzaba a formarse para incorporar también el español de períodos anteriores
y, de acuerdo con los mismos objetivos generales, construir el Corpus diacrónico
del español con el fin de disponer de materiales mejores y mucho más volumino-
sos para la redacción del Diccionario histórico del español. Las primeras versiones
de ambos corpus fueron publicadas en 1998 y ampliadas y mejoradas hasta la
finalización de ambos proyectos en 2008. A lo largo de todos esos años y hasta la
actualidad, la RAE y todas las Academias que forman con ella la Asociación de
Academias de la lengua española (ASALE) han basado en el CREA y el CORDE
todas las obras que han ido publicando. Pero el impacto de estos dos corpus ha
sido considerablemente mayor, puesto que han supuesto una modificación radi-
cal también en los modos de trabajo de cuantos se dedican a la investigación de
la lengua española.
Aunque siguen siendo útiles, tanto el CREA como el CORDE tienen un diseño
que, dado que fueron concebidos hace casi veinte años, no resulta congruente
con las prácticas actuales, un tamaño insuficiente para buena parte de las
necesidades que se plantean en la investigación y una aplicación de búsqueda
rica y flexible, pero un tanto envejecida. Como consecuencia de todo ello, las
Academias de ASALE decidieron, en 2007, acometer la creación del Corpus del
español del siglo XXI y encargar su realización a la Real Academia Española. La
primera versión beta del CORPES se presentó en el Congreso internacional de la
lengua española (CILE) celebrado en Panamá en noviembre de 2013 y se publicó
como versión 0.6. en diciembre de ese mismo año. En abril de 2015 se publicó la
versión 0.8. del CORPES, que acaba de entrar en su segunda fase, cuya finaliza-
ción está prevista en diciembre de 2018.
El propósito de este trabajo es analizar las novedades que supone el CORPES
en la lingüística española por un lado y en la lingüística de corpus por otro. Para
1 Tienen gran importancia en esta fase los corpus construidos para uso en proyectos lexicográfi-
cos. Son, en general, proyectos de alto coste económico y también organizativo, que implican un
cambio en la práctica lexicográfica que tardará algún tiempo en consolidarse y emprender el
camino que lleva a la situación actual. Para detalles, vid. Rundell (2012, 18).
2 Es la denominación que empleo en Rojo (2015) para los que se sitúan en las cercanías de la LC,
pero sin llegar a emplear recursos electrónicos, como el Proyecto de estudio coordinado de la
norma lingüística culta, y los que suponen la preparación de textos ya en formato electrónico,
pero sin llegar a constituir un corpus en sentido estricto, como los materiales reunidos en el
Hispanic Seminar of Medieval Studies para la redacción del Dictionary of Old Spanish Language,
los textos periodísticos informatizados en la Universidad de Göteborg o las obras de teatro
informatizadas por Hiroto Ueda. Vid. Rojo (2015, apdo. 2) para detalles sobre estos proyectos y las
referencias bibliográficas correspondientes.
200 Guillermo Rojo
lingüísticas, país, etc.). Por último, el desarrollo de Internet, aunque todavía muy
reducido en aquel momento, permitía ya pensar directamente en un modelo
cliente-servidor que hiciera posible la consulta cómoda y sencilla de los corpus
desde cualquier parte del mundo, con cualquier máquina, cualquier sistema
operativo y cualquier navegador.
El CREA y el CORDE surgieron, pues, en un contexto favorable a la creación
de corpus de referencia y encajaban perfectamente en los estándares del mo-
mento en cuanto a tamaño, codificación, estructuración y sistema de recupera-
ción de datos. Además, presentaban algunas características adicionales de espe-
cial interés. El CORDE fue proyectado con un tamaño (300 millones de formas)
difícilmente alcanzable por un corpus de carácter diacrónico.6 El CREA tenía un
diseño que lo situaba a caballo entre los corpus cerrados (al estilo del BNC), que
se terminan cuando alcanzan el tamaño previsto, y los abiertos, que añaden
textos de forma continua, con los efectos fácilmente imaginables sobre la estabi-
lidad de los resultados obtenidos en las consultas. Fue proyectado en realidad
como el corpus textual de los últimos veinticinco años de historia del español,
de modo que al período abarcado en su configuración inicial (1975–1999) se irían
añadiendo luego quinquenios posteriores (2000–2004, 2005–2009, etc.). La
entrada de cada quinquenio nuevo supondría la retirada del más antiguo, para
mantener así siempre un tramo general de veinticinco años. Y, dado que ambos
corpus constituían un proyecto conjunto, el tramo retirado del CREA se integra-
ría en el CORDE, que iría de este modo ampliando su período de actuación. Por
esa razón, los ficheros del CREA llevan en su cabecera los rasgos clasificatorios
que les corresponderían en el CORDE cuando se produjera su integración en este
corpus.
El diseño tenía un punto débil: el hecho de que los diferentes lustros
integrados en el CREA tuvieran porcentajes diferentes sobre el total hacía que la
operación de reajuste resultara especialmente complicada: con el paso al CORDE
del tramo 1975–1979, el tramo siguiente (1980–1984) debería perder los textos
necesarios (y hacerlo de forma congruente con el diseño general para mantener
el equilibrio), dejar de suponer el 15 % del total y pasar a ser únicamente el
10 %. Como es lógico, habría que aplicar una operación equivalente sobre los
demás tramos. Además de la enorme complejidad de una remodelación de este
tipo, los textos retirados para ajustar los porcentajes no podrían pasar todavía a
formar parte del CORDE, que no habría llegado a esos años. En consecuencia,
6 La excepción más notable es, sin duda, el Corpus of Historical American English (COHA),
construido por Mark Davies, que contiene unos cuatrocientos millones de formas procedentes de
textos editados entre 1810 y 2009.
202 Guillermo Rojo
7 En el proceso de organización de los materiales para el Nuevo diccionario histórico del español,
la mayor parte de los textos que componen el CORDE y el CREA han sido integrados en el Corpus
del NDHE (CDH).
8 En efecto, todas las obras publicadas por las Academias desde 1998 (las ediciones vigésima
segunda (2001) y vigésima tercera (2014) del DRAE, el Diccionario Panhispánico de Dudas (2005),
el Diccionario del Estudiante (2005 y 2011), el Diccionario Esencial de la lengua española (2006), la
Nueva gramática de la lengua española (2009) y la Ortografía de la lengua española (2010)) se han
beneficiado de los datos contenidos en el CORDE y, sobre todo, el CREA.
9 En febrero de 2015, el CREA recibió casi 100.000 consultas. El CORDE, algo menos de la mitad.
Citius, maius, melius: del CREA al CORPES XXI 203
tos como CODEA, Biblia medieval o CORDIAM10 tienen unas directrices muy
marcadas y todos los textos responden estrictamente a ellas. Son, además,
textos transcritos específicamente para los proyectos respectivos y pueden inte-
grar diferentes presentaciones del mismo «texto» (por ejemplo, una edición
paleográfica al lado de una edición crítica y la imagen del manuscrito). Como es
lógico, ese cuidado exquisito tiene como contrapartida el limitadísimo tamaño
que se puede conseguir y también la habitual restricción a un cierto tipo de
textos.
Estos corpus son «small and tidy», para usar la expresión utilizada por Mair
(2006). Al otro lado, el constituido por los que resultan «big and messy» y que
pueden tener el Bank of English como su modelo inicial, se encuentran actualmen-
te los que resultan de la tendencia conocida como 'Web as Corpus', que produce
conjuntos obtenidos de modo oportunista a partir de lo que se encuentra ya en la
red. En una formulación estricta, estos conjuntos textuales carecen de diseño y,
por tanto, no encajan realmente en lo que se exige para que puedan recibir la
consideración de corpus,11 pero es preciso reconocer que permiten construir, con
unos plazos y unos costes muy reducidos, conjuntos textuales formados por miles
de millones de formas12 y que los filtros automáticos para seleccionar los textos,
evitar repeticiones, excluir las zonas escritas en lenguas diferentes, etc. han
mejorado considerablemente desde los utilizados hace unos años. Cerca de este
segundo tipo se encuentran también otros corpus de gran tamaño y, al menos de
entrada, mucho más homogéneos, que se construyen directamente con alguno de
los recursos globales existentes del estilo de la Wikipedia, las intervenciones en el
Parlamento europeo, en la ONU, etc.
Los corpus de referencia no pueden competir en cuidado con los pequeños ni
en tamaño con los grandes. Con unos costes elevados, pero asumibles para
instituciones de cierta importancia, consiguen reunir cientos de millones de
formas con un determinado diseño en el que quede garantizada la representativi-
10 El Corpus de documentos españoles anteriores a 1700 (CODEA) contiene unos 1500 documen-
tos transcritos hasta el momento según las directrices seguidas en el proyecto Corpus hispánico y
americano en la red: textos antiguos (CHARTA). El proyecto Biblia medieval, constituido por
traducciones de la Biblia al castellano tiene una enorme gama de posibilidades de recuperación
de datos y consta de unos cinco millones de formas. El Corpus diacrónico y diatópico del español
de América (CORDIAM), cuya publicación está prevista para finales de 2015, contendrá la
transcripción de unos 3000 documentos, con un total de unos cuatro millones de formas. Para
detalles, cf. Rojo (2015, apdo. 4).
11 Cf. Sinclair (2005, 15).
12 El corpus EsTenTen, construido por Adam Kilgarrif tenía, en diciembre de 2013, algo más de
8300 millones de formas, etiquetadas, procedentes de todos los países hispánicos. Cf. Kilgarriff/
Renau (2013).
204 Guillermo Rojo
13 Los equipos externos que han colaborado en el proyecto hasta 2014 son la Academia
Argentina de Letras, la Academia Puertorriqueña de la lengua española, la Fundación Comillas,
la Universidad de Alcalá de Henares, la Universidad Autónoma de Barcelona, la Universidad de
Salamanca, la Universidad de León, la Universidad de Santiago de Compostela y la Universidad
de Valencia. Para más detalles sobre la colaboración de grupos editoriales y autores, cf. http://
www.rae.es/recursos/banco-de-datos/corpes-xxi.
14 Son las siguientes: Chile, Río de la Plata, zona andina, Caribe continental, México y Centroa-
mérica, Antillas y Estados Unidos, a las que se añaden Filipinas y Guinea Ecuatorial.
206 Guillermo Rojo
15 Para un análisis más amplio de estas cuestiones, cf. Rojo (2014, 376 y ss.).
16 El etiquetario de la versión 0.82 consta de aproximadamente 330 etiquetas.
Citius, maius, melius: del CREA al CORPES XXI 207
formas del verbo llegar y similares) y, por otro lado, permitirá la recuperación
correcta de los casos en los que hay formas homógrafas que deben ser vinculadas
a lemas distintos (del tipo casa, desarrollo o vino). Sin embargo, lo más interesan-
te de esta característica radica en el enorme avance que supone para la obtención
de materiales necesarios para estudios gramaticales. En efecto, el sistema de
búsqueda ha sido diseñado de modo tal que admite la petición de elementos que
tienen una determinada característica gramatical con independencia del lema al
que pertenezcan, por ejemplo los que han sido etiquetados como pertenecientes
al futuro de subjuntivo de cualquier verbo. Además, dado que la aplicación
admite la incorporación de varios elementos en la búsqueda (tanto en secuencia
inmediata como en una ventana de proximidad), es posible, por ejemplo, locali-
zar casos de un sustantivo seguido inmediatamente por dos adjetivos (del tipo
situación política actual) o bien de un verbo cualquiera seguido de la conjunción
que y otro verbo en modo subjuntivo. En definitiva, la estructura de la informa-
ción incorporada a los textos y las formas del CORPES permite una gran riqueza
de recuperación de fenómenos léxicos y gramaticales, siempre con la posibilidad
de restringir los resultados a un cierto subconjunto del corpus (es decir, un cierto
país, un tipo de texto determinado, etc.).
El CORPES permite, pues, una auténtica recuperación selectiva de la informa-
ción. Como es bien sabido, la mayor riqueza de un corpus, sea cual sea su tipo,
consiste en la posibilidad de construir corpus virtuales de forma dinámica y
permitir así establecer la comparación entre las características que presenta un
determinado fenómeno en un cierto subconjunto (por ejemplo, noticias de prensa
referentes a economía publicadas en periódicos colombianos en 2008) con las
que tiene en otro (por ejemplo, de un año y un país distintos, un área temática
diferente, etc.). Esta posibilidad es, por cierto, la que permite superar el viejo
problema de la representatividad y su repercusión sobre los diferentes pesos que
en un conjunto como el CORPES deberían tener los diferentes países o zonas,
áreas temáticas, medios, etc. Además, la aplicación de consulta facilita sistemáti-
camente tanto la frecuencia general como la frecuencia normalizada para los
datos de cada corpus virtual, lo cual hace posible realizar las comparaciones
pertinentes con carácter inmediato y obtener las conclusiones oportunas.
Las búsquedas pueden hacerse, como es de esperar a partir de lo anterior, por
formas (que pueden estar constituidas por varias palabras gráficas) o por lemas.
Es posible también exigir la grafía original o bien tolerar el tratamiento indiferen-
ciado de caracteres habitual en estos casos (con y sin tilde, mayúsculas y minús-
culas).
Dada la complejidad originada por los numerosos parámetros con respecto a
los cuales se ha caracterizado cada texto, la aplicación de consulta se organiza
sobre un sistema de ventanas desplegables que van mostrando niveles a medida
208 Guillermo Rojo
que se va haciendo la selección y que, por tanto, no tienen más valores que los
válidos en cada uno de los parámetros en los que es posible hacer la elección.
Este sistema se aplica tanto en los valores clasificatorios como en la selección de
las categorías y subcategorías gramaticales. Una vez se ha optado por el rasgo
«verbo» en la clase de palabras, aparecen las ventanas correspondientes a modo,
tiempo, número y persona, con los valores seleccionables en cada una de ellas.
Este procedimiento, más largo y pesado en su desarrollo informático, evita a
quienes consulten el CORPES la necesidad de profundizar en la organización de,
por citar el caso más complejo, las etiquetas gramaticales que recibe cada
elemento.
Las búsquedas de ejemplos, con posibilidad de restringirlos a subconjuntos
del CORPES, admiten dos grandes tipos de salida. La más general contiene la
estadística de resultados, que se puede ir especificando por zonas, países, tipos
de texto, etc., siempre con indicación de frecuencia general y frecuencia normali-
zada. La segunda proporciona las concordancias en el formato habitual, con
indicación de la procedencia de cada ejemplo y la posibilidad de obtener un
contexto más amplio si es necesario. Ambas salidas están interconectadas, de
modo que pulsando la zona correspondiente a la frecuencia de un elemento en un
cierto país se accede a los ejemplos correspondientes.
La búsqueda por formas, lemas o rasgos gramaticales admite la concatena-
ción de cualesquiera de esos rasgos en un contexto próximo, como se ha indicado
antes. Las condiciones de la búsqueda pueden referirse a un contexto de cierta
longitud a cualquiera de los lados del que se utiliza como central o bien a
elementos que se sitúen a una distancia determinada del primero. Así, por
ejemplo, cabe plantear la búsqueda de casos del verbo dudar seguido inmediata-
mente por la preposición de o bien con la preposición de en un margen de, por
ejemplo, tres elementos a la derecha (para cubrir casos del tipo dudaba muy
intensamente de su sinceridad). Utilizando las caracterizaciones gramaticales
pueden recuperarse los casos de ir seguido inmediatamente de a y luego de un
verbo cualquiera en infinitivo, los de cualquier verbo seguido inmediatamente
por cualquier otro en infinitivo, los de un verbo seguido a una distancia no
superior a cinco elementos por una preposición, etc.
Además de la estadística y los ejemplos correspondientes al elemento selec-
cionado, la aplicación de búsqueda permite obtener aquellos otros elementos que
coaparecen con el seleccionado en un contexto que abarca por defecto cinco
elementos a cada lado. Como es bien sabido, las coapariciones17 han ido ganando
servir, pero parece mucho más razonable adoptar una expresión perfectamente reconocible para
cualquier hablante de español con un significado general que resulte congruente con el que se le
atribuye en lingüística.
18 Para una explicación general de las características de estos tres estadísticos puede verse la
ayuda que se despliega en la página de resultados de la aplicación de consulta del CORPES-XXI.
210 Guillermo Rojo
tanto, se recupera, como en todos los casos, a través de la versión textual, pero
ofrece la posibilidad de obtener el sonido vinculado a la zona devuelta por la
concordancia. Esta posibilidad, que será utilizada también en materiales de otras
procedencias, abre una vía del mayor interés para estudios en los que el análisis
directo del componente fónico (y no su traducción, más o menos detallada, a
marcas añadidas del texto) resulta importante. Dado que, además, las búsquedas
textuales incluyen ya la posibilidad de localizar signos de puntuación, el análisis
de, por ejemplo, aspectos relacionados con la entonación en secuencias interro-
gativas, exclamativas o parentéticas se hace algo relativamente sencillo.
En la versión siguiente (la 0.83, prevista para junio de 2016), el CORPES
incorporará textos procedentes del proyecto PRESEEA,19 con cuyos responsables
firmó la Academia un acuerdo de cesión de materiales en 2008. Dado que PRESEEA
tiene un ámbito de actuación que comprende todo el mundo hispánico, los
materiales de este proyecto enriquecerán considerablemente la variedad de la
parte oral del CORPES. No obstante, en la nueva fase del proyecto (entre 2015 y
2018) será necesario dedicar una atención muy especial a la incorporación de
textos orales, tarea todavía muy complicada y costosa a pesar de los importantes
avances de estos años en el tratamiento de los materiales sonoros. Con un impor-
tante porcentaje de los textos orales con sonido alineado, el CORPES se situará en
el camino de la integración de diferentes capas y perspectivas sobre los textos.
A partir de 2016, la aplicación de búsqueda, con las características que tiene
ya en este momento (noviembre de 2015) y algunas adicionales, tendrá a su lado
la posibilidad de consulta de la nómina de textos por cualquier combinación de
los parámetros de configuración. Habrá también una lista de lemas y formas
asociadas con sus frecuencias generales y normalizadas. Las consultas seguirán
siendo realizables únicamente mediante el sistema clásico de las concordancias
de longitud restringida, con posibilidad de cierta ampliación de contexto. Esta
limitación, inevitable en los corpus de referencia, es compensada con creces por
las ventajas de los más diversos tipos que la restricción de la longitud proporcio-
na. Por citar únicamente la más importante, hace posible que el CORPES conten-
ga multitud de textos de gran interés lingüístico que, por cuestiones legales, no
podrían ser incluidos en condiciones diferentes de consulta y descarga. Por todo
ello, el CORPES representa, en el conjunto de los corpus textuales del mundo
hispánico, un recurso que va más lejos, tiene mayor volumen y es mejor que los
anteriores.
5 Referencias bibliográficas
Kilgarrif, Adam/Renau, Irene, EsTenTen, a Vast Web Corpus of Peninsular and American
Spanish, Procedia – Social and Behavioral Sciences 95 (2013), 12–19. Descargable de
http://www.sciencedirect.com/science/article/pii/S1877042813041372.
Mair, Christian, Tracking ongoing grammatical change and recent diversification in present-day
standard English: the complementary role of small and large corpora, in: Renouf, Antoinet-
te/Kehoe, Andrew, The changing face of corpus linguistics, Amsterdam, Rodopi, 2006,
355–376.
Rojo, Guillermo, Hispanic Corpus Linguistics, in: Lacorte, Manel (ed.), The Routledge Handbook
of Hispanic Applied Linguistics, Nueva York, Routledge, 2014, 371–387.
Rojo, Guillermo, Los corpus textuales del español, in: Gutiérrez-Rexach, Javier (ed.), Enciclopedia
lingüística hispánica, Nueva York, Routledge, en prensa.
212 Guillermo Rojo
1 Introducción
Hoy en día es un hecho que la lingüística histórica como disciplina académica
está cambiada profunda y definitivamente, debido al desarrollo de la lingüística
de corpus y las nuevas metodologías ofrecidas y hasta impuestas por los corpus
diacrónicos digitales. Mientras que en el pasado se reunían los ejemplos leyendo
minuciosamente una serie de textos o fragmentos de textos, actualmente es
posible recopilar de manera más o menos automática cantidades considerables
de ejemplos.
Una ventaja del método tradicional era que el investigador podía evaluar
sobre la marcha la validez o invalidez de un ejemplo, procurando que su corpus
de ejemplos fuera homogéneo y no contuviera ejemplos indebidos. Además, la
lectura detenida de los textos que le servían de fuente le permitía, ya durante el
proceso de la recolección de los datos, hacerse una idea de los contextos específi-
cos sintácticos o pragmáticos en que aparecía la forma o construcción investiga-
da. Al mismo tiempo, el investigador ya podía ir formulando hipótesis sobre los
factores involucrados en la selección de la forma o construcción en cuestión. Este
método, a la que Kabatek (2014) en un artículo reciente se refiere con el término
de «lingüística empática», hacía que el investigador llegara a conocer muy bien
su material, condición que, obviamente, es fundamental para un buen análisis
lingüístico.1
No cabe duda de que hoy en día la mayor ventaja de un corpus digital es la
disponibilidad de un banco de datos muy extenso, y la posibilidad de reunir un
corpus de ejemplos mucho más amplio, y basado en muchos más textos, que con
el método tradicional.2 Sin embargo, con el estado actual de los corpus diacróni-
1 Kabatek (2014, 707) describe la lingüística empática como «la posibilidad, aun en el caso de la
lengua de épocas remotas, de adquirir una cierta competencia lingüística y de desarrollar un ojo
crítico que permite identificar fenómenos que eran de algún modo llamativos en la época».
2 Es interesante que Rojo (2012, 435) considere la gran cantidad de ejemplos que se puede reunir
con un corpus digital justamente como una desventaja; compárense también las otras ventajas e
inconvenientes que menciona Rojo en su trabajo de 2012 (435–436).
cos digitales del español, hay temas lingüísticos que no se dejan estudiar fácil-
mente, es decir, no con una serie de búsquedas directas. Por ejemplo, en el ámbito
de la morfología: el surgimiento del pronombre átono os como variante descuida-
da del átono vos (De Jonge/Nieuwenhuijsen 2009, 1629–1635). En el caso de os, se
trata de una forma que originalmente surgió en posición enclítica, condición que
constituye un obstáculo inseparable, dado que las posibles búsquedas o bien
proporcionan más ejemplos de los que puede procesar el programa (CORDE), o
bien únicamente ofrecen ejemplos impropios (Corpus del español; de aquí en
adelante: CdE) (Nieuwenhuijsen 2009, 376–379). Asimismo, por poner un ejemplo
en el ámbito de la sintaxis: el desarrollo de las oraciones yuxtapuestas (Nieu-
wenhuijsen 2013; 2014). Puesto que la yuxtaposición supone la unión de dos
oraciones sin conjunción o nexo, el signo que se busca carece de presencia formal,
característica que obviamente complica sumamente su análisis en un corpus
digital.
Además, el trabajo con un corpus digital entraña el riesgo de que entre los
ejemplos reunidos se encuentren casos indebidos, lo cual, obviamente, no solo
contamina los datos sino también el análisis y los resultados. Buscando en
CORDE las formas del imperfecto de subjuntivo en –ra y en –se de los verbos ser e
ir para comparar su frecuencia relativa, rápidamente se obtienen las formas
correspondientes, pero también la forma homónima del adverbio fuera y la
preposición compuesta fuera de (cf. Rojo 2008, 167, nota 9; 2010, 34, nota 16). Una
cala en CORDE muestra que la palabra fuera en el periodo 1900–1950 en España
en todos los medios proporciona para los tres textos con más casos por texto, un
total de 990 casos, de los que 377 ejemplos son casos del adverbio fuera o de la
preposición fuera de. Esto implica que el 38 % de los casos recogidos no corres-
ponde a la forma verbal.
En el CdE se pueden introducir categorías gramaticales, lo que permite, por
ejemplo, la búsqueda de construcciones pasivas perifrásticas con el auxiliar ser y
un complemento agente introducido por la preposición de o por: [ser] [VPS*] de/
por [NP*]/[NN*]. No obstante, este tipo de búsqueda ofrece también casos como
fueron expulsados de España y primero sea arrastrado por las calles públicas.
Mientras que la primera desventaja —la imposibilidad de buscar ciertas
formas o construcciones—, que se sepa, por el momento no tiene remedio, la
segunda se puede remediar con una revisión «manual» cuidadosa de todos los
ejemplos seleccionados automáticamente por el programa. Al mismo tiempo, de
esta manera el investigador puede acercarse a su material de estudio, comparable
con el proceso por el que pasaba el lingüista tradicional.
Es evidente que una mayor cantidad de datos disponibles incide positiva-
mente en la fiabilidad de los resultados. Sin embargo, más allá de la presentación
de números absolutos y porcentajes, no cabe duda de que la fiabilidad de los
Notas sobre la aportación del análisis estadístico a la lingüística de corpus 217
3 Cf. Torruella Casañas (2009, 100): «La utilización de técnicas estadísticas en la investigación
en general y en la investigación en el campo de la lingüística histórica en particular, es hoy
inevitable, puesto que abre la puerta a la justificación de las teorías existentes o a la argumen-
tación de nuevas sobre bases analíticas».
218 Dorien Nieuwenhuijsen
3 El corpus
Como el CdE en gran parte está lematizado, es posible reunir un corpus de
ejemplos amplio con un número de búsquedas muy reducido. La introducción de
las secuencias:
no [saber] si/[PQ*][VIP*]
(no+forma verbal de saber+si/pronombre interrogativo+forma verbal del presente de indica-
tivo)
no [saber] si/[PQ*][VSP*]
(no+forma verbal de saber+si/pronombre interrogativo+forma verbal del presente de sub-
juntivo)
Notas sobre la aportación del análisis estadístico a la lingüística de corpus 219
resultó en ejemplos como los de (1) a (4). Para las subordinadas introducidas por
cómo, por qué y cuándo se han realizado búsquedas aparte, dado que no salían
automáticamente al buscar por la categoría de pronombre interrogativo (cf. los
ejemplos (5) y (6)).
(1) son blancas de dentro, y el pescado de ellas, y muy sabrosas, no saladas, sino dulces y
que han menester alguna sal, y dize que no saben si naçen en nácaras. (Textos y
documentos completos de Cristobal Colón, siglo XV, CdE)
(2) ¿En qué me ejercitaré para agradaros? Gloria mía, yo no sé qué haga; decidmelo Vos,
pues sabéis que deseo acertar a honraros y glorificaros. (Epistolario, siglo XVI, CdE)
(3) Aunque es verdad que la debo obligaciones, repara que ella no sabe quién es; y es
bajeza y es infamia casarme yo con mujer. . . Clotaldo. (La vida es sueño, siglo XVII,
CdE)
(4) Respuesta. – No sé cuál sea la estrategia que vaya a tomar el Pri, la verdad es un
problema del Pri en este punto y nosotros estamos defendiendo nuestros puntos de
vista de una iniciativa válida, meditada, bien hecha, (Entrevista PAN, siglo XX, CdE)
(5) Pues assí goze de mi alma, no se me ha quitado el mal de la madre; no sé cómo pueda
ser. (La Celestina, siglo XV, CdE)
(6) No sé por qué pasa ni cómo explicarlo, pero sé que ocurre y que el público también lo
siente. (Entrevista ABC, siglo XX, CdE)
El corpus así formado, por tanto, comprende subordinadas indirectas que depen-
den del verbo saber y están encabezadas por los sintagmas interrogativos cómo,
cuál, cuándo, cuánto, dónde, por qué, qué, quién y si. Todos los ejemplos se han
revisado «a mano», para quitar algunos casos dobles. En total se trata de 2202
ejemplos (1833 de indicativo, 369 de subjuntivo).
INDICATIVO SUBJUNTIVO
XIII 3 0 3
100 % 0% 100 %
XIV – – –
XV 1 3 4
25 % 75 % 100 %
XX 597 45 642
93 % 7% 100 %
registra ningún caso para el siglo XIV. Asimismo, los tres ejemplos del siglo XIII
provienen de Siete partidas, un texto cuyo manuscrito original data del siglo XIII,
pero que en CORDE aparece con la fecha de 1491, de acuerdo con la fecha de la
primera edición conocida. A pesar de eso, en general se puede concluir que el
empleo del subjuntivo en las subordinadas interrogativas indirectas negadas con
saber, efectivamente, baja a lo largo de los siglos, del 27,6 % en el siglo XVI al
7 % en el siglo XX.
El desarrollo esbozado aquí se aprecia con mayor nitidez en el gráfico 3, que
representa los datos de la tabla 1.
Los porcentajes de la tabla 1 están calculados sobre los ejemplos del corpus reunido
para este trabajo y, en tal calidad, dan información sobre la distribución de los dos
modos verbales en el mismo. Sin embargo, dado que estudios anteriores advierten
que el uso del subjuntivo en las interrogativas indirectas negadas era más frecuente
en el español clásico, lo cual se comprueba en nuestro corpus, interesa conocer
también el grado de influencia que ejerce el factor tiempo sobre la aparición del
subjuntivo en esta clase de oraciones, es decir, interesa saber si existe una correla-
ción entre el tiempo y el uso del subjuntivo en general.
Para investigar dicha correlación, se ha aplicado un test de regresión logística
binaria, con el que se puede examinar si una o más variables independientes o
predictoras tienen influencia sobre una variable dependiente y si el efecto es
Notas sobre la aportación del análisis estadístico a la lingüística de corpus 223
Tabla 2: Probabilidad y valor de significación del empleo del subjuntivo con la variable
independiente de siglo
a través de los siglos (Exp(B) < 1, =0,666) y que el efecto tiene significación
estadística (Sig.=0,000). Esto encaja con los resultados de la tabla 1, si bien en los
siglos XIII y XV el corpus proporcionaba un panorama relativamente irregular (el
0 % en el siglo XIII y el 75 % en el siglo XV).
Al presentar los resultados del test estadístico de manera gráfica, se observa
que la probabilidad de que aparezca el subjuntivo disminuye constantemente a
través de los siglos, con una decadencia muy marcada en los primeros siglos
(gráfico 4).
En los apartados anteriores se han presentado datos acerca del uso del indicativo
y subjuntivo a través de los siglos sin distinguir entre la clase de interrogativa
indirecta, es decir, sin distinguir entre los sintagmas interrogativos que encabezan
las subordinadas. Sin embargo, no se puede descartar la posibilidad de que el uso
Notas sobre la aportación del análisis estadístico a la lingüística de corpus 225
del modo verbal sea diferente según el sintagma interrogativo específico que
introduzca la oración subordinada; ya se ha señalado que con los sintagmas
cuándo y cuánto el corpus únicamente registra el modo indicativo.
El gráfico 5 presenta la frecuencia de los dos modos verbales con los distintos
sintagmas interrogativos.
A partir del gráfico 6 se puede concluir que, si bien en todos los sintagmas
interrogativos el empleo del modo subjuntivo disminuye a través de los siglos,
cuál y si presentan un aumento en el siglo XVIII, aumento que también se observa
en cómo en el siglo XVII. La fuerte caída observada en cómo y qué del siglo XV a
XVI (100 % a 25,6 % y 43,2 % respectivamente), no es fidedigna, dado que se
trata de 1 y 2 casos de subjuntivo en total.
Tabla 3: Probabilidad y valor de significación del empleo del subjuntivo con las variables
independientes de siglo y sintagma interrogativo e interacción entre siglo y sintagma
interrogativo en subordinadas interrogativas indirectas negadas con saber
Tabla 3: (continuada)
El test estadístico revela varios resultados interesantes. Por una parte, se confirma
el hecho de que el tiempo influye en la aparición del subjuntivo en las interroga-
tivas indirectas, en el sentido de que el empleo de este modo disminuye a través de
los siglos (Exp(B)=0,546; Sig.=0,000). Por otra parte, la probabilidad de que ocurra
el subjuntivo en la subordinada encabezada por cuál, dónde, por qué, si y quién
disminuye en comparación con la subordinada introducida por qué (Exp(B) < 1), en
tanto que con cómo dicha probabilidad aumenta moderadamente (Exp(B)=1,127)
comparada con qué. Sin embargo, el efecto solo es significativo con si (Sig.=0,000).
Asimismo, a través del tiempo la probabilidad de que aparezca el subjuntivo
aumenta con todos los sintagmas interrogativos en comparación con qué, menos
con cómo, pero, de nuevo, únicamente en el caso de si el resultado tiene significa-
ción estadística (Sig.=0,00). El gráfico 7, creado a base de los resultados del test de
regresión, presenta la influencia del factor tiempo sobre la ocurrencia del subjunti-
vo con los distintos sintagmas interrogativos.
Como se puede ver, la probabilidad de que el verbo de la subordinada esté en
subjuntivo disminuye a lo largo del tiempo independientemente del sintagma
interrogativo, puesto que con todos los sintagmas interrogativos la curva descien-
de. No obstante, las pérdidas más substanciales a través de los siglos se dan con
los interrogativos cómo y qué, y, aunque en menor grado, también con si. Por otra
parte, con dónde, por qué y quién la probabilidad siempre ha sido relativamente
baja, de manera que su papel en la disminución del uso del subjuntivo en esta
clase de oraciones subordinadas en perspectiva diacrónica es insignificante.
Asimismo, si bien en el caso de cuál la probabilidad de que el verbo aparezca en
subjuntivo ha bajado a lo largo del tiempo, comparable con la caída de si a partir
del siglo XVI, son las interrogativas encabezadas por cuál las que en el siglo XX
tienen mayor probabilidad de aparecer con subjuntivo.
228 Dorien Nieuwenhuijsen
Gráfico 7: Probabilidad media predicha del empleo del subjuntivo en subordinadas interrogativas
indirectas negadas con saber introducidas por distintos sintagmas interrogativos a través de los
siglos
INDICATIVO SUBJUNTIVO
XIII España 3 0 3
100 % 0% 100 %
XV España 1 0 1
100 % 0% 100 %
XVI ?? 7 1 8 Chi2=1,055;
gl=2;
87,5 % 12,5 % 100 %
p=0,590
América 2 0 2
100 % 0% 100 %
77 % 23 % 100 %
XVII ?? 3 1 4 Chi2=1,422;
gl=2;
75 % 25 % 100 %
p=0,491
América 6 3 9
bajo número de ejemplos procedentes de textos no peninsulares (para América: 208 ejemplos en
total, solo 35 de subjuntivo) no ha sido posible hacer una subclasificación por país o zona
dialectal americana.
230 Dorien Nieuwenhuijsen
Tabla 4: (continuada)
INDICATIVO SUBJUNTIVO
XIX ?? 1 0 1 Chi2=2,203;
gl=2;
100 % 0% 100 %
p=0,332
América 10 3 13
España 76 8 84
Total ?? 11 2 13 Chi2=0,252;
gl=2;
84,6 % 15,4 % 100 %
p=0,8810
América 173 35 208
Esta tabla muestra que del siglo XVII en adelante el empleo del subjuntivo
siempre es más alto en ejemplos procedentes de textos americanos que en
ejemplos procedentes de textos peninsulares. En el siglo XX solo se documenta
un caso de subjuntivo en España, que resulta ser una cita literal de unas palabras
pronunciadas por un historiador del siglo XVII.
En el gráfico 8, que representa los porcentajes del subjuntivo de la tabla 4, se
aprecia claramente la mayor preferencia por el subjuntivo en ejemplos america-
nos en comparación con ejemplos peninsulares. Asimismo, mientras que en
Notas sobre la aportación del análisis estadístico a la lingüística de corpus 231
España el empleo del subjuntivo oscila ligeramente a través de los siglos, con
mayor uso en el siglo XVIII (26,5 %), en América se observa un aumento del uso
del subjuntivo muy marcado entre el siglo XVII y el XVIII, aunque se basa en
escasos ejemplos.
Tabla 5: Probabilidad y valor de significación del empleo del subjuntivo con las variables
independientes de siglo y origen e interacción entre siglo y origen en subordinadas
interrogativas indirectas negadas con saber introducidas por si
De esta tabla se deprende, otra vez, que el empleo del subjuntivo en estas
interrogativas indirectas disminuye a través del tiempo. El Exp(B) de esta variable
es < 1 (0,679), y el efecto tiene significatividad estadística (Sig.=0,000).
En caso del origen, se observa que esta variable no influye de manera
significativa en la aparición del subjuntivo. Es verdad que la probabilidad de que
el subjuntivo ocurra en ejemplos americanos en comparación con la aparición de
ese modo verbal en ejemplos peninsulares disminuye (Exp(B)=0,993), pero la
diferencia no es significativa en absoluto (Sig.=0,999).
Lo mismo se observa con la interacción del origen y tiempo. La probabilidad
de que el subjuntivo aparezca en textos americanos (frente a textos peninsulares)
aumenta en cada siglo sucesivo (Exp(B)=1,051), pero el efecto no alcanza la
significatividad estadística (Sig.=0,819).
A continuación se plasman los resultados del test de regresión logística
binaria de manera gráfica (gráfico 9).
Notas sobre la aportación del análisis estadístico a la lingüística de corpus 233
Por una parte, el gráfico 9 muestra que la probabilidad de que el modo subjuntivo
ocurra en interrogativas indirectas negadas introducidas por si en todo el período
es más alta en ejemplos de origen americano que en ejemplos de origen peninsu-
lar, lo que corresponde con las observaciones de varios estudiosos sobre del tema.
Por otra parte, si bien en el corpus se ha observado un aumento del empleo del
subjuntivo en ejemplos americanos entre los siglos XVI y XVIII (gráfico 8), el test
estadístico predice un descenso continuo y gradual para el uso del subjuntivo en
América. De hecho, el gráfico 9 sugiere que la disminución se ha producido y se
está produciendo por igual en España y en América, puesto que las dos líneas
descienden de manera muy similar.
234 Dorien Nieuwenhuijsen
6 Conclusiones
Con la creación de los corpus digitales diacrónicos en línea y la disponibilidad de
grandes cantidades de datos, se ha hecho casi imprescindible el uso de un
programa estadístico para trabajar estos datos. Teóricamente, el cálculo de la
frecuencia de cierta forma lingüística se puede hacer de manera manual y el
provecho de un programa estadístico radica en tal caso, sobre todo, en la mayor
comodidad, rapidez y corrección al realizar los cálculos. Dichos cálculos relativa-
mente sencillos son esenciales para llegar a conocer las tendencias generales del
material bajo estudio y para saber cómo se desarrolla cierta forma o construcción
en el corpus de ejemplos. Los gráficos 1 a 3 y la tabla 1 dan cuenta de las
tendencias generales en el corpus acerca del uso del modo verbal en oraciones
interrogativas indirectas negadas que dependen del verbo saber.
Por otra parte, el tratamiento estadístico de los datos permite calcular proba-
bilidades del empleo de cierta forma o construcción, además de medir la influen-
cia de cierto factor o variable independiente sobre la aparición de una forma o
variable dependiente. Estos cálculos son importantes para comprobar o refutar
ciertas tendencias observadas en el corpus. El gráfico 3 del presente trabajo
sugiere un aumento del uso del subjuntivo en las interrogativas indirectas nega-
das con el verbo saber en el siglo XV y una marcada decaída en el siglo XVI; no
obstante, el test de regresión logística muestra que la probabilidad de que el
verbo aparezca en subjuntivo en esta clase de oraciones va disminuyendo conti-
nuamente a través de los siglos y no comprueba ninguna de las oscilaciones
sugeridas por las frecuencias porcentuales.
El mismo tipo de refutación se observa en los cómputos del empleo de
subjuntivo con los distintos sintagmas interrogativos, ya que en el gráfico 7, que
plasma las probabilidades de ocurrencia del subjuntivo con cada sintagma inte-
rrogativo, se aprecia, otra vez, que en perspectiva diacrónica el subjuntivo cons-
tantemente pierde terreno en las interrogativas indirectas negadas con el verbo
saber y que ninguno de los aumentos sugeridos por el gráfico 6 se confirma con el
test estadístico.
Además, el gráfico 7 muestra que la propagación del indicativo a expensas
del subjuntivo se produce, principalmente, en las oraciones interrogativas enca-
bezadas por cómo, qué y si, y que a través de los siglos el subjuntivo se ha
mantenido más firme en las interrogativas encabezadas por cuál. Con el test de
regresión logística, por tanto, se puede capturar el cambio lingüístico en curso,
dado que los resultados del mismo predicen con cierto detalle cómo habrá
transcurrido la disminución del uso del subjuntivo a través de los siglos, es
decir en qué contextos y en qué momento este modo verbal habrá perdido más
terreno.
Notas sobre la aportación del análisis estadístico a la lingüística de corpus 235
7 Corpus
CdE – Davies, Mark, Corpus del español, <http://www.corpusdelespanol.org> [última consulta:
junio de 2014].
CORDE – Real Academia Española, Corpus diacrónico del español, <http://www.rae.es> [última
consulta: junio de 2014]
8 Bibliografía
Alarcos Llorach, Emilio, Estudios de gramática funcional del español, Madrid, Gredos, 1978.
Bello, Andrés, Gramática de la lengua castellana, Madrid, EDAF, 1982.
Borrego Nieto, Julio/Gómez Asencio, José J./Prieto, Emilio, El subjuntivo. Valores y uso, Madrid,
SGEL, 1987.
5 Cf. Torruella Casañas (2009, 100): «La estadística, sin embargo, debe ser considerada sólo
como un puro instrumento para la investigación, nunca como su finalidad. Un instrumento que
ha de ayudar a la consecución de dos objetivos: en primer lugar, describir y resumir los datos y,
en segundo lugar, hacer estimaciones de significación y de fiabilidad».
236 Dorien Nieuwenhuijsen
1 Introduction
Modality has been the subject of a considerable number of studies in recent years,
within formal semantics (e.g. Portner 2009), from a discourse-pragmatic perspec-
tive (e.g. Gévaudan 2013), at the interface between Semantics and Pragmatics
(e.g. Papafragou 2000) as well as between Syntax and Discourse (e.g. Bybee/
Fleischman 1995), and within Cognitive Grammar (e.g. Langacker 2003; Cornillie
2007). Diachronically, modal constructions are most commonly examined from
the perspective of semantic change (e.g. Narrog 2012) and within Grammaticaliza-
tion Studies (e.g. Bybee/Perkins/Pagliuca 1994), as they tend to evolve along
similar pathways cross-linguistically, both in terms of their semantic and their
grammatical features. It is for this reason that a detailed case study of modals in a
particular language can be expected to offer more generally valid insights into
which factors can, at least potentially, contribute to the process of change in
which ways, as it stands to reason that similar patterns of change in different
languages may well be the result of similar causes and processes.
In this paper, the diachronic development of a set of competing periphrastic
modal constructions in Spanish since the 16th century will be examined, with the
aim of finding explanations for the shifts in their usage.1 Traditionally, the main
focus of studies in this area has been almost exclusively on the distinction
between different modal values, namely deontic and epistemic modality, and on
which of these modal values can be (or tends to be) expressed by which of the
available modal constructions. Whilst it is highly likely that such semantic factors
1 This study is part of the project “Linguistic variation and change through texts of communica-
tive immediacy: a historical sociolinguistic research project” (2013–2016), funded by the Univer-
sity Jaume I (ref. P1·1B2013-01) and the Spanish Ministry of Economy and Competitiveness (ref.
FFI2013-44614-P); the data analysed in this paper was collected by the members of the research
team.
Kim Schulte and José Luis Blas Arroyo: Universitat Jaume I, Castelló
Entrenchment and frequency effects in the diffusion and replacement 239
2 The orthographic variant dever is common in older texts, reflecting a distinction between the
bilabial and labiodental fricative until the 16th century; the shift to the modern spelling deber is
DĒ BĒRE .
primarily due to learned influence, copying the orthography of Latin DĒBĒRE
3 Since tener became synonymous with the lexical verb haber ‘to have’ in the 16th century, the
latter has come to be used exclusively as an auxiliary verb. Orthographic variants in older texts
include aver, aber and haver.
240 Kim Schulte and José Luis Blas Arroyo
linking the modal verb with the lexical verb, or by the absence of such a particle.
The five modal constructions are the following:
Table 1: Changes in relative frequency between the Middle Ages and today
F REQUENCY
REQUENC Y 15th CENTURY
CE NTURY 20th/21st CENTURY
CENT URY
↓ dever
dever de
deber
deber de
low tener de (+tener a) haber de
tener que
This is by far the most frequent modal periphrasis from the very earliest docu-
ments until the 19th century, but in sharp decline since then. After initial competi-
tion with [aver + inf.] and [aver a + inf.], the construction with de gradually ousts
Entrenchment and frequency effects in the diffusion and replacement 241
the other two and is by far the most common variant by the end of the Middle
Ages. In addition to its deontic and epistemic modal function, it frequently
expresses futurity; in many cases a clear distinction between epistemic modality
and future time reference is impossible to make.
These two related modal constructions are the outcome of a process of grammati-
calization of the (di)transitive lexical verb dever, ‘to owe’. [Dever + inf.] predates
the corresponding prepositional construction [dever de + inf.], in which the de is
most likely due to analogical pressure from [haber de + inf.].
The exact grammatical status of the verb deber in [deber + inf.], especially
when expressing deontic modality, is somewhat controversial; Gili Gaya (1961,
113) claims that it retains its original lexical meaning in these cases and thus
cannot be considered an auxiliary verb; on the other hand, scholars such as Roca
Pons (1958) and Olbertz (1998) resort to the concept of semi-auxiliarity to distin-
guish the construction without de from its counterpart with the prepositional
linker. Whilst a detailed discussion of the grammatical status of the verb in this
construction is beyond the scope of this paper, the reduction of its originally
ditransitive valency pattern can be understood as an instance of semantic bleach-
ing (cf. Goldberg 1995, 151), as can the very fact that the construction expresses
deontic (and also epistemic) modality, a function typically associated with modal
auxiliaries. In this paper, [deber + inf.] will therefore be considered on par with
the other modal auxiliary constructions.
According to prescriptive grammars, [dever + inf.] should be used for deontic
modality (necessity, obligation), whilst [dever de + inf.] is supposed to be asso-
ciated with epistemic modality (presumption, probability). This purportedly clear
distinction between the two constructions is, in fact, one of the main reasons why
most studies of these periphrases focus on their modal value, generally conclud-
ing that the prescriptive rule is an oversimplification that does not fully reflect
actual usage. In Section 6.3 of this paper, it will be seen that a range of factors
influences the choice between these two constructions, many of which are more
relevant than the deontic-epistemic distinction.
[Tener de + inf.], documented since the 13th century, is widely accepted to be the
outcome of a long-running, more general process of tener substituting haber
242 Kim Schulte and José Luis Blas Arroyo
(Yllera 1980, 111; Garachana and Rosemeyer 2011). Until the 15th century, it
appears to have been used in free variation with [aver de + inf.] (Yllera 1980,
113).
[Tener que + inf.], though sporadically found earlier, largely (and rapidly)
supplants [tener de + inf.] as well as non-impersonal [haber que + inf.] from the
end of the 15th century onwards (López Izquierdo 2008, 801). It mostly expresses
deontic modality, though some epistemic uses can be observed from the late
18th century onwards (López Izquierdo, 2008).
Syntactically, [tener que + inf.] is an anomaly, as the link between the
auxiliary and the main verb is not a preposition, as observed by Pountain (2001,
78), who hypothesises that it may be the result of partial ellipsis of a relative
clause: tener (algo) que (está por) hacer ‘to have something that is to be done’.
The history of these five modal constructions is characterized by processes of
analogical extension (in terms of form and function), leading to a great deal of
functional overlap between them, which, in turn, means that the respective
constructions are functionally or semantically equivalent and can be used inter-
changeably in many contexts. This does not, however, necessarily imply that they
are in free variation, as will be discussed in the following section.
4 This example is based on data extracted from the corpus described in Section 4 below and on
the computations in Blas Arroyo/Porcar Miralles (2016); for the respective token numbers, see
Tables 15 and 16 below.
Entrenchment and frequency effects in the diffusion and replacement 243
+ inf.] and [deber + inf.], meaning that the two constructions are not in semantic
opposition and might thus be considered to occur in free variation. However,
simply to state that they occur in free variation would be to ignore an evident
pattern of usage preference.
Figure 1: Deontic and epistemic use of [deber (de) + inf.] in the 16th and 17th centuries
Figure 2: Deontic and epistemic use of [deber de + inf.] in the 18th and 19th centuries
244 Kim Schulte and José Luis Blas Arroyo
In the 18th and 19th centuries, the same correlation has weakened but is still
statistically significant, as seen in Figure 2: the prepositional periphrasis with de
is now approximately 1.6 times as likely to express epistemic modality as it is to
express deontic modality. Nevertheless, during this period, [deber + inf.] is used
in the vast majority of epistemic contexts, accounting for approximately 85 % of
epistemic (and 95 % of deontic) constructions, as shown in Figure 3, and viewed
in this broader perspective, [deber de + inf.] is not the first choice in epistemic
environments. Again, it must be said that the two constructions occur in some
kind of free variation, but the degree of freedom varies, depending on the type of
modality.
Figure 3: Deontic and epistemic use of [deber (de) + inf.] in the 18th and 19th centuries
Table 2: The interplay of two variables in the choice between deber de and deber
(16th/17th centuries)
Figure 4: The interplay of two variables in the choice between deber de and deber
(16th/17th centuries)
(a) Speakers who are no longer alive cannot be asked to perform elicitation tasks, so all
information has to be drawn from existing documents. This makes it more difficult to
obtain sufficient data to determine whether a variable is statistically significant.
(b) Written texts are often not representative of the spoken language. This is problematic
because, as noted in Section 3, language change is driven by language usage, which for
most language users is primarily oral, and even more so in past centuries.
(c) The quantity of available data for most historical periods is limited.
(d) Extralinguistic variables are often difficult to determine because of a lack of contextual
information.
Whilst older informants may, arguably, be able to provide data for the relatively
recent past by means of elicitation tasks, this option is not available for earlier
Entrenchment and frequency effects in the diffusion and replacement 247
periods, so problem (a) cannot be remedied. Issues (b)–(d), however, have been
taken into account in the compilation of the corpus used here.
To mitigate issue (b), the corpus consists only of documents with a high
degree of ‘communicative immediacy’ (‘Nähesprache’, cf. Koch/Oesterreicher
1985; Oesterreicher 2004), i.e. documents containing private, personal informa-
tion, which tend to reflect natural, spoken language more closely than official
documents or literary texts do. For the present analysis, it is particularly impor-
tant to avoid the latter text types, considering the prescriptive pressures that have
artificially influenced the formal and literary usage of the respective constructions
over the past centuries (cf. Section 2.2).
The diachronic corpus of ‘communicative immediacy’ used here consists
mainly of personal correspondence as well as some private notes and memoirs,
thus representing, as closely as possible, the spoken language since the 16th
century, rather than reflecting literary norms or trends which only affected the
language usage of a small minority of speakers. The corpus contains linguistic
material written by more than 2000 individuals who either lived in Spain or had
grown up there before moving to the colonies, thus largely reflecting the language
of speakers of peninsular Spanish; the authors’ regional origin within Spain is taken
into account as one of the potential factors of variation. The corpus was compiled
from more than 90 different collections of private letters and memoirs, edited and
published between the late 19th and the early 21st century, as listed in the appendix.
Whilst the entire textual material is thus in the public domain, it has, unfortu-
nately, not yet been possible to make the corpus as such available to the public.
Though the use of such a mainly epistolary corpus makes issue (c), the
limited amount of available documents, more acute, there is a relative wealth of
personal correspondence in Spanish from the 16th century onwards, mainly due
to individuals moving to the recently established Spanish colonies, initially leav-
ing their families behind. The corpus contains a total of more than 3.4 million
words, relatively balanced over the centuries, as detailed in Table 3.
Finally, the fact that the corpus is mainly epistolary also remedies issue (d) to
some extent, as personal correspondence tends to reveal sociolinguistically
relevant information about the author/sender, such as regional provenance,
social status, sex, age, and the relationship between the author and the address-
ee, e.g. whether the addressee is the author’s spouse, parent, child, creditor;
priest, etc.
1. Extralinguistic variables
– The century and period when the document was written
– The author’s sex, regional provenance, age, social status and relation-
ship to the interlocutor
– Whether the document was written by the sender himself or by a scribe
(if known)
2. Phonological/phonotactic variables
– Final phoneme of the auxiliary verb
– First phoneme following the auxiliary verb or the linking particle (de, que)
– Number of syllables of the entire periphrasis
4. Syntactic variables
– Explicit or null subject
– Presence of another modal periphrasis in the same clause or immediate
context
– Whether the periphrasis appears in a main or a subordinate clause
Entrenchment and frequency effects in the diffusion and replacement 249
5. Semantic variables
– Type of modality expressed by the periphrasis (deontic, epistemic, other,
none)
– Subtype of deontic modality:
– moral, subjective, self-imposed obligation
– external, involuntary obligation
– necessity or advisability
– inevitability
– Human/animate or inanimate subject
– Degree of (im)personality: active, passive (including the ‘reflexive’ se-
passive), impersonal
– Clausal polarity: affirmative, negative
– Degree of assertiveness: attenuated, neutral, assertive/intensified
6. Lexical variables
– The main verb
– Semantic type of verb (static/dynamic, speech verbs, motion verbs)
6 Some findings
In this section, a selection of results of the analysis outlined above will be
presented, with the aim of demonstrating how different types of variants
correlate with the choice of modal construction. In addition to observing and
identifying these correlations, it will be attempted to explain them as far as
possible.
cophony itself is rather imprecise and the sound combinations that speakers
avoid differ from language to language, “the phonæsthetic habits [. . .] are of
general importance in speech” (Firth 1930). We may not be able to predict which
sound combinations speakers will avoid, but corpus studies can reveal such
avoidance a posteriori.
One such case is the statistically significantly low incidence of deber de
followed by /d(e)/, i.e. the sequence “de. . . de d(e). . .”, documented in the 16th
and 17th centuries; Table 4 shows how main verbs with an initial /d–/ affect the
choice between these two variants, reducing the proportion of [deber de + inf.] by
almost half, from 31.6 % to 16.3 %.
Table 4: The effect of main verbs with word-initial voiced dental obstruent on the choice between
deber de and deber (16th/17th centuries)
P ERIPHRASIS
ERIPHR ASIS DEBER DE + INF . DEB ER
DEBER + INF .
Table 5: No significant avoidance of [tener de + inf.] with verbs with initial /d–/
(16th/17th centuries)
M AIN VERB TE
TENER
NER DE + INF . TENER QUE + INF .
Table 6: Avoidance of [tener de + inf.] with speech verbs in the 16th and 17th centuries
M AIN VERB TE
TENER
NER DE + INF . TENER QUE + INF .
The clear preference for [tener que + inf.] with speech verbs from an early stage
onwards appears to be the starting point of a process in which this variant
eventually supplants its competitor, [tener de + inf.]. A closer look at the correla-
tion between the semantic properties of the main verb and the choice of modal
periphrasis suggests that the preferred use of [tener que + inf.] spreads from
speech verbs to other semantic verb classes at different paces.
As speech verbs belong to the class of dynamic verbs, it is perhaps not
surprising that, as seen in Table 7 and Figure 5, the increased use of [tener que +
inf.] first begins to spread to other dynamic verbs (excluding motion verbs) in a
process of semantically-based analogical extension, whilst the semantically
more distinct stative and motion verbs only jump on the bandwagon at a later
stage.
Table 7: Use of [tener que + inf.] with different verbal aspects in the 16th and 17th centuries
V ERB TYPE
TYP E TE
TENER
NER DE + INF . TENER QUE + INF .
Summing up, the data presented in this section suggests that a phonological
variable affecting the choice between a set of two closely related periphrases,
[deber/deber de + inf.], was reanalysed and analogically extended to a different
set of related periphrases [tener de/que + inf.], with a subsequent analogical
extension based on verbal semantics contributing to the gradual substitution of
[tener de + inf.] by [tener que + inf.], one of the major shifts in the Spanish system
of modal constructions.
It is worth noting that the newly emerging variant first gains a foothold and
becomes the most common periphrasis in a very specific, low-frequency domain
before spreading to other contexts. As will be seen in the following sections, this
is the typical pathway of diffusion for new variants.
After having examined a sequence of changes affecting the choice between [tener
de + inf.] and [tener que + inf.] in the previous section, some other statistically
significant variables will be presented here.
As shown in Table 8 and illustrated in Figure 6, a significant shift in token
frequency takes place between 1500 and 1700. Essentially, the proportions of the
Entrenchment and frequency effects in the diffusion and replacement 253
two periphrases are almost inverted over this period, with [tener de + inf.]
accounting for 80 % of all tokens in the first half of the 16th century, and [tener
que + inf.] accounting for 80 % of all tokens in the 17th century.
P ERIOD TE
TENER
NER DE + INF. TE
TENER
NER QUE + INF.
Figure 6: Frequency changes in the use of [tener de/que + infinitive] in the 16th and 17th century
Regarding the type of modality they are employed to express, [tener de + inf.]
closely emulates the functional range of dominant [haber de + inf.], the construc-
tion it was calqued on. The use of the newly emerging variant [tener que + inf.], on
the other hand, is largely restricted to a single subset of this functional range; as
shown in Table 9, close to 95 % (74/78) of all tokens of [tener que + inf.] express
deontic modality. Whilst it might, at first sight, seem unlikely that the competitor
with the more restricted functional range eventually ousts its more versatile
counterpart, this is less surprising if we take into account that the vast majority,
approximately 83 %, of tokens of [tener de + inf.] and [tener que + inf.] counted
254 Kim Schulte and José Luis Blas Arroyo
together express deontic modality during this period, as seen in Table 10 and
Figure 7. What this means is that [tener que + inf.], though strongly underrepre-
sented in non-deontic usage (cf. Table 10 and Figure 8), nevertheless does not lag
far behind its competitor [tener de + inf.] in overall token numbers, with a ratio of
approximately 41 % tener que (78/189) to 59 % tener de (111/189).
Table 9: The proportion of different types of modality expressed by [tener de + inf.] and [tener
que + inf.], respectively (16th/17th centuries)
M ODALITY TE
TENER
NER DE + INF . TENER QUE + INF .
EP
EPISTEMIC
IS TEMIC MODALITY 5.4 % (6/111) 2.6 % (2/78)
FUTUREE ( PR
FUTUR OSP ECTIVE )
PROSPECTIVE 19.8 % (22/111) 2.6 % (2/78)
Table 10: The proportion of [tener de + inf.] and [tener que + inf.] used to express different types
of modality (16th/17th centuries)
M ODALITY T OTAL
OT AL TE
TENER
NER DE + INF . TENER QUE + INF .
TENER DE / QUE
EP
EPISTEMIC
IS TEMIC MODALITY 4.2 % (8/189) 75 % (6/8) 25 % (2/8)
FUTUREE ( PR
FUTUR OSP ECTIVE )
PROSPECTIVE 12.7 % (24/189) 91.7 % (22/24) 8.3 % (2/24)
Within the domain of deontic modality, the majority of tokens (72.6 %) express
obligation, either imposed by an external agent or internally (moral, subjective or
self-imposed obligation). Whilst [tener de + inf.] is far more likely to occur in this
dominant area of obligation (65.8 %), the newcomer [tener que + inf.] is the more
likely choice in the secondary area of necessity (77.3 %), as shown in Table 11.
Table 11: The use of [tener de + inf.] and [tener que + inf.] for different types of deontic obligation
(16th/17th centuries)
Figure 7: Token numbers of [tener de + inf.] and [tener que + inf.] used to express different types
of modality (16th/17th centuries)
Figure 8: The proportion of [tener de + inf.] and [tener que + inf.] used to express different types
of modality (16th/17th centuries)
This pattern, according to which the older and more established variant, [tener de
+ inf.], remains numerically superior and initially resists substitution in the most
256 Kim Schulte and José Luis Blas Arroyo
frequently occurring linguistic environments, while [tener que + inf.] becomes the
preferred choice in less frequent environments, can also be observed for other
variables, such as person/number, tense/mood, and clausal polarity. For those
variables, the most frequent values are 1st person singular, present tense indica-
tive, and affirmative, respectively; in all three cases, it is these most frequently
occurring values for which the established [tener de + inf.] is most commonly
used, whilst the newcomer [tener que + inf.] typically co-occurs with the less
frequent values, as shown in Tables 12–14 and illustrated in Figure 9.
Table 12: The correlation between person/number and the use of [tener de/que + inf.]
(16th/17th centuries)
1 S T PERSON
PERS ON SG 79.9 % (151/189) 67.5 % (102/151) 32.5 % (49/151)
2 N D + 3 R D PERSON
PER SON SG AND P
PLL 20.1 % (38/189) 23.7 % (9/38) 76.3 % (29/38)
Table 13: The correlation between tense/mood and the use of [tener de/que + inf.]
(16th/17th centuries)
INDIC
INDICATIVE
ATIVE P
PRESE
RESENT
NT TTEENSE
NSE 87.3 % (165/189) 65.5 % (108/165) 34.5 % (57/165)
OTHER TENSES AND MOODS 12.7 % (24/189) 12.5 % (3/24) 87.5 % (21/24)
Table 14: 5 The correlation between clausal polarity and the use of [tener de/que + inf.]
(16th/17th centuries)
C LAUSAL PPOLARITY
OLA RIT Y T OTAL
OT AL TE
TENER
NER DE + INF . TENER QUE + INF .
TENER DE / QUE
AFFIRMAT
AFFIR MATIV
IVEE 70.2 % (127/151) 69.3 % (88/127) 30.7 % (39/127)
NEGATIVE
NEGAT IV E 29.8 % (24/151) 31.5 % (3/24) 68.5 % (21/24)
5 The number of tokens considered in Table 14 is lower than in the previous tables because
questions and conditional clauses were counted as neither affirmative nor negative.
Entrenchment and frequency effects in the diffusion and replacement 257
Figure 9: The dominance of [tener de + inf.] in the most frequent contexts, and of [tener que +
inf.] in the less common environments (16th/17th centuries)
What can be seen from the data presented in this section is that the substitution
process in which one modal construction replaces the other is not uniform, i.e. it
does not progress at the same pace in all environments. The fact that the most
frequent environment types resist substitution for longer and to a greater extent
can be explained by their greater degree of entrenchment,6 causing speakers to
continue these well-established combinations of a specific variant and a particu-
lar context for longer. In other words, there is strength in numbers for existing,
older combinations, which are initially replaced in environments with low token
frequency.
It should be noted that the factor groups in which this pattern applies are not
necessarily linked or related to each other; what they do have in common is the
strong contrast between a very frequently occurring factor (favouring the en-
trenched usage pattern) on the one hand, and a low incidence of all other factors
in the respective factor group (favouring innovation) on the other.
Over the course of the 17th century, the strong link between [tener que +
inf.] and the notion of necessity (cf. Table 11) is eroded and eventually disap-
pears altogether; once this variant can occur freely in all deontic environments,
[tener que + inf.] rapidly ousts its direct competitor. By the second half of the
17th century, [tener que + inf.] appears in 75 % of present indicative contexts,
75 % of affirmative clauses, 58 % of 1st person contexts, and 42 % of construc-
tions involving a stative verb, all of which are high-frequency environments
in which [tener de + inf.] had previously been the strongly preferred choice
(cf. Figure 9).
As mentioned in Section 2.2, the choice between [deber + inf.] and [deber de + inf.]
has been at the centre of scholarly attention because of the prescriptive rule that
the former should be used deontically and the latter epistemically. Whether it is,
in fact, primarily the type of modality that determines the choice between these
two periphrases, and which other variables influence the choice, will be exam-
ined in this section.
In the 16th and 17th centuries, the overall ratio of [deber de + inf.] to [deber + inf.] is
31.6 % to 68.4 %. Whilst the former, the periphrasis with the prepositional linker
de, occurs less than half as frequently as its non-prepositional counterpart, there
are several environments in which [deber de + inf.] is used more frequently.
Statistically significant7 factor groups and their values favouring or disfavouring
the use of [deber de + inf.] are listed in Table 15,8 ranked according to the strength
of their influence on the choice between the two periphrases.
7 Statistically significant variables identified by Goldvarb 2.0, an application commonly used for
carrying out variable rule analysis. The factor weight (FW), included in this and the following
tables, indicates how likely it is that the respective factor has an influence on the selection
between the available variants, on a scale of 0–1. Values closest to the extremes (0 or 1) indicate a
great likelihood of the variable influencing the choice, a value of 1 strongly favouring one variant
and a value of 0 strongly disfavouring it. Values in between the two extremes, i.e. close to 0.5, on
the other hand, indicate that the correlation between the respective factor and the choice of the
variant, though statistically significant, is weak.
8 Data drawn from Blas Arroyo/Porcar Miralles (2016).
Entrenchment and frequency effects in the diffusion and replacement 259
Table 15: Statistically significant factor groups and factors making the choice of [deber de + inf.]
more or less likely in the 16th and 17th centuries
R ANK F ACTOR
ACT OR GROUP F ACTOR
ACT OR P ERCE
ERC ENTAGE
NTAGE FW
1 phonological context main verb with initial /d–/ 16.3 % (8/49) 0.08
The data in Table 15 shows that there are five variables that have a statistically
significant correlation with the choice between the two variants during this
period. The most important factor is a phonological one, the initial consonant of
the main verb, which has been discussed in Section 6.1 above.
It can also be seen that the modern-day prescriptive distinction between
deontic [deber + inf.] and epistemic [deber de + inf.] has some foundation in this
period, but that there are other, statistically more significant variables involved in
the choice between these two variants. In a way similar to the choice between
[tener de + inf.] and [tener que + inf.] examined in Section 6.2 above, the less
frequent and less well established variant [deber de + inf.] is strongest outside the
high-frequency environments (present tense, deontic modality, positive clausal
polarity, non-intensified), while the use of the older, more frequent variant [deber
+ inf.] appears to remain entrenched and associated with these high-frequency
environments.
6.3.2 [Deber (de) + inf.] between the 18th century and the first half of the
20th century
During this period, the relative usage frequency of [deber de + inf.] is considerably
lower than in the preceding centuries; the overall ratio of [deber de + inf.] to
[deber + inf.] is 6.6 % to 93.4 %. Nevertheless, there are several variables that do
favour the use of this almost marginal periphrastic construction, as seen in Table
16, where they are listed in order of significance.
260 Kim Schulte and José Luis Blas Arroyo
Table 16: Statistically significant factors favouring [deber de + inf.] between 1700 and 1950
It can be observed that the statistically significant variables remain the same,
with a slightly different order of relevance.9 However, the most important devel-
opment is the general drop in the proportion of [deber de + inf.], overall and even
in the presence of variables favouring it.
The link between epistemic modality and [deber de + inf.] remains statisti-
cally significant, albeit less so than in previous centuries. It should, however, be
kept in mind that during the period examined in this section, the non-preposi-
tional variant [deber + inf.] is used in the vast majority of both deontic and
epistemic environments.
After the overall share of [deber de + inf.] decreased from an average of 31.6 % in
the 16th and 17th centuries to 6.6 % in the following 250 years, the construction
might have been expected to gradually disappear entirely. This is not, however,
the case; in contemporary usage (since 1950), it accounts for 22.3 % of all deber-
periphrases, reversing the previous trend, as illustrated in Figure 10.
Whilst the set of environments favouring the use of [deber de + inf.] remains
relatively stable between the 16th and the 20th century, only one variable from
previous periods, “degree of assertiveness”, is still significant in present-day
informal Spanish (with a high degree of communicative immediacy). Table 17 lists
all statistically significant variables10 in order of significance; interrogative and
attenuated clauses (ranks 1 and 3) are correlated with a low incidence of [deber de
+ inf.], as indicated by a factor weight (FW) of less than 0.5.
9 For main verbs with initial/ /d–/, [deber + inf.] is used in 96.6 % of cases (18th–20th century)
and 84.2 % of cases (20th/21st century), but this is not statistically significant due to the small
overall number of main verbs with initial/ /d–/ (29 and 19, respectively).
10 Data drawn from Blas Arroyo (2011, 21–23).
Entrenchment and frequency effects in the diffusion and replacement 261
Figure 10: The ratio of [deber + inf.] to [deber de + inf.] through the centuries
Table 17: Statistically significant factor groups and factors making the choice of [deber de + inf.]
more or less likely in contemporary Spanish
R ANK F ACTOR
ACT OR GROUP F ACTOR
ACT OR P ERCE
ERC ENTAGE
NTAGE FW
7 Conclusions
This paper has shown that the different available modal periphrases examined
here are in continual competition, due to their semantic similarities and (partial)
functional overlap. Whilst it is possible for one variant to be replaced in all
contexts and thus disappear, as in the case of [tener de + inf.] (Section 6.2), the
revival of seemingly moribund [deber de + inf.] in the 20th century (Section 6.3)
demonstrates that a decrease in relative frequency may be a temporary phenom-
enon that can be reversed, for instance if the construction comes to be associated
with a specific environment that it is typically used in, giving it the possibility to
expand from there.
In Section 3, it was argued that variation between alternative constructions is
not free if factors that condition the choice between them exist. In the subsequent
sections, it was shown that there are statistically significant correlations between
multiple variables and the choice of modal periphrasis, and that the interplay
between different variables, their reanalysis and analogical extension can be
complex and hard to predict, as seen in Section 6.1.
Furthermore, the relative importance of the variables determining the choice
between different periphrases can shift over time, thus affecting the ways in
which they contrast with each other; as seen in Section 6.3, the reanalysis of one
Entrenchment and frequency effects in the diffusion and replacement 263
8 References
Blas Arroyo, José Luis, Deber (de) + infinitivo: ¿Un caso de variación libre en español? Factores
condicionantes en un fenómeno de alternancia sintáctica, Revista de Filología Española 91
(2011), 9–42.
Blas Arroyo, José Luis/Porcar Miralles, Margarita, Patrones de variación y cambio en la sintaxis
del Siglo de Oro. Un estudio variacionista de dos perífrasis modales en textos de inmediatez
comunicativa, RILCE – Revista de Filología Hispánica 32 (2016), 47–81.
Brinton, Laurel J./Closs Traugott, Elizabeth, Lexicalization and language change, Cambridge,
Cambridge University Press, 2005.
264 Kim Schulte and José Luis Blas Arroyo
Bybee, Joan L./Perkins, Revere/Pagliuca, William, The Evolution of Grammar: Tense, Aspect and
Modality in the Languages of the World, Chicago, University of Chicago Press, 1994.
Bybee, Joan L./Fleishman, Susanne (edd.), Modality in Grammar and Discourse, Amsterdam,
John Benjamins, 1995.
Bybee, Joan L., From usage to grammar: the mind’s response to repetition, Language 82 (2006),
711–733.
Cornillie, Bert, Evidentiality and epistemic modality in Spanish (semi-)auxiliaries. A cognitive-
functional account, Berlin/New York, Mouton de Gruyter, 2007.
Erman, Britt/Kotsinas, Ulla-Britt, Pragmaticalization: The case of ba’ and you know, Stockholm
Studies in Modern Philology, Acta Universitatis Stockholmiensis, New Series 10 (1993),
76–93.
Firth, John Rupert, Speech, London, Ernest Benn, 1930.
Garachana Camarero, Mar/Rosemeyer, Malte, Rutinas léxicas en el cambio gramatical. El caso
de las perífrasis deónticas e iterativas, Revista de Historia de la Lengua Española 6 (2011),
35–60.
Gévaudan, Paul, Les rapports entre la modalité et la polyphonie linguistique, in: Gévaudan,
Paul/Atayan, Vahram/Detges, Ulrich (edd.), Modalité et polyphonie, Tübingen, Stauffen-
burg, 2013, 37–57.
Gili Gaya, Samuel, Curso superior de sintaxis española, Barcelona, Bibliograf, 1961.
Goldberg, Adele E., Constructions: A Construction Grammar Approach to Argument Structure,
Chicago, Chicago University Press, 1995.
Gómez Manzano, Pilar, Perífrasis verbales con infinitivo (valores y usos en la lengua hablada),
Madrid, UNED, 1992.
Koch, Peter/Oesterreicher, Wulf, Sprache der Nähe – Sprache der Distanz. Mündlichkeit und
Schriftlichkeit im Spannungsfeld von Sprachtheorie und Sprachgeschichte, Romanistisches
Jahrbuch 36 (1985), 15–43.
Labov, William, Principles of Linguistic Change, vol. 1, Internal Factors, Oxford, Blackwell, 1994.
Labov, William, Quantitative Analysis of Linguistic Variation, in: Ammon, Ulrich, et al. (edd.),
Sociolinguistics: An International Handbook of the Science of Language and Society, vol. 1,
Berlin/New York, Mouton de Gruyter, 2004, 6–21.
Langacker, Ronald, Foundations of cognitive grammar, vol. 1: Theoretical requisites, Stanford,
Stanford University Press, 1987.
Langacker, Ronald W., Extreme subjectification: English tense and modals, in: Cuyckens, Hubert,
et al. (edd.), Motivation in Language: Studies in honor of Günter Radden, Amsterdam, John
Benjamins, 2003, 23–26.
López Izquierdo, Marta, Las perífrasis modales de necesidad: emergencia y renovación, in:
Company Company, Concepción/Moreno de Alba, José G. (edd.), Actas del VII Congreso
Internacional de Historia de la Lengua Española, vol. 1, Madrid, Arco Libros, 2008, 789–806.
Maeseneer, Rita, Sobre algunos problemas relacionados con las perífrasis obligativas,
Linguistica Antverpiensia 32 (1998), 39–53.
Narrog, Heiko, Modality, Subjectivity, and Semantic Change: A Cross-Linguistic Perspective,
Oxford, Oxford University Press, 2012.
Oesterreicher, Wulf, Textos entre inmediatez y distancia comunicativas. El problema de lo
hablado escrito en el Siglo de Oro, in: Cano Aguilar, Rafael (ed.), Historia de la lengua
española, Barcelona, Ariel, 2004, 729–769.
Olbertz, Hella, Verbal Periphrasis in a Functional Grammar of Spanish, Berlin/New York, Mouton
de Gruyter, 1998.
Entrenchment and frequency effects in the diffusion and replacement 265
Butrón y Cortés J., Carta familiar de D. José Butron y Cortés dirigida a su hijo el Guardia Marina D.
Rafael Butron y Pareja, Madrid, Librería de Fernando Fé, 1897 (XIX).
Butrón y Cortés J., Extracto de las cartas recibidas por D. Emilio José Butrón acusando recibo de
la carta familiar de su señor abuelo, in: Butrón y de la Serna, Emilio José (ed.) Carta familiar
de D. José Butrón y Cortés dirigida a su hijo el Guardia Marina D. Rafael Butron y Pareja,
Madrid, Librería de Fernando Fé, 1897 (XIX).
Carreira, A., Luis de Góngora: epistolario completo, Lausana, Sociedad Suiza de Estudios
Hispánicos, 1999 (XVII).
Casanova Pujol, Josep, Cartas del iaio, La Roca del Vallès, Arxiu de la Memòria Popular, 2003
(XX).
Castillo, Antonio, Dos cartas de Isabel de Baena a Isabel Ortiz, in: Castillo, Antonio (comp.).
Escrituras y escribientes: prácticas de la cultura escrita en una ciudad del Renacimiento,
Las Palmas de Gran Canaria, Gobierno de Canarias y Fundación de Enseñanza Superior a
Distancia de Las Palmas de Gran Canaria (selección de dos cartas escritas por Isabel de
Baena a Isabel Ortiz), 1997 (XVI).
Chávez Palacios, Julián, La pérdida de Filipinas narrada por un soldado extremeño (1896–1899).
Memorias del sargento Deogracias González Hurtado, Cáceres, Editorial Regional de Extre-
madura, 1998 (XIX).
Company, C., Documentos lingüísticos de la Nueva España (XVI al XVIII), México, El Colegio de
México, 1994.
Cortijo, Antonio/Cortijo, Adelaida, Entre Luisa de Carvajal y el conde de Gondomar. Nuevos textos
sobre la persecución anticatólica en Inglaterra (1612–1614), Voz y Letra 2 (2002) (XVII).
Cortijo, Antonio/Cortijo, Adelaida, Cartas desde México y Guatemala (1540–1635): el proceso de
Díaz de la Reguera (Bancroft Library Ms. 92/83z). Cáceres, Universidad de Extremadura,
2003.
del Toral y Valdés, Domingo, Relación de la vida del capitán Domingo de Toral y Valdés, escrita
por el mismo capitán, in: Serrano y Sanz, Manuel (ed.), Autobiografías y memorias, Madrid,
Bailly-Ballière e Hijos, 1905, 485–506 (XVII).
Doña, Juana, Querido Eugenio. Una carta de amor al otro lado del tiempo, Barcelona, Lumen,
2003 (XX).
Eberenz, Rolf/de la Torre, Mariela, Conversaciones estrechamente vigiladas: interacción colo-
quial y español oral en las actas inquisitoriales de los siglos XV a XVII, Lausana, Centro de
Estudios Hispánicos, 2003 (XVI, XVII).
Espuny, Tomás, De Gallur a Nueva York: diario de viaje, Gallur, Ayuntamiento de Gallur, (1929)
2002 (XX).
Fernández, Víctor, Cartas de Vicenta Lorca a su hijo Federico, Barcelona, RBA Libros, 2008 (XX).
Fernández Alcalde, Marta, Cartas de particulares en Indias del siglo XVI, Sevilla, Universidad de
Sevilla, 2009 (XVI).
Fontanella de Weinberg, María, Documentos para la historia lingüística de Hispanoamérica,
Vol. I, Madrid, BRAE, 1993 (XVI al XIX).
Frago, J.A., Notas sobre el español antillano del siglo XVI en cartas de emigrados andaluces, in:
Morales, A., et al. (coords.), Estudios de lingüística hispánica. Homenaje a María Vaquero,
San Juan, Universidad de Puerto Rico, 1999, 350–362.
Cemboráin Mainz, Luis, Cartas de dos hermanos navarros requetés en 1937, Príncipe de Viana
66, 477–512, 2003 (XX).
Gener, Eduardo, Diario de viaje de un comerciante gaditano (1829), Cádiz, Instituto de Estudios
Gaditanos, 1976 (XIX).
Entrenchment and frequency effects in the diffusion and replacement 267
Genovés Amorós, Vicente El epistolario de Navarro Reverter con Cirilo Amorós, Valencia, Valen-
cia, Federico Domenech, 1981 (XIX).
Gimeno Pujol, M. D., El epistolario de José Nicolás de Azara (1730–1804). Estudio, edición y notas
(selección), Madrid, Castalia, 2010 (XVIII, XIX).
Gómez de Avellaneda, Gertrudis, Poesías y epistolario de amor y de amistad, Madrid, Castalia,
1989 (XIX).
Gómez Seibane, Sara, Textos para la historia del castellano en Galicia, Moenia 17 (2011),
367–420 (XVIII, XIX).
Gómez Seibane, Sara, Ramírez Luengo, José Luis, El castellano de Bilbao en el siglo XVIII:
materiales para su estudio, Deusto, Universidad de Deusto, 2007 (XVIII).
Gómez Seibane, Sara, et al., Bilbao en sus documentos (1544–1694), Deusto, Universidad de
Deusto, 2007 (XVI, XVII).
González, Jesús, Epistolario y poesías/Luisa de Carvajal y Mendoza (XVII), Madrid, Atlas, 1965.
González de Chávez, Jesús, Notas para la historia de la emigración canaria a América. Cartas de
emigrantes canarios siglo XVIII, in: Morales, F. (ed.), V Coloquio de Historia Canario-Ame-
ricana, Las Palmas de Gran Canaria, Cabildo de Gran Canaria, 1982, 111–140 (XVIII).
Gonzàlez i Vilalta, Arnau, Un catalanófilo de Madrid: epistolario catalán de Ángel Ossorio y
Gallardo (1924–1942), Barcelona, Universitat Autònoma de Barcelona, 2008 (XX).
Guzmán Riverón, Martha, Textos del Caribe (siglos XVI y XVII), Munich, Universidad Ludwig-
Maximilian, 2007.
Hidalgo Nuchera, Patricio, Entre Castro del Río y México: correspondencia privada de Diego de la
Cueva y su hermano Juan, emigrante en Indias (1601–1641), Córdoba, Universidad de
Córdoba, 2006 (XVII).
Ibarra y Manzoni, Aureliano, Diario de mi prisión. Desde el día 8 de Noviembre de 1866 hasta el
día 21 de Marzo de 1867, Elche, Ajuntament, 1995 (XIX).
Isasi, Carmen y Ramírez Luengo, José Luis (edd.), Una muestra documental del castellano
norteño en el siglo XIX, Lugo, Axac, 2013.
Lajo Cosidó, Benjamín, Sólo habremos muerto si vosotros nos olvidáis. De la libertad al muro
sólo hubo un atardecer (1936–1939), Benicull de Xúquer: 7 i mig Editorial, 1998 (XX).
Levisi, Margarita, Autobiografías del Siglo de Oro: Jerónimo de Pasamonte, Alonso de Contreras,
Miguel de Castro, Madrid, SGEL, 1984 (XVI, XVII).
Lohmann, Guillermo, Cartas de mercaderes. Secretos y confidencias en el comercio privado,
Sevilla, Universidad de Sevilla, 2003 (XVII).
López Benito, Clara Isabel, La cosmovisión de una mujer salmantina emigrada a las Indias y
vinculada con los Montejo de Yucatán, a través de sus cartas privadas, Salamanca Revista
de Estudios 44 (2000), 315–367 (XVI).
López Alvarez, Juaco, Cartas desde América: La emigración de asturianos a través de la corres-
pondencia: 1864–1925, Revista de dialectología y tradiciones populares LV 1 (2000), 81–
120 (XIX, XX).
Lorenzo Pinar, Francisco Javier y Vasallo Toranzo, Luis, Diario de Antonio Moreno de la Torre.
Zamora, 1673–1679. Vida cotidiana en una ciudad española durante el siglo XVII, Zamora,
Instituto de Estudios Zamoranos, 1996 (XVII).
Macías, Isabelo/Morales Padron, Francisco (edd.), Cartas desde América, 1700–1800, Sevilla,
Junta de Andalucía, 1991 (XVIII).
Madrazo, José, José de Madrazo: Epistolario, Madrid, Fundación Marcelino Botín, 1998 (XIX).
Manrique Romero, Alberto/Juberías Hernández, Reyes/García Encabo, Carmelo, Cartas muertas:
la vida rural en la posguerra, Madrid, Ámbito Ediciones SA, 1996 (XX).
268 Kim Schulte and José Luis Blas Arroyo
Márquez Macías, R., Historias de América: La emigración española en tinta y papel, Huelva,
Ediciones Ertoil, 1994 (XVIII y XIX).
Martínez, Mª Luisa, Noticias desde Cuba: cartas de emigrantes vallisoletanos en la segunda
mitad del siglo XIX , Valladolid, Universidad de Valladolid, 2007 (XIX).
Martínez Martín, Laura, «Asturias que perdimos, no nos pierdas». Cartas de emigrantes astu-
rianos en América (1863–1936), Gijón, Museu del Pueblu d’Asturies, 2010 (XIX, XX).
Martínez Martínez, Carmen, Desde la otra orilla: cartas de Indias en el Archivo de la Real
Chancillería de Valladolid (siglos XVI–XVIII), León, Universidad de León, 2007 (XVI al XVIII).
Martínez Martínez, Carmen, Cartas y memoriales (Hernán Cortés), Valladolid, Junta de Castilla y
León, 2003 (XVI).
Martínez Martínez, Carmen, et al., En el nombre del hijo, México, UNAM, 2006 (XVI).
Mas, Pasqual y Javier Vellón, Miquel Egual poeta i traductor almassorí del segle XVIII, Almassora,
Publicacions de l’Ajuntament de Almassora, 2011 (XVIII).
Navarro Bonilla, Diego, Del corazón a la pluma: archivos y papeles privados femeninos en la
Edad Moderna, Salamanca, Universidad de Salamanca, 2003 (XVII).
Núñez, Fray L., Dos cartas de sor Isabel de Baena a la duquesa del Infantado, Archivo Ibero-
americano I:4 (1914), 322–325.
Núñez Selxas, Xosé Manoel y Raúl Soutelo, As cartas do destino. Unha familia galega entre dous
mundos, 1911–1971, Vigo, Editorial Galaxia, 2005 (XX).
Ollaquindia, Ricardo, Cartas de un requeté del tercio del rey: José María Erdozain, Madrid, Ed.
Actas, 1997.
Orden, María Liliana da, Una familia y un océano de por medio: la emigración gallega a la
Argentina: una historia a través de la memoria epistolar, Madrid, Marcial Pons, 2010.
Ossó, F, Cartas de San Enrique de Ossó y Cervelló al Dr. Félix Sardá y Salvany, Barcelona, Gloria
Volpe, 1997 (XIX).
Otazu, Fausto, Fausto de Otazu a Iñigo Ortés de Velasco: cartas, 1834–1841, Álava, Diputación
Foral de Álava, 1995 (XIX).
Otte, Enrique, Cartas privadas de Puebla del siglo XVI, Köln, Böhlau, 1966 (XVI).
Otte, Enrique, Cartas privadas de emigrantes a Indias, Madrid, Fondo de Cultura Económica,
1993 (XVII).
Pérez Murillo, Mª Dolores, Cartas de emigrantes escritas desde Cuba, Cádiz, Universidad de
Cádiz, 1999 (XIX).
Pérez Villanueva, J., Felipe IV y Luisa Enríquez Manrique de Lara, condesa de Paredes, un
epistolario inédito, Salamanca, Caja de Ahorros de Salamanca, 1986.
Pescador, J., «Thio señor y muy dueño mio»: cartas de Indias de la familia Urdinola del Valle de
Oyarzun, 1700–1708, Boletín de la Real Sociedad Bascongada de los Amigos del País LII: 2
(1996), 503–518 (XVIII).
Pino y Rozas, Joaquín, Un epistolario virreinal: cartas familiares de Don Joaquín del Pino Rozas
VIII Virrey del Río de la Plata, Madrid, Fundación Rafael del Pino, 2001.
Pradells, Jesús, Política, libros y polémicas culturales en la correspondencia extraoficial de
Ignacio de Heredia con Manuel de Roda, Revista de historia moderna: Anales de la Uni-
versidad de Alicante 18 (2000), 125–222 (XVIII).
Prado, Mercedes, Dario de Regoyos: sus cartas inéditas, Bilbao, 1994 (XIX).
Ramón y Carmen Ortiz, Manuel de, Madrina de guerra: cartas desde el frente, Madrid, La Esfera
de los libros, 2003 (XX).
Rodríguez Morel, Genaro, Cartas privadas de Hernando Gorjón, Anuario de estudios americanos
52 (1995), 203–233 (XVI).
Entrenchment and frequency effects in the diffusion and replacement 269
Rojas, Elena, Documentos para la historia lingüística de Hispanoamérica, vol. 2, Madrid, Madrid,
BRAE, 2001 (XVI al XVIII).
Rubalcaba Pérez, Carmen, Libros de cuentas de Policarpo Pando, in: Entre las calles vivas de las
palabras, Santander, Ediciones Trea, 2006 (XVIII).
Rubalcaba Pérez, Carmen, Libros de cuentas de Pedro Jado, in: Entre las calles vivas de las
palabras, Santander, Ediciones Trea, 2006 (XIX).
Sánchez Forcada, Manuel, Diario de campaña de un requeté, Príncipe de Viana 64 (2003),
641–682 (XX).
Sánchez Rubio, Rocio, Isabel Testón Núñez, Antonio Domínguez Ortiz, El hilo que une: las
relaciones epistolares en el Viejo y en el Nuevo Mundo, siglos XVI–XVIII, Cáceres, Universi-
dad de Extremadura, 1999 (XVI al XVIII).
Sanza, Marcelino, Francia no nos llamó: correspondencia de un campesino aragonés en la
tormenta de la guerra, Vinaròs, Antinea, 2008 (XX).
Schmidt-Riese, R., Relatando México, Madrid/Frankfurt am Main, Iberoamericana/Vervuert,
2002.
Stoll, Eva, La memoria de Juan Ruiz de Arce, Madrid, Iberoamericana, 2002 (XVI).
Stoll, Eva y María de las Nieves Vázquez Núñez (edd.), Alonso Borregán, La conquista del Perú,
Madrid, Vervuert, 2011.
Soutelo, R., De América para casa: correspondencia familiar de emigrantes galegos no Brasil,
Venezuela e Uruguay (1916–1969), Santiago de Compostela, Consello da Cultura Galega,
2001 (XX).
Szmolka Clares, José, María Amparo Moreno Trujillo, María José Osorio Pérez, Epistolario del
conde de Tendilla (1504–1506), Granada, Universidad de Granada, 1996 (XVI).
Tinell, Roger, Epistolario a Federico García Lorca desde Cataluña, la Comunidad Valenciana y
Mallorca, Granada, Ed. Comares, 2001 (XX).
Tomás, Facundo, Epistolarios de Joaquín Sorolla, vol. 1, Barcelona, Anthropos, 2007 (XIX, XX).
Torres, Concepción, Ana de Jesús, cartas (1590–1621): religiosidad y vida cotidiana en la
clausura femenina del Siglo de Oro, Salamanca, Universidad, 1995 (XVI, XVII).
Usunáriz, Jesús Mª, Una visión de la América del XVIII: correspondencia de emigrantes guipuz-
coanos y navarros, Madrid, MAPFRE, 1992 (XVIII).
Vargas, Bruno y Francisco Moreno Sáez, Dramas de refugiados: epistolario de Rodolfo Llopis i
otros dirigentes socialistas alicantinos (1939–1947), Madrid, Centro Francisco Tomás y
Valiente, 2007 (XX).
Vives i Clavé, Pere/Agustí Bartra, Cartes des dels camps de concentració, Barcelona, Edicions 64,
1972 (XX).
Miriam Bouzouita
La posposición pronominal con futuros y
condicionales en el códice escurialense
I.i.6: un examen de varias hipótesis
morfosintácticas
1 Introducción
Este trabajo aborda un fenómeno del castellano medieval que ha recibido relati-
vamente poca atención: la aparición de pronombres átonos en posición posverbal
en contextos con futuros y condicionales sintéticos (en adelante FCS), como en
tornaré los en el ejemplo (1a) en vez de un futuro/condicional analítico (en
adelante FCA), como en (1b)–(1e).1
a. [E6] Yo allegaré las remasaias de la mi grey de todas las tierras o los echaré e tornaré
los a sus logares e cresçrán e serán muchos
b. [GE4] e yo ayuntaré de todas las tierras a que los avía echados las remasaias de la mi
grey. E tornar los é a sus tierras e a sus heredades e cresçrán e amuchiguarán
c. [E3] e yo apañaré lo fyncable de mis ovejas de todas las tierras que los renpuxe ende e
torrnar las hé a sus moradas e multiplicarán e cresçerán
d. [BNM] E yo ayuntaré lo que quedare de mi ganado de todas las tierras en que los
esparzí, e torrnar los hé a sus moradas, e frutiferarán e multiplicarán
e. [Arragel] e yo allegaré el remanente de las mis oveias de todas las tierras do derramado
las oviere e tornar las hé a las sus moradas e cresçerán e multiplicarán
Consideremos los ejemplos en (1), que recogen un versículo del Libro de Jeremías
de cinco romanceamientos bíblicos diferentes. Como se puede observar, se dife-
rencian por la posición del pronombre átono con respecto a la forma del futuro:
1 Los datos contenidos en este estudio proceden de Biblia Medieval, un corpus paralelo y
alineado de textos bíblicos. Todos los ejemplos proceden del manuscrito I.i.6 de la Real Bibliote-
ca de San Lorenzo de El Escorial, a no ser que se indique otra fuente. Para cada ejemplo se
señalará el libro en que aparece, así como el versículo. Igualmente, para aumentar su legibilidad
se adaptarán a la acentuación y puntuación modernas. Agadrezco a Eveline Fermon su ayuda
con la recogida de datos.
2 E6 no es una biblia completa y, por tanto, no contiene todos los libros bíblicos, aunque varios
hechos indican que parece formar una unidad con otro códice escurialense, I.i.8 (Bouzouita en
preparación a; Enrique-Arias 2010).
3 A pesar de la semejanza morfológica entre la raíz verbal del futuro/condicional y el infinitivo,
existen algunas diferencias formales. Para una discusión más extensa y un análisis formal de
ambas formas verbales, véase Bouzouita (2011). Para una reflexión crítica sobre el término de
futuro analítico, véase Octavio de Toledo (2015).
272 Miriam Bouzouita
2 Estado de la cuestión
En la literatura se hallan varias hipótesis que intentan elucidar la causa de la
aparición del pronombre posverbal en contextos con FCS en E6. Como veremos,
parten de diferentes enfoques.
última tendencia que Montgomery destaca consiste en que se evitan las series de
varias sílabas átonas, sobre todo al final del grupo tónico, ilustrado en el ejemplo
(7), aunque otros casos dependen de la disposición de los vocablos de cada
oración, como en (8). Además, a veces se evita un efecto monótono cambiando la
posición del pronombre. Dicho de otra manera, Montgomery sugiere que la
variatio, un recurso estilístico, también parezca jugar un papel en el uso del tipo
de futuro, lo que ejemplifica con los ejemplos en (9).
Rossi (1975) investiga, en su estudio sobre el uso de las distintas formas del futuro
en Proverbios (Prov) de E6, varios criterios para revelar la distribución de los FCA y
los FCS con pronombres personales átonos. En primer lugar realiza un estudio
sistemático de los contextos sintácticos en que aparece el FC. Sus resultados,
resumidos por Bouzouita (2011, 100) en la Tabla 1, demuestran una clara correla-
ción entre la colocación pronominal y las distintas formas del FC según la estruc-
tura sintáctica de la oración. Para el presente estudio nos interesan en particular
los contextos en los que aparece el FCS con un pronombre posverbal. Como indica
la Tabla 1, el corpus de Rossi (1975) contiene tres casos de esta construcción: uno
aparece después de una «oración secundaria» y dos casos detrás de la conjunción
e.4 Como se puede ver en la Tabla 1, traducida de Bouzouita (2011, 100), estos
4 Como ya indicó Bouzouita (2011, 101), Rossi (1975) engloba bajo la denominación de «oración
secundaria», por un lado, ejemplos en que una frase subordinada precede a la principal, y por
otro, oraciones con dislocaciones a la izquierda, en las cuales un pronombre átono recoge la
referencia del sintagma dislocado (véanse también Bouzouita 2014; 2015; en prensa). El ejemplo
La posposición pronominal con futuros y condicionales 275
contextos no solo admiten FC con pronombres pospuestos sino también FCA, por
lo cual, Rossi (1975) llega a la conclusión que el contexto sintáctico no permite
aclarar del todo el uso del pronombre pospuesto. Cabe mencionar que, aunque el
rastreo de datos por Rossi (1975, 398) no lo demostró completamente, veremos en
la sección 4 que existe un paralelismo entre los FCA con mesoclisis y los FCS con
posposición, como ya sugerió Bouzouita (2011, 118–120).
Tabla 1: El entorno sintáctico de los FC con pronombres según los datos de Rossi (1975)
Entorno sintáctico FCS con anteposición FCA con mesoclisis FCS con posposición
que rastreó con posposición pronominal exhibe este último tipo de construcción. Además, no es
consistente en su clasificación sintáctica, visto que también clasifica otros fenómenos de la
periferia izquierda bajo la categoría de «objeto (in)directo», en que junta tanto casos con
dislocaciones a la izquierda, que contienen sintagmas correferenciales, con ejemplos de la
llamada focalización/frontalización, que, al contrario de las dislocaciones a la izquierda, no
manifiestan la correferencialidad, o sea, el constituyente dislocado no está retomado por un
pronombre.
276 Miriam Bouzouita
Constata que los tres ejemplos de FCS con posposición de su corpus manifiestan
verbos perfectivos, a saber mostrar, abrir y camiar, mientras que los casos con un
FCA parecen reforzar una interpretación imperfectiva, como ejemplifica con el
versículo en (10) (Rossi 1975, 399–400):
(10) Quando el sesudo oyere la palavra del seso, loar l’á e aprendrá-la (Ecl 21:18)
(11) Diz el perezoso: -El león está fuera en medio de las calles, matar m’á (Prov 22:13)
(12) Metióme el rey en su cellero; alegrarémos-nos e gozarémos-nos en ti (Cant 1:3)
Tal como Rossi (1975) y Bouzouita (2011), Matute/Pato (2010, 61) observan que
tanto los FCA como los FCS con posposición pronominal alternan en los
mismos contextos sintácticos: en su corpus, el 55 % (113/204) de oraciones
afirmativas y principales contiene un FCS con un pronombre pospuesto mien-
tras que el 45 % (91/204) exhibe la construcción analítica. En frases negativas,
subordinadas o principales con elementos antepuestos intraoracionales, al con-
trario, solo se manifiesta el FCS con anteposición pronominal. Sugieren que la
razón por la alternancia sintáctica entre los FCS con pronombres pospuestos y
La posposición pronominal con futuros y condicionales 277
los FCA podría ser de índole morfológica: en concreto, postulan que la relación
inversa entre la síncopa y las formas analíticas, ya notada por Moreno Bernal
(2004), podría regirla. En otras palabras, según Matute/Pato (2010, 62), la forma
morfológica del infinitivo determinaría la posición del pronombre: «[en] las
formas que presentan alternancia en la posición del pronombre, vemos que las
soluciones con cambio en la base del infinitivo (pornáslo, seráslo, dirásles o
farélos frente a ponerla as, seer l’á, dezir l’as, fazerles edes) atraen al pronombre
en posición de enclisis con más frecuencia que en mesoclisis (37 ejemplos de
enclisis, el 73 %, frente a 14 de mesoclisis, el 27 %». En cambio, con infinitivos
que se han mantenido invariables la ocurrencia de los dos tipos de futuro se
iguala, como se puede observar en la Tabla 2, que recoge los datos de Matute/
Pato (2010, 62).
(13) Jeremías 38 : 3
a. [Vulgata] tradenda tradetur civitas haec in manu exercitus regis Babylonis et capiet
eam
b. [E6] Esta ciudat dada será a la hueste del rey de babilonna e prendrá la
Mesoclisis 52 % (39/75)
3 La distribución sintáctica
Como vimos en la sección 2.2, Rossi (1975) examina si hay diferencias en la
distribución sintáctica de las formas de futuro y llega a la conclusión que es
posible encontrar variación en el uso entre el FCA y el FCS con posposición
pronominal (i) detrás de un constituyente retomado por un pronombre, un
entorno que clasifica bajo la denominación «oración secundaria», y (ii) la coordi-
nación e. Haciendo un estudio pormenorizado de los entornos sintácticos de los
diferentes tipos de FC con pronombres átonos detectamos que nuestros resulta-
dos, resumidos en la Tabla 7, apoyan las conclusiones de Rossi (1975), ya que, en
efecto, ambas formas de futuro pueden aparecer detrás de un sintagma nominal
(SN) correferencial y una conjunción coordinante en una oración principal, como
se ejemplifica en (14a)–(14b) y (15a)–(15b) respectivamente.7 Más aún, nuestro
corpus revela igualmente que otros contextos exhiben la variación entre el FCA y
el FCS con posposición: como se observa en la Tabla 7, la misma alternancia se
manifiesta (i) en oraciones principales con verbos en primera posición (P1), como
se ilustra en (16); (ii) en oraciones paratácticas, como en (17); (iii) detrás de un
vocativo, como en (18); (iv) detrás de la conjunción adversativa mas, en (19); (v)
detrás de la conjunción causal ca,8 en (20); (vi) detrás de sujetos preverbales,
ilustrado en (21); (vii) detrás de complementos circunstanciales, ejemplificado en
(22), y, finalmente, (viii) detrás de construcciones absolutas o subordinadas,
como se ve en (23) (cf. Bouzouita 2011, 110; 2012, 703, para la Fazienda de
Ultramar; Gómez Seibane 2012, 703).
–
Oración principal
(14) SN correferencial
a. los agenos que guardaren míos sábados e escogieren lo que yo quis e touieren mío
paramiento dar les é logar en mi casa e en míos muros (Is 56:5)
b. E dixo les Jheremías propheta: «[…] e toda cosa que me recudiere diré-uos la e non uos
negaré nada» (Je 42:4)
c. e todo lo quebrantará (Mc 5:4)
a. e acerques e uenga el conseio del sancto Israhel e saber lo emos (Is 5:19)
b. E sabrá-lo tod’el pueblo de Effraym e los moradores de Samaria con soberbia e con
grand coraçón diciendo (Is 9:8)
c. ¿Fasta quándo llorará la tierra e se secará la yerba de toda la tierra? (Je 12:4)
La posposición pronominal con futuros y condicionales 283
(16) Verbo en P1
a. Sobr’esto loar t’á el to fuerte pueblo, temer t’á la ciudat de las fuertes yentes (Is 25:3)
b. «Vos sodes carga de dios, desecharé uos», dize dios (Je 23:33)
(18) Vocativo
a. E si ofrecieren olocaustos e sacrificios no los recibré mas consumir los é con espada e
con fambre e con pestilencia (Je 14:12)
b. Hé que crio cielos nueuos e tierra nueua e las primeras cosas no serán remenbradas e
no subrán al coraçón mas gozaredes uos e alegraredes uos fasta siempre en las cosas
que yo crio (Is 65:17–18)
a. e espauoreçrán e aurán temor ante la faz del mouimiento de la mano del Sennor de los
fonsados ca mouer la á sobr’él (Is 19:16)
b. desecharé el linnage de Iacob e de Dauid mío sieruo que non tomé de so linnage
capdiellos e del linnage de Abraham e de Ysaac e de Iacob ca retornaré los e auré
mercet d’ellos (Je 33:26)
(21) Sujeto
a. Tod ombre que passare por Babilonna espantar s’á (Je 50:13)
b. e el uiento toruará los (Is 41:16)
c. Cada uno s’espantará de so uezino (Is 13:8)
a. Si lauare dios las suziedades de las fias de Sion e la sangre de Jherusalém lauare de
medio d’ella, fazer lo á con espirito de iuizio e con espirito de ardor (Is 4:4)
b. E si te dixieren «¿ó saldremos?», dirás les «esto dize Dios […]» (Je 15:2)
c. Desde estonz dix yo a ti «ante que las cosas uiniessen, te las fiz saber» (Is 48:5)
d. Ante que d’aquí salgades me faredes ende buen derecho (EE: 420a5 ápud Granberg
1988, 139)
4 La forma morfológica
La segunda hipótesis que examinaremos atañe a la relación entre la forma
morfológica del FC y la colocación pronominal: como detallamos en la sec-
ción 2.3, los datos de Matute/Pato (2010) indican que las formas sincopadas de
los verbos con radicales variables tienden a surgir con pronombres en posposi-
ción, mientras que las no reducidas presentan una distribución equilibrada entre
FCA y FCS con pronombres pospuestos (véase la Tabla 2). Los resultados de
nuestro corpus, presentados en la Tabla 8, confirman la existencia de una correla-
ción entre la síncopa y la posposición de los pronombres. Es más, las tendencias
La posposición pronominal con futuros y condicionales 285
9 Los datos de Matute/Pato (2010) de la Tabla 2, en cambio, solo revelan una asociación débil:
V = 0,199.
286 Miriam Bouzouita
Tabla 9: (continuada)
(24) Trabaié iudgando los e esparziré los con el abentadero en las puertas de la tierra
(Je 15:6–7)
(25) E agora di estas tierras todas a la mano de Nabucodonosor, rey de Babilonna, mío
sieruo. Demás di-l las bestias del campo por le seruir, e todas las yentes a él e a so fijo e
a so nieto, fasta que uenga el tiempo de la su tierra e d’él, e seruirán le muchas yentes
e grandes reyes (Je 27:6–7)
(26) Jugo de fierro pus sobre’l cuello de todas estas yentes que siruan a Nabucodonosor rey
de Babilonna e seruirán le (Je 28:14)
(27) No engannedes uuestras almas diciendo «Irán se los caldeos e quitar s’án de nós» ca
non se irán (Je 37:9)
La posposición pronominal con futuros y condicionales 287
5 El modelo latino
Es sabido que el castellano medieval de las biblias romanceadas se caracteriza
por la conservación, en mayor o menor grado, de rasgos lingüísticos de la(s)
lengua(s) subyacente(s) (p. ej. Enrique-Arias 2008; Pérez Alonso 1997; Rubio
2009, entre otros). Por tanto, no parece inverosímil la hipótesis propuesta por
Bouzouita (2013), de que la aparición de FCS con pronombres pospuestos en E6,
una traducción de la Vulgata al castellano medieval, podría ser un calco sintácti-
co del modelo latino. Siguiendo a Bouzouita (2013), verificaremos si la coloca-
ción pronominal con FC presenta efectos del priming sintáctico por la exposición
al orden pronominal del texto subyacente.11 En la psicolingüística, el concepto
de priming se refiere al efecto relacionado con la memoria implícita por el cual la
exposición a un determinado estímulo, en nuestro caso la sintaxis pronominal
de la Vulgata, influye en la producción lingüística posterior, o sea, en el orden
de pronombres de la traducción castellana. Como veremos en breve, indagare-
mos dos versiones de la hipótesis del priming sintáctico, una más restringida que
la otra. Para ello, contrastaremos la colocación pronominal de ambos textos.
Antes de pasar a los resultados cuantitativos, conviene, primero, detallar
las diferentes estructuras sintácticas encontradas en la Vulgata que se traduje-
ron por un FC con un pronombre en E6. En nuestro corpus encontramos
tres tipos de construcciones latinas, o bien (i) una estructura con pronombre
antepuesto, como en (28a); o bien (ii) con uno pospuesto, ejemplificado en
(29a), o (iii) una construcción sin pronombre o, incluso, sin verbo, ilustrado en
(30a)–(33a).
a. [Vulgata] et Sedeciam regem Iuda et principes eius dabo in manu inimicorum suorum
b. [E6] E Sedechias e sos capdiellos metré los en mano de sos enemigos
a. [Vulgata] dabo eis in domo mea et in muris meis locum et Ø nomen melius a filiis et
filiabus, nomen sempiternum dabo eis quod non peribit
b. [E6] dar les é logar en mi casa e en míos muros e dar les hé meior nombre que a los
fijos ni alas fijas e daré les nombre durable que non pereçrá.
Total
Frecuencia observada 26 249 402 677
% en la Vulgata 3,8 % 36,8 % 59,4 % 100 %
anteposición respectivamente (cf. las Tablas 4 y 5).13 A pesar de este alto porcen-
taje, hay que advertir que, desde la perspectiva latina, solo un tercio (33,3 %; 134/
402) de las construcciones con pronombres pospuestos se tradujo por una estruc-
tura con la misma distribución. Como se puede observar, el repartimiento entre
las tres posiciones es bastante equilibrado: el 30,3 % (122/402) de los casos
pospuestos latinos se tradujo con una estructura mesoclítica y el 36,3 % (146/
402) con una preverbal. Cuando la anteposición está presente en el texto sub-
yacente, en cambio, el 53,8 % (14/26) de los casos castellanos coinciden, frente a
34,6 % (9/26) y 11,5 % (3/26) para la estructura mesoclítica y enclítica.
Puesto que para el presente análisis, al contrario del estudio preliminar de
Bouzouita (2013), se recogió información sobre todas las construcciones subya-
centes y no solo sobre aquellas que presentaban la posposición, podemos
examinar la fuerza de la asociación entre la colocación pronominal castellana y
la latina: en concreto, la V de Cramér, que es igual a 0,151, nos indica que, para
la colocación pronominal en general, ambas variables están relacionadas débil-
mente. Esto no es sorprendente, ya que la distribución pronominal escuria-
lense, aparte de la ocurrencia de posposición con FC, no difiere de la de otros
textos coetáneos (cf. los datos de Bouzouita 2011; Castillo Lluch 1996; Nieuwen-
huijsen 2006 inter alia). Sin embargo, los residuales ajustados nos permiten
entender mejor la dependencia entre las dos variables, porque nos indican qué
celdas se apartan de la hipótesis de igualdad de probabilidades (Agresti 2013,
82). A pesar del coeficiente V débil, el residual ajustado es igual a 5,5 en la
casilla correspondiente a la posposición traducida por el mismo tipo de estruc-
tura. Esto significa que la frecuencia observada (134) para esta casilla es
significativamente más alta que la esperada (103,3) si las dos variables, la
colocación pronominal latina y la castellana, fueran independientes. Inversa-
mente, la casilla para la ausencia de un pronombre en el texto subyacente y la
posposición castellana contiene un residual ajustado muy bajo, –4,9. Los
residuales ajustados para la anteposición, al contrario, son neutrales. Estos
datos indican por tanto que, por un lado, vale la pena explorar más la versión
restringida de la hipótesis y, por otro, la presencia de la anteposición en el
texto subyacente no se imita en la sintaxis castellana. En vista de lo anterior y
la restricción sintáctica de la posposición a contextos que también permiten el
Total
Frecuencia observada 12 127 256 395
% en la Vulgata 3% 32,2 % 64,8 % 100 %
traducidas por un FCA con mesoclisis, ya que el residual ajustado es 4,1. Con-
siguientemente, tanto los datos de la posposición latina como los de los casos sin
pronombre apoyan la hipótesis del priming sintáctico, según la cual, por un lado,
la exposición al pronombre pospuesto latino propiciaría la producción del mismo
orden pronominal en E6 y, por otro, la falta de un pronombre resultaría en la
posición pronominal canónica, que es la mesoclítica para los entornos sintácticos
considerados. Las casillas para la anteposición en la Vulgata, en cambio, indican
resultados compatibles con las frecuencias esperadas, aunque cabe apuntar el
tamaño reducido del recuento.
Resumiendo, la exploración de varios análisis cuantitativos indica que solo la
hipótesis restringida del priming sintáctico parece ser válida: existe efectivamente
una correlación entre la colocación pronominal latina y la castellana para la
alternancia en el uso de mesoclisis y posposición en el códice escurialense, pero
no para la colocación pronominal en general. Dicho esto, cabe reconocer que la
fuerza de esta asociación es relativamente débil. Además, siguiendo Bouzouita
(2013, 361–362), no excluimos la posible interacción del factor del modelo sub-
yacente con otros parámetros determinantes en la colocación pronominal de E6,
como veremos en breve.
Otras variables que parecen afectar la alternancia que nos ocupa son la función
del pronombre castellano y el verbo en la traducción. Específicamente, en nuestro
corpus los pronombres de los verbos pronominales son propensos a aparecer en
construcciones mesoclíticas (87/100), ya que la gran mayoría de ellos (92/100) no
tiene un pronombre en el texto subyacente. No es de extrañar que no siempre
corresponden con la construcción latina, ya que varios estudios, como Enrique-
Arias/Bouzouita (2013), demostraron que la frecuencia de uso de estos pronom-
bres aumenta considerablemente a lo largo de la historia del español. La tenden-
cia de estos pronombres a aparecer con mesoclisis se confirma si analizamos la
distribución sintáctica de los diferentes lexemas verbales: mientras que varios
verbos pronominales favorecen claramente el uso de FCA, como alegrarse (10/11),
convertirse (7/7) y secarse (6/7), otros, al contrario, aparecen principalmente con
FCS con posposición, como es el caso para decir (18/21), poner (7/8), quemar(se)
(8/11) y tornar (13/16). Esto hace surgir la pregunta si la repetición de la misma
construcción pronominal podría haber causado para ciertos verbos una rutiniza-
ción del patrón pronominal en cuestión, como por ejemplo la posposición para el
lexema decir.14 En otras palabras, la elección de cierta posición pronominal
podría también estar afectada por el verbo mismo. Otro posible factor, la variatio,
ya sugerido por Montgomery (1962), Matute/Pato (2010) y Bouzouita (2013),
también requiere un estudio pormenorizado (cf. el ejemplo (9)).15
Finalmente, queremos avanzar otra conjetura, aún no explorada en la litera-
tura: el uso de los FCS con posposición en E6 como manifestación diatópica.
Observemos los ejemplos en (36)–(38), que proceden respectivamente de un texto
coetáneo occitano, catalán y aragonés: como se puede ver, estas tres variantes
14 Es de notar que 3 de los 4 ejemplos de FCS con posposición del Poema de Mio Cid, así como el
único ejemplo del Liber Regum, también contienen el verbo decir.
15 Referimos el lector a Bouzouita (en preparación b) para más detalles.
La posposición pronominal con futuros y condicionales 295
(36) [occitano] Aurias las tu vistas las vacas (Sainte Enimie, v. 411, ápud Jensen 1994, 245)
(37) [catalán] […] e yo vendré a vós e tot celadament amenar-vos he al castel e metré-us en
la cambra (Crònica de Bernat Desclot, 23.18, ápud Fischer 2002, 50)
(38) [aragonés] Et aqueilla bestia puesta assí en mano de fiel; si aqueill qui sostiene la
partida del reo diere fiador de dreito. & que presentara otro antor. et que la terra
manifiesta aqueilla bestia; dando aqueill fiador; será li rendida aqueilla bestia (Vidal
Mayor, fol. 264v)
7 Conclusiones
La evaluación cualitativa y cuantitativa de las tres hipótesis morfosintácticas
sobre el uso de la posposición pronominal con verbos FC en E6 nos lleva a concluir
lo siguiente. Primero, las construcciones pospuestas están restringidas sintáctica-
mente, ya que solo surgen en los contextos en que podemos encontrar FCA (o
posposición con otros tiempos verbales). De esto deducimos que el entorno
sintáctico no sirve como desencadenante para el uso del pronombre pospuesto
con FCS. En segundo lugar, como han sugerido Matute/Pato (2010), existe efecti-
vamente una correlación estadística entre la forma morfológica del verbo y la
colocación pronominal: en concreto, la síncopa favorece el empleo de FCS con
posposición. Sin embargo, estas variables solo están relacionadas intensamente
para los verbos de la 2ª y 3ª conjugación, puesto que las formas de la 1ª son
invariables, por lo cual esta hipótesis morfológica no logra explicar la mayoría de
los casos de nuestro corpus. Además, como vimos en la sección 5, la síncopa
también se manifiesta en los casos de FCS con anteposición y los FC sin pronom-
16 En cambio, los documentos franceses, incluso los más antiguos, como Les serments de
Strasbourg, solo exhiben FCS.
17 Como es bien sabido, el portugués europeo contemporáneo todavía mantiene el uso de los
FCA, mientras que el gallego y el asturiano solo admiten FCS con posposición en estos contextos
(González i Planes 2007).
296 Miriam Bouzouita
bres. Todo esto nos hace reacias a considerar la síncopa como la causa del empleo
de la posposición con FCS. La tercera hipótesis examinada atañe a la imitación de
la sintaxis pronominal del modelo latino o, dicho en términos psicolingüísticos, a
los efectos del priming sintáctico, debido a la lectura de la colocación pronominal
latina, en el orden de pronombres castellanos. En efecto, como propuso Bouzouita
(2013), los diferentes análisis estadísticos demuestran que, por un lado, la exposi-
ción al pronombre pospuesto latino favorece la imitación del mismo orden pro-
nominal en E6 y, por otro, la falta de un pronombre en el texto subyacente induce
la posición pronominal canónica, que es la mesoclítica. La anteposición subya-
cente, en cambio, no parece ejercer una influencia estadísticamente destacable en
E6, posiblemente a causa de los pocos datos para esta posición pronominal. Como
vimos, la correlación es relativamente débil, lo que podría ser debido a la interac-
ción del parámetro de la sintaxis subyacente con otras variables que se entrecru-
zan, como la analogía, la función del pronombre, el verbo y la variatio. Final-
mente, planteamos otra conjetura, a saber, la influencia de las variantes
románicas vecinas en el empleo de la posposición con FCS en E6 y, más general-
mente, en la difusión de la gramaticalización de los FC en la Península Ibérica.
8 Corpus
Enrique-Arias, Andrés (dir.), Biblia Medieval. En línea en http://www.bibliamedieval.es
[9/8/2015].
Gago Jover, Francisco (ed.), Vidal Mayor. Textos medievales navarro-aragoneses. Digital
Library of Old Spanish Texts. Hispanic Seminary of Medieval Studies, 2013. En línea en
http://www.hispanicseminary/t&c/nar/index.htm. [9/8/2015].
9 Bibliografía
Agresti, Alan, Categorical Data Analysis, Hoboken, Wiley, 2013.
Bouzouita, Miriam, The Diachronic Development of Clitics in the History of Spanish, Tesis
doctoral, Londres, King’s College, 2008a.
Bouzouita, Miriam, At the Syntax-Pragmatics Interface: Clitics in the History of Spanish, in:
Cooper, Robin/Kempson, Ruth (edd.), Language in Flux: Dialogue Coordination, Language
Variation, Change and Evolution, London, College Publications, 2008b, 221–263.
Bouzouita, Miriam, Future Constructions in Medieval Spanish: Mesoclisis Uncovered, in:
Kempson, Ruth/Gregoromichelaki, Eleni/Howes, Christine (edd.), The Dynamics of Lexical
Interfaces, Stanford, CSLI Publications, 2011, 91–132.
Bouzouita, Miriam, Los futuros analíticos y sintéticos en la Fazienda de Ultra Mar, in: Montero
Cartelle, Emilio (ed.), Actas del VIII Congreso Internacional de Historia de la Lengua Españo-
la, vol. 2, Santiago de Compostela, Meubooks, 2012, 1631–1642.
La posposición pronominal con futuros y condicionales 297
Bouzouita, Miriam, La influencia latinizante en el uso del futuro en la traducción bíblica del
códice Escorial I.i.6, in: Casanova Herrero, Emili/Calvo Rigual, Cesáreo (edd.), Actes del
26é Congrés de Lingüística i Filologia Romàniques (València, 6–11 de setembre de 2010),
Berlin/Boston, de Gruyter, 2013, 353–364.
Bouzouita, Miriam, Left Dislocation Phenomena in Old Spanish: An Examination of Their Structur-
al Properties, in: Dufter, Andreas/Octavio de Toledo, Álvaro S. (edd.), Left sentence periph-
eries in Spanish: diachronic, variationist and typological perspectives, Amsterdam/Phila-
delphia, John Benjamins, 2014, 23–52.
Bouzouita, Miriam, Las dislocaciones a la izquierda en el español del siglo XIII: la accesibilidad
referencial, in: Castillo Lluch, Mónica/López Izquierdo, Marta (edd.), El orden de palabras
en la historia del español y otras lenguas iberorromances, Madrid, Visor, 2015, 235–278.
Bouzouita, Miriam, La accesibilidad referencial de dislocaciones a la izquierda en español
medieval, Boletín de la Real Academia Española, en prensa.
Bouzouita, Miriam, Linguistic Evidence for the Existence of the Pre-Alphonse Bible (Ms Escorial
I.i.6 and I.i.8), en preparación a.
Bouzouita, Miriam, Un análisis multivariante de la posposición con futuros y condicionales en el
códice escurialense I.i.6, en preparación b.
Castillo Lluch, Mónica, La posición del pronombre átono en la prosa hispánica medieval, tesis
doctoral, Madrid, Universidad Autónoma de Madrid, 1996.
Castillo Lluch, Mónica, Distribución de las formas analíticas y sintéticas de futuro y condicional
en español medieval, in: Echenique Elizondo, María Teresa/Sánchez Méndez, Juan (edd.),
Actas del V Congreso Internacional de la Historia de la Lengua Española: Valencia, 31 de
enero–4 de febrero 2000, vol. 1, Madrid, Gredos, 2002, 541–549.
Company Company, Concepción, Los futuros en el español medieval, sus orígenes y su evolución,
Nueva Revista de Filología Hispánica 34:1 (1985–1986), 48–108.
Company Company, Concepción, Tiempos de formación romance II. Los futuros y condicionales,
in: Company Company, Concepción (ed.), Sintaxis histórica de la lengua española: Primera
parte, la frase verbal, México, Universidad Nacional Autónoma de México/Fondo de Cultura
Económica, 2006, 349–422.
Eberenz, Rolf, Futuro analítico y futuro sintético en tres obras con rasgos coloquiales: el Corba-
cho, La Celestina y La Lozana Andaluza, in: Körner, Karl-Hermann/Zimmermann, Günther
(edd.), Homenaje a Hans Flasche: Festschrift zum 80. Geburtstag am 25. November 1991,
Stuttgart, Franz Steiner, 1991, 499–506.
Enrique-Arias, Andrés, Las traducciones de eius e illius en las biblias romanceadas. Nuevas
perspectivas para el estudio de la expresión de la posesión en español medieval, in: Döhla,
Hand-Jörg/Montero Muñoz, Raquel/Báez de Aguilar González, Francisco (edd.), Lenguas en
diálogo: el iberorromance y su diversidad lingüística y literaria. Ensayos en homenaje a
Georg Bossong, Frankfurt am Main/Madrid, Vervuert/Iberoamericana, 2008, 125–141.
Enrique-Arias, Andrés, La traducción del códice Escorial I.I.6 en el contexto de los romanceamien-
tos bíblicos medievales, in: Enrique-Arias, Andrés (ed.), La Biblia Escorial I.I.6. Transcrip-
ción y estudios, San Millán de la Cogolla, Cilengua, 2010, 67–86.
Enrique-Arias, Andrés/Bouzouita, Miriam, La frecuencia textual en la evolución histórica de los
clíticos pronominales en español, Iberoromania 77 (2013), 29–46.
Feng, Hao, et al., A Review of the Syntactic Priming: A Research Method in Sentence Production,
Open Journal of Modern Linguistics 4 (2014), 641–650.
Fernández-Ordóñez, Inés, La lengua de Castilla y la formación del español, Madrid, Real Acade-
mia Española, 2011.
298 Miriam Bouzouita
Gómez Seibane, Sara, Notas sobre el futuro y condicional de indicativo en el País Vasco
tardomedieval, in: Gómez Seibane, Sara/Sinner, Carsten (edd.), Estudios sobre tiempo
y espacio en el español norteño, San Millán de la Cogolla, Cilengua, 2012, 91–120.
González i Planes, Francesc, Sintaxis de los clíticos pronominales en asturleonés, Ianua, Revista
Philologica Romanica 7 (2007) http://www.raco.cat/index.php/Ianua/article/view/81725
(consulta 9/08/2015).
Granberg, Robert A., Object Pronoun Position in Medieval and Early Modern Spanish, Tesis
doctoral, Los Angeles, University of California, 1988.
Jensen, Frede, Syntaxe de l’ancien occitan, Tubinga, Max Niemeyer, 1994.
Lema, José/Rivero, María Luisa, Inverted Conjugations and V-second Effects in Romance, in:
Laeufer, Chris/Morgan, Thomas (edd.), Theoretical Analysis in Contemporary Romance
Linguistics, Amsterdam/Philadelphia, John Benjamins, 1992, 311–328.
Loebell, Helga/Bock, Kathryn, Structural Priming Across Languages, Linguistics 41:5 (2003),
791–824.
Martín Aizpuru, Leyre, Sobre el futuro sintético y analítico en la documentación medieval de
Miranda de Ebro, in: Grande López, Clara/Martín Aizpuru, Leyre/Salicio Bravo, Soraya
(edd.), Con una letra joven: Avances en el estudio de la Historiografía e Historia de la
Lengua Española, Universidad de Salamanca, Ediciones Universidad de Salamanca, 2014,
169–176.
Matute Martínez, Cristina/Pato Maldonado, Enrique, Morfología y sintaxis en el códice Escorial
I.I.6, in: Enrique-Arias, Andrés (ed.), La Biblia Escorial I.I.6. Transcripción y estudios, San
Millán de la Cogolla, Cilengua, 2010, 45–65.
Montgomery, Thomas, El evangelio de San Mateo según el manuscrito escurialense I.I.6: texto,
gramática, vocabulario, Madrid, Real Academia Española, 1962.
Moreno Bernal, Jesús, La morfología de los futuros románicos. Las formas con metátesis, Revista
de Filología Románica 21 (2004), 121–169.
Nieuwenhuijsen, Dorien, La colocación de los pronombres átonos, in: Company Company,
Concepción (ed.), Sintaxis histórica del español, vol. 2, México, Fondo de Cultura Económica
& Universidad Nacional Autónoma de México, 2006, 1337–1404.
Octavio de Toledo y Huerta, Álvaro S., Futuros que se miran el ombligo: mesoclisis y anteposición
de formas no personales en la historia del español, in: Castillo Lluch, Mónica/López
Izquierdo, Marta (edd.), El orden de palabras en la historia del español y otras lenguas
iberorromances, Madrid, Visor, 2015, 141–233.
Rossi, Teresa María, Formas de futuro en un romanceamiento bíblico del s. XIII, Zeitschrift für
romanische Philologie 91 (1975), 386–402.
Staaff, Erik, Contribution á la syntaxe de pronom personnel dans le Poème de Cid, Romanische
Forschungen 23 (1907), 621–635.
María Jesús Torrens Álvarez y Hiroto Ueda
El nacimiento de la letra jota como grafía
consonántica
1
1 Introducción
La historia de la <j> como letra diferenciada de la <i>, de la que durante siglos fue
variante, no ha sido trazada con precisión ni por los paleógrafos ni por los
historiadores de la lengua, a pesar de la atención que debería haber recibido de
unos y otros; de los primeros, porque se esperaría que entre sus objetivos
estuviera el establecimiento del momento, dependiendo del canon de escritura,
en el que el alógrafo «i larga» <j> alcanza su independencia y entra a formar parte
del abecedario como la letra «jota»; de los segundos, porque de la correcta
interpretación grafemática de los signos de escritura dependerá en gran medida
el llegar a un conocimiento de la fonética histórica. En este caso concreto,
recordemos que la <i>, la <j> y la <y> alternaron y compitieron para la represen-
tación de la vocal, la semivocal/semiconsonante, la aproximante o mediopalatal
y la prepalatal, con repartos todavía no bien descritos, por lo que el interés es
máximo. Y es que la reconstrucción fonética de periodos para los que contamos
únicamente con testimonios manuscritos solo puede intentarse a partir del cono-
cimiento de los criterios que regían en aquel momento la selección gráfica,
criterios en buena medida condicionados por el canon paleográfico de la escritu-
ra. Por supuesto, esto no significa que la historia de la grafía corra pareja de la
historia de la lengua, y el que aquí estudiamos es un caso evidente de que el
nacimiento de una grafía suele ser bastante posterior al nacimiento del fonema
que aquella representa.
Los manuales de paleografía, en los que suelen describirse las formas que
pueden adoptar cada una de las letras del abecedario en cada tipo de escritura,
nada nos dicen sobre la cuestión que nos ocupa. Así, Millares Carlo (1983 [1929],
226) explica que en la escritura documental del siglo XV el trazo último de la <i>,
al igual que en las letras <ç, h, m, n, q, y>, se prolonga y curva, por lo que se
deduce que la <j> es precisamente esa variante con caído prolongado; pero al
ocuparse de la escritura particular en el siglo XVI y primera mitad del XVII
(p. 261) se refiere conjuntamente a las «letras» <I, J, M, N>, lo que puede
interpretarse como un reconocimiento de la emancipación de <j> respecto a <i>
ya en estas fechas. Casi un siglo después, al referirse Tamayo (2012, 407) a las
uniones entre letras de la escritura cortesana del siglo XV, nos dice que «[L]a i
adopta forma envolvente», como en ni o villa, mientras que al ocuparse de la
llamada procesal, salta de la <h> a la <j>, de la que nos dice: «[L]a j suele ser
bastante amplia; su caído, como el de la g, sale de la caja con holgura…» (430).
No sabemos si la omisión de <i> (por carecer de interés paleográfico, suponemos)
y la descripción de <j> es un posicionamiento a favor de la existencia de esta
última como letra, o si simplemente se comenta la <j> por ser el alógrafo de <i>
que merece atención.
La primera aportación significativa para la identificación de la jota como letra
se debe a los filólogos Pedro Sánchez-Prieto (1998, 115) y Carmen Fernández
(1999). Esta última llama la atención sobre el reparto sistemático desde mediados
del siglo XIV de dos tipos de <j>, correspondientes a sendos valores fonéticos
diferenciados: una <j> cuyo caído se prolonga por debajo de la línea del renglón y
que, en alternancia con <i>, se utiliza para representar la vocal /i/, y otra que,
además de prolongarse hacia abajo, se eleva ligeramente por encima de la línea
del renglón y que se emplea exclusivamente con valor consonántico de prepala-
tal, a excepción de en la palabra fijo. Según Fernández (1999, 258), se mantendrá
esta situación hasta el siglo XVII, cuando la <j> larga vocálica desaparezca a favor
de la <i> y la <j> alta adopte la forma de nuestra actual jota.
En fecha más reciente, en su tesis inédita sobre la documentación cántabra,
Carmen Moral (2013, 319) observa que en Santo Toribio de Liébana, en las últimas
décadas del s. XIII y desde mediados de la centuria en Santillana, algunos
diplomas muestran claramente el empleo de <j> como grafía de consonante
prepalatal, sin por ello dejar de usar esta forma como alógrafo vocálico de <i>.
Curiosamente, Moral (2013, 320) señala que dos documentos del mismo escriba,
de los años 1259 y 1264, presentan una <i> alta en posición interior, y añade que la
mayúscula inicial muchas veces apenas se diferencia de la minúscula, al elevarse
muy poco por encima de la caja del renglón.
El propósito de nuestro trabajo es analizar los usos y repartos de las diversas
formas de lo que en principio fueron dos alógrafos de <i> latina, esto es, la «i
breve» <i> y la que llamaremos «i larga» <j>, y sus formas mayúsculas <I>, <J> en
un corpus de documentación burgalesa de los siglos X–XIII, a fin de determinar
qué criterios, paleográficos, gráficos o fonológicos, rigen su empleo.
El nacimiento de la letra jota como grafía consonántica 301
2 CORHEN y LETRAS
Para ello, hemos utilizado la versión paleográfica del Corpus Histórico del Español
Norteño (CORHEN), que estamos elaborando en el marco del proyecto citado en la
primera nota y siguiendo para su transcripción y presentación crítica los criterios
CHARTA (2013). Con él pretendemos ofrecer un número creciente de documentos
particulares (se excluyen, por tanto, los reales y los de contenido eclesiástico) de
las variedades castellanas del centro-norte peninsular, principalmente de las
actuales provincias de Burgos, Santander y norte de Palencia, así como algunos
del País Vasco. A pesar de la importancia que se concede al norte de Burgos y sur
de Cantabria como cuna geográfica del castellano desde que así lo expusiera
Ramón Menéndez Pidal (1986 [1926]), y a pesar también de que Burgos se
encuentre en el centro del continuum dialectal norteño, cuya variación interna
está siendo objeto de gran atención en los últimos años (nos referimos aquí muy
especialmente a los trabajos de Fernández-Ordóñez, por ejemplo, 2011 y 2012), lo
cierto es que la documentación medieval burgalesa no ha sido objeto de un
estudio sistemático, y paso previo a ese análisis es su nueva transcripción con
criterios filológicos.
En este trabajo hemos analizado algo más de 250 documentos del fondo del
monasterio benedictino de San Salvador de Oña, en el valle de La Bureba (norte
de Burgos), único fondo archivístico de la vieja Castilla que ofrece un volumen
significativo de diplomas originales del siglo XI en adelante, además de algunos
del X anteriores a la fundación del monasterio, lo que permite el estudio de la
escritura visigótica y de la carolina-gótica emanada, si no siempre del mismo
centro de producción, sí al menos de una misma área. Recordemos que, de la
actual provincia burgalesa, de los siglos X y XI solo se conservan los importantes
cartularios de los igualmente benedictinos Valpuesta y Cardeña, monasterios de
los que no nos han llegado diplomas originales, y que la siguiente orden monás-
tica en implantarse en la península fue el Císter, cuyas primeras fundaciones son
ya del último tercio del siglo XII.
San Salvador de Oña nos brinda, por tanto, la posibilidad de analizar una rica
documentación escrita en su mayor parte en el propio monasterio, aunque
algunos diplomas parecen redactados en localidades cercanas del norte castella-
no, lo que en principio nos permite suponer una homogeneidad mucho mayor
que si ampliamos el corpus a una geografía más vasta. Sin duda, los datos
obtenidos serán comparables con los ofrecidos por Moral (2013) sobre la docu-
mentación cántabra.
El arco cronológico, siglos X–XIII, comprende los dos grandes cánones pa-
leográficos medievales: la visigótica autóctona y la que llamaremos carolina-
gótica, proveniente de Francia, cambio que en nuestro corpus no se completa
302 María Jesús Torrens Álvarez y Hiroto Ueda
hasta los años 30 o 40 del siglo XII.2 Es, asimismo, el periodo de ensayo y
formación de las primeras tradiciones de escritura romance, que solo se hacen
consistentes a partir de los años veinte o treinta del siglo XIII. De hecho, gran
parte de la documentación está escrita en lo que llamaríamos latín y también son
muchos los diplomas escritos en una lengua híbrida latino-romance, si bien un
estudio que pretenda describir los más antiguos usos del romance escrito solo
puede partir de la tradición latina precedente.
Pero si el trabajo que aquí presentamos puede enmarcarse en los estudios
de lingüística de corpus es gracias también al programa LETRAS, diseñado por
Hiroto Ueda específicamente para el análisis estadístico de datos lingüísticos.
Se trata de un paquete de programas que presentan matrices de distribución
numérica de las formas lingüísticas objeto de estudio, cuyo objetivo es observar
los fenómenos en un marco amplio de parámetros variables relevantes, tanto
de condiciones intralingüísticas (entorno textual, posición dentro de palabra,
coocurrencias, etc.), como extralingüísticas (espacio, tiempo, estilo, registro,
etc).3
Hemos dividido la secuencia cronológica en intervalos de 25 años, por
ejemplo, 925 abarca desde el año 925 hasta 949, aunque, hay que decir, del
siglo X son solo cuatro los documentos del corpus, por lo que para esta centuria
los datos no son suficientemente representativos. En cuanto a las grafías, hemos
respetado en la transcripción paleográfica las diferentes grafías de los manuscri-
tos, esto es, <i>, <j>, <J> e <I>, que podrá ser tanto la «i alta» característica de la
escritura visigótica, como los pocos casos en los que se emplee esta forma en la
2 Hay todavía un documento de 1150 (AHN, Clero Secular_Regular, car. 275, 3, CORHEN0041),
dado en Cordovilla la Real (Palencia), pero de autenticidad dudosa. Menéndez Pidal (1929, II,
848) y Álamo (1950, doc. 208) lo consideran original; no lo mencionan los paléografos que se han
ocupado de los diplomas en letra visigótica del fondo oniense, ni Ruiz Asencio (2008, 112), que
da como último original en visigótica uno de 1135, ni Vivancos (2011, 68), para quien el último
sería uno de la cancillería real fechado en 1144, pero sin que ninguno de los dos estudiosos
comente la posible falsedad del documento que nos ocupa, como sí hacen en otros casos. Sí
señala «importantes irregularidades diplomáticas» Montaner Frutos (2010, 1420–1421), que lo
analiza como pieza del que denomina Corpus Licinianum en relación con la materia cidiana. Dice
de él que su letra visigótica «parece auténtica», y apunta al año 1175 como terminus post quem de
su escrituración, por lo que a su juicio podría tratarse no de «una falsificación total, sino de un
documento manipulado».
3 Está disponible en la página web del servidor de la Universidad de Tokio, en sus versiones Excel:
<http://lecture.ecc.u-tokyo.ac.jp/~cueda/gengo/>,
y web: <http://lecture.ecc.u-tokyo.ac.jp/~cueda/letras/corhen/>.
En esta última ya se pueden aplicar las búsquedas sobre el corpus CORHEN, tanto en las trans-
cripciones paleográficas de los documentos (CORHEN-P), como en las presentaciones críticas
(CORHEN-C).
El nacimiento de la letra jota como grafía consonántica 303
Año 925 950 975 1000 1025 1050 1075 1100 1125 1150 1175 1200 1225 1250 1275
Graf. 3689 2254 1599 15185 3630 19210 9112 11363 19411 21732 60196 106690 39679 103234 89806
3 Tipos paleográficos
Antes de presentar los resultados de los análisis y su interpretación, conviene que
comentemos brevemente los tipos paleográficos y los repartos gráficos de <i>, <j>,
<I>, <J> más generalizados, con algunas imágenes que faciliten su reconocimiento
al lector. Es una información fundamental, dado que el arco cronológico estudia-
do incluye el paso del canon visigótico al carolino-gótico.
Como es bien sabido, la escritura visigótica era la empleada en la península
ibérica antes de la llegada de la escritura francesa o carolina, cuya introducción
suele ponerse en relación directa con la sustitución del antiguo rito mozárabe por
la liturgia romana desde mediados del s. XI, propiciada a su vez por la venida de
monjes benedictinos, cambio que se oficializa mediante el Concilio de Burgos
304 María Jesús Torrens Álvarez y Hiroto Ueda
celebrado en el año 1080 bajo el rey de León y Castilla Alfonso VI. Por supuesto,
los dos cánones convivieron durante décadas y se influyeron mutuamente.
El reparto de las grafías estudiadas es notablemente distinto en una y otra
escritura. Características de la visigótica son la «i alta» <I>, utilizada generalmen-
te en posición inicial o como glide interior (por ejemplo, IeIunius), y la <j> tras <t>
para marcar el carácter asibilado de la consonante dental seguida de yod (por
ejemplo, Intemtjo). El reparto entre <ti> y <tj> fue estudiado y destacado por
Loewe (1910) como criterio fundamental para la datación de los manuscritos
visigóticos, quien estableció tres periodos según el grado en que se respete esta
distinción gráfica, que al menos parece ser sistemática desde mediados del
siglo X a la primera mitad del siglo XII.
Figura 1: Escritura visigótica. AHN, Clero Secular_Regular, car. 269, n. 3r (año 944), CORHEN0002
Con algunas observaciones, como las de García Villada (1974 [1929]), quien señala
que «ya desde un principio aparece abitacjonis y alantj (fács. 46, l. I), preceptjonis
y tjbi (facs. 47, ls. I y 2)», la propuesta de Loewe se ha mantenido vigente hasta la
llamada de atención de García Larragueta (1990) sobre la datación muy adelan-
tada de numerosos códices a los que se habían aplicado los criterios de Loewe. En
fecha más cercana a la actual, Ruiz Albi (2004) ha analizado el reparto de <ti> /
<tj> en la documentación de la catedral de León atendiendo a los tres subtipos de
escritura visigótica (cursiva, semicursiva y redonda, v. Mendo 2001) y concluyen-
do, entre otras cuestiones particulares, que esta distinción gráfica se da solo en
un porcentaje del 60 %, y a partir de 950–975 (dependiendo del tipo).
En el apartado 4.2.2, compararemos estos resultados con los ofrecidos por la
documentación burgalesa estudiada.
El nacimiento de la letra jota como grafía consonántica 305
Figura 2: Escritura visigótica. AHN, Clero Secular_Regular, car. 270, n. 19 (año 1065), CORHEN0016
Será en este canon paleográfico donde surja la jota como grafía consonántica,
tras un largo periodo en el que la <j> es alógrafo de <i>. Los condicionamientos
paleográficos de la aparición de la i larga <j> en la escritura gótica libraria fueron
estudiados por Torrens (1995), pero todavía no se ha analizado su aparición en la
escritura documental. En la modalidad libraria, el alargamiento de <i> en <j> es
temprano en el caso de la secuencia de dos íes, escrita <ij>, lo que responde al
deseo de evitar la confusión con una <u> o una <n>; posteriormente, a medida que
la gótica se haga más cuadrada y compacta, la <j> se extenderá a su posposición a
otras letras de palo con la misma intención de evitar confusiones y ambigüeda-
des, y a lo largo del XIV su empleo correrá parejo de la tendencia a la cursividad
de la escritura. En cuanto a la competencia entre la i larga <j> y la alta <j>,
remitimos a lo ya dicho más arriba sobre Fernández (1999).
En 4.2.2 veremos en qué medida la aparición de <j> en la escritura documen-
tal obedece a estas mismas motivaciones.
4 Análisis
4.1 Las grafías
Grafía 925 950 975 1000 1025 1050 1075 1100 1125 1150 1175 1200 1225 1250 1275
<i> 326 189 139 1243 274 1503 830 1072 1811 1918 4662 8208 2349 3752 3226
<J> 5 6 1 8 1 13 50 60 186 76 77 51
<Y> 1 3 1 5 15 14
Grafía 925 950 975 1000 1025 1050 1075 1100 1125 1150 1175 1200 1225 1250 1275
<i> 88.4 83.9 86.9 81.9 75.5 78.2 91.1 94.3 93.3 88.3 77.4 76.9 59.2 36.3 35.9
<I> 17.1 17.7 12.5 12.1 21.5 15.8 6.4 6.5 .8 1.4 .2
<j> 3.3 .9 1.3 1.3 3.0 2.6 1.8 1.9 .5 2.2 2.6 4.9 7.6 2.1 2.5
<Y> .4 .8 .1 .1 .1 .2
aparezca en contexto vernáculo. Después, les hemos asignado una a una el valor
que le presuponemos, esto es, el prepalatal /ʒ/, característico del castellano, y el
palatal /ʝ/, fonemas consonánticos que no existían como tales en latín. Para el
fonema vocálico /i/, con mucha diferencia el más frecuente, no hemos distingui-
do entre latín y romance, por lo que las cifras se disparan.
Para el fonema palatal /ʝ/ es necesario señalar la imposibilidad de estable-
cer con certeza cuándo la semiconsonante se puede considerar plenamente
consonantizada. De hecho, casos como diuso junto a de yuso en la segunda
mitad del siglo XIII llevan a pensar que posiblemente no pueda hablarse toda-
vía de una consonante plena, sino más bien de una semiconsonante. No
obstante, dado que podemos considerar el sonido semiconsonántico, el aproxi-
mante y el palatal fricativo como estadios de un continuum de reforzamiento
articulatorio, optamos por clasificarlos todos como variantes del fonema /ʝ/. Los
resultados son los siguientes:
Fon. 925 950 975 1000 1025 1050 1075 1100 1125 1150 1175 1200 1225 1250 1275
/i/ 405 231 158 1446 367 1858 899 1163 1825 2038 4872 8855 2663 4142 3556
Fon. 925 950 975 1000 1025 1050 1075 1100 1125 1150 1175 1200 1225 1250 1275
/i/ 109.8 102.5 98.8 95.2 101.1 96.7 98.7 102.3 94.0 93.8 8.9 83.0 67.1 4.1 39.6
Según los datos de las tablas 3a y 3b, el fonema prepalatal /ʒ/ aparece ya
representado a partir de 1050,4 si bien los casos son muy dudosos, pues se trata
de cinco apariciones de la forma Ioannes en un mismo documento de 1054
4 En un documento del año 1011 (CORHEN0006) se encuentran tres casos de grafías complejas
para /ʒ/: Cascaihares dos veces y Viauiallegio una, pero el manuscrito es en realidad copia de
mediados del s. XII, por lo que no lo tenemos en cuenta.
El nacimiento de la letra jota como grafía consonántica 309
(CORHEN0012), diploma que del Álamo (1950, doc. 38) considera copia imitativa
del XII, si bien Vivancos (2011, nº 14) lo cree original. De todas formas, aun
tomándolo como original, la ausencia de <h> en el nombre Ioannes no parece
indicio suficiente para afirmar su carácter romance y no latino. En consecuencia,
los primeros casos seguros de empleo de una de las grafías estudiadas para la
representación del fonema /ʒ/ se dan en la franja de 1075, concretamente en el
apellido iulianez ‘Juliánez’ de un documento de 1096, CORHEN0022, y en el
topónimo espeIo ‘Espejo’ en otro diploma del mismo año presumiblemente escrito
en Álava, CORHEN0024. Sí es anterior la representación del fonema mediante la
grafía compleja <gg>: Naggara ‘Nájera’ en 1056 (CORHEN0013),5 dígrafo especial-
mente frecuente en la segunda mitad del siglo XII (Torrens 2014).
La representación inequívoca del fonema /ʝ/ es anterior a la de /ʒ/,
con casos como baIo ‘bayo’, aroIo ‘arroyo’ en 944 (CORHEN0003) o tamaio
‘Tamayo’, Io ‘yo’ en 993 (CORHEN0005), si bien, al igual que ocurre con el
fonema prepalatal, solo se hace abundante en los textos propiamente romances,
a partir de 1225.
Pero para obtener resultados sobre la cronología de estas grafías y los criterios,
fonológicos o no, de su uso, hemos de combinar los factores que creemos pueden
influir. Por nuestra familiaridad con los manuscritos y por trabajos previos, nos
parecen especialmente pertinentes para nuestros fines las combinaciones de las
variables: 1) grafía + posición dentro de palabra, 2) grafía + elemento colindante,
y 3) grafía + fonema.
Hemos tenido en cuenta tanto la posición inicial (#) o interior de palabra, como el
contexto, vocálico o consonántico:6
5 Ninguno de los historiadores y paleógrafos que han analizado el documento han cuestionado
su condición de original.
6 La C abrevia consonante y la V, vocal. El signo # indica corte o espacio en blanco, de tal manera
que, por ejemplo, la expresión #jC equivale a <j> en posición inicial de palabra seguida de
consonante.
310 María Jesús Torrens Álvarez y Hiroto Ueda
Pos. 925 950 975 1000 1025 1050 1075 1100 1125 1150 1175 1200 1225 1250 1275
Pos. 925 950 975 1000 1025 1050 1075 1100 1125 1150 1175 1200 1225 1250 1275
Cj# .07 .21 .22 .44 .46 .71 1.81 2.37 .73 .48
CjV 3.25 .89 .86 3.03 2.39 1.21 .79 .10 .05 .08 .07 .20 .04 .47
Vj# .13 .35 .05 1.01 1.08 2.10 1.51 .16 .10
VjC .13 .33 .26 .21 .69 .51 .55 .53 .01 .07
#JC 1.36 .26 .28 .36 .11 .41 .69 .40 .52 .33 .10 .02
Desde el principio, la <j> aparece entre consonante y vocal (CjV, 3.25 en 925) y,
como veremos más adelante, la mitad de los casos corresponden a la secuencia
<tj> más vocal en la escritura visigótica, donde la <j> representa una realización
asibilada de la consonante. Es destacable el uso de la <J> inicial de palabra más
frecuente y temprano ante consonante (#JC) que ante vocal (#JV), cuya apari-
ción se retrasa a 1125, lo que apunta con claridad al valor puramente delimitati-
vo de este signo. No ocurre lo mismo con la <j> minúscula inicial, posterior en
el tiempo tanto ante consonante como ante vocal, si bien en el primer caso
resulta, además, marcadamente excepcional. Ante vocal será en la mayoría de
los casos grafía consonántica, presumiblemente prepalatal, mismo valor fonéti-
co que posee en la posición VjV, esta más tardía (.16 en 1200 y ya 1.89 en 1225),
datos de por sí reveladores de la historia de la formación de <j> como grafía
consonántica.
Otro contexto prominente para el empleo de <j> vocálica es su posición final
de palabra (Vj#), muy probablemente con intención delimitadora.
7 A partir de aquí, a no ser que se señale lo contrario, prescindiremos de las cifras absolutas y
nos limitaremos a proporcionar la frecuencia por mil grafías.
El nacimiento de la letra jota como grafía consonántica 311
Incluimos en este apartado, pero tratados separadamente, los dos contextos que se
han descrito como determinantes para la aparición del signo <j> (v. s. 3): la sucesión
a <t> en la escritura visigótica a fin de marcar el carácter asibilado de la consonante
y la sucesión a otra letra de morfología «de palo» en la escritura gótica.
Veamos primero en qué medida y en qué fechas se representa gráficamente la
distinción entre /t/ y la realización asibilada ante yod. Para ello nos interesan
especialmente las frecuencias de <ti> y <tj> seguidas de vocal (tjV), pero en
contraste con el contexto consonántico (tjC) y final de palabra (tj#):
t_ 925 950 975 1000 1025 1050 1075 1100 1125 1150 1175 1200 1225 1250 1275
ti# 1.36 1.77 1.12 1.93 .83 .55 1.32 .52 1.20 .66 1.00 .60 .27 .29
tiC 7.32 5.32 3.75 3.69 3.86 5.36 5.82 7.74 7.16 5.48 6.21 4.45 3.96 1.08 .99
tiV .27 1.58 1.38 .05 1.87 .88 1.49 1.84 1.64 1.12 2.60 1.36 1.43
tjV 3.25 .89 .86 3.03 2.39 1.21 .79 .10 .05 .03
8 Apenas documentamos, en cambio, la <j> tras esta <c>, que solo hallamos cinco veces en el
nombre Sancjus (ahora Sancho) y dos en tocjus (totius, de TOTUS ), todos ellos en la franja de 1200
o 1225, es decir, en época tardía.
312 María Jesús Torrens Álvarez y Hiroto Ueda
que perdurará por más tiempo, aún presente en la escritura gótica del segundo
cuarto del siglo XIII.
En cuanto a la escritura gótica, recordemos que en la libraria el alargamiento
de <j> obedecía inicialmente a razones puramente paleográficas, en concreto, al
contacto con otra <i> o letras de morfología similar. En la siguiente tabla se
ofrecen los resultados de <i> – <j> en contacto con letras de palo (P), esto es, <m>,
<n>, <u>, y en contacto con letras que no sean de palo (N). Aun siendo igualmente
de palo, hemos tratado de manera separada la <i>, no solo porque es mucho más
abundante que el resto de letras P, sino porque influye antes y de manera mucho
más acusada que las demás en la aparición de <j>. Por otra parte, hemos elimi-
nado del cómputo los numerales romanos (iij, iiij, vij, etc.), pues su alta frecuencia
distorsionaría los resultados de la secuencia <ij> final.
E.col. 925 950 975 1000 1025 1050 1075 1100 1125 1150 1175 1200 1225 1250 1275
NiP 6.5 8.4 11.3 5.4 8.0 9.2 8.2 9.2 7.7 9.2 7.8 7.5 5.5 3.0 2.7
PiN 16.3 11.1 8.1 14.8 11.3 14.9 13.8 13.9 13.8 12.8 1.9 1.7 9.1 7.0 6.8
PiP 5.7 5.3 1.3 6.0 4.7 3.5 3.5 4.4 4.4 2.9 2.2 1.7 1.5 .8 .8
Pii .1
iiN .5 .9 1.9 .5 .3 .5 .3 .3 .1
iiP .1
NjP .5 .3 .4 .1 .0 .4 .0 .0
PjN .1 .2 1.1 .2 .7
PjP .1 .2
ijN .3 .3 .2 .7 .5 .5 .8 .8 .7
NyP .2 .4 .5
PyN .3
G F. 925 950 975 1000 1025 1050 1075 1100 1125 1150 1175 1200 1225 1250 1275
i /i/ 88.37 83.85 86.30 81.46 75.48 78.19 9.54 93.99 92.01 88.12 76.95 76.47 58.72 35.36 34.71
/ʝ/ .63 .20 .05 .33 .35 .46 .09 .12 .12 .28 .05 .07
9 Hemos de recordar al lector que los datos de la vocal/ /i/ incluyen formas latinas y romances,
mientras que los consonánticos son exclusivamente de la variedad romance.
314 María Jesús Torrens Álvarez y Hiroto Ueda
Tabla 7: (continuada)
G F. 925 950 975 1000 1025 1050 1075 1100 1125 1150 1175 1200 1225 1250 1275
I /i/ 16.81 17.30 11.26 11.99 21.49 15.15 6.26 6.34 .82 1.38 .17 .01 .01
j /i/ 3.25 .89 1.25 1.32 3.03 2.60 1.76 1.94 .46 2.21 2.59 4.76 6.05 1.08 1.43
J /i/ 1.36 .40 .28 .42 .11 .67 1.93 .91 1.53 .71 .13 .06
/ʝ/ .20
y /i/ .07 .36 .05 .14 .32 .22 1.61 3.56 3.41
Son varios los aspectos importantes que podríamos comentar. Ciñéndonos a las
formas de representar el fonema prepalatal, ya veíamos en 4.1. que la primera
grafía intencionadamente romance era la doble <gg> de Naggara en el diploma de
1056 anteriormente citado, mientras que <i>, <I> empiezan a utilizarse con este
valor en 1075, como ya hemos dicho. En cuanto a <J> inicial —que, recordemos, es
durante siglos mayúscula de <i>—, todavía en 1200 se emplea mayoritariamente
con valor vocálico, mientras que con valor consonántico se utiliza por primera
vez más de un siglo después que <i>, <I>, en 1150, pero medio siglo antes que la
minúscula <j>, solo documentada a partir de 1200 y ya con fuerza desde 1225. De
hecho, y esto es fundamental, <j> supera a <i> como grafía de prepalatal /ʒ/ desde
1225.
Puede parecer que la elección de <j> minúscula como grafía específica para el
fonema /ʒ/ es tardía si tenemos en cuenta que las primeras representaciones
inequívocas del fonema romance en nuestro corpus son de mediados del siglo XI,
pero aun así la <j> consonántica es al menos medio siglo anterior a la de la
documentación cántabra, que la presenta a mediados del siglo XIII en Santillana
y a finales en Liébana (Moral 2013, 319–320). Y desde luego, la cronología de <j>
prepalatal en Burgos adelanta notablemente la dada por Fernández (1999) para el
El nacimiento de la letra jota como grafía consonántica 315
uso de la <j> alta, hasta ahora, único signo considerado antecedente directo de
nuestra jota. Hay que decir, no obstante, que a diferencia de la <j> alta, la <j> del
siglo XIII sigue utilizándose como grafía vocálica, cuestión muy importante, pues
es precisamente el mantenimiento de la <j> larga la razón que, como dice Fernán-
dez, explica la creación de <j> alta exclusivamente consonántica. Aun siendo esto
cierto, los datos del corpus muestran con claridad que en la escritura gótica de
1225 en adelante, la <j> consonántica es proporcionalmente muy superior a la <j>
vocálica, pues hay que tener en cuenta que los casos de fonema prepalatal, sea
cual sea su representación en la escritura, son infinitamente inferiores a los de la
vocal /i/.
Como grafía de aproximante o palatal /ʝ/, la <j> es minoritaria y se concen-
tra en unos pocos documentos comprendidos en la cincuentena de 1200–1225,
varios de los cuales no hacen uso de la <y> en ningún caso. En cuanto a <y>,
aunque <i> se empleará en todo momento como signo de /ʝ/, desde que irrumpe
<y> en 1150, su crecimiento es imparable y puede decirse que a mediados del
siglo XIII es ya la única grafía con este valor en la documentación notarial de
San Salvador de Oña, reservándose <i> para la prepalatal, con lo que se relegan
al olvido otros ensayos gráficos característicos de la segunda mitad del XII y
primeros años del XIII, como las complejas <gg>, <ggi> y la más abundante <gi>
(Torrens 2014, 20).
Volveremos en el apartado 6 sobre estas cuestiones para proponer las razones
de la elección de <j> como grafía de prepalatal y su posterior sustitución por <j>
alta antes de su definitiva reposición como la actual jota, pero veamos primero la
importancia que para esta historia tiene la elevada frecuencia de <J> mayúscula
inicial de palabra y, en estrecha relación, qué voces son las que se escriben con
estas grafías.
G F Pos. 925 950 975 1000 1025 1050 1075 1100 1125 1150 1175 1200 1225 1250 1275
Cj# .07 .21 .22 .44 .46 .71 1.81 2.34 .73 .48
Vj# .13 .35 .05 1.01 1.08 2.10 1.49 .16 .10
VjC .13 .33 .26 .21 .69 .51 .53 .53 .01 .07
Vj# .03
VjC .02
#JC 1.36 .26 .28 .36 .11 .41 .69 .40 .52 .33 .10 .02
/i/
#JV .15 .92 .37 .70 .30 .02 .01
Desde los primeros diplomas visigóticos, encontramos casos de <J>, que, curiosa-
mente, corresponden a una verdadera mayúscula tras pausa, frente a la grafía <I>
inicial de palabra, reparto que no había sido señalado por los paleógrafos. Así,
aparte de los Jn de la invocación Jn Dei nomine que abre la mayoría de los diplomas,
los dos únicos casos de <J> en un documento de 944 (CORHEN0002) son de Jta:
El nacimiento de la letra jota como grafía consonántica 317
Transcripción paleográfica: {5} et mandabit. ad t*us suus rodanius abba. et belasconi abba.
et magnati palatii; ut fecissent ueritate Inter Ipsos Insidiatores. et fr<atre>s. {6} Jta et fac tum
e*t et Inuenerunt mendacium. InIpso conantjo. et quod Iam deguerat pac tum u<e>l regula.
per annos xxii [. . .] et accepim<us> deuobis In offertjone. kaballos duos. scalas duas. et
equas. x., Jta ut ex odierno die {11} u<e>l tempore abeatis teneatis et possideatis. Iuriq<ue>
u<e>s<tr>o Inperpetuo uindicetis ac defendatis.
Presentación crítica: {5} et mandabit ad t<i>us suus Rodanius abba, et Belasconi abba et
magnati palatii ut fecissent veritate inter ipsos insidiatores et fratres. {6} Ita et factum e<s>t
et invenerunt mendacium in ipso Conantio et quod iam deguerat pactum vel regula per
annos XXII [. . .] Et accepimus de vobis in offertione caballos duos, scalas duas et equas
X. Ita ut ex odierno die {11} vel tempore abeatis, teneatis et possideatis iurique vestro in
perpetuo vindicetis ac defendatis.
5 Las palabras
Para no perdernos en la infinidad de palabras que nos proporcionarían los
listados completos de cada grafía según su valor fonético y posición, nos hemos
318 María Jesús Torrens Álvarez y Hiroto Ueda
7 Bibliografía
Álamo, Juan del, Colección diplomática de San Salvador de Oña, Madrid, CSIC, 1950.
CHARTA – Corpus Hispánico y Americano en la Red: Textos Antiguos, dirigido por Pedro
Sánchez-Prieto Borja, criterios de edición disponibles en: <http://www.charta.es/criterios-
de-edicion-/>.
CORHEN – Corpus Histórico del Español Norteño, dirigido por María Jesús Torrens Álvarez,
<http://corhen.es/>; con aplicación del programa LETRAS, de Hiroto Ueda, en:
<http://lecture.ecc.u-tokyo.ac.jp/~cueda/letras/corhen/>
Fernández López, M. Carmen, Las formas de la i larga (j): nomenclatura y datación, Signo:
revista de historia de la cultura escrita 6 (1999), 253–267.
Fernández-Ordóñez, Inés, La lengua de Castilla y la formación del español. Discurso de ingreso
en la Real Academia Española, Madrid, Real Academia Española, 2011.
Fernández-Ordóñez, Inés, El norte peninsular y su papel en la historia de la lengua española,
Gómez Seibane, S./Sinner, C., Estudios sobre tiempo y espacio en el español norteño, San
Millán de La Cogolla, Cilengua, 2012, 23–68.
García Larragueta, Santos, Consideraciones sobre la datación de códices en escritura visigótica,
in: Actas del VIII Coloquio del Comité Internacional de Paleografía Latina, Madrid, 1990,
51–58.
García Villada, Zacarías, Paleografía española, I. Texto, Barcelona, El Albir, 1974 [1929].
Loewe, Elias Avery, Studia Palaeographica. A contribution to the history of early Latin minuscule
and to the dating of Visigothic manuscripts, in: Philosophisch-philologische und historische
Klasse, 12, 1910, 16–87.
Menéndez Pidal, Ramón, Orígenes del español: Estado lingüístico de la Península Ibérica hasta
el siglo XI, Madrid, Espasa-Calpe, 1986 [1926].
Menéndez Pidal, Ramón, La España del Cid, Madrid, Plutarco, 1929.
Mendo Carmona, Concepción, La escritura de los documentos leoneses en el siglo X, Signo:
revista de historia de la cultura escrita 8 (2001), 179–210.
Montaner Frutos, Alberto, El Apócrifo del abad Lecenio y el auge de la materia cidiana, in:
Fradejas Rueda, José Manuel, et al. (edd.), Actas del XIII Congreso Internacional de la
Asociación Hispánica de Literatura Medieval, Valladolid, Ayto. de Valladolid/Universidad
de Valladolid, 2010, 1407–1426.
Moral del Hoyo, Carmen, Documentación medieval de Cantabria: estudio lingüístico (siglo XIII),
tesis doctoral inédita, Bilbao, Universidad de Deusto, 2013..
Millares Carlo, Agustín (1983 [1929]), Tratado de paleografía española, 3 vol., Madrid, Espasa-
Calpe, 2013.
Pascual, José Antonio, La lengua del Registro Antiguo: algunos problemas gráficos y fonéticos,
in: García Sanz, A./Martín, J.L./Pascual, J.A./Pérez Moreda, V., Propiedades del Cabildo
segoviano, sistemas de cultivo y medios de explotación de la tierra a fines del s. XIII,
Salamanca, Universidad, 1981, 169–184.
Penny, Ralph, The Old Spanish Graphs «i», «j», «g» and «y» and the Development of Latin
Ge,i- and J-, Bulletin of Hispanic Studies LXV (1988), 337–351.
Ruiz Albi, Irene, La distinción gráfica de «TÍTJ» en los documentos visigóticos del archivo de la
catedral de León, in: Orígenes de las lenguas romances en el reino de León: siglos IX–XII,
León, Centro de Estudios e Investigación «San Isidoro»/Caja España de Inversiones/
Archivo Histórico Diocesano, vol. 2, 2004, 439–456.
El nacimiento de la letra jota como grafía consonántica 321
Sánchez-Prieto Borja, Pedro, Cómo editar los textos medievales. Criterios para su presentación
gráfica, Madrid, Arco/Libros, 1998.
Sanz Fuentes, M. Josefa, Paleografía de la Baja Edad Media castellana, Anuario de estudios
medievales 21 (1991), 527–536.
Tamayo, Alberto, Historia de la escritura latina e hispánica, Gijón, Ediciones Trea, 2012.
Torrens Álvarez, María Jesús, La paleografía como criterio de datación. La escritura denominada
«littera textualis», Cahiers de Linguistique Hispanique Médiévale 20 (1995), 345–380.
Torrens Álvarez, María Jesús, Edición y estudio lingüístico del Fuero de Alcalá (Fuero Viejo),
Alcalá de Henares, Fundación Colegio del Rey, 2002.
Torrens Álvarez, María Jesús, Usos gráficos del castellano burgalés de los siglos X–XIII: las
grafías complejas, in: Almeida, Belén/Díaz, Rocío (edd.), Estudios de historia de la ortogra-
fía española, Lugo, Axac, 2014, 9–21.
Vivancos, Miguel C., Documentación en visigótica del Monasterio de San Salvador dee Oña:
originales y copias, in: Sánchez Domingo, Rafael (coord.), Oña. Un milenio. Actas del
Congreso Internacional sobre el Monasterio de Oña (1011–2011), s.l., Fundación Milenario
San Salvador de Oña, 2011, 52–81.
Mª Carmen Moral del Hoyo
El castellano en los orígenes del cambio
gramatical: el pretérito imperfecto de la
2ª y 3ª conjugación (–ié / –ía)
1 Estado de la cuestión1
Es conocido que, según describen las gramáticas históricas, el modelo dominante
en castellano durante el siglo XIII para el pretérito imperfecto de los verbos de 2ª
y 3ª conjugación distribuye de forma más o menos regular dos variantes desinen-
ciales:2 –ía es preeminente en la primera persona singular frente al resto, en las
que se prefiere –ié (Menéndez Pidal 1968, §117; Alvar/Pottier 1983, 241; Lloyd
1993, 574–579; Azofra 2010, 120; García-Macho/Penny 2013, 70).
En realidad, el doble paradigma «is characteristic of all three varieties of Old
Spanish spoken in the Christian zone: Leonese, Castilian, and Navarro-Arago-
nese, to the complete exclusión of Galician-Portuguese» (Malkiel 1959,469), pro-
vocando una brecha en lo que, de otra manera, dibujaría un mapa homogéneo al
mantenerse el modelo único –ia tanto al occidente como al oriente y constituyen-
do una anomalía entre las lenguas romances, cuyos modelos de imperfecto
derivan del etimológico (Malkiel 1959, Posner 1961, Lausberg 1982, Imhoff 2000).
Durante las primeras décadas del siglo XX, se discutió ampliamente sobre la
casuística que provocó el surgimiento de un paradigma en –ié (especialmente,
entre quienes han teorizado sobre causas fonéticas con quienes han planteado
causas morfológicas) así como la resistencia de la primera persona para plegarse
al mismo. Pero mucho menos cuestionada ha sido la posibilidad de una divergen-
cia diatópica tanto en su origen como en su difusión, toda vez que, como hemos
mencionado, se asume su presencia y uso en los dialectos centrales de forma
coetánea.
1 Este trabajo se enmarca en el Proyecto FFI2012-36813, «El castellano norteño en la Edad Media.
Estudio lingüístico de documentación cántabra y burgalesa (orígenes–siglo XIV)». Que haya
alcanzado su versión final tengo que agradecérselo a Mónica Castillo Lluch, por la inmensa
generosidad con la que me acogió en Lausana.
2 La primera sistematización de este reparto se debe a un pionero trabajo de Hanssen (1894) al
analizar la poesía de Berceo.
3 El trabajo de Malkiel (1959) es una revisión absolutamente exhaustiva de todas las aporta-
ciones teóricas hechas sobre el problema hasta la fecha de su publicación; sólo esbozamos aquí
algunas de las más señaladas. Imhoff (1996; 1998; 2000; 2007) o Henriksen (2008; 2009) añaden
la de otras propuestas recientes.
4 No es objeto de este trabajo ocuparnos de la discusión sobre la naturaleza tautosilábica o
heterosilábica de esta secuencia (la detalla también Malkiel 1959) pero, recientemente, Pla
Colomer (2013) ha realizado un estudio de la pronunciación castellana medieval a través de la
escansión métrica de los poemas que le conduce a justificar como diptongada –ié y como bisílaba
–ía (excepto formas de compromiso).
5 El uso del imperfecto con valor de indefinido en el Mio Cid es analizado por Menéndez Pidal
(1944, 352) y Lapesa (1981, 224); ante la posibilidad de extrapolarlo como hecho de lengua
general, se pregunta Moreno de Alba (2006, 34–35) si «este empleo del imperfecto como
indefinido puede quizá explicarse mejor como un rasgo estilístico de la poesía épica y lírico-
épica, frecuente en los siglos XII al XV, que como un uso característico de determinada época de
la lengua española». No obstante, Sanchis (1991, 493) señala también en la Fazienda de Ultramar
cómo «hay una gran vacilación en el uso del pretérito perfecto simple y del imperfecto. Con
mucha frecuencia, se emplea uno por otro».
324 Mª Carmen Moral del Hoyo
entre ambos tiempos (sostenida hasta la primera mitad del XIV). Sin embargo, en
castellano «the regularization of […] –ie imperfect did not take place until the
literay period», lo que se suma a dos procesos tradicionalmente aceptados,
«semantic convergence between the imperfect and preterit tenses and the high
degree of variation during the pre-literary period» (Imhoff 2000a, 391) para, al
menos, plantear la posible influencia de variables extralingüísticas en el desarrol-
lo castellano del paradigma novedoso.
Lo que propone Imhoff puede, pues, complementar la tesis de Malkiel: si,
como pretende, el contacto lingüístico es un factor preponderante en el origen del
nuevo modelo de imperfecto en castellano, la presencia de un paradigma mucho
más desarrollado en –ié para el pretérito en aragonés (y variantes conexas en las
hablas pirenaicas), sería otro desencadenante a sumar respecto de lo que, por
causas internas como la analogía morfológica y regularización paradigmática, ya
apuntaba en la misma dirección en castellano, a saber, la generalización del
diptongo en las desinencias del pretérito.
En un trabajo posterior (Imhoff 2004) se muestra más tajante en su tesis:
Lo que parece claro es que, si los textos aragoneses del siglo XIII ofrecen el uso de
–ía como forma exclusiva del imperfecto y, en los mismos textos, el pretérito
exhibe –ié sin apenas excepción, el hecho de que haya una proximidad entre
–iémos y la variante oral –iámos del imperfecto, que presupondríamos también
en esta variedad,10 no actúa como causa aislada sin la convergencia (¿influen-
10 Suponer que la señalada «repugnancia por los esdrújulos» del aragonés (Alvar 1953, 145),
resuelta a favor de una acentuación paroxítona, fuera coadyuvante para una mayor confluencia
de ambas formas en estas hablas, se enfrenta a la posibilidad de que la generalización de este
rechazo ha podido darse «cuando menos en el Alto Aragón […] en fechas no muy antiguas, pues
esa tendencia no ha llegado a imponerse totalmente en los topónimos» (Vázquez Obrador 2000,
22) a lo que debemos sumar el hecho de que «quedan fuera de este comportamiento las primeras
personas del plural de los pretéritos imperfectos de indicativo y subjuntivo, así como de los
condicionales» (Vázquez Obrador 2011, 147, n.2).
326 Mª Carmen Moral del Hoyo
cia?)11 de ambos tiempos, que pasa, entonces, a ocupar una posición destacada
en el origen del cambio.
Del mismo modo, habrá que estudiar detenidamente qué ocurre en leonés
porque, si la tesis de Imhoff es cierta, sería esperable que el paradigma –ié se
retrasara respecto de su estabilización en castellano y fuera cuantitativamente
menos significativo, toda vez que suponer en este ámbito occidental un manteni-
miento estricto de la distinción indefinido/imperfecto como la aducida para el
aragonés no parece posible, es más, «the influence [on the imperfect by the
preterite] was likely to be stronger in the West where the preterite forms are more
firmly rooted in the language» (Posner 1961, 48).
Por eso, si el paradigma –ié en leonés muestra una cronología y una frecuen-
cia paralelas al castellano, habrá que dilucidar si las causas estructurales que
conducen al empleo de –ié son, entonces, las mismas y considerar si la influencia
por contacto con las hablas pirenaicas queda relativizada.
Otra cosa es que Imhoff tenga razón en cuestionar la «hegemonía lingüística
castellana» en este aspecto de la morfología verbal si se comprueba que, además
del aragonés, no todo el leonés o no con idéntica cronología se aviene al modelo
–ía (1ª)/–ié (no 1ª) una vez regularizado en castellano.
11 Lloyd (1993, 576) matiza que «[a]unque el pretérito y el imperfecto se han mantenido distintos
en todas las lenguas románicas, el hecho de que compartan el rasgo común de ‹pasado› ha sido
suficiente en algunos casos para que un tiempo tenga alguna influencia sobre la forma del otro
sin que se produzca un movimiento general tendente a suprimir la distinción aspectual que existe
entre ellos».
12 Para una revisión del binomio documento notarial / dialectología histórica, vid. Matute
(2004), Moral del Hoyo (2013).
El castellano en los orígenes del cambio gramatical 327
1200–1210 – 4
1211–1220 – 4
1221–1230 – 6
1231–1240 2 2
1241–1250 12 31
1251–1260 10 39
1261–1270 20 28
1271–1280 43 16
1281–1290 17 19
1291–1299 17 8
121 157
13 Por eso no nos ocuparemos de la recesión y eliminación del imperfecto en –ié, otro de los
aspectos que también ha generado teorías encontradas. Las resume Malkiel (1959, 476–477), quien
enumera las que denomina «opposing forces» al triunfo permanente de –ié. En época más reciente,
Rini (1999, 38–39) postula la existencia de paradigmas mixtos surgidos por presión analógica y
posterior regularización; Luquet (2002) opina que el fracaso del paradigma –ie– para imperfecto y
condicional se produjo porque el español priorizó el carácter inactualizador del significado de
ambos; Bustos Gisbert (2006) realiza un análisis crítico del estado de la cuestión y Henriksen
(2008), un análisis cuantitativo multivariado para concluir que «the variable root-final segment
was identified as a potential trigger of –ie’s emergence, while other variables such as root vowel
height and grammatical person appeared to habe led the way for –ia’s reemergence and restoria-
tion». Vid. Imhoff (1998) para una revisión sobre la cronología en la que esta alternancia queda
eliminada en castellano y, sobre todo, González Ollé (2000), quien demuestra cómo, en detrimento
del tópico, la pervivencia de –ié nutre todavía en el XVI la obra de diversos autores relevantes.
328 Mª Carmen Moral del Hoyo
14 En este trabajo se utiliza el mismo corpus aquí descrito para analizar determinadas variantes
en la morfología desinencial del futuro e imperfecto de subjuntivo.
15 «La existencia de este estado de variación obliga, por un lado, a modificar de raíz el estado de
la cuestión sobre la evolución de los tiempos compuestos, y por otro lado, aconseja replantearse
igualmente los presupuestos sobre los que se ha construido la historia de la lengua española de
los siglos XIII–XV, que si apenas ha dado cabida a la variación dialectal en su conjunto, ha
olvidado del todo punto el estudio de la variación gramatical» (Rodríguez Molina 2010, 693).
16 Ver en Fuentes bibliográficas las colecciones diplomáticas impresas que se han utilizado.
17 La consulta de los documentos del proyecto CODEA [http://demos.bitext.com/codea/codea_
form.asp] ha sido posible porque, hace unos años, la generosidad intelectual de Sanchez-Prieto y
sus colaboradores hizo que, antes de la operatividad del corpus electrónico en la red, yo
dispusiera de las ediciones paleográficas y críticas por ellos compiladas. De este corpus, selec-
cioné los documentos locales del siglo XIII según su adscripción geográfica y pude realizar las
búsquedas de interés.
El castellano en los orígenes del cambio gramatical 329
[e]n todos los documentos palentinos estudiados por nosotros, aparecen solamente las
formas en –ie. La primera en –ía que encontramos es de bien entrado el s. XIV. Por el
contrario, en los documentos regios de Burgos (desde 1255) y en el Fuero Real hay bastantes
casos en –ía. Ello nos dice que, a mediados del siglo, esta forma era más culta que la –ie,
mientras en los documentos privados, más próximos al pueblo, predominan las en –ie.
Staff afirma que, en el leonés del siglo XIII, al margen de la primera persona «les
formes avec ie sont beaucoup plus nombreuses que celles avec ia. Tout cela cadre
parfaitement avec les résultats généraux auxquels ont abouti les recherches faites
sur cette question» (Staaff 1907, 289), lo que contrasta con los documentos de la
catedral de Salamanca analizados por Onís (1909, 37), con dos únicos casos de
–ié, y con los textos asturianos occidentales que estudia Lapesa en los que, a
pesar de la prudencia que impone la escasez de testimonios, «puede observarse
el predominio, o por lo menos gran proporción de ia» (Lapesa 1998, 64). Lo mismo
ocurre en los diplomas de San Bartolomé de la Nava, cuya única excepción al
modelo –ía es un caso de diçiemos ya en 1363 para el cual Viejo (1993, 45)
considera dos hipótesis fonéticas: o se deben al cierre de la vocal átona o reflejan
la vacilación temprana que experimentó el diptongo [je]~[ja].
En realidad, la falta de observación crítica de los datos bajo la asunción de la
premisa tradicional debe explicar la inexacta apreciación de Staaff sobre el uso
del imperfecto en el corpus de documentos leoneses que analiza pues, si compu-
tamos en función del factor geográfico —y temporal— los casos de imperfecto que
el autor va expurgando, obtenemos diferencias evidentes:
Grupo I (leonés oriental): el primero ejemplo no aparece hasta 1239 y, desde
entonces hasta 1259, hay una clarísima tendencia a –ié, incluso aparece en la
El castellano en los orígenes del cambio gramatical 331
22 Por eso, en su gramática histórica de 1910, excluye la franja occidental leonesa del uso de –ié,
que reclama para el resto del territorio (Hanssen 1910, §28, apud Malkiel 1959, 444). Lo mismo
Lloyd: «El nuevo modelo de imperfecto fue el que dominó en Castilla, Aragón y León ‹con
exclusión de las zonas más occidentales›» (Lloyd 1993, 575. El resalte es nuestro).
El castellano en los orígenes del cambio gramatical 333
1ª – – – 2 (2)23
4ª 1 (1) – 1 (1) –
5ª 3 (3) – 1 (1) –
6ª 1 (1) – – 1 (1)
Gráfico 1: Burgos < 1250: –ie/–ia (casos) Gráfico 2: Burgos < 1250: –ie/–ia (docs.)
Gráfico 4: Huelgas < 1250: –ie/–ia (casos) Gráfico 5: Huelgas < 1250: –ie/–ia (docs)
Docs. imperf. –ié (docs) –ía (no 1ª) –ié (casos) –ía (no 1ª)
(docs) (casos)
Reales 3 2 1 7 4
(Burgos)
Carrizo – – – – –
León 3 0 3 0 3
Sahagún 2 1 2 1 6
Palencia 4 3 2 17 11
La Montaña 6 1 3 1 4
Rioja 5 4 1 10 1
Navarra 3 0 3 0 5
Aragón – – – – –
336 Mª Carmen Moral del Hoyo
Para visualizar mejor estos datos, configuramos, en primer lugar, el gráfico que
representa la distribución –ía / –ié en función del número de documentos en los
que se emplean:
El trazado del uso de –ié en ambos casos es muy similar, lo que confirma que no
se trata de desviaciones puntuales excepto en Sahagún, documentación de la
que, precisamente, trataremos con detalle más abajo:
El castellano en los orígenes del cambio gramatical 337
25 A pesar de que no documentamos casos en los extremos más occidental (Carrizo) y oriental
(Aragón), podemos suponer que seguirían la tendencia de León y Navarra en el uso sistemático
de –ía.
26 Si contrastamos estos resultados con los que obtenemos en los DLE de Menéndez Pidal
anteriores a 1250, los resultados muestran tendencias similares en algunos grupos: la coexisten-
cia de ambas variantes parece la tendencia de Campó, si bien sólo hay dos testimonios, uno de
–iémos (1219) y numerosos de –ía en un mismo documento donde proliferan rasgos occidentales
338 Mª Carmen Moral del Hoyo
En la 3ª persona:
(1223). Y La Rioja tiene una preferencia por –ié casi absoluta: La Rioja Baja sólo muestra un caso y
es de –ié y, en La Rioja Alta, su uso es abundantísimo en todas las personas desde 1199, con un
excepcional –ía en la 3ª persona en 1249.
El castellano en los orígenes del cambio gramatical 339
En la 6ª persona:
1ª – 10 (8) – 5 (4)
Gráfico 12: Burgos >1250: –ie/–ia (casos) Gráfico 13: Burgos >1250: –ie/–ia (docs.)
Si comparamos los resultados con los obtenidos antes de 1250, se ha producido una
inversión: del 100 % de casos y documentos en los que atestiguábamos –ié en Oña,
la variante –ía ha aumentado en proporciones muy significativas con más de un
tercio de los casos y localizándose en casi la mitad de documentos, en personas
distintas a la 1ª. A su vez, los diplomas de las Huelgas han experimentado la
evolución contraria: de un 47,8 % de casos con –ié se ha pasado a un 90 % y es la
El castellano en los orígenes del cambio gramatical 341
Gráfico 14: Oña >1250: –ie/–ia (casos) Gráfico 15: Huelgas > 1250: –ie/–ia (casos)
Gráfico 16: Oña > 1250: –ie/–ia (docs.) Gráfico 17: Huelgas > 1250: –ie/–ia (docs.)
Mientras la 1ª persona sigue sin ofrecer otra solución que –ía, en el resto hay
cambios: en las Huelgas, como ocurría en la 1ª mitad del siglo, la 4ª y la 5ª
personas solo presentan la variante –ié y, aunque se mantiene la fluctuación en
la 3ª y la 6ª, –ié es ahora notablemente mayoritaria en ambas personas. En Oña,
con exclusividad de –ié (aunque pocos testimonios) para todo el paradigma antes
de 1250, la variante –ía no solo alcanza proporciones en torno al 30 % en la 3ª y
en la 6ª personas sino que, además, en la 4ª y en la 5ª, donde –ié /–ía se reparten
equitativamente.
342 Mª Carmen Moral del Hoyo
Docs. imperf. –ié (docs) –ía (no 1ª) –ié (casos) –ía (no 1ª)
(docs) (casos)
Reales 14 10 7 37 5
(Burgos)
Sahagún 10 3 6 19 6
Catedral 14 0 14 0 41
Carrizo 6 1 6 1 13
Palencia 4 3 1 27 3
La Montaña 10 1 9 1 10
Rioja 15 12 5 18 16
Navarra 5 0 5 0 18
Aragón 6 0 6 0 9
Y, por casos:
En La Rioja los diplomas ofrecen un 52,9 % de formas –ié que, sin embargo, se
localizan en el 80 % de los documentos. Esto indica que, puede haber, en algunos
casos, cierta distribución de formas ligada a determinados escribanos.
Con todo, el paradigma –ié sigue concentrándose en el ámbito castellano
pero se ha producido un «corrimiento» de fuerzas oriente > sur y occidente, como
se desprende del gráfico inferior: mientras Oña y Rioja lideraban el empleo del
modelo –ié antes de 1250, es ahora Burgos, tanto en sus documentos privados
como cancillerescos, los que mayor uso hacen del mismo, casi exclusivo en Las
Huelgas, al mismo nivel que los documentos de Palencia. Sahagún experimenta,
también, un importante auge. Sin embargo, Oña y Rioja reducen en casi un 40 %
los casos de –ié frente a –ía.
Curiosamente, contrastando la evolución de –ié en función del número de
casos y de documentos se aprecia que, a lo largo de la centuria, la presencia
de –ié en cuanto a los documentos se mantiene mucho más estable que los
casos. Así ocurre en León, Palencia, La Montaña, La Rioja y Navarra, así como
en los documentos reales firmados en Burgos. Sin embargo, tanto Sahagún
como Las Huelgas y, sobre todo, Oña, experimentan un salto cualitativo en el
empleo de –ié coincidiendo con la elevada diferencia que muestra el número
de casos: en el Oña, para disminuir y, en el de Las Huelgas y Sahagún, para
aumentar.
El castellano en los orígenes del cambio gramatical 345
3ª persona:
6ª persona:
4ª persona:
5ª persona:
Lo más significativo de ambos gráficos es que, contrastados con los que dibujaba
la documentación anterior a 1250 y, aunque los casos vuelven a ser escasos, la
sistematicidad de –ié está cediendo, de nuevo, en el castellano norteño lo que,
unido a la disminución de casos en la 6ª y, sobre todo, 3ª persona, apuntala la
tendencia a la nivelación paradigmática en –ía que, en la documentación de los
ámbitos limítrofes, muestra mayor resistencia.
27 Pues sólo el grupo oriental ofrece testimonios; 4ª: 10 –iémos vs. 2 –íamos/ / 5ª: 1 –iédes.
28 Frecuencia de –imos. Carrizo: 33,3 %; León, 35,7 %; Sahagún: 33,3 %; Palencia, 25 %; La
Montaña 273 %; Burgos: 26,3 %; Reales Burgos: 0 %; Oña: 35,3 %; Rioja, Navarra, Aragón:
100 %.
350 Mª Carmen Moral del Hoyo
Esto hace que, para el caso del aragonés, debamos replantear la causa de la
escasa operatividad de –ié en el imperfecto toda vez que, en el siglo XIII, parece
que el pretérito ha desarrollado un paradigma en torno a este diptongo, no sólo
en las formas plurales sino, también, en las formas singulares (de cuya 3ª parte
etimológicamente); esto supondría que las condiciones para la analogía se dan,
modo que es después, a partir del XII, cuando se refuerza la población intra-
montes (Tuten 2003, 150) y, además, queda fuera de esta ruta de influencia y
asentamiento francos, que discurre al sur de la cordillera cantábrica.
Pero el proceso es estructural en todos los casos: como explica Posner (1961),
hay una tendencia primitiva a la convergencia de pretérito e imperfecto donde, a
mayor uso del pretérito, mayor influencia en el imperfecto, que cede su significa-
do aspectual a favor del temporal de pasado y no requiere, por tanto, de marca-
ción morfológica distintiva. Con la progresiva implantación de los tiempos com-
puestos, el imperfecto recupera sus valores aspectuales o modales y esto culmina
en la reintroducción de una marca propia.
La autora acude a esta teoría para intentar ofrecer una explicación de con-
junto a la caída o el mantenimiento de –B – en el imperfecto de las lenguas
romances pero, creemos, es posible recuperar sus argumentos para la irrupción,
difusión y eliminación de –ié.
Además, el papel que puede jugar la progresiva implantación de los tiempos
compuestos en la variación formal del imperfecto resulta de gran interés si lo
conjugamos con la demostración de Rodríguez Molina (2010, cap.6, §8.4.2) sobre
la direccionalidad de este proceso en la Península Ibérica: «Todo el territorio del
actual País Vasco, Navarra, Aragón y, en menor medida, el noroeste de Burgos, el
oriente de Cantabria y Guadalajara aragonés al norte del Ebro configuran la zona
donde […] los tiempos compuestos muestran un grado de gramaticalización
mayor» (Rodríguez Molina 2010, 1217).
Si aunamos, por tanto, estas propuestas con el reparto –ié/–ía que, en el XIII,
presentan documentos de los tres romances centrales, podemos concluir que, si
bien inicialmente el proceso pudo ser común (analogía formal por convergencia
funcional), no así su evolución:
a) En el ámbito (centro)occidental del asturleonés, la convergencia funcional
entre ambos tiempos es prácticamente segura, pero el paradigma –ié es muy
reducido porque también lo es su presencia en el plural de los pretéritos de donde
parte la acción analógica. A medida que la castellanización opere en el territorio,
aumentarán los casos de –ié que, además, podrán fosilizarse con mayor facilidad
en tanto los tiempos compuestos presentan aquí los testimonios más tardíos de
gramaticalización.
b) En leonés oriental y en castellano (hasta el oriente de Cantabria por el
norte) la convergencia también está acreditada y, además, –ié está bien asentado
en los plurales del perfecto, de modo que ambos factores actúan en la difusión
progresiva de –ié. La presencia del modelo aragonés de pretérito –ié y variantes
francas pudo impulsar el proceso en zonas de contacto. La progresiva eliminación
de –ié, además de deberse a la acción de diversas fuerzas morfológicas, coincide
también con la gramaticalización de los tiempos compuestos.
El castellano en los orígenes del cambio gramatical 353
6 Fuentes bibliográficas
Álamo, Juan del, Colección Diplomática de San Salvador de Oña (822–1284), Madrid, CSIC, 1950.
Casado, Mª Concepción (ed.), Colección diplomática del Monasterio de Carrizo, vol. I (969–1260)
y II (1260–1299), León, Centro de estudios e investigación San Isidoro, 1983.
Castro, Araceli y José Manuel Lizoain, Documentación del monasterio de las Huelgas de Burgos
(1284–1306), Burgos, Fuentes Medievales Castellano-Leonesas, 1987.
Díez, Carmen/López, Luis/Pérez, Rogelio, Abadía de Santillana del Mar. Colección diplomática,
Madrid, Fundación Santillana, 1983.
Escagedo, Mateo, Colección diplomática. Privilegios, escrituras y bulas en pergamino de la
insigne y real Colegiata de Santillana, Santoña, El Dueso, 1927.
Fernández Flórez, José Antonio (ed.), Colección diplomática del Monasterio de Sahagún,
(1200–1300), León, Centro de estudios e investigación San Isidoro, 1994.
Lacarra, José Mª, Colección diplomática de Irache, Pamplona, Institución Príncipe de Viana,
1986.
Lizoain, J. Manuel, Documentación del monasterio de las Huelgas de Burgos (1116–1230),
(1231–1262), Burgos, Fuentes Medievales Castellano-Leonesas, 1985.
López de Silanes, Ciriaco/Sáinz, Eliseo, Colección diplomática calceatense: Archivo Catedral
(años 1125–1397), La Rioja, Instituto de Estudios Riojanos, 1985.
López de Silanes, Ciriaco/Sáinz, Eliseo, Colección diplomática calceatense: Archivo Municipal
(años 1207–1498), La Rioja, Instituto de Estudios Riojanos, 1989.
7 Referencias bibliográficas
Alvar, Manuel, El dialecto aragonés, Madrid, Gredos, 1953.
Alvar, Manuel/Pottier, Bernard, Morfología histórica del español, Madrid, Gredos, 1983.
Azofra, M.ª Elena, Morfosintaxis histórica del español: de la teoría a la práctica, Madrid, Uned,
2009.
Buesa, Tomás/Castañer, Mª Rosa, El pretérito perfecto simple en las hablas pirenaicas de Aragón
y Navarra, Archivo de Filología Aragonesa 50 (1994), 65–132.
Bustos Gisbert, Eugenio, La morfología histórica del verbo español, in: Girón, J. Luis/ Bustos,
J. Jesús de (edd.), Actas del VI Congreso Internacional de Historia de la Lengua Española,
vol. 1, Madrid, Arco Libros, 2006, 387–415.
Cano Aguilar, Rafael, La morfología histórica del español en los últimos cien años, in: Cisneros,
L. Jaime/Lerner, Isaías/Oesterreicher, Wulf (edd.), Homenaje José Luis Rivarola, vol. 2,
Lima, Fondo Editorial de la Pontificia Universidad Católica del Perú, 2004, 71–104.
Ciérvide, Ricardo, Primeros documentos navarros en romance, (1198–1230): comentario
lingüístico, Pamplona, Institución Príncipe de Viana, 1972.
Egido, Mª Cristina, El sistema verbal en el romance medieval leones, León, Universidad de León,
1996.
Ford, J. D, Old Spanish Readings, Boston, Athenaeum Press, 1906.
García Turza, Claudio/García Turza, Javier, Una nueva visión de la lengua de Berceo a la luz de
la documentación emilianense del siglo XIII, Logroño, Universidad de la Rioja, 1996.
García-Macho, Mª Lourdes/Penny, Ralph, Gramática histórica de la lengua española: morfología,
Madrid, Uned, 2013.
Gassner, Armin, Das altspanische Verbum, Halle, Max Niemeyer, 1897.
Rohlfs, Gerhard, Le gascon. Études de philologie pyrénéenne, Halle, Max Niemeyer, 1935.
Gifford, D.F./Hodcroft, F.W, Textos lingüísticos del medievo español, Oxford, The Dolphin Book,
1966.
González Bachiller, Fabián, El léxico romance de las colecciones diplomáticas calceatenses en
los siglos XII y XIII, Logroño, Universidad de La Rioja, 2002.
El castellano en los orígenes del cambio gramatical 355
González Ollé, Fernando, Pretérito imperfecto y condicional con desinencia –ie en el siglo XVI,
Revista de Filología Española 80/3–4 (2000), 341–377.
Hanssen, Friedrich, Sobre la formación del imperfecto de la segunda y tercera conjugación
castellana en las poesías de Gonzalo Berceo, Anales de la Universidad de Chile 85 (1894),
655–694.
Hanssen, Federico, Estudios sobre la conjugación aragonesa, Archivo de Filología Aragone-
sa 26/27 (1896), 401–418 (=1896a).
Hanssen, Federico, Estudios sobre la conjugación leonesa, Santiago de Chile, 1896
(=1896b).
Hanssen, Friedrich, Das Possessivpronomen in den altspanischen Dialekten, Valparaíso,
Imprenta del Universo de G. Helfmann, 1897.
Hanssen, Friedrich, Gramática histórica de la lengua castellana, Halle, Niemeyer, 1913.
Hartman, Steven L., Alfonso el Sabio and the varieties of verb grammar, Hispania 72 (1974),
48–55.
Henriksen, Nicholas, A reanalysis of paradigmatic variation in the Old Spanish imperfect,
Studies in Hispanic and Lusophone Linguistics, 1 (2008), 287–316.
Henriksen, Nicholas, Imperfect variation and class marking in the Old Spanish third conjugation,
in: Masullo, P./O’Rourke, E./Huang, C., Romance Linguistics 2007, Amsterdam, John Benja-
mins, 2009, 143–156.
Hernández Alonso, César, De las glosas al Mio Cid, in: Criado del Val, Manuel (ed.), Los orígenes
del español y los grandes textos medievales: Mio Cid, Buen Amor, Celestina, Madrid, CSIC,
2001, 87–96.
Imhoff, Brian, On the Chronology and Recession of the Old Spanish –ie Imperfect, La Corónica
46/2 (1998), 243–255.
Imhoff, Brian, Dialect Contact and Historical Linguistic Variation: The Old Spanish –ie imperfect,
Hispanic Review 68 (2000), 381–396 (=2000a).
Imhoff, Brian, Socio-historic network ties and medieval Navarro-Aragonese, Neuphilologische
Mitteilungen101 (2000b), 443–450 (=2000b).
Imhoff, Brian, A note on the Old Aragonese –ie preterite, Bulletin of Hispanic Studies 81 (2004),
1–4.
Imhoff, Brian, Menéndez Pidal y el origen del imperfecto en –ie, Anuario de Letras 45 (2007),
229–237.
Kuhn, Alwin, El perfecto simple aragonés. Arag. –ll– > –ts–, Archivo de Filología Aragonesa 42–
43 (1989), 279–291.
Lang, Henry R., Hanssen, Friedrich, Spanische Grammatik auf Historischer Grundlage, Romanic
Review 2 (1911), 327–347.
Lapesa, Rafael, El Dialecto Asturiano Occidental en la Edad Media, Sevilla, Universidad de
Sevilla, 1998.
Lapesa, Rafael, Historia de la Lengua Española, Madrid, Gredos, 1981.
Lausberg, Heinrich, Lingüística románica. Morfología, Madrid, Gredos, 1982.
Lloyd, Paul M., Del latín al español. Fonología y morfología históricas de la lengua española,
vol. 1, Madrid, Gredos, 1993.
López Bobo, Mª Jesús, El castellano como <cuña lingüística>. Replanteamiento de la tesis
pidaliana a partir de un estudio diacrónico del verbo aragonés (I), Archivo de Filología
Aragonesa 51 (1995), 31–74.
Luquet, Gilles, Modos y persona en la historia del verbo español. Observaciones sobre los
imperfectos y condicionales en –ie del castellano antiguo, in: Echenique, Mª Teresa/Sán-
356 Mª Carmen Moral del Hoyo
chez Méndez, Juan (edd.), Actas del V Congreso Internacional de Historia de la Lengua
Española, vol. 1, Madrid, Gredos, 2002, 757–765.
Malkiel, Yakov, Toward a Reconsideration of the Old Spanish Imperfect in –ía ~ –ié, Hispanic
Review 27 (1959), 435–481.
Matute, Cristina, Los sistemas pronominales en español antiguo. Problemas y métodos para una
reconstrucción histórica, Madrid, Universidad Autónoma de Madrid, 2004 [Ed. de la autora
en http://www.lllf.uam.es/coser/publicaciones/cristina/1_es.pdf] [Consultada el 15/02/
2015].
Menéndez Pidal, Ramón, Cantar de Mio Cid. Texto, gramática y vocabulario, Madrid, Espasa
Calpe, 1944.
Menéndez Pidal, Ramón, Orígenes del Español.Estado lingüístico de la Península Ibérica hasta
el siglo XI., Madrid, Espasa Calpe, 31950.
Menéndez Pidal, Ramón, Manual de gramática histórica española, Madrid, Espasa Calpe,
13
1968.
Moral del Hoyo, Mª Carmen, Documentación medieval de Cantabria: estudio lingüístico.
(Siglo XIII), Universidad de Deusto, [Tesis doctoral inédita], 2013.
Moral del Hoyo, Mª Carmen, Hacia una dialectología gramatical del castellano medieval: cues-
tiones morfológicas del imperfecto y futuro de subjuntivo, Scriptum digital 4, (2015, 143–
164).
Moreno de Alba, José G., Valores verbales de los tiempos pasados de indicativo y su evolución,
in: Company, Concepción (dir.), Sintaxis histórica de la lengua española. Primera parte: la
frase verbal, vol. 1, t. 1, México, Fondo de Cultura económica, 2006, 5–94.
Onís, Federico de, Contribución al estudio del dialecto leones. Examen filológico de algunos
documentos de la catedral de Salamanca, Salamanca, F. Núñez Izquierdo, 1909.
Penny, Ralph, Sobre el concepto del castellano como dialecto revolucionario, in: Mª Teresa
Echenique/Milagros Aleza/María J. Martínez (edd.), Actas del I Congreso de Historia de la
lengua española en América y España, Valencia, Tirant lo Blanch, 1995, 403–407.
Penny, Ralph, Variation and Change in Spanish, Cambridge, Cambridge University Press,
2000.
Pérez Salazar, Carmela, Rasgos morfosintácticos y léxicos del romance navarro (primer tercio del
siglo XIII), Principe de Viana 198 (1993), 111–184.
Pla Colomer, Francisco, Reconstrucción de la pronunciación castellana medieval: la voz de los
poetas, Valencia, 2013 [http://www.infoling.org/repository/PhDdiss-Infoling-35-6-2013.
pdf] [Consultada el 15/02/2015].
Posner, Rebecca, The imperfect endings in Romance, Transactions of the Philological Society
60:1 (1961), 17–55.
Rini, Joel, Exploring the Role of Morphology in the Evolution of Spanish, Amsterdam/Philadel-
phia, John Benjamins, 1999.
Rodríguez Molina, Javier, La gramaticalización de los tiempos compuestos en español antiguo:
cinco cambios diacrónicos, Universidad Autónoma de Madrid, 2010 [Tesis doctoral inédita].
Ruiz de la Peña, J. Ignacio, Las colonizaciones francas en el Camino de Santiago, in: García Turza,
Javier (coord.), El Camino de Santiago y la sociedad medieval, Logroño, Instituto de Estudios
Riojanos, 2000, 135–142.
Sánchez González de Herrero, Nieves, Rasgos fonéticos y morfológicos de los documentos
alfonsíes, Revista de Filología Española 82:1–2 (2002), 139–177.
Sánchez González de Herrero, Nieves, et al. Textos para la Historia del Español IX: Documentos
medievales de Miranda de Ebro, Madrid, Universidad de Alcalá de Henares, 2014.
El castellano en los orígenes del cambio gramatical 357
1 Introducción
Uno de los aspectos fundamentales del estudio del léxico desde el punto de vista
histórico lo constituye la investigación de los sufijos utilizados para la formación
de nuevos elementos léxicos, en tanto que son uno de los más importantes
recursos para la ampliación y renovación del vocabulario de una lengua (Pharies
2002; Clavería 2012).
El corpus de trabajo sobre el que hemos planteado la investigación lo consti-
tuye un conjunto de ordenanzas concejiles, textos del ámbito de la tradición
jurídica, que representan muestras de la lengua que discurre entre el siglo XIII y
el siglo XVIII: Sevilla (s. XIII), Córdoba (1435), Sevilla (1492), Carmona (1525–
1535), Lepe (s. XVI–XVIII), Baeza (s. XVI), Monda (1574), Aljarafe (s. XVI) y Archi-
dona (1598). Estos documentos integran la base sobre la que hemos elaborado el
Diccionario de textos concejiles de Andalucía (DITECA), disponible en la red
(<http://www.arinta.es>), desde donde nos es posible obtener información de
cada uno de los términos en los tres niveles considerados: categorial, etimológico
y semántico.
En esta investigación nos proponemos establecer las bases para poder estu-
diar la vitalidad, productividad o el desgaste que sufren los elementos sufijales en
la cronología mencionada a partir del DITECA. Nuestros datos podrán ser contras-
tados con los distintos corpus del dominio hispánico.
Las partes de que consta el trabajo son las siguientes: en primer lugar,
ofrecemos un análisis con la cuantificación de los afijos derivativos del corpus,
excepción hecha de las formaciones sufijales de carácter apreciativo; en un
segundo apartado nos centramos en el análisis de algunas de las parejas sufijales
que se han presentado en la historia de la lengua como rivales por su diferente
tratamiento evolutivo para determinar sus diferentes funciones. Por último, ofre-
cemos unas conclusiones.
Cuadro 1: (continuada)
Los derivados nominales van clasificados en tres grupos de acuerdo con sus
rasgos semánticos dominantes: ‘nombres de acción y efecto’, ‘nombres de cuali-
dad’ y ‘nombres de persona, instrumento y lugar’.
Análisis de la sufijación en el corpus DITECA 361
84 1,06 0,68
65 0,82 0,52
17 0,22 0,14
3 0,04 0,02
7892 63,63
3 Algunos ejemplos de los sufijos –a, –e, –o son: ayuda, cata, caza, compra, consulta, contienda,
corta, cría, demanda, denuncia, derrama, excusa, firma, guarda, iguala, junta, jura, mejora,
mengua, protesta; contraste, corte, deslinde, remate, temple, trance; acarreo, arreo, despolvoreo,
rodeo, vareo.
4 Representantes de los sufijos participiales son entre otros: alzada, arada, arribada, asomada,
cabalgada, entrada, estada, morada, obrada, parada, posada, quebrada; apeado, cercado, cria-
do, demandado, delegado, jurado, mandado, sembrado, vidriado.
5 Representantes del sufijo –miento: abundamiento, acatamiento, alargamiento, alongamiento,
amojonamiento, apartamiento, apercibimiento, aprovechamiento, arrendamiento, atrevimiento,
avenimiento, ayuntamiento, bastecimiento, cohechamiento, conocimiento, consentimiento, conten-
tamiento, crecimiento, cumplimiento, detenimiento, emplazamiento, encabezamiento, encendi-
miento, enherbolamiento, establecimiento, estreñimiento, fallecimiento, gastamiento, guisamiento,
hacimiento, hacinamiento, heredamiento, igualamiento, libramiento, llamamiento, mandamiento,
mantenimiento, merecimiento, movimiento, nacimiento, nombramiento, ordenamiento, partimien-
to, pedimiento, pensamiento, perdimiento, proveimiento, quebrantamiento, quitamiento, recibi-
miento, recogimiento, reconocimiento, recudimiento, regimiento, repartimiento, requerimiento,
saneamiento, seguimiento, señalamiento, tratamiento, vedamiento.
6 –Mento es una variante de gran importancia en la época medieval (Pattison 1975, 49),
comúnmente asociada a bases cultas y que ya no es productiva. La mayoría de los ejemplos son
derivados latinos. En nuestro corpus se encuentra en minoría respecto de –miento. Algunos
ejemplos son: bastimento, detrimento, pagamento. Solamente hemos podido registrar la alternan-
cia entre –miento y –mento en tres términos, entre los que la opción latinizante es la dominante:
aditamento (6 ocurrencias) / aditamiento (1 ocurrencia); impedimento (16) / impedimiento (1) y
juramento (108) / juramiento (1).
7 Advertencia, asistencia, audiencia, avenencia, querencia, resistencia.
8 Así las voces barredura, cabalgadura, corredura, empedradura, encapachadura, enjabonadura,
majadura, moledura, remoledura, sembradura.
9 Cf. infra 3.3.
Análisis de la sufijación en el corpus DITECA 363
35 1,35 0,28
35 1,35 0,28
5 0,19 0,04
3 0,12 0,02
4 0,15 0,03
2597 20,94
364 Inés Carrasco Cantos y Livia Cristina García Aguiar
–idad 28 284
–edad 11 325
–dad 6 87
–tad 8 155
Total 53 851
Después vienen –ncia y –nza, dos alomorfos del mismo sufijo que se encuen-
tran en distribución complementaria, pues cuando aparece uno se bloquea la
aparición del otro (GRAE 2010, 113). Aplicado a bases adjetivas forma nombres de
cualidad. En total son 29 formas (15,76 %).16
Es también importante –ería, sobre cuya independencia de –ia es posible
hablar siempre que no exista una base previa en –ero (Pharies 2002, 226). Su
campo sufijal consta de 25 términos (13,59 %).17
Los menos representativos de esta serie son los derivados en –itud (rectitud,
solicitud), –dumbre (certidumbre, servidumbre) y –or (gordor), que es el único
sufijo existente para formar nombres de cualidad en masculino. No es productivo
en la actualidad. En DITECA alterna con –ura (gordura).
2 0,10 0,02
1913 15,42
El tercer grupo de sufijos está formado por todos los que significan nombre de
persona, instrumento y lugar. El primero en productividad es el sufijo –ero/–era
para la designación de los oficios, con una nómina de 113 formas (58,25 %).
Algunos de los términos, en una proporción mínima, solo vienen expresados en
su forma femenina al quedar restringido el desempeño de esos oficios a las
mujeres: bercera ‘verdulera’, trecenera, andalucismo, derivado de tresnar (DCECH
s.v.), ‘llaman en Córdova a las panaderas, y quiere decir cosarias’ (Del Rosal, s.v.
trezenera, apud NTLLE), ramera.18
Son también muy representativos en el corpus los nombres de agente en –dor
(43 ítems19 = 22,16 %), los derivados en –nte (25 ítems20 = 12,89 %) y en menor
proporción los derivados en –dero (12 ítems21 = 6,19 %).
El sufijo con menor índice de productividad es –iego, registrado en la voz
maniego de las ordenanzas de Carmona y sobre cuyo significado hemos aventu-
rado el de ‘trampa o red para cazar conejos’.22
18 Hay también –ero/–era para ‘sitio’: barrero ‘sitio de donde se saca el barro para usar en los
alfares y para otras obras’, tablero ‘tablar’, caldera, calera, ribera, cantera, carrera, junquera,
ladera, lobera, melonera, pedrera, pesebrera, ribera, talanquera, testera.
19 Acarreador, aperador, atajador, cambiador, cavador, cazador, sagador, solador, trasquilador,
etc.
20 Apelante, caminante, litigante, marchante, querellante, representante, asistente, bienquer-
iente, delincuente, pariente, etc.
21 Abrevadero, agostadero, asidero, atadero, bebedero, descansadero, lavadero, matadero, etc.
22 Cf. Pharies (2002, 317–319) para los significados de este sufijo que, en principio, forma
adjetivos susceptibles de sustantivarse.
Análisis de la sufijación en el corpus DITECA 367
Cuadro 6: (continuada)
65 2,70 99 4,11
85 3,53 24 1,00
61 2,53 4 0,17
19 0,79 4 0,17
18 0,75 2 0,08
Cuadro 6: (continuada)
36 1,49 1 0,04
72 2,99 1 0,04
Entre los que quedan por debajo del 5 % de productividad están: –to27 (14/
65); –dor/–dora28 (13/179); –ble29 (12/44); –ero30 (12/85); –ano31 (11/61); –ario32
(10/185).
Hay elementos sufijales de poca productividad y un alto porcentaje de
ocurrencias: –‘ico33 (5/288); –ío34 (4/72); –‘imo35 (3/99). Entre los que no son ya
productivos aparecen –engo,36 –iondo,37 –enco.38 Otro tanto se aprecia con el
sufijo –iego, uno de los más castizos en la época clásica para la creación de
adjetivos a partir de sustantivos: enciniego (Ordenanzas de Lepe); merchaniego
(Ordenanzas de Monda) ‘aplicábase al ganado que se llevaba a vender en las
ferias y mercados’ (DRAE s.v.). Se ha señalado su falta de productividad en el
lenguaje literario por el tono rústico que imprime a los vocablos, excepto en el
campo de los gentilicios (Pharies 2002, 318).39
27 Forma parte de los adjetivos deverbales pasivos participiales: abierto, atento, exutas, esentos.
28 Debdor, administrador, cogedor, encubridor, guardador, matador, sabidoras, trabajadora, etc.
29 Entra en la formación de adjetivos deverbales pasivos potenciales: convenible, fiable, loable,
notable, razonable. Para sus diferentes matices, cf. Rainer (1999, 4609–4610).
30 Este sufijo participa en las formaciones de adjetivos de carácter fundamentalmente relacio-
nal: casero, cerreras, delantero, conejero, trasero, pesquera, terrera.
31 Entre los derivados con este sufijo se encuentran los adjetivos relacionales como comarcano,
cristiano, humano, metropolitano, y particularmente los deonomásticos de lugar: castellano,
toledano .
32 Sufijo culto que forma adjetivos a partir por lo general de bases nominales. Algunos de los
términos son creaciones del latín: arbitrarias, cosario, falsario, ordinario, originario, pecuniario.
33 Ejemplos de este sufijo de origen culto son apostólica, auténtico, eclesiástico, público. En
español actual es muy productivo (Rainer 2999, 4618).
34 Baldío, cabrío, tardío.
35 Grandísimo, ilustrísimo, santísimo.
36 De origen germánico: realengo.
37 Su origen es el latín (i)bundus usado para crear adjetivos que expresan la acción verbal
intensificada (Pharies 2002, 435): hedionda. El grupo más antiguo y auténtico, según Pharies, de
derivados en –iondo en español consta de cinco palabras que describen una hembra en celo
(2002, 435). Entre ellas se encuentra el ejemplo del corpus correspondiente a la voz torionda
‘dicho especialmente de una vaca: Que está en celo’, documentada en Nebrija y derivada de un
verbo hipotético *torir ‘montar un toro a la vaca’ (DCECH s.v. toro).
38 De origen germánico: mostrenca ‘dicho de una persona: Que no tiene casa ni hogar, ni señor
o amo conocido’. Es una alteración de mestenco, derivado de mesta (DCECH s.v. mostrenco).
39 Carrasco (2011, 178).
370 Inés Carrasco Cantos y Livia Cristina García Aguiar
108 33,75
–ar
1704 59,66
70 21,88
A– + base + –ar
529 18,52
46 14,38
Des– + base + –ar
141 4,94
23 7,19
En– + base + –ar
117 4,10
20 6,25
Re– + base + –ar
130 4,55
Sufijación en –ar
3 0,94
In– + base + –ar
8 0,28
2 0,63
De– + base + –ar
6 0,21
1 0,31
Tras– + base +–ar
5 0,18
1 0,31
Sobre– + base +–ar
4 0,14
1 0,31
1 0,04
Con– + base + ar
275 85,94
Subtotal
2645 92,61
17 5,31
–ear
66 2,31
Sufijación en –ear
3 0,94
5 0,18
A– + base + –ear
20 6,25
Subtotal
71 2,49
Análisis de la sufijación en el corpus DITECA 371
Cuadro 7: (continuada)
13 4,06
–ecer
100 3,50
3 0,94
En– + base + –ecer
22 0,77
Sufijación en –ecer
3 0,94
A– + base + –ecer
7 0,25
1 0,31
1 0,04
Com– + base + –ecer
20 6,25
Subtotal
130 4,55
2 0,63
–izar
5 0,18
1 0,31
Sufijación en –izar Des– + base + –izar
2 0,07
1 0,31
1 0,04
En– + base + –izar
4 1,25
Subtotal
8 0,28
1 0,31
Sufijación en –ificar –ificar
2 0,07
40 Señala Serrano-Dolader (1999, §72.1.1.3) que la productividad del sufijo –izar es bastante
reciente, como demuestra el hecho de que solo una mínima parte de los verbos hoy utilizados
estén documentados antes del siglo XX.
Análisis de la sufijación en el corpus DITECA 373
3 Análisis cualitativo
3.1 Los sufijos –ción/sión frente a –zón
–sión 16 257
–ión 1 2
–zón 2 8
se hace para que no se perjudique, antes bien se asegure, el derecho que alguien
tiene’; prorrogación ‘continuación de una cosa por un tiempo determinado’.
3.1.2. En contraste con la riqueza léxica ofrecida por –ción, aparece la variante
–zón, que es su paralelo vernacular y cuya productividad en DITECA se limita a la
presencia de dos lemas con 8 ocurrencias en la totalidad del corpus. Se trata de
las palabras barbechazón (7) ‘acción y tiempo de barbechar’ (NDHE s.v.) y carga-
zón (1) ‘cargamento’. Estos resultados vienen a confirmar los obtenidos por
Pattison (1975, 93) para la etapa medieval, en donde solo 13 de las 148 palabras lo
son en –zón. También anticipan la tendencia observada en el español actual
excepto para Hispanoamérica (Santiago/Bustos 1999, 4533), de manera que –zón
no tiene ya vitalidad para formar nuevos derivados ni apenas se siente como tal
sufijo (Monge 1978, 160–161; Pena 1980, 157).
Los supervivientes en –zón se encuentran restringidos a unas áreas semánti-
cas muy concretas tales como son: vida rural, tiempo, navegación, labores
realizadas a mano, reacciones fisiológicas, etc. (cf. Pattison 1975, 93; Pharies
2002, 552). Los ejemplos de nuestro corpus se circunscriben al ámbito rural y de
ellos solo cargazón sigue registrado en el DRAE, mientras que barbechazón es un
término que ya no se usa. Su primera referencia lexicográfica es la de Nebrija
(Diccionario español‑latino, apud NTLLE s.v. barvechazón). Es además el mismo y
único ejemplo de CORDE. Los casos del DITECA son exclusivos de las Ordenanzas
de Carmona.
3.1.3. En lo que se refiere a las alternancias o sufijos rivales, nuestro corpus
permite documentar la variación entre el sufijo –ción y el sufijo vocálico en –a, en
una proporción inversa a la de la época actual. Se trata de términos técnicos del
campo jurídico como los siguientes: quitación (3) y fatigación (2) se usan junto con
los neologismos en –a: quita (1) y fatiga (4). Así también la pareja denunciación
(84) y denuncia (1), documentada en una sola ocasión en nuestro corpus en las
Ordenanzas de Aljarafe (s. XVI).
–ez 1 1
–eza 14 47
–icia 7 781
376 Inés Carrasco Cantos y Livia Cristina García Aguiar
–azgo 15 84
–aje 12 65
3.3.1.El tradicional morfema –azgo aparece desde el principio como medio para la
creación de sustantivos masculinos denominativos pertenecientes a la esfera de
los nombres que designan estado, situación o condición y, especialmente, el
oficio, el estatus o la dignidad que corresponde a alguien (GRAE 2010, 122). El
total de formas creadas con este sufijo es de 15, con una frecuencia de 84.
Los usos documentados tienen los siguientes significados:
a) Oficio, estatus, dignidad: alarifadgo (1 ítem) ‘oficio de alarife’; alguaziladgo
(s) (7) ‘oficio o cargo de alguacil’; almoxarifadgo(s) (13), ‘oficio y jurisdicción
del almojarife’; almotacenadgo (46) ‘oficio de almotacén’, mayordomadgo (9)
‘mayordomía’ (cargo y empleo de mayordomo o administrador).
b) Impuestos: portadgo (1) ‘derechos que se pagaban por pasar de un sitio
determinado de un camino; terradgo (1) ‘pensión o renta que paga al señor de
una tierra el que la labra’; almoxarifadgo (6) ‘derecho que se pagaba por los
géneros o mercaderías que salían del reino, por los que se introducían en él, o
por aquellos con que se comerciaba de un puerto a otro dentro de España’.
c) La acción y su resultado (GRAE, 114): hallazgo (1) ‘acción y efecto de hallar’.
La rivalidad léxica entre los dos sufijos se percibe en determinadas áreas tales
como la relativa a los impuestos o rentas, en donde a partir del siglo XVII triunfará
–aje, que va ganando en productividad y desde esa época se hace dominante en
los campos semánticos mencionados, mientras que –azgo queda relegado a una
función residual: la denominación de estados y rangos (Pharies 2002 s.v. aje).
Los ejemplos del DITECA ponen de manifiesto el declinar de –azgo y la
progresión de –aje. Es significativo que precisamente los términos en –azgo de
esa esfera de los impuestos se registren en las ordenanzas más antiguas de
nuestro corpus: portadgo en Sevilla (s. XIII) y terradgo en Córdoba (1435), mien-
tras que los escribanos de las ordenanzas elaboradas a partir del XVI usan
mayoritariamente –aje.
4 Conclusiones
El uso de las herramientas tecnológicas nos ha permitido obtener el cuadro
completo de todos los sufijos disponibles en el corpus DITECA, hacer compara-
ciones estadísticas entre ellos y diferenciar entre el campo léxico y la frecuencia.
El cómputo de los 1546 términos analizados con una frecuencia de 17668
ítems se reparte entre derivados nominales (902), derivados adjetivales (324) y
derivados verbales (320), lo que supone que casi el 60 % de los términos analiza-
dos son sustantivos y el resto se reparte entre adjetivos y verbos. A partir de ahí
podemos estudiar la productividad sufijal y revisar los factores que contribuyen a
la misma; los cambios sufijales para determinadas funciones; la especialización
funcional de los sufijos.
380 Inés Carrasco Cantos y Livia Cristina García Aguiar
5 Bibliografía
Alcoba, Santiago, «Aje»: productividad, disponibilidad y rendimiento en español actual, in:
Vilches Vivancos, Fernando (ed.), Creación neológica y la sociedad de la imaginación,
Madrid, Dykinson, 2008, 37–84.
Amador Rodríguez, Luis Alexis, La derivación nominal en español: nombres de agente, instru-
mento, lugar y acción, Berna, Peter Lang, 2009.
Carrasco Cantos, Inés, Léxico vernacular en ordenanzas andaluzas, in: Castañer, Rosa María/
Lagüéns, Vicente (edd.), De moneda nunca usada. Estudios dedicados a José Mª Enguita,
Zaragoza, Institución Fernando El Católico, 2010, 163–174.
Carrasco Cantos, Inés, Rasgos de variación en textos legales de Andalucía, in: Carrasco, Pilar/
Torres, Francisco, Lengua, historia y sociedad en Andalucía. Teoría y Textos, Madrid/
Frankfurt am Main, Iberoamericana/Vervuert, 2011, 155–183.
Carrasco, Inés/López Mora, Pilar, Tradición jurídica y variación léxica, in: Castillo Lluch, Mónica/
Pons, Lola (edd.), Así se van las lenguas variando. Nuevas tendencias en la investigación
del cambio lingüístico en español, Berna, Peter Lang, 2011, 131–153.
Clavería, Gloria, Nuevas perspectivas en el estudio de la evolución del léxico, in: Clavería, Gloria,
et al. (edd.), Historia del léxico: perspectivas de investigación, Madrid/Frankfurt am Main,
Iberoamericana/Vervuert, 2012, 13–90.
DCECH = Corominas, Joan/José Antonio Pascual, Diccionario Crítico Etimológico Castellano e
Hispánico, Madrid, Gredos, 1980–1991.
Monge, Félix, –Ción, –sión, –zón, –ón: función y forma en los sufijos, in: García Arias, José Luis,
et al. (edd.), Estudios ofrecidos a Emilio Alarcos Llorach, 2 vol., Oviedo, Servicio de
Publicaciones de la Universidad de Oviedo, 1978, 155–165.
Muñoz Armijo, Laura, La historia de los derivados en –ismo e –ista en el español moderno, Tesis
doctoral, Universidad Autónoma de Barcelona, 2010.
Pattison, David, Early Spanish Suffixes. A Functional Study of the Principal Nominal Suffixes of
Spanish up to 1300, Oxford, Publications of the Philological Society, 1975.
Pena, Jesús, La derivación en español. Verbos derivados y sustantivos verbales, Anejo 16
de Verba, Santiago de Compostela, Universidad de de Santiago de Compostela,
1980.
Pharies, David, Diccionario etimológico de los sufijos españoles, Madrid, Gredos, 2002.
Rainer, Franz, La derivación adjetival, in: Bosque, Ignacio/Demonte, Violeta (edd.), Gramática
descriptiva de la lengua española, vol. 3, Madrid, Espasa Calpe, 1999, 4595–4644.
Real Academia Española/Asociación de Academias de la Lengua Española, Nueva gramática de
la lengua española, Madrid, Espasa, 2010 (GRAE).
Real Academia Española, Nuevo Tesoro Lexicográfico de la Lengua Española, [en línea]. <http://
ntlle.rae.es/ntlle/SrvltGUILoginNtlle> (NTLLE).
Real Academia Española, Nuevo diccionario histórico del español, [en línea].
<http://web.frl.es/DH> (NDHE).
Real Academia Española, Banco de datos (CORDE) [en línea], Corpus diacrónico del español .
<http:/www.rae.es>.
Análisis de la sufijación en el corpus DITECA 381
Santiago Lacuesta, Ramón/Bustos Gisbert, Eugenio, La derivación nominal, in: Bosque, Ignacio/
Demonte, Violeta (edd.), Gramática descriptiva de la lengua española, vol. 3, Madrid,
Espasa Calpe, 1999, 4505–4594.
Torrens Álvarez, Mª Jesús/Quirós García, Mariano, La configuración del sistema de sufijos
locativos en español (siglos XII–XVII), in: Sinner, Carsten/Ramírez Luengo, José Luis /Tor-
rens Álvarez, Mª Jesús (edd.), Tiempo, espacio y relaciones espacio–temporales desde la
perspectiva de la lingüística histórica, San Millán de la Cogolla, Cilengua, 2011, 265–296.
Serrano Dolader, David, La derivación verbal y la parasíntesis, in: Bosque, Ignacio/Demonte,
Violeta (edd.), Gramática descriptiva de la lengua española, vol. 3, Madrid, Espasa Calpe,
1999, 3683–4755.
IV. Cuestiones lingüísticas diacrónicas
iberorrománicas y lingüística de corpus
Beatriz Arias Álvarez y Juan Antonio Hernández Mendoza
Argumentos dialectológicos y
sociolingüísticos que ayudan a la
caracterización del español en la
nueva España en el siglo XVI
1
1 Introducción
Estamos de acuerdo con Rivarola (2005) en señalar que cada región americana
llevó a cabo una reestructuración particular del español peninsular: los eventos
comunicativos tienen escenarios diferentes al de los peninsulares y diferentes
entre sí. Dado que el lenguaje es un fenómeno social y cultural, en la construcción
de un corpus deben considerarse aquellos parámetros que nos aproximen a una
realidad lingüística, en nuestro caso, al español novohispano.
De ahí que un corpus que pretenda dar cuenta de la variación y el cambio,
además de la estandarización de ciertos elementos o estructuras lingüísticas,
debe emplear las variables utilizadas en la dialectología y en la sociolingüística.
Ahora bien, debemos señalar que con respecto a los trabajos de sociolingüística
estos pueden, grosso modo, tener dos vertientes importantes: a) estudiar las
variedades asociadas con grupos de hablantes que pertenecen a una región
geográfica, con una ubicación social y étnica específicas, y a un sexo o a una
generación determinados; b) o investigar sobre las variedades asociadas a situa-
ciones de uso.
En este trabajo nos centramos no sólo en la variación que es propia a un
grupo de hablantes dada su localización en un espacio geográfico y social, sino
también en la variación que corresponde a la diversa tipología documental y a los
diferentes tipos de registros, es decir, a la variación que corresponde a las
características de la enunciación.
El objetivo de este trabajo es advertir que el diseño del COREECOM (CORPUS
ELECTRÓNICO DEL ESPAÑOL COLONIAL MEXICANO) permite acercarnos al co-
nocimiento del español colonial mexicano, para lo cual hemos escogido analizar
dos estructuras: artículo indefinido + posesivo + sustantivo y artículo definido +
2 Marco teórico
Es conocido por todos que la lengua histórica no es homogénea. Coseriu señala
que en la arquitectura de la lengua histórica hay diferencias diatópicas, diastrá-
ticas y diafásicas. A ello añade que «en cada dialecto se pueden comprobar
niveles y estilos de la lengua, así como en cada nivel de lengua se pueden
verificar diferencias dialectales y estilísticas, etc.» (1996, 30).3 Del mismo modo, y
2 Las preguntas que se hace Schlieben-Lange son: ¿Cómo se originan unas formas de prestigio
lingüístico y cómo llegan a codificarse hasta convertirse en norma obligatoria? ¿Qué papel
desempeña tal norma lingüística en una sociedad?
3 Penny hace referencia más o menos a los diferentes tipos de variación que hemos señalado:
geográfica o diatópica, social, diacrónica o histórica, además de mencionar que un hablante
puede escoger diferentes variantes dependiendo del acto de comunicación que tenga lugar. En
cuanto al pasado, advierte que en cualquier lengua debieron existir todos estos tipos de variación
y que, aunque es difícil comprobarse, «[l]a comparación entre los distintos fragmentos de
testimonios históricos puede ampliar las posibilidades de variación observables, pero nunca
puede llegar a establecer el amplio conjunto de variaciones que debió de haber existido en cada
momento del pasado» (2004, 25–26). Aun así, creemos que configurar un corpus histórico que
pueda ofrecer diversas muestras de habla de una comunidad nos permite tener una visión más
cercana de la misma.
Argumentos dialectológicos y sociolingüísticos que ayudan a la caracterización 387
4 Hay que advertir que en cuanto a la península ibérica (las raíces) se consideran cinco zonas:
tres de ellas señaladas por Peter Boyd-Bowman (1968, XXIV–XXV): Andalucía, Extremadura y
Castilla; además se cuenta con los vascos, por su numerosa migración, y con los habitantes de
Toledo y Madrid, por ser centros irradiadores de cultura, al igual que Sevilla.
Argumentos dialectológicos y sociolingüísticos que ayudan a la caracterización 389
Indias, los españoles se regían por medio de la legislación general del reino de
Castilla. El uso de la palabra república en América fue utilizado con el significado
clásico griego de sociedad política o Estado, cualquiera que fuese su forma de
gobierno (Levaggi 2001).5
Además es importante señalar las diferencias entre las repúblicas de indios
que se establecían en las zonas urbanas y las que se daban en las áreas rurales.
Por un lado, en las grandes ciudades los indios tenían contacto con el gobierno
español, en las zonas rurales podían pasar meses y hasta años sin que los
funcionarios españoles visitaran esas regiones. Por el otro lado, la población
india urbana se constituía por migrantes de diversos orígenes y lenguas, con una
relación cotidiana entre mestizos, mulatos y españoles que fomentaba el mestiza-
je biológico y el empleo del español; por el otro, en los pueblos la identidad étnica
y lingüística de los indios era uniforme y su trato con mestizos y sobre todo con
españoles no era usual, lo cual mantenía el uso de la lengua vernácula.
A este parámetro se podría sumar el del sexo del autor del manuscrito. La
división entre textos escritos por hombres o por mujeres surge de la importancia
actual que en los estudios de sociolingüística histórica se está dando al discurso
femenino como generador de cambios (Conde Silvestre 2007).
2.2.1 El registro
receptor, con quién se habla o a quién se escribe: sería el «tono»; y el tercero tiene
que ver con el canal, con el tipo de lenguaje que se está empleando, es decir, con
el «modo». Estos tres parámetros determinan los significados y las formas que se
usan para expresarse. Es decir, el lenguaje que hablamos o escribimos depende
de la situación, la cual determinada el tipo de registro.6
Con base en Biber (1988) y en Koch/Oesterreicher (2007) y tomando en cuenta
lo señalado por Halliday, hemos considerado los siguientes parámetros para
diferenciar y conjuntar los textos:
– la implicación emocional del emisor,
– el manejo que este tenga del código escrito,
– el propósito que tiene el escribiente: informativo, afectivo o imperativo,
– la fijación temática que presenta el texto (uno o varios temas),
– el grado de publicidad, es decir, si va dirigido a uno o varios receptores,
– la relación entre emisor y receptor (diferencia e igualdad —familiaridad—).
6 Otros como Joos, citado por Schlieben-Lange (1977, 112) señalan hasta cinco formas de
«registro» para el inglés: frozen, formal, consultative, casual, intimate.
7 Los parámetros incorporados a cada registro se sustentan en el análisis de oraciones de
relativo en el siglo XVI (Arias 2014).
Argumentos dialectológicos y sociolingüísticos que ayudan a la caracterización 391
Debemos advertir que, si bien el corpus nos ayuda a circunscribir ciertos fenóme-
nos, para poder interpretarlos hay que recurrir a lo que Wright (2001) señala como
sociofilología, además de a la antropología lingüística.8 En otras palabras el
COREECOM ofrece una herramienta utilísima, pero los datos deben ser interpreta-
dos por el estudioso basándose en el conocimiento dialectal y sociocultural de la
comunidad lingüística.
1a. y no pudo passar adelante por falta de tamemes, y de allí se bolvió y dio la capitanía a
un su sobrino que llaman Alonso (1548)
1b. y un su corregidor llamado Rodrigo de Escalona (1578)
El primer ejemplo, (1a), procede de una carta de relación (registro formal) de 1548
escrita por fray Lorenzo de Bienvenida, originario de Sevilla, en la que describe lo
hecho por los conquistadores desde Honduras hasta Yucatán. Llama la atención
que otro sevillano como Bernal Díaz del Castillo utilice esta misma estructura en
la Historia Verdadera de la Conquista de la Nueva España:
2. diré cómo Cortés luego mandó a un nuestro capitán que se decía Juan Velásquez de
León, persona de mucha cuenta (citado por García Tesoro 2011, 199).
8 Para Wright hay que «hacer hincapié en el campo del estudio filológico sobre la necesidad de
prestar atención a las condiciones socioculturales que envolvían a los productores de los textos»
(2011, 65–66).
9 Según García Tesoro (2011) la construcción del tipo «un su nagual» es uno de los rasgos más
peculiares del español de Centroamérica, en varios estudios sobre el español de América se
menciona como un rasgo característico del habla de Guatemala, El Salvador y Honduras; igual-
mente, Kany (1972) también lo documenta en el área de Chiapas en México, Nicaragua, El Salvador
y Costa Rica». Nosotros sabemos que esta construcción también se puede registrar en Yucatán,
México (comunicación personal con Fidencio Briceño Chel, investigador del INAH de Yucatán).
394 Beatriz Arias Álvarez y Juan Antonio Hernández Mendoza
El segundo caso (1b) es una denuncia (registro formal) en la que fray Pedro de
Noriega en 1578 se queja del gobernador y corregidor de la provincia de Yucatán.
No se conoce el origen dialectal del fraile.
De lo anterior podemos advertir las siguientes cuestiones:
– Los casos pertenecen a un tipo de registro formal, al igual que lo que sucede
con Bernal Díaz del Castillo, pero no es lo que pasa con el ejemplo de Frago,
ya este se encuentra en una carta personal.
– El autor de nuestro primer ejemplo es de origen sevillano, al igual que Bernal
y el escribiente del ejemplo que ofrece Frago. El del segundo es de origen
desconocido, que bien podría ser andaluz.
– Nuestros casos fueron escritos en la zona en la que es frecuente hoy en día
este fenómeno.
De todo lo cual se puede deducir que bien puede ser un componente gramatical
andaluz traído a América y que era empleado en cualquier registro, es decir era un
rasgo dialectal; sin embargo, no nos atrevemos a afirmar que su uso actual tenga
una raíz andaluza, ya que hay una interrogante: ¿por qué en otras regiones
americanas o, en nuestro caso, otras zonas de la Nueva España no se utiliza esta
construcción? A nuestro modo de entender creemos que pueden existir otras causas
que originen o coadyuven a la presencia de este fenómeno en dichas áreas.10
Este tipo de construcciones fue común en la Edad Media, ya desde el siglo XIII era
empleada en la obra alfonsí.11 Nosotros la hemos podido registrar en documentos
5a. los cuales escrivanos dan provanças y testimonios como las a menester el dicho tiniente
(español, 1520)
5b. los cuales santos bendió mi padre (sefardita, 1597)
Dos anotaciones son importantes con respecto a esta estructura: por una parte, se
puede encontrar en textos formales y semiformales de carácter jurídico: cartas de
privilegio, de petición, de licencia, de relación, declaraciones, testimonios, testa-
mentos y cédulas. Esto nos ha llevado a pensar que tiene relación con la variedad
documental que se escribe. Así, al remontarnos a sus orígenes, Bassols advierte
que en el latín «con bastante frecuencia el antecedente del relativo vuelve a
repetirse en forma pleonástica dentro de la misma oración de relativo, […] va
cayendo en desuso en el lenguaje literario, pero en el habla popular del latín
decadente así como entre los juristas sigue usándose con bastante frecuencia […]»
y más adelante apunta que «en castellano se admiten también estos giros, pero son
privativos de <el cual> y se deben a la influencia latina» (1987, 240–241). Por otra
parte, podría llamar la atención que algunos de los manuscritos fueron escritos por
indígenas principales. Sin embargo, dada la importancia educativa que tuvo el
colegio de Tlatelolco para estos durante el siglo XVI, no es de extrañar que en
documentos de carácter jurídico emplearan construcciones con influencia latina.12
Ahora bien, esta estructura no se encuentra, como es de suponer, en el
registro informal, y no tiene relación con los rasgos dialectales del escribiente,
Al igual que Álvarez Nazario (1982, 111) en documentos de Puerto Rico del
siglo XVI, hemos podido registrar la forma dende:14
6. después que ya estén seguros ansí como dende a un año y más, dígaseles de parte de
Vuestra Alteza como son obligados a servirle con cierto tributo (s/f)
Lo anterior puede indicar que, si bien era una forma empleada más en los registros
formales (al menos así lo indican los datos), también podía aparecer en registros
informales. Lo que sí podemos señalar es que no era una forma, como la construc-
ción anterior, cuyo uso se limitara a la lengua escrita y parece ser que es común en
varios dialectos del español e incluso en algunas lenguas como el gallego.15
La presencia en el habla rústica puede deberse a un desplazamiento de la
forma dende por desde que no llegó ni a todos los sociolectos ni a todos los
dialectos, ya que emanó de los centros de cultura, en nuestro caso de la ciudad de
México, y no llega a las zonas más apartadas.16
13 Con base en Koch y Oesterreicher (2007) podríamos afirmar que los documentos jurídicos se
encuentran en el polo de la distancia comunicativa.
14 Esta forma se registra en el siglo XIII sobre todo en fueros, cartas privilegio, etc., y en obras
de Alfonso X como el Lapidario, el Libro de la cruces o el Setenario.
15 Al menos en nuestros documentos la hemos encontrado en escribientes de Burgos, Andalu-
cía, Extremadura y sefarditas.
16 Creemos que el estudio de esta forma debe realizarse a través de todo el periodo colonial para
poder ofrecer una explicación con más fundamento.
Argumentos dialectológicos y sociolingüísticos que ayudan a la caracterización 397
8. Otrossi establescio que assi omne como mugier que con su comadre o con su compadre
casasse desde que el ninno tienen a la puerta que nol quieren babtizar; que se partan
uno dotro.
9b. Mi comadre Lucía de Alcalá besa a Vuestras Mercedes las manos (mulata, 1594)
9c. Mi comadre Veatriz Muñoz y su hijo y nuera/ de v.m., mi señora, vesa manos y a mi
compadre Agustín Gutiérrez (mulata, 1594)
10. de bueno que soi azen todos bulra de mí; como mi compadre lo a echo de mí (hombre,
1569)
11. y es que siendo compadre, teniendo sobre la pila una criatura para rescibir el agua del
baustismo le bolvió las espaldas a el clérigo (español, 1566)
17 Tampoco Frago las registra en su estudio sobre la historia del español de América (1999).
398 Beatriz Arias Álvarez y Juan Antonio Hernández Mendoza
4 Conclusiones
A través del análisis de las estructuras y de los vocablos seleccionados hemos
podido advertir que en los procesos de pérdida, transformación y normalización
de los elementos lingüísticos intervienen muchos factores, los cuales tienen que
ver con los subsistemas del escribiente y con los tipos de enunciación que se
realicen. No podemos dejar de mencionar que el COREECOM ofrece una serie de
herramientas muy útiles para poder conocer tanto los subsistemas que posee el
escribiente como la compleja variedad de la enunciación, pero sería demasiado
pretencioso decir que con sólo estas herramientas se pueden explicar los fenóme-
nos que puedan registrarse; para ello creemos que es necesario hacer uso de la
sociofilología y la antropología lingüística, es decir, conocer los aspectos no sólo
dialectales sino también socioculturales que, en nuestro caso, enmarcan el es-
pañol colonial mexicano.
5 Bibliografía
Álvarez Nazario, Manuel, Orígenes y desarrollo del español en Puerto Rico (Siglos XVI y XVII),
Puerto Rico, Universidad de Puerto Rico, 1982.
Álvarez Nazario, Manuel, El habla campesina del País. Orígenes y desarrollo del español en
Puerto Rico, Puerto Rico, Universidad de Puerto Rico, 1990.
Arias Álvarez, Beatriz, El español de México en el siglo XVI (Estudio Filológico de quince
documentos), México, UNAM, 1997.
Arias Álvarez, Beatriz, Confección de un corpus para conocer el origen, la evolución y la
consolidación del español en la Nueva España, in: Enrique-Arias, Andrés (ed.), Diacronía de
18 Aunque no hay duda de que el compadrazgo es un ritual que viene de España, en América y,
por lo tanto, en México, adquiere un aspecto singular. En un principio el padrino era un español
que velaba para que su ahijado no se desviara de la fe católica. Para algunos autores, como lo
hace Zalazar (2009) para el Paraguay (y lo mismo sucedió en México), el compadrazgo viene a
suplir o complementar ritos prehispánicos. Originalmente se utilizó según Gascón (2005, citado
por Zalazar) «para establecer relaciones verticales entre conquistadores e indios infieles, pero
más allá de esto, sirvió para crear lazos de parentesco entre ello». Posteriormente, ya durante el
desarrollo de la Colonia, «la gente se adueñó de la institución y le dio una utilidad secular, se
establecieron nuevas relaciones, entre compadres, que pasó a ser más fuerte que entre padrino y
ahijado» (Mintz / Wolf 1995 citado por Salazar). Prueba de ello es que en México hay un día
especial para celebrar al compadre y a la comadre (el tercer domingo de marzo).
Argumentos dialectológicos y sociolingüísticos que ayudan a la caracterización 399
Argt Boliv Colm C. Chile Cuba Ecdr Guat Mxco Perú P. Rep. Total
Rica Rico Dom.
No es desdeñable que, frente a esta cifra total de 557, para las mismas fechas en
España haya cerca de 7 mil documentos, distribuidos entre textos de diferente
temática como historia, derecho, arte, prosa narrativa, religión, ciencias aplica-
das, ciencias exactas, físicas y naturales, ciencias sociales, verso, etc.
Además, dado que la administración empezó a funcionar bien desde muy
pronto en América, tenemos textos administrativos, notariales, ordenamientos,
etc., y no tanto textos literarios, personales o históricos, como acabamos de ver:
4 Entre 1551 y 1575 hay de Argentina 6 documentos notariales; 12 de Bolivia también notariales;
de Chile 10 notariales; de Colombia uno hagiográfico; de Costa Rica 33 notariales; 1 notarial de
Ecuador; 58 de México entre notariales, históricos y tres religiosos en verso dramático breve; 51
de Perú, entre un texto de 1568–1570, Anónimo, Visita de los valles de Sonqo en los yunka de coca
de la Paz, dos notariales, 45 de ordenamientos y códigos legales, una relación y dos textos
historiográficos; 5 de República Dominicana, notariales.
5 Entre 1576 y 1599, 18 documentos notariales e históricos de Argentina; 32 documentos bolivia-
nos notariales; en Chile 11 notariales y uno de poesía épica; de Colombia, 2 textos literarios; de
Costa Rica hay 26 notariales; en Ecuador hay 1 notarial y otro social; en México 29 documentos
que se reparten entre notariales, históricos, uno literario y otros religiosos; para Perú hay 75
documentos, repartidos entre notariales e históricos fundamentalmente; 4 documentos históricos
para Puerto Rico; y, finalmente, de la República Dominicana hay 4 notariales y un entremés.
404 Marta Fernández Alcaide
Este inconveniente guarda relación también con otro más subsanable: los estu-
diosos han preferido buscar lo americano en textos coloquiales; ahora bien, como
señala Sánchez Méndez:
Creo que es necesario, por tanto, considerar documento hispanoamericano todo aquello que
nos ayude a inferir, analizar, conocer y comprender tanto directa como indirectamente la
evolución lingüística de las hablas americanas o de sus aspectos concretos, independiente-
mente del lugar donde se genera o de la persona que redacta o dicta (Sánchez Méndez 2012,
285).
6 Recientemente Greusslich (2012) vuelve a describir estos tipos de texto como acercamiento
previo a las Décadas, aunque él discute la mescolanza de tradiciones discursivas y la existencia
de tipos de textos bivalentes, idea con la que discrepamos: precisamente en los orígenes del
español de América los textos son aprovechados para distintos fines, se superponen diferentes
funciones e incluso quedan diluidos el plano de lo público y el plano de lo privado. Una muestra
de ello, no la única, son las cartas entre particulares (Fernández Alcaide 2009).
7 Obediente (2012, 273) presenta un listado con los distintos tipos de textos de la colección de
textos venezolanos (Obediente 2003): cartas de dote, conciertos, documentos de compraventa y
traspaso, documentos relativos a encomiendas, informaciones, donaciones, cartas particulares,
informaciones de visitas, obligaciones, poderes, solicitud de mercedes y licencias, testamentos y
codicilos, juicios. Sánchez Méndez hace una reseña (2012, 288–292) de qué tipos de textos
deberían incluirse en un corpus diacrónico americano y, aunque no es un listado exhaustivo, nos
interesa reproducir aquí las sugerencias que plantea: testamento, declaración de testigos, testi-
Manifestaciones de la variación del español colonial 405
Cruzada con esta clasificación se encuentra la indicación de fuentes que nos sitúan
en el marco de la inmediatez comunicativa, entendida en gradación, en un conti-
nuo con la distancia: la inmediatez iría marcada por textos en un lenguaje com-
prensible por todos acerca de temas cotidianos o personales, se iría distanciando a
medida que los textos fueran más especializados o ya científicos y de temas menos
individuales o ya universales, de forma que llegaría el culmen de la distancia
comunicativa cuando el texto fuera científico y tratara temas universales (Oeste-
rreicher 2004, 738–739). A continuación propone situaciones comunicativas don-
de la inmediatez comunicativa puede producirse: competencia escrita de impronta
oral, escrituras de personas bilingües, transcripción de testimonios y lengua de la
monio, pragmática real, auto, carta privada, carta eclesiástica, carta regia, pieza teatral, poema,
tratado religioso, tratado científico.
406 Marta Fernández Alcaide
12 (9 %) 27 (20 %) 97 (71 %)
4 (5 %) 13 (16 %) 63 (79 %)
a. el dia que yo le enbie a llamar que aquel dia tubiera yo bna calentura de cuatro dias
(3, 10)
b. abnques berdan que yo no le enbiava yo a llamar a el sino a mi hijo mateo ruyz (3,12)
c. para que sentienda cuan mal onbre es yo juro ansi dios me llebe a ojos de quien me
desea ver (3, 14)
9 Cf. Enríquez Carrasco (1984), García Salido (2013), Llorente / Mondéjar (1974), Luján (1999),
Peskova (2015), etc.
Manifestaciones de la variación del español colonial 409
d. ¿en que juyzio de crystiano puede caber q […] yo no me bendiera y menpeñara y enbiara
en alguna cantidad (3, 24)
e. ¿de cuándo acá soy yo corto…? (4, 1)
f. adonde tanta obligazion yo tengo de enbiar la sangre del brazo (4, 3)
g. yo juro a nuestra sª de la conzezion que me a jugado y destruydo depues que aqui vino
mas de cuatro mill ducados (4, 4)
h. todo cuanto yo saco mi cuadrylla y lo que mas el pudo hallas prestado entre mis
amygos todo lo trugo y tomo (4, 15)
i. y ansi yo cay en mui gran falta (4, 19)
j. me mando […] que para lo que yo pretendia quera bn buen repartimiento para mateo
ruyz u para otro hijo no tenia yo nezesidad de salir de mi casa (4, 22–24)
k. terna de comer en esta jornada que aora se haze y yo le doy serbizio (4, 29)
(2) Ejemplos de la primera parte en primera persona del singular sin sujeto
explícito:
(3) Ejemplos de la segunda parte en primera persona del singular con sujeto
explícito:
(4) Ejemplos de la segunda parte en primera persona del singular sin sujeto
explícito:
(5) porque ydo yo con el favor de dios no digan zesta ballesta (6, 24)
(6) y confio en dios de ver yo la suya antes (8, 1)
(7) que mi señor gobernador me avie hcho md de me nombrar por capitan xeneral (4, 7)
De todos modos, entendemos que estas construcciones aisladas del conjunto del
texto no se aprecian plenamente. Esperamos a ver la sintaxis para completar la
información y el análisis aquí presentados.
Manifestaciones de la variación del español colonial 411
Parece más oportuno en este caso más que presentar un ejemplo aislado, observar
un fragmento más amplio que nos permita comprobar esa segmentación. Se
analizarán tres que resultan especialmente interesantes para ver este rasgo. Son
tres cortes en la segunda parte de la carta: el principio, el medio y el final del
párrafo. Ya se comentó anteriormente que en este párrafo había abundante
frecuencia de la primera persona del singular, pero en las formas verbales más
que en los pronombres de sujeto:
(9) quien lleba esta hasta cartajena es un/5 gran señor y amigo mio que se dize fraco varco/6 y
no se si yra a españa si el fuere el llebara el/7 oro que el me quisiere prestar y si se queda/8
re lo dara a mi s capitan gª de barrionue/9 vo que el lo llebara y si no fuere el s capitan/10
gª de barrionuebo el s franco barco lo dara/11 a persona que lo llebe y enbiara dentro de
este/12 pliego el rezibo porque yo no se la zertydunbre/13 de la cantidad que sera mas que
senbiara/14 y mi voluntad se reziba qs muy buena esta/15 a sido entrañable del corazon y
quien tiene/16 la culpa y a sido la cabsa se lo demande dios y/17 no se lo perdone que yo
no se lo perdono ny se/18 lo perdonare pues asi bolvio las espaldas/19 a dios y a su madre
y hsº aviendolos dejado/20 en el estremo y estado que los dejo digo pues/21 que la
cantidad que rezibieren no se conpre/22 eredad ninguna sino mateo ruyz los tray/23 ga
entremanos en un trato de puercos u de/24 otra cosa que les parezere (5, 5–25)
En este primer fragmento, son llamativas las numerosas repeticiones tanto desde
el punto de vista léxico como desde el punto de vista sintáctico en las líneas 5 a 14,
aludiendo al envío de dinero. A partir de la línea 15, cambia ligeramente la idea:
(9.a) y mi voluntad se reziba qs muy buena esta a sido entrañable del corazon,
donde vemos que se unen las dos oraciones por yuxtaposición y se repite la
referencia al sujeto (mi voluntad, esta), en lugar de haber dejado explícita la
412 Marta Fernández Alcaide
Ahora bien, su repetición pronominal permite entenderlo, más que como una
«falta», como una construcción segmentada. El párrafo continúa con otra oración
coordinada, la segunda ya, en la que surge una causal de la enunciación:
No explica por qué le ordena que no lo perdone, lo hará después con la causal del
enunciado:
(9.d) pues asi bolvio las espaldas a dios y a su madre y hsº […] que los dejo,
(9.e) digo pues que la cantidad que rezibieren no se conpre eredad ninguna […] de otra cosa
que les parezere,
(10) y porques/32 te bellaco no goze en mi bida desta ha/33 zienda pues yo tengo otros
cuatro/34 hijos mas onbres de bien que no el/35 estoy determynado de traer/36 [5] my
casa y famylya aquí (5, 32–36) […] ansi que en lo que digo/31 de traer el dinero entre
manos para/32 quando lo quisieren sacar se saque/33 porque no hare otra cosa por
todo/34 el resto del mundo porq este/35 [6] ladron no lleve lo que no es suyo en mys dias
pues/1 tengo otros hijos y quiero que lo que dios me/2 diere lo gozen ellos myentras
dios me diere by/3 da (6, 31–35 y 7, 1–3)
(10.a) que la cantidad que rezibieren no se conpre eredad ninguna sino mateo ruyz los
trayga entremanos en un trato de puercos u de otra cosa que les parezere
(10.b) en lo que digo de traer el dinero entre manos para quando lo quisieren sacar se
saque.
Se trata, por tanto, de una repetición parcial que enlaza las dos partes del párrafo.
Tras la relativa sustantivada se incrusta una final–temporal con para cuando y
solo entonces encontramos la principal de la final–temporal, que al mismo
tiempo es la principal de la relativa sustantivada y, por tanto, la oración consecu-
tiva que había sido introducida por ansi que. A continuación se acumulan dos
oraciones introducidas por porque, la primera de las cuales parece ser una causal
de la enunciación de lo anterior, mientras la segunda es final:
(10.c) porque no hare otra cosa por todo el resto del mundo porq este ladron no lleve lo que
no es suyo en mys dias.
Sigue otra causal, esta vez con pues, donde se coordinan mediante copulativa dos
oraciones. La segunda de ellas resulta más compleja, pues incluye una subordi-
nada sustantiva de CD introducida por que, en la que además aparece una relativa
sustantivada en función de CD antepuesta por el énfasis que se le otorga, por lo
que se repite su referente con un pronombre átono anafórico y acaba con una
temporal de mientras:
414 Marta Fernández Alcaide
(10.d) pues tengo otros hijos y quiero que lo que dios me diere lo gozen ellos myentras dios
me diere byda.
(11) y juro a dios y a esta + que acabo de tres/14 meses depues de casado que me echo perso/15
nas que me dijesen que hiziese dexazion/16 de los yndios y los pusiese en su cabeza y
q/17 yo me fuese y me biniese a misa y quel me darya/18 de comer ladron le dije yo depues
de muer/19 to no lo hare yo y por vida de todo lo que/20 puedo jurar que abque yo baya a
españa/21 por mi casa que no a de quedar en la ha/22 zienda sino dejare vna persona que
sea/23 tal que este en ella y le de a el lo que di/24 xere la justizia que sea justo cada vn/25
año que coma ya le tengo rebocado el poder/26 para quen cosa mya no entre ni salga/27
porque no puedo yo conparallo a onbre desa/28 tierra y plubiera a dios y fuera onbre
de/29 bien que yo le diera y partiera con el de to/30 do lo que dios me diera y por no
meterme/31 mas en colora no digo mas en este arti/32 culo que tenia que dezir daqui a bn
a/33 ño de sus maldades y enbustes y mentiras/34 y marañas y juro a dios que me an
zertifica/35 do que me desea la muerte y lo a dcho/36 [7] a personas fedidios y confio en
dios de ver yo/1 la suya antes y de todo cuanto dijere y hi/2 ziere con este mal onbre tengo
mcha razon pues/3 no me aviso de como quedaba su madre y her/4 manos en la
nezesidad que los dejo (7, 14–36 y 8, 1–5)
(11.b) y por vida de todo lo que puedo jurar que abque yo baya a españa por mi casa que no
a de quedar en la hazienda sino dejare vna persona que sea tal que este en ella y le de
a el lo que dixere la justizia que sea justo cada vn año que coma.
(11.c) ya le tengo rebocado el poder para quen cosa mya no entre ni salga porque no puedo
yo conparallo a onbre desa tierra.
Más dudosa es, con todo, la coordinación que se abre a continuación, pues se
aleja del tema tratado inmediatamente antes, si bien parece estar en consonancia
con la justificación de la enunciación previa, luego podríamos pensar que se
coordina a la primera causal de la enunciación. Se abre con dos imperfectos de
subjuntivo desiderativos coordinados tras los cuales aparece que con otros dos
imperfectos de subjuntivo de difícil análisis (enlace de una subordinada sustanti-
va de sujeto dependiente del primer verbo, no del segundo, plubiera, o consecu-
tiva de los dos verbos desiderativos, o causal de la enunciación de su deseo
expresado como improbable) y en esa oración un relativo sustantivado parece
funcionar de partitivo:
(11.d) y plubiera a dios y fuera onbre de bien que yo le diera y partiera con el de todo lo que
dios me diera.
416 Marta Fernández Alcaide
(11.e) y por no meterme mas en colora no digo mas en este articulo que tenia que dezir
daqui a bn año de sus maldades y enbustes y mentiras y marañas
Es otra vez y el nexo que enlaza la nueva oración que, por otro lado, repite el
juramento que iniciaba el párrafo acerca del mal comportamiento de su hijo. Se
sigue, pues, una subordinada sustantiva de CD con que, dentro de la cual se
produce otra subordinada sustantiva de CD, coordinada con y a otra:
(11.f) y juro a dios que me an zertificado que me desea la muerte y lo a dcho a personas
fedidios.
Continúa una nueva coordinación copulativa, parece que esta vez poniendo en
relación con el juro anterior, precisamente por compartir la forma de primera
persona del singular, pero más bien parece contraponerse a lo expresado allí, por
lo tanto es una y con valor adversativo: este empleo de un nexo de sentido más
amplio con valores que no le son propios es otro rasgo de la inmediatez comuni-
cativa que se viene observando en el texto.
(11.h) y de todo cuanto dijere y hiziere con este mal onbre tengo mcha razon pues no me
aviso de como quedaba su madre y hermanos en la nezesidad que los dejo
(12) si el me dixera por semexas en la nezesidad que dexaba a su madre y hsº (3, 21)
(13) aora averme hcho una perdida en una cuyuntura que mi señor gobernador me avie
hcho md de me nonbrar por capitan xeneral para las conquistas del guazuze y unas
baymar y trango y otras tres probinzias (4, 7)
(14) con cargo q me digan cada viernes vna misa de pasion en todo un año con un responso
cantado q dandome dios vida yo lo acrezentare (9, 13)
(15) no me dijo ni dio a entender de nezesidad ni que tubiesen sino buena pasadia y que abie
conprado muchas biñas y muchas tierras y que pasaban la bida muy a su gusto (3, 16–19)
(16) me mando como lo veran por esa carta suya que dejase la jornada y que para lo que yo
pretendia quera bn buen repartimiento para mateo ruyz u para otro hijo no tenia yo
nezesidad de salir de mi casa y ansi la dexe y sencarga della el capitan dgº morgado bn
grande señor y amigo mio (4, 20–26)
(17) y la misa a de ser rezada y el viernes q fuere fiesta se diga el miercoles de la mysma
semana y el responso de no recorderys (9, 15–17)
Más complejos y, por lo tanto, más discutibles también, son los casos siguientes.
El primero tiene la estructura y la forma de una adverbial final, introducida por
para que, con un verbo en subjuntivo; sin embargo, no guarda relación directa
con lo que le sigue, es decir, lo expresado en ella indudablemente no es la
finalidad de lo posterior. Parece, en cambio, una final de la enunciación, una
expresión indirecta que enmarca lo que sigue y justifica el juramento realizado:
(20) que para que sentienda cual mal onbre es yo juro ansi dios me llebe a ojos de quien me
desea ver queste fue unobre depues de benido a mi casa que no me dijo ni dio a
entender de nezesidad ni que tubiesen sino buena pasadia (3, 14)
En este otro caso sucede algo similar pero esta vez con una causal, introducida
por que, con un verbo en –ra con valor de pluscuamperfecto de subjuntivo,
haciendo de la causal una irrealidad y, por lo tanto, algo meramente justificativo
del imperativo antes expresado:
(21) y no deje el estudio gaspar rsº que si el bellaco ladron de su hº me dijera lo q pasaba yo
le ayudara para su estudio (9, 26–28)
11 Solo decimos probablemente porque es lo que parece inferirse del contexto, pero lamentable-
mente carecemos de la carta previa donde estaría escrito.
Manifestaciones de la variación del español colonial 419
3 Conclusión
Volviendo al punto de partida, queda resolver la cuestión de cómo se podría
contribuir al estudio de la historia del español desde la perspectiva variacional
con análisis de este tipo. Sin duda el primer paso debería ser la consideración
del pluricentrismo de la norma hispánica, dado que en esta época inicial del
español en América no se había producido la estandarización, de modo que la
descripción de los usos lingüísticos no se haga por negación frente a ningún
estándar sino atendiendo a sus propias características. Por eso sorprende, por
ejemplo, la afirmación de algunos estudiosos del español de que los imperfectos
420 Marta Fernández Alcaide
4 Bibliografía
Bustos Tovar, José Jesús de, La imbricación de la oralidad en la escritura como técnica del
discurso narrativo, in: Kotschi, Thomas/Oesterreicher, Wulf/Zimmermann, Klaus (edd.), El
español hablado y la cultura oral en España e Hispanoamérica, Madrid, Vervuert/Iberoame-
ricana, 1996, 359–374.
Bustos Tovar, José Jesús de, De la oralidad a la escritura en la transición de la Edad Media al
Renacimiento: la textualización del diálogo conversacional, Criticón (2001), 191–206.
Cano Aguilar, Rafael, Lenguaje «espontáneo» y retórica epistolar en cartas de emigrantes
espanoles a Indias, in: Kotschi, Thomas/Oesterreicher, Wulf/Zimmermann, Klaus (edd.), El
español hablado y la cultura oral en España e Hispanoamérica, Frankfurt am Main/Madrid,
Vervuert/Iberoamericana, 1996, 375–404.
Cano Aguilar, Rafael, Presencia de lo oral en lo escrito: la transcripción de las declaraciones en
documentos indianos del siglo XVI, in: Oesterreicher, Wulf/Stoll, Eva/Andreas Wesch (edd.),
Competencia escrita, tradiciones discursivas y variedades lingüísticas: aspectos del es-
pañol europeo y americano en los siglos XVI y XVII, Tübingen, Gunter Narr, 1998a, 219–242.
Cano Aguilar, Rafael, De nuevo sobre oralidad e historia de la lengua: el caso de Guzmán de
Alfarache, in: Cortés Rodríguez, Luis María (coord.), Discurso y oralidad: homenaje al
profesor José Jesús de Bustos Tovar, vol. 1, Madrid, Arco/Libros, 2007, 41–64.
Cano Aguilar, Rafael, La sintaxis de los documentos primitivos: interacción oral y convenciona-
lismo discursivo, in: Díez Calleja, Beatriz (coord.), El primitivo romance hispánico, Burgos,
Fundación Instituto Castellano y Leonés de la Lengua, 2008, 397–406.
Company, Concepción, Documentos lingüísticos de la Nueva España, México, UNAM, 1994.
Diez del Corral Areta, Elena, La problemática de las tradiciones textuales en el estudio lingüístico
del documento indiano, in: Torrens Álvarez, María Jesús/Sánchez-Prieto Borja, Pedro (edd.),
Nuevas perspectivas para la edición y el estudio de documentos hispánicos antiguos,
vol. 12, Bern, Peter Lang, 2012, 323–333.
Eberenz, Rolf, Huellas de la oralidad en textos de los siglos XV y XVI, in: Bustos Tovar, José Jesús
(coord.), Textualización y oralidad, Madrid, Instituto Universitario Menéndez Pidal/Visor,
2003a, 63–83.
Eberenz, Rolf, En busca de la palabra viva: sobre la representación de la lengua hablada en las
Actas de la Inquisición, in: Carrasco Cantos, Inés (coord.), El mundo como escritura:
estudios sobre Cervantes y su época, Málaga, Universidad de Málaga, 2003, 59–78.
Eberenz, Rolf y Mariela de la Torre, Conversaciones estrechamente vigiladas: interacción coloquial
y español oral en las actas inquisitoriales de los siglos XV a XVII, Zaragoza, Pórtico, 2003.
Enríquez Carrasco, Emilia Victoria, El pronombre personal sujeto en la lengua española hablada
en Madrid, Madrid, Consejo Superior de Investigaciones Científicas, Instituto Miguel de
Cervantes, 1984.
Escandell, M. Victoria, Introducción a la Pragmática, Barcelona, Ariel, 2010.
Fernández Alcaide, Marta, Cartas de particulares en Indias del siglo XVI. Edición y estudio
discursivo, CDRom, Madrid/Frankfurt am Main, Iberoamericana/Vervuert, 2009.
Fontanella de Weinberg, Beatriz (comp.), Documentos para la historia lingüística de Hispano-
américa, siglos XVI a XVIII, Anejo LIII del Boletín de la Real Academia Española, vol. 1,
Madrid, RAE, 1993.
Fuentes Rodríguez, Catalina, Diccionario de conectores y operadores del español, Madrid, Arco /
Libros, 2009.
422 Marta Fernández Alcaide
García Salido, Marcos, La expresión pronominal de sujeto y objetos en español: Estudio con
datos conversacionales, Verba, Anexo 70, Santiago de Compostela, Servicio de Publicacio-
nes de la Universidad de Santiago de Compostela, 2013.
Girón Alconchel, José Luis, Cambios gramaticales en los Siglos de Oro, in: Cano, Rafael (coord.),
Historia de la lengua española, Barcelona, Ariel, 2004, 859–894.
Guzmán Riverón, Martha, Tradiciones discursivas e historia de la lengua española en América,
in: Fernández Alcaide, Marta/Araceli López, Serena (edd.), Cuatrocientos años de la lengua
del Quijote: estudios de historiografía e historia de la lengua española, Sevilla, Universi-
dad, 2007, 79–88.
Guzmán Riverón, Martha, Tradiciones discursivas en textos coloniales del Caribe: características,
origen y evoluciones, in: Company Company, Concepción/Moreno de Alba, José G. (edd.),
Actas del VII Congreso Internacional de Historia de la Lengua Española, vol. 2, Madrid,
Gredos, 2008, 1851–1868.
Granda, Germán de (1994): Español de América, español de África y hablas criollas hispánicas,
Madrid: Gredos.
Greusslich, Sebastian, Text, Autor und Wissen in der «historiografía indiana» der Frühen Neuzeit.
Die Décadas von Antonio de Herrera y Tordesillas, Berlín/Boston, de Gruyter, 2012.
Kabatek, Johannes, ¿Es posible una lingüística histórica basada en un corpus representativo?,
Iberoromania 77 (2013), 8–28.
Llorente, Antonio/Mondéjar, José, La conjugación objetiva en español, RSEL 4/1, (1974), 1–60.
Lüdtke, Jens, Los orígenes de la lengua española en América. Los primeros cambios en las Islas
Canarias, las Antillas y Castilla del Oro, Madrid/Frankfurt am Main, Iberoamericana/Ver-
vuert, 2014.
Luján, Marta, Expresión y omisión del pronombre personal, in: Bosque, Ignacio/Demonte, Violeta
(coords.), Gramática descriptiva de la lengua española, vol. 2, Madrid, Espasa Calpe, 1999,
1277–1311.
Obediente Sosa, Enrique, Documentos para la Historia Lingüística de Mérida (Venezuela) –
(Siglos XVI–XVII), 2003, http://www.linguisticahispanica.org/corpus/docs-coloniales/.
Obediente Sosa, Enrique, El documento americano: problemas de definición y de edición, in:
Torrens Álvarez, María Jesús/Sánchez-Prieto Borja, Pedro (edd.), Nuevas perspectivas para
la edición y el estudio de documentos hispánicos antiguos, vol. 12, Bern, Peter Lang, 2012,
270–281.
Pountain, Christopher John, Towards a history of register in Spanish, Spanish in Context 3:1
(2006), 5–24.
RAE-ASELE, Nueva gramática de la lengua española, Madrid, Espasa Calpe, 2009.
Ramírez Luengo, José Luis, Edición de documentos americanos: problemas, métodos y aspectos
específicos. Introducción, in: Torrens Álvarez, María Jesús/Sánchez-Prieto Borja, Pedro
(edd.), Nuevas perspectivas para la edición y el estudio de documentos hispánicos anti-
guos, vol. 12, Bern, Peter Lang, 2012, 255–259.
Sánchez Méndez, Juan Pedro, Aspectos para la elaboración de un corpus diacrónico de docu-
mentos hispanoamericanos, in: Torrens Álvarez, María Jesús/Sánchez-Prieto Borja, Pedro
(edd.), Nuevas perspectivas para la edición y el estudio de documentos hispánicos anti-
guos, vol. 12, Bern, Peter Lang, 2012, 282–296.
Searle, John R. Actos de habla: ensayo de filosofía del lenguaje, Madrid, Cátedra, 1969.
Toribio Medina, José, Historia de la imprenta en los antiguos dominios españoles de América y
Oceanía, vol. 1, Santiago de Chile, Fondo histórico y bibliográfico José Toribio Medina de la
Biblioteca Nacional, 1958.
Manifestaciones de la variación del español colonial 423
Torrens Álvarez, María Jesús/Sánchez-Prieto Borja, Pedro (edd.), Nuevas perspectivas para la
edición y el estudio de documentos hispánicos antiguos, vol. 12, Bern, Peter Lang, 2012.
Wesch, Andreas, Hacia una tipología lingüística de los textos administrativos y jurídicos es-
pañoles (siglos XV–XVII), in: Oesterreicher, Wolf/Stoll, Eva/Wesch, Andreas (edd.), Compe-
tencia escrita, tradiciones discursivas y variedades lingüísticas, Tubingen, Gunter Narr
Verlag, 1998, 187–218.
Olivier Iglesias
«Se le quedó mirando»: la atracción
de clíticos en un corpus de idiolectos
(s. XIX–XXI)
1 Introducción
1.1 Precedentes
Bien es sabido que en español es posible decir y escribir tanto puedo decirlo como
lo puedo decir. Este fenómeno, que se suele llamar «subida de clíticos»,1 ha
interesado a muchos hispanistas estos últimos años, porque se trata de un
fenómeno de variación importante a priori anti-económico.
En efecto, en la mayoría de los casos, los estudios sobre este tema intentan
buscar los contextos que impiden o frenan la subida del clítico e intentan
también demostrar que hay diferencias pragmáticas,2 sociales3 o incluso semán-
ticas.4 Es decir, la gran mayoría de los estudios parecen basarse en un axioma
según el que cada forma lingüística tendría una función. Es lo que Barra-Jover
(2009) llama (y critica) el axioma de «dos formas, dos funciones». Según este
axioma, principio clásico del estructuralismo, dos formas diferentes no pueden
tener una misma función por una razón de economía del lenguaje. Además, al
servir de base a muchos estudios sobre la cuestión de la subida de clíticos en
español, obliga al lingüista a encontrar una explicación causal a todo cambio
5 Iglesias (2012, 204): «Enfin, il me semble assez clair […] que c’est dans les contextes les moins
simples que l’on peut trouver davantage de règles. En effet, […] les contextes les plus «normaux»,
les plus fréquents, sont bien plus sujets à une variation incontrôlée, les variantes de ces contextes
étant parfaitement invisibles».
426 Olivier Iglesias
sis exhaustivo es mucho más complicado (Iglesias 2015), puesto que se necesita-
rían muchísimas más páginas analizadas para obtener un número correcto de
ejemplos. Por todo ello, en este trabajo se ha decidido elegir algunos CV represen-
tativos del fenómeno y realizar búsquedas automáticas mediante el programa
libre de concordancias TextStat2 de la Universidad Libre de Berlín.10 Los comple-
jos verbales finalmente elegidos son los siguientes: costar, dejar, hacer, parecer,
permitir, atreverse a, decidirse a, limitarse a y ponerse a, todos ellos CV de
infinitivo y quedarse + gerundio.
Además, se ha decidido observar la posición de los clíticos en algunos de los
CV más frecuentes en contextos «simples». Estos CV son los de infinitivo poder,
deber y querer + infinitivo y los CV de gerundio estar e ir + gerundio. De esta
manera, se tendrá una base con la que comparar los resultados.
Finalmente, hay que precisar que se han excluido del análisis los contextos
que presentaban dos clíticos que dependían de V2 por lo que la subida conjunta
(y obligatoria) de ambos clíticos es extremadamente poco probable cuando ya
hay un clítico junto a V1. En efecto, aunque no es imposible encontrar frases con
tres clíticos en español (y más en registros no cuidados), son construcciones muy
poco frecuentes y que hubieran complicado aún más las búsquedas con el
programa TextStat2. De esta manera, el ejemplo en (3) ha quedado excluido del
análisis.
(3) Castelar: —¿Qué pensabas? —Pues apenas me atrevo a decíroslo. —Decidlo, pues.
En cuanto a los idiolectos elegidos, hay que señalar que todos son idiolectos
escritos, y que se han analizado dos por siglo entre el siglo XIX y el siglo XXI. Para
los siglos XIX y XX se han analizado las producciones de 4 escritores españoles y
para el siglo XXI, las producciones de dos jóvenes blogueras españolas, como
queda descrito en la tabla 1.
1.3 Hipótesis
Esto no deja de ser sorprendente si consideramos que para Lamiroy (1999, 35), la
escala de gramaticalización sigue el proceso siguiente:
Verbo léxico > aspecto > modales deónticos > modales epistémicos > tiempo > afijo.
Por lo tanto, cabría esperar que la subida fuera más frecuente con auxiliares
modales que con auxiliares aspectuales al contrario de lo que aparece en el
trabajo de Aijón Oliva y Borrego Nieto. De ahí que nos interroguemos acerca de la
pertinencia de este criterio de gramaticalización a la hora de explicar la posición
de los clíticos en los CV en español.
13 Ibid. «The corpus shows […] clitic climbing is more common in the spoken than in the written
register».
430 Olivier Iglesias
14 A raíz de una pregunta de Johannes Kabatek, al que agradezco por su interés en este asunto,
me gustaría añadir que, si bien se ha intentado, para cada escritor, crear un corpus homogéneo
(en cuanto a género, época de publicación, etc.), eso no ha sido posible en todos los casos, por lo
que se puede dudar de la homogeneidad de los idiolectos a lo largo del tiempo. Es posible que el
sistema de posición de los pronombres se vea modificado dentro de un idiolecto dependiendo del
género o incluso de la época en la que fue escrita. Sin embargo, en Iglesias (2012), al analizar la
posición del clítico en dos obras de Pérez Reverte de género muy diferente (El Capitán Alatriste y
El Club Dumas) he podido comprobar que no existen diferencias y que el sistema de posición del
clítico es uniforme y estable en estas dos obras. Por lo tanto, el género de una obra no parece
influir en este caso, aunque, evidentemente, habría que verificarlo con cada idiolecto; esta tarea
es imposible llevarla a cabo en este artículo. Además, también queda por verificar si a lo largo de
los años, la posición de los clíticos se ve modificada o no.
«Se le quedó mirando»: la atracción de clíticos 431
También podemos observar dos grupos en el corpus: uno con los dos autores del
siglo XIX y otro con los cuatro idiolectos restantes. Esta diferencia nos puede
hacer pensar en una posible evolución diacrónica del fenómeno, ya que estos
resultados parecen indicar que la variante con clítico a la izquierda es más usada
a partir del siglo XX que en el siglo XIX. Esto es lo que observamos también en
grandes corpus electrónicos, pero, evidentemente, esta no es una conclusión
definitiva. El hecho de analizar solo dos idiolectos por siglo impide afirmar
rotundamente que la hipótesis diacrónica queda verificada aquí. Además, cabría
esperar que los dos idiolectos del siglo XXI utilizaran más la subida que los del
siglo XX, lo cual no queda reflejado en la gráfica. Pero esto tampoco nos permite
afirmar que la hipótesis diacrónica quede rechazada.
Lo que nos permiten afirmar claramente estos resultados es que existe una
gran variación inter-idiolectal. Y por eso mismo puede parecer inútil acumular
cientos y cientos de idiolectos en un corpus. En efecto, si pudiéramos hacer una
media de las producciones de todos los idiolectos actuales, es posible que la
subida fuera más frecuente que en las producciones de todos los idiolectos de los
años 50. Sin embargo, esto nunca se podrá verificar, y en todo caso, lo que
permite ver el método idiolectal es que un locutor de los años 50 podía producir
muchos más enunciados con subida de clíticos que un locutor joven de los años
2000. Esa es la diferencia que se observa entre Barea y Sara-g, si observamos la
gráfica 1.
Sin embargo, según algunos trabajos esperaríamos más subida en el idiolecto
de Sara-g por ser joven, usar un registro menos cuidado e incluso por ser una
mujer.17 ¿Estamos aquí frente a situaciones excepcionales o frente a argumentos
que podrían llevarnos a pensar que estas hipótesis pueden no ser ciertas? Este no
es realmente el objetivo de este trabajo, pero esta gráfica por lo menos permite
matizar algunas afirmaciones quizás demasiado drásticas.
17 En cuanto a la posición de los clíticos, Arroyo Hernández (2014) afirma que «en relación
a los factores sociales, cabe afirmar que la subida es más frecuente entre los jóvenes y entre
las mujeres». La misma idea queda reflejada en el trabajo de Gudmestad (2006, 9): «CC was
more frequent among females (82.6 % or 38/46 tokens) than among males (59.5 % or 22/37
tokens)».
«Se le quedó mirando»: la atracción de clíticos 433
Por otro lado, si nos centramos en estos resultados y consideramos que son
representativos de la gramática de cada uno de estos locutores (aunque sea
mínimamente), tenemos dos idiolectos que no parecen favorecer la subida en este
CV: es el caso de Castelar y de Sara-g. Considero que la escasez de ocurrencias no
impide hacer proyecciones en el caso de Castelar. En efecto, con otras construc-
ciones que permiten la atracción tampoco se encuentra esta variante (la subida) y
este idiolecto presenta también los porcentajes más bajos de subida en los CV
simples.18
Ahora bien, evidentemente no afirmo que en el idiolecto de Castelar la subida
del clítico con el CV quedarse + gerundio es imposible, solo afirmo que en su
idiolecto se prefiere claramente la variante con clítico a la derecha. En el caso de
Sara-g, esta tendencia también parece clara y, aunque no estamos ante una regla
sistemática, la preferencia por una de las dos variantes es evidente, lo cual parece
indicar que, en estos dos idiolectos, la subida es una variante claramente mino-
ritaria que podríamos calificar de marcada para ellos, o de visible si utilizamos la
terminología de Barra-Jover (2011) y que define de esta manera:
Empecemos por la caracterización de una variante invisible:
Variante invisible: un mismo locutor puede usar para A la variante a1 y la variante a2 sin
tener consciencia de ello (sin controlar la alternancia), sin que ello dependa de la situación
y sin que el interlocutor pueda ni percibir ni interpretar la existencia de una alternancia. […]
Las variantes visibles serán, en consecuencia, aquellas que los locutores pueden percibir y
pueden, al menos, querer controlar. La percepción puede ir en dos sentidos: una de las
variantes puede ser estigmatizada o, al contrario, considerada como propia de un discurso
elevado (Barra-Jover 2011, 82)
Además, se observan grandes diferencias entre nuestros resultados y los del CDE
(que recogemos en la tabla 2).
3 La gramaticalización de los CV
Interesémonos ahora por la hipótesis según la cual cuanto más gramaticalizado
esté el auxiliar de un CV, más frecuente es la subida.
En el corpus se ha analizado la posición del clítico con tres CV de infinitivo:
poder, deber y querer + infinitivo. Poder y deber son dos verbos auxiliares modales
que pueden tener un valor tanto deóntico como epistémico. Por consiguiente, la
posición del clítico con estos dos CV no debería diferir mucho.19 Al contrario,
querer no es considerado como un auxiliar, Fernández de Castro (1999) no incluye
el CV querer + infinitivo en la categoría de perífrasis verbales (o CV conjuntos).
Cierto es que, como refleja el autor en un apéndice de su obra (Fernández de Castro
1999, 334), varios autores sí consideran querer como auxiliar y, por consiguiente,
la construcción querer + infinitivo como una perífrasis verbal. Es de esperar pues
que haya menos subida con este CV que con los dos anteriores o que, por lo menos,
los porcentajes de subida no sean significativamente diferentes. En efecto, se
podría considerar que un locutor no lingüista que no se interesa por la cuestión de
gramaticalización puede considerar el CV querer + infinitivo como una perífrasis
verbal puesto que muchos lingüistas también lo hacen. En todo caso, las gráficas
4, 5 y 6 parecen indicarnos que el grado de gramaticalización del auxiliar no parece
decisivo a la hora de situar el clítico a la derecha o a la izquierda.20
En efecto, se observa que en 5 de los 6 idiolectos la subida es más frecuente
con querer que con deber y además se observan diferencias importantes entre
poder y los dos otros verbos. El que la hipótesis de la gramaticalización de V1 no
parezca del todo confirmada con estos datos no significa que no desempeñe un
papel esencial en la mayoría de los casos, pues es esperable que cuanto más clara
sea la diferencia de gramaticalización entre dos verbos, por ejemplo poder frente
a pensar, más frecuente será la subida en el primer caso.
19 Un evaluador anónimo sugiere que los porcentajes de subida sí podrían diferir entre estos dos
CV por sus diferencias en cuanto a frecuencia y registro. Es cierto que parece haber una
correlación entre frecuencia de uso de un CV y posición del clítico (a menor frecuencia menor
subida) pero esta queda por demostrar en un estudio dedicado precisamente a esta hipótesis. En
cuanto al registro, al observar producciones escritas de individuos, la homogeneidad en cuanto
al registro es bastante fuerte y no debería influir aquí.
20 Se han separado los idiolectos por siglo para facilitar la lectura de las gráficas y de los valores
absolutos entre paréntesis.
«Se le quedó mirando»: la atracción de clíticos 437
Gráfica 4: Subida del clítico en CV de infinitivo en los dos idiolectos del siglo XIX
Gráfica 5: Subida del clítico en CV de infinitivo en los dos idiolectos del siglo XX
438 Olivier Iglesias
Gráfica 6: Subida del clítico en CV de infinitivo en los dos idiolectos del siglo XXI
Esto queda claro en 5 de los 6 idiolectos puesto que no encontramos ningún caso
de subida con pensar + infinitivo en Navarro (5 ocurrencias con clítico a la dere-
cha), Castelar (0/8), Barea (0/6) y Sender (0/4) y tan solo encontramos un caso (4)
sobre 10 ocurrencias del CV con clítico en el idiolecto de Sara-g. Sin embargo, en
Alba —los ejemplos (5) y (6) son una muestra de las dos variantes— encontramos
3 ejemplos de subida sobre un total de 7 ocurrencias lo cual, de nuevo, y en un
idiolecto, parece matizar la hipótesis de gramaticalización.21
(4) Sara-g: No le soporto, pero no le pienso pegar ahí mismo ni nada por el estilo
(5) Alba: Y que le piensas decir? —Pues contarle todo.
(6) Alba: en cambio te lo tomaste bien y le dijiste que tu pensabas decirle eso,
Así que la gramaticalización de V1 no parece ser del todo decisiva para definir la
posición del clítico en los CV en español. Al contrario, el hecho de que V2 sea un
infinitivo o un gerundio parece ser un factor mucho más determinante.
21 Un evaluador anónimo sugiere que, al encontrar pocos datos en términos absolutos, es difícil
sacar conclusiones y, además, observa una coherencia en el idiolecto de Alba que tiende
presentar tendencias elevadas de subida. Me parece que el hecho de encontrar pocos datos en
este caso no es problemático ya que, al tratarse de un CV tan poco gramaticalizado, no se
deberían encontrar tan fácilmente casos de subida. En cuanto a la coherencia del idiolecto de
Alba, está clara y me parece mostrar que podría incluso ser más importante este factor de
coherencia intra-idiolectal que el del grado de gramaticalización del CV.
«Se le quedó mirando»: la atracción de clíticos 439
Tabla 3: Subida del clítico según la forma de V2, infinitivo o gerundio en contextos simples
Además, para 5 de los 6 idiolectos, se observa una regularidad muy fuerte con
porcentajes de subida muy importantes cuando V2 es un gerundio. Esta cohesión
aparentemente más fuerte de los CV de gerundio con respecto a los de infinitivo
ha sido observada en Iglesias (2012: 253).
La comparación de la posición del clítico en contextos de atracción según
este mismo criterio (V2 infinitivo o gerundio) también parece confirmar esta
tendencia, puesto que para 4 de los 6 idiolectos la probabilidad de que el clítico
suba es mucho más fuerte cuando V2 es un gerundio (en quedarse + gerundio) que
cuando es un infinitivo.
Tabla 4: Subida del clítico según la forma de V2, infinitivo o gerundio en contextos de atracción
22 El test exacto de Fischer revela que la probabilidad para que haya una subida es mucho más
fuerte cuando V2 es un gerundio: el valor de p para los 6 idiolectos es p < 0,0001. Por
consiguiente, a pesar de que en el idiolecto de Sender la subida no sea tan frecuente con el
gerundio como en los otros idiolectos no impide que este factor sea significativo.
440 Olivier Iglesias
Este factor no es significativo para dos de los idiolectos, Castelar que no produce
ningún caso de subida en este contexto y Sara-g (p = 0,5862 en un test exacto de
Fischer), mientras que para los 4 idiolectos restantes, el resultado sí es claramente
significativo (p < 0,0001). Por consiguiente, como ya se ha comentado, la hipó-
tesis de la gramaticalización de V1 queda ligeramente en entredicho con los
resultados de los análisis de este corpus de idiolectos, ya que, además, muestran
una correlación muy importante entre la subida y la forma de V2 (infinitivo o
gerundio).
4 «Atracción» de clíticos
4.1 Con los CV de infinitivo
menos 61.200 resultados como el ejemplo (17), mientras que la expresión «me
puse a pensarlo» da 142.000 resultados, incluido el (18).24
Por consiguiente, con esta simple expresión, nos damos cuenta de que la subida
por atracción de clíticos con el CV ponerse a + infinitivo, aunque no sea la variante
dominante, sí queda ampliamente representada en la red.25 30 % de los casos
totales en la red, lo cual no queda en absoluto reflejado en nuestro corpus, quizás
demasiado literario, puesto que con este CV no obtenemos ningún caso de subida
sobre 19 apariciones del CV.
En general, nuestros datos indican que, a pesar de los pocos ejemplos
encontrados en nuestro corpus, hay una tendencia clara a situar el clítico a la
derecha en los 6 idiolectos cuando V2 es un infinitivo.
(19) Sara-g: Su hermana y su madre se me quedaron mirando muy sonrientes y tan solo
saludé y sonreí.
(20) Sara-g: Lolo se quedó mirándome sin saber que responder y se levantó de la arena
24 Aquí dejamos los enlaces en los que han sido observados estas ocurrencias (consultados el
26/02/2015)
Para (17): http://yelresto.blogspot.fr/2009/02/478-preparo-apunto-y-fuego-3-especial.html
Para (18): http://www.fobiasocial.net/mi-primer-beso-y-acostada-en-la-cama-71077/.
25 Un evaluador anónimo sugiere que no se deberían dar datos cuantitativos de este tipo de
búsquedas en Google por presentar datos tan aleatorios (por los ejemplos repetidos o los números
que no siempre coinciden con los resultados reales, etc.) Estoy totalmente de acuerdo con esta
observación y los números que doy deben ser considerados únicamente como indicios de una
posible tendencia y no pretendo sacar de ellos conclusiones fuertes.
442 Olivier Iglesias
Aunque en estos dos casos no podamos hablar de regla estricta, parece que la
variante preferida en este contexto es la variante con clítico a la derecha.
4.2.2 Navarro
26 Este verbo puede ser explícito como en los ejemplos (23) a (25) o elidido como en los ejemplos
(21) y (22) en el que hay una elipsis del verbo quedar.
«Se le quedó mirando»: la atracción de clíticos 443
4.2.3 Barea
(31) Barea: Nos quedamos mirándolas: Madrid, hambriento, estaba muy cerca de allí.
(32) Barea: Una vez, dejé el lápiz y me quedé mirándola, absorta en lo que leía.
(33) Barea: El muchacho que estaba de turno como censor se quedó mirándola a través de
sus gafas
(34) Barea: El oficial inglés se quedó mirándola con los ojos azules dilatados.
4.2.4 Sender
4.2.5 Alba
Finalmente, el idiolecto de Alba es el que presenta más casos con esta construc-
ción, con 59 casos de subida sobre 83 ocurrencias, lo que corresponde a un 71,1 %
de los casos totales. El hecho de que haya muchos más ejemplos permite, con el
método idiolectal, describir más precisamente la posición del clítico en este
contexto y averiguar de manera más segura si existe una coherencia en este
sistema. A primera vista, con un 71,1 % de casos de subida, la conclusión que
podemos sacar es que hay una preferencia por la subida, pero al haber una
variación bastante importante, podemos prever la presencia de variantes invisi-
bles, como en (37) y (38), dos frases que presentan exactamente el mismo
contexto sintáctico reforzando así la sensación de que estamos ante variantes
totalmente incontroladas.
Lo realmente interesante en este corpus es la posición del clítico lo, que no sube
nunca en 11 ocurrencias. Es significativo que sea el único pronombre con el que
no se produce nunca la subida si comparamos este dato con el porcentaje elevado
global (más del 70 %). Además, representa casi la mitad de los casos en los que
no se producen la subida (11 sobre 24). Por todo ello, parece que en su idiolecto
Alba ha podido interiorizar una regla que impide la subida de un clítico con
referente inanimado o no humano en este contexto preciso.
Esta tendencia también aparece, aunque no de manera tan clara, con el CV poder
+ infinitivo ya que observamos un porcentaje bastante más bajo de subida con lo
que en el porcentaje global (del 55,1 % de subida).29 Con lo, la subida se produce
solo en un 34,8 % de los casos (15/43).
Por consiguiente, el carácter animado o no del referente parece poder influir
en la posición del clítico, algo que ya ha sido demostrado en otros estudios,30
pero esta tendencia es mucho más radical en este contexto preciso, donde no hay
excepción alguna. El número relativamente bajo de ocurrencias debe conducir a
una interpretación prudente, pero de nuevo, en este caso, el análisis de un
idiolecto permite percibir lo que podría considerarse como una regla individual.
5 Conclusiones
5.1 Hipótesis «tradicionales» no verificadas
Para concluir este trabajo, cabe repetir que el límite que supone el análisis de dos
idiolectos por siglo impide llegar a conclusiones definitivas. De hecho, ese no era
su objetivo primero. El interés del método idiolectal radica en que se puede
considerar que analizando un número reducido de idiolectos de forma separada,
27 En este caso, el referente del pronombre lo es «un tatuaje» y encontramos dos ejemplos
idénticos en el corpus, con el mismo referente.
28 La expresión me quedé pensándolo (con ausencia o presencia de los acentos) aparece 7 veces
en el corpus.
29 Véase la gráfica 6.
30 Se da la referencia de estos estudios en la nota 2 al principio de este trabajo.
446 Olivier Iglesias
Estas reglas suelen aparecer con más claridad en los contextos menos
frecuentes, puesto que, con los CV más frecuentes, la variación es mucho más
importante. Es como si, con algunos CV y en algunos contextos, los menos
frecuentes, las dos variantes (clítico a la derecha o a la izquierda) fueran con-
troladas o visibles por el propio locutor mientras que, en otros contextos, los más
frecuentes, estas fueran aparentemente incontroladas, libres o invisibles.
Evidentemente, al tratarse aquí de seis idiolectos escritos podemos suponer
que resulta más fácil para el locutor controlar sus propias producciones. Podemos
poner como ejemplo la posible regla de Navarro descrita con los ejemplos (21) a
(25), regla que parece impedir la subida en un contexto sintáctico muy preciso:
presencia de una oración yuxtapuesta y con un verbo en esa oración. El hecho de
que se trate de un escrito, con una posibilidad de llevar a cabo una mayor reflexión
y correcciones, puede explicar la existencia de este tipo de reglas o este tipo de
control. Sin embargo, en la lengua hablada, este control debe ser más limitado.
El interés de este tipo de trabajo, basado en el análisis de idiolectos, no radica
en la voluntad de explicar por qué se sitúa el clítico a la izquierda o a la derecha
en español, ni en explicar por qué existe simplemente esa posibilidad. Tampoco
pretende este tipo de trabajo rechazar las hipótesis tradicionales, por el mero
hecho de que resulta difícil o incluso imposible rechazar una hipótesis verificada
con datos reales sacados de un corpus más o menos extenso, a pesar de las dudas
metodológicas que uno pueda tener respecto a este tipo de corpus.
El método idiolectal, además de sus posibilidades y su interés en el estudio
diacrónico de la lengua,31 puede aportar una nueva metodología que permita
observar la gran variación inter-idiolectal (e incluso en un mismo idiolecto) y
demostrar que se pueden encontrar algunas regularidades fuertes explicitables
en términos lingüísticos y que, en el caso de la posición del clítico, no hay tanta
libertad, tanto caos, como tradicionalmente se cree, sino sistemas bastante cohe-
rentes que un estudio de grandes corpus (hipertexto) no permite ver.
6 Bibliografía
Aijón Oliva, Borrego Nieto, La variación gramatical como forma y significado: el uso de los clíticos
verbales en el español peninsular, Lingüística 29:2 (2013), 93–126.
Arroyo Hernández, Ignacio, Posición de los pronombres átonos en estructuras verbales comple-
jas: enunciador, interacción y efectos contextuales, Actas del I Congreso A.I.Gr.E – Analisi e
comparazione delle lingue dalla prospettiva dell’interazione, Roma (2012), 2015.
31 Barra-Jover (2015) ilustra perfectamente las posibilidades que ofrece este método idiolectal en
diacronía.
448 Olivier Iglesias
Barra-Jover, Mario, S’il ne restait que l’induction: corpus, hypothèses diachroniques et la nature
de la description grammaticale, Corpus et hypothèses diachroniques, Paris, RLV 36, 2007.
Barra-Jover, Mario, Des variantes invisibles à la fragmentation des langues romanes, Pour une
typologie diachronique et synchronique des langues romanes, Recherches Linguistiques
de Vincennes 38 (2009), 105–137.
Barra-Jover, Mario, Variantes invisibles, emergencia y cambio lingüístico, in: Castillo Lluch,
Mónica/Pons Rodríguez, Lola (edd.), Así se van las lenguas variando. Nuevas tendencias
en la investigación del cambio lingüístico en español, Bern, Peter Lang, 2011, 75–105.
Barra-Jover, Mario, Método y teoría del cambio lingüístico: argumentos en favor de un «método
idiolectal», in: García Martín, José María (dir.), Actas del IX Congreso Internacional de Historia
de la Lengua Española (Cádiz 2012), Madrid, Iberoamericana/Vervuert, 2015, 263–292.
Bermúdez, Fernando, La «subida de clíticos»: modalidad, prominencia y evidencialidad, in:
Bermúdez, F., Evidencialidad: la codificación lingüística del punto de vista, Stockholm,
Universidad de Estocolmo, 2005, 169–193.
Castillo Lluch, Mónica, Double syntaxe du pronom atone en espagnol contemporain, in: Araújo
Carreira, M.H. (dir.), Instabilités linguistiques dans les langues romanes, Saint-Denis,
Université Paris 8, 2002, 129–141.
Davies, Mark, Analyzing Syntactic Variation with Computer-Based Corpora: The Case of Modern
Spanish Clitic Climbing, Hispania 78 (1995), 370–380.
Davies Mark, The evolution of Spanish clitic climbing: A corpus-based approach, Studia Neophi-
lologica 69:2 (1998), 251–263.
Davies, Mark (2002–) Corpus del Español: 100 million words, 1200s–1900s. Disponible en línea
en: http://www.corpusdelespanol.org.
Fernández de Castro, Félix, Las perífrasis verbales en el español actual, Madrid, Gredos, 1999.
Gudmestad, Aarnes, Clitic climbing in Caracas Spanish: A sociolinguistic study of «ir» and
querer, Working Papers Online 6, Indiana University Linguistics Club (2006).
Iglesias, Olivier, Le placement des clitiques dans les complexes verbaux en espagnol: une
nouvelle approche de la question, Tesis doctoral, Universidad Paris 8, 2012. Disponible en
línea en: http://1.static2.e-corpus.org/download/notice_file/2267104/IGLESIAS.pdf.
Iglesias, Olivier, La interposición en los complejos verbales y la subida del clítico, in: García
Martín, José María (dir.), Actas del IX Congreso Internacional de Historia de la Lengua
Española, Cádiz (2012), Iberoamericana/Vervuert, 2015.
Lamiroy, Béatrice, Auxiliaires, langues romanes et grammaticalisation, Langages 33:135 (1999),
33–45.
Myhill, John, The Grammaticalization of Auxiliaries: Spanish Clitic Climbing, Proceedings of the
Fourteenth Annual Meeting of Berkeley Linguistics Society, 1988, 352–363.
Schwenter Scott/Torres Cacoullos Rena, Variation in Spanish clitic placement: constructional
and pragmatic effects, 39th Linguistic Symposium on Romance Languages (LSRL), Univer-
sity of Arizona, 2009.
Torres Cacoullos, Rena, Construction frequency and reductive change: Diachronic and register
variation in Spanish clitic climbing, Language Variation and Change 11 (1999), 143–170.
Troya Déniz, Magnolia, La posición de los pronombres personales átonos en combinación con
las perífrasis verbales en América y España, in: Moreno, F., et al. (coord.), Lengua, variación
y contexto. Estudios dedicados a Humberto López Morales, vol. 2, Madrid, Arco Libros,
2003, 875–894.
Zabalegui, Nerea, La posición de los pronombres átonos en construcciones con verbos no
conjugados en el español actual de Caracas, Akademos 10:2 (2008), 83–107.