Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Universidad de Murcia
pcantos@um.es
asanchez@um.es
Recibido: 7/01/2011
Aceptado: 21/03/2011
RESUMEN
Las similitudes o diferencias que percibimos al comparar dos o más lenguas son siempre relativas. El
análisis de estos contrastes lingüísticos se puede formalizar tanto desde diversos ángulos y/o niveles
lingüísticos (fonético-fonológico, morfológico, sintáctico, semántico, pragmático, diacrónico, etc.), como
mediante diferentes metodologías (inductiva, deductiva, descriptiva, etc.). La finalidad de este estudio
comparativo entre el español y el inglés es ofrecer, por primera vez, datos cuantitativos objetivos y
fiables sobre la estructura y vertebración del inventario léxico en ambas lenguas (riqueza léxica,
crecimiento léxico: formas, tramos de frecuencias, formas léxicas y funcionales, formas más frecuentes,
longitud de formas, etc.), y poder aproximarnos a las diferentes propiedades matemáticas que subyacen
en las lenguas española e inglesa. Todos los datos cuantitativos se han obtenido partiendo de dos corpus
lingüísticos equivalentes (en estructura, composición y tamaño: 20 millones de palabras): Cumbre (para
el español) y Lacell (para el inglés).
Palabras clave: Propiedades cuantitativas, distribución del léxico, frecuencias, español, inglés.
__________
1
Esta investigación deriva de otras afines relacionadas con el proyecto financiado por la Fundación
SENECA, de la Comunidad Autónoma de la Región de Murcia, proyecto 00481/PI/04.
Spanish and English. All the quantitative data were obtained from two equivalent linguistic corpora (in
structure, composition and size: 20 million words): Cumbre (for Spanish) and Lacell (for English).
__________
3
En http://www.ethnologue.com
4
En http://es.wikipedia.org/wiki/Poblacion_mundial
5
En http://www.internetworldstats.com/languages.htm
3. En cualquier momento del día, hay unos 120.000 alumnos estudiando inglés en
centros del British Council desparramados por todo el mundo.
4. El número de alumnos que estudia inglés cada año asciende a más de mil
millones.
5. Cada año viajan a Inglaterra más de 600.000 alumnos para estudiar inglés,
generando unos ingresos de más de mil millones de libras anuales.
6. Más de un 80% de la información electrónica se almacena en inglés.
7. Y si nos centramos en Internet, los datos revelan de nuevo el incuestionable
predominio del inglés como lengua vehicular, que copa casi un tercio de todos los
usuarios (Tabla 2):
Crecimiento en Usuarios de
Usuarios de
Internet Internet
Internet
( 2000 - 2008) (% sobre el total)
Inglés 463 Millones 226,70 % 29,10 %
Español 130 Millones 619,30 % 8,20 %
Total mundial 1.596 Millones 342,20 % 100,00 %
Tabla 2. El inglés y el español en Internet (Fuente: Internet World Stats6, 2009)
Así pues, desde el punto de vista del número de hablantes nativos, ambas lenguas
están equiparadas, pero en cuanto al uso de cada una de ellas en el contexto mundial,
el inglés ocupa una preeminencia y liderazgo indiscutibles.
Los datos léxicos incluidos en los diccionarios, aunque sean reales, deben ser
analizados con atención para entenderlos en su justa medida. El número de voces
seleccionadas puede variar:
1. Según el criterio que se aplique para definir lo que se entiende por ‘palabra’ en el
diccionario;
2. Según los criterios seguidos para incluir o excluir determinados términos;
3. Según el tratamiento que se dé a los términos técnicos y especializados y a los
nombres propios;
4. Según el criterio aplicado respecto al grado de exhaustividad que se pretende
alcanzar. En la tradición lexicográfica inglesa y norteamericana se ha buscado
con frecuencia la exhaustividad, sobre todo a partir del Oxford English
Dictionary, finalizado en 1928, y a raíz de la ‘guerra de los diccionarios’ desatada
en los Estados Unidos en la segunda mitad del s. XIX, en la que competían los
diccionarios de Webster –más innovador– y de Worcester –más clásico y
conservador. De ahí la tendencia en la lexicografía inglesa a incluir todo tipo de
voces (derivados, nombres propios, voces coloquiales, obsoletas, slang, etc.).
Por otro lado, la propaganda de las obras lexicográficas se basa con excesiva
frecuencia en la cantidad del caudal léxico incluido. Y en este aspecto, al lector se le
confunde fácilmente apelando al número de voces, voces derivadas, voces
compuestas, voces de igual forma y con más de una categoría gramatical,
abreviaciones, nombres propios y número de significados, pero sin aclarar lo que cada
cosa supone respecto al número de voces reales. El lector no versado tiende a asociar
la cifra destacada con el número de palabras diferentes ofrecidas por el diccionario.
Los diccionarios suelen recoger el uso lingüístico actual y heredado. Es decir, son en
gran medida sincrónicos y diacrónicos, y resultan de la conjunción de lo actual con lo
heredado. Además, a lo heredado o transmitido por generaciones pasadas, se le suele
atribuir más peso que a lo actual. Hay razones para que esto sea así (la estabilidad del
sistema comunicativo, por ejemplo), pero hasta ahora contribuía a mantener esta
situación una razón cualitativamente inocua: recopilar el uso lingüístico del presente
con las herramientas de la lexicografía tradicional (ficha y lápiz, anotaciones
ocasionales, obras literarias –sobre todo de autores ya consagrados) era una tarea
difícil y poco eficiente. Desde finales del siglo XX, no obstante, la lexicografía cuenta
ya con herramientas mucho más eficaces y fiables: los corpus lingüísticos, o grandes
recopilaciones de muestras lingüísticas, orales y/o escritas, susceptibles de ser
tomadas de cualquier ámbito comunicativo.
Los corpus adecuadamente diseñados reflejan con gran fidelidad cuál es el uso real
de una lengua en el periodo en el cual se ha hecho la recopilación. Además, si el
corpus es representativo del conjunto de un idioma, ofrecerá una radiografía fiel de
cuáles y cuántas palabras ‘están en activo’ –se usan– en un determinado momento
histórico. Los corpus Cumbre (del español contemporáneo) y Lacell (del inglés
contemporáneo) creemos que responden a estas características y por esa razón serán
tomados en este estudio como referencia para la proyección de datos comparativos
relativos a la cantidad de palabras totales y palabras diferentes en las lenguas aquí
comparadas. Es evidente que la estructura o características de un corpus condicionan
de alguna manera la variedad de palabras contenidas en él. Es importante, por tanto,
tener en cuenta que la proyección que hacemos a continuación debe tomarse como
una proyección relativa, aplicable a textos o recopilaciones textuales de estructura y
composición similar.
Nuestros corpus se ajustan a los siguientes parámetros:
1. Se refieren a la lengua española o inglesa de los últimos cincuenta años.
2. Recogen el habla de todos los países en los cuales tanto el español como el inglés
son lenguas oficiales, aunque en cantidades notablemente sesgadas a favor de
España y Reino Unido, con un porcentaje medio del 65% sobre el total, mientras
que los países hispanoamericanos y los de habla inglesa diferentes del Reino
Unido sólo cuentan con un 35 % de las muestras.
3. Respecto a la modalidad de lengua, la lengua hablada recibe un 35% del peso
total. A la lengua escrita se le asignó el 65%. En ambas modalidades se buscó una
amplia variedad respecto a los ámbitos de uso, tanto vertical como
horizontalmente (la variedad de textos en su conjunto consta de varios miles de
muestras diferentes).
4. Los listados de frecuencia fueron depurados de todos los elementos no
estrictamente léxicos: se eliminaron, por ejemplo, todas las secuencias numéricas
y de signos, aunque no las palabras con errores ortográficos o los términos
extranjeros.
Los resultados obtenidos quedan reflejados en la Tabla 3:
Cabe destacar que el número de palabras diferentes está en relación directa con el
tamaño del corpus, es decir, a mayor número de palabras (tokens) recopiladas
corresponde mayor número de formas diferentes (types)9. Puede observarse en los
datos de la Tabla 3 que el corpus Cumbre (español) y el corpus Lacell –de tamaño y
estructura similares– presentan algunos rasgos diferenciadores en cuanto a la cantidad
__________
8
En http://www.um.es/grupos/grupo-lacell/quees.php
9
No obstante, véase Sánchez y Cantos (1997, 1998) en relación con la naturaleza de la curva
hiperbólica del incremento.
de formas. Importa tener en cuenta que las palabras diferentes (types) no son
necesariamente lemas. Además, los corpus suelen incluir un alto número de formas
provenientes de otras lenguas, nombres propios, e incluso errores ortográficos que en
cuanto ‘diferentes’ son contabilizados por el ordenador como formas distintas. Pero
dado que la metodología aplicada en la recopilación es la misma para ambas lenguas,
puede concluirse que los resultados son razonablemente válidos y homogéneos.
Los datos confirman algunas diferencias esperadas. El corpus español contiene
45.252 types más que su homólogo inglés. Lo cual hace que la relación type/token sea
de 0,010 para el español, mientras para el inglés es de 0,008; o lo que es lo mismo,
como media, en español la ratio de formas distintas es de aproximadamente 10 por
cada 1.000 palabras de texto, mientras que en inglés esta cifra asciende solamente a 8
palabras. El español es por tanto más prolijo en formas que el inglés, conclusión ya
previsible, dado que el español es una lengua con mayor carga flexiva.
Types 173391
Ratio _ type _ tokenInglés 0,008
Tokens 21427428
Types 218643
Ratio _ type _ tokenEspañol 0,010
Tokens 21785302
Analicemos ahora las formas con mayor detalle. Para homogeneizar los resultados, es
preciso determinar la relación entre palabras y formas mediante una medida estándar
que nos permita establecer comparaciones directas entre ambas lenguas. Al tratarse de
corpus con tamaños ligeramente divergentes, no utilizaremos la ratio entre las
palabras (token) y las formas (types)10. En su lugar utilizaremos una fórmula para
__________
10
Medida conocida como ratio type-token.
Y para el inglés:
173391 173391
K 37,45
21427248 4628,95
Estos valores confirman que el ritmo incremental de formas del español es mayor que
el del inglés. Además, estos valores nos permiten comparar ambas lenguas en cuanto
a la relación que guardan entre palabras y formas, y hacen posible proyectar los datos
y apreciar mejor el ritmo incremental de formas en español e inglés. En el Gráfico 1
se muestra el comportamiento y relación entre palabras y formas en español e inglés,
proyectando los datos hasta 100 millones. Se aprecia cómo el español, por ser lengua
más flexiva, contiene un repertorio de formas (types) más amplio que el inglés (ver
también Tabla 4). El español cuenta con unas 21.000 formas de media más en un
volumen de texto de 5 millones de palabras, cantidad que llega hasta casi 94.000 en
100 millones.
__________
11
Otros métodos alternativos son la ratio estandarizada type-token (Scott 1999), o los métodos
propuestos por Tuldava (1995); Yang, Cantos y Song (2000); Chipere, Malvern, Richards y Duran
(2001), entre otros.
12
En Cantos (2000) se emplea este índice para la discriminación automática de textos dependiendo
de la temática de los mismos.
Formas
Incremento
Palabras de la
Español Inglés Diferencia (E-I)
diferencia (E-
I)
5000000 104737 83741 20997 20997
10000000 148121 118427 29694 8697
15000000 181411 145043 36367 6674
20000000 209475 167481 41993 5626
25000000 234200 187250 46950 4957
30000000 256553 205122 51431 4481
35000000 277109 221557 55552 4121
40000000 296242 236855 59388 3836
45000000 314212 251222 62990 3602
50000000 331209 264811 66397 3407
55000000 347375 277737 69638 3241
60000000 362821 290086 72735 3097
65000000 377636 301932 75705 2970
70000000 391892 313329 78562 2858
75000000 405646 324327 81320 2757
80000000 418950 334963 83987 2667
85000000 431843 345272 86572 2585
90000000 444363 355282 89081 2510
95000000 456540 365017 91522 2441
100000000 468400 374500 93900 2378
Tabla 4. Ritmo incremental de las formas en español e inglés
Según estos datos, el español cuenta, en términos absolutos, con casi 25.000
palabras más que el inglés usadas solamente una vez; lo que corresponde a un 5%
__________
13
Un millón de billones, o lo que es lo mismo, un uno seguido de 18 ceros.
más de hápax legomena, una vez normalizados los datos para su mejor contraste. En
los restantes tramos de frecuencia, las diferencias son menores (frecuencia de 6-20,
por ejemplo; Gráfico 3).
Palabras
Palabras Palabras léxicas
funcionales
CUMBRE (español) 21.785.302 16.916.177 4.869.125
LACELL (inglés) 21.427.248 18.053.547 3.373.701
Tabla 6. Datos léxicos de los Cumbre y Lacell
Los datos reflejan que el uso de palabras léxicas (sustantivos, verbos, adjetivos y
adverbios) es más frecuente entre angloparlantes que entre hispanohablantes. Los
cálculos que siguen detallan las diferencias:
18.053.547
Palabras _ léxicasInglés 0,8425
21.427.248
16.916.177
Palabras _ léxicasEspañol 0,7764
21.785.302
Mientras los primeros se valen, de media, de 84 palabras léxicas por cada cien
palabras, los segundos reducen esta cifra a 78. Este hecho revela, en contrapartida,
que el español abunda más que el inglés en el uso de palabras funcionales
(preposiciones, artículos, pronombres, etc.).
3.373.701
Palabras _ funcionalesInglés 0,1574
21.427.248
4.869.125
Palabras _ funcionalesEspañol 0,2235
21.785.302
Se suele afirmar que el inglés es una lengua más sobria y concisa, menos proclive
a la ornamentación léxica. Un reflejo de este supuesto podría detectarse en el número
de oraciones usadas en cada lengua y en su longitud, asumiendo que frases más cortas
implican el uso de menos recursos sintácticos y léxicos, y tienden a la concisión
expresiva. El análisis de los dos corpus equivalentes, Cumbre y Lacell, demuestra en
efecto, que las oraciones del español son, de media, más largas que las del inglés. Los
datos de ambos corpus muestran que el corpus inglés contiene más frases (1.138.760)
que el corpus español (1.042.417). La media de palabras por oración es consecuencia
de estas cifras:
21.427.248
Ratio _ palabras / oraciónInglés 18,8162
1.138.760
21.785.302
Ratio _ palabras / oraciónEspañol 20,8988
1.042.417
A raíz de tales datos, podemos definir cómo sería un texto tipo de 1.000 palabras en
inglés y en español:
1. En inglés constaría de 53 oraciones (con 19 palabras por oración); 843 palabras
léxicas; 157 palabras funcionales.
2. En español constaría de 48 oraciones (21 palabras por oración); 776 palabras
léxicas; 224 palabras funcionales.
1 2 3 4 5 6 7 8 9 1 1 1 1 1 1 1 1 1 1
0 1 2 3 4 5 6 7 8 9
Inglés
1 2 3 4 5 6 7 8 9 1 1 1 1 1 1 1 1 1 1 2 2
0 1 2 3 4 5 6 7 8 9 0 1
Español
Palabra léxica
Palabra funcional
Gráfico 5. Oración tipo: español versus inglés
Español Inglés
Media de letras por 4,423 3,992
palabra
Tabla 7. Letras por palabras
casos– y a las letras del alfabeto usadas para abrir párrafos o similares); (ii) las
palabras de dos letras, cuyo número en inglés supera al del español en casi dos
millones; o (iii) las palabras de 4 letras, que en inglés casi duplican el volumen del
español. La Tabla 8 y el Gráfico 6 recogen los datos referidos a palabras de 1 a 10
letras en cada idioma:
Español Inglés
Letras por palabra
Frecuencias % Frecuencias %
1 letra 816.275 3,75 2.656.653 12,40
2 letras 3.642.015 16,72 5.335.686 24,90
3 letras 4.366.524 20,04 3.335.324 15,57
4 letras 3.637.621 16,70 1.939.735 9,05
5 letras 2.408.555 11,06 2.174.200 10,15
6 letras 1.804.230 8,28 1.579.171 7,37
7 letras 1.655.522 7,60 1.439.280 6,72
8 letras 1.150.188 5,28 1.162.258 5,42
9 letras 830.798 3,81 788.230 3,68
10 letras 533.148 2,45 595.246 2,78
Más de 10 letras 940.426 4,32 421.465 1,97
Tabla 8. Cantidad de palabras según el número de letras que las integran
el uso de la vocal ‘a’ en cada idioma; pero el resto de vocales no presenta contrastes
notables (Tabla 9 y Gráfico 7). También existen diferencias relevantes en la
distribución de las vocales a final de palabra, especialmente si se trata de la ‘a’ y la
‘o’, tal y como reflejan los datos de la Tabla 9 y el Gráfico 8.
Inglés Español
Vocales % %
% %
(posición final) (posición final)
E 11,8 3,53 12 2,78
A 7,7 0,57 11,5 2,98
O 7,2 0,82 8,1 1,95
I 7,3 0,12 7 0,07
U 2,6 0,06 3,6 0,09
TOTAL 36,6 5,1 42,1 7,87
Tabla 9. Uso y distribución de las vocales en inglés y en español
Gráfico 8. Distribución comparativa (español-inglés) del uso de las vocales en posición final
Respecto a las consonantes, los corpus analizados reflejan los siguientes datos (en
orden de frecuencia):
Obsérvese que en la tabla anterior se han sombreado los casos con las diferencias más
significativas. Especialmente revelador resulta la diferencia de uso en las consonantes
t, h, f y w. En conjunto, sin embargo, predominan las semejanzas entre ambas lenguas
(Gráfico 10).
Aparte del estudio comparativo de las frecuencias léxicas, cabe también preguntarse
si esas mismas frecuencias se distribuyen homogéneamente en ambos idiomas. A tal
fin, es preciso seleccionar un determinado tramo de frecuencia en cada lengua y
analizar las palabras que lo integran. En la Tabla 12 se ofrece la lista de las 100
formas más frecuentes en inglés y en español, especificando la frecuencia de cada
forma en su respectivo corpus:
Gráfico 10. Distribución comparativa (español-inglés) de las frecuencias de las palabras más
usadas
Gráfico 11. Distribución comparativa y diferencial de las frecuencias de las palabras más
usadas (inglés y español)
En cuanto a los términos de mayor frecuencia, las palabras funcionales ocupan los
primeros puestos en ambas lenguas, si bien es verdad que su orden en la lista no es
plenamente coincidente. El término inglés the (artículo) es la palabra más frecuente,
que se corresponde en español con de (preposición). Aunque en realidad esta
diferencia en categoría gramatical se debe a razones flexivas. Si sumamos todas las
formas flexivas del artículo determinado en español, en singular y en plural (el, la,
los, las), el resultado es superior al the inglés: la suma asciende a 1.870.920 veces (un
8,58% del total de palabras usadas en los 21 millones), muy por encima de la
preposición de (5,53%) o del artículo the (5,89%). A su vez, la segunda palabra más
frecuente en inglés, of (preposición), se usa casi tres veces por cada cien palabras,
mientras que su equivalente española, de, casi la duplica en el uso (Tabla 13).
Inglés Español
The frente a 5,89% 8,58%
El/la/los/las
Of frente a De 2,89% 5,53%
Tabla 13. Voces más frecuentes en inglés y español: the y of; de y el/la/los/las
También destaca el hecho de que en inglés las formas verbales más frecuentes son,
y en este orden, was, be, are, have, mientras que el español prefiere es, ha, hay,
había, mostrando una inversión parcial respecto a la preeminencia de (to) be, seguido
de (to) have.
Respecto a los sustantivos, es interesante advertir que estos aparecen en posiciones
sorprendentemente retrasadas: time ocupa la posición 60 en la lista, y años la posición
53. La preeminencia de las voces funcionales y de las formas verbales es evidente en
ambos idiomas.
La comparación de la frecuencia de los lemas (Tabla 14 y Gráfico 11) no varía en
algunos de los rasgos más sobresalientes. Destaca el hecho de que, globalmente, las
frecuencias son muy similares en ambos idiomas y que las palabras funcionales
siguen en cabeza:
1. El lema menos frecuente (de los 100 primeros) presenta una diferencia de unas
2.000 ocurrencias a favor del inglés.
2. El verbo to be dobla con creces la frecuencia de ser y estar juntos.
3. To have casi dobla la frecuencia de haber, mientras que to do y hacer son muy
similares en este parámetro.
4. En las cien primeras voces, el español incluye 40 términos léxicos, mientras que
el inglés sólo cuenta con 29.
Gráfico 11. Distribución comparativa (español-inglés) de las frecuencias de los lemas más
usados
Gráfico 12. Distribución comparativa y diferencial de las frecuencias de los lemas más usadas
A tenor de los datos obtenidos de las dos lenguas, español e inglés, es posible mostrar
el perfil de un texto prototipo en cada una de las lenguas mencionadas. Así un texto
de unas 25.000 palabras en español y otro de igual tamaño en inglés, reflejarían los
siguientes rasgos y composición léxica interna:
__________
15
Los valores positivos señalan índices a favor del español y los negativos a favor del inglés.
__________
16
Las ratios se expresan por cada 100 ítems.
__________
17
Este dato se ha obtenido dividiendo 21 por 25.000; 21 : 25.000 = 0,00084.
REFERENCIAS