Está en la página 1de 10

ACADEMIA IBEROAMERICANA DE LA RÁBIDA

I. Lingüística matemática: Palabras y Número


(I)
25/09/2021
Sixto Romero Sánchez
Presidente de la Academia Iberoamericana de la Rábida
Profesor de la Universidad de Huelva

Preparando el Taller de Matemáticas, Potenciar y


desarrollar el Talento Matemático: Tocar las Mates, celebrado
ayer en la edición 2021 de la Noche de los Investigadores en la
Universidad de Huelva, con una importante participación de
niños y niñas de edad escolar de todos los niveles, junto a sus
familiares, leí el trabajo Juegos Matemáticos del físico español
llamado Juan Manuel Rodríguez Parrondo, nacido el 9 de enero
de 1964, conocido mundialmente por la Paradoja de Parrondo,
acuñada por el ingeniero biomédico Derek Abbot de la
Universidad de Adelaida (Australia), quien publicó en 1999 un
trabajo confirmando los resultados del juego paradójico que
Parrondo había ideado en 1996, en relación con su análisis del
trinquete browniano, “… un experimento mental sobre una
máquina que supuestamente puede extraer energía de
movimientos de calor aleatorios, popularizado por el físico
Richard Feynman. Sin embargo, la paradoja desaparece cuando
se analiza rigurosamente…” (Shu, Jian-Jun; Wang, Q.-W. (2014).
«Beyond Parrondo's paradox». Scientific Reports
doi:10.1038/srep04244). Desarrolló los juegos de oportunidad
(ahora llamados juegos de Parrondo), que exhibieron este
fenómeno aparentemente paradójico, parte de su trabajo afecta

Academia Iberoamericana de La Rábida-Escuela Técnica Superior de Ingeniería-Universidad de Huelva-


Campus de la Rábida-21810-Palos de la Frontera (Huelva)
CIF-Q2100418I
acaiberabida@gmail.com
a la termodinámica, a la física de la información y a la mecánica
estadística.
En los primeros años de la década del dos mil, Parrondo
participó activamente en un programa de RNE con una
variedad de artículos de ciencia. Se le considera el Martin
Gardner español al escribir la obra citada ut-supra para la
columna de la edición española de Scientific American llamada
Investigación y Ciencia. En ésta, Parrondo presenta ochenta y
cinco juegos que recorren una temática muy variada:
Probabilidad, Estadística, Teoría de la información, Teoría de
juegos y economía y sociología, Física, Filosofía e historia,
Análisis matemático, álgebra y optimización, Música y
Matemática recreativa.
En uno de ellos, titulado Números y palabras (NyP),
Parrondo afirma que: ”…Para la mayoría de las personas los
números y las palabras pertenecen a reinos separados e incluso
antagónicos...” . Infinidad de veces hemos oído la frase: “ …uuuf
a mí las matemáticas se me daban muy mal , yo soy de letras…”,
unilateralmente se presenta así una autoexclusión refugiándose
en la clasificación, de letras, o de ciencias, perteneciendo uno u
otro campo sin posibilidad de conexión entre sí.
Vengo reclamando desde hace muchos años, la necesaria
Humanización de las Ciencias, pero también la Cientificidad de
las Humanidades. No es muy común que se conozca, por parte
de la inmensa mayoría de la población, que existe una
disciplina que aplica técnicas matemáticas al estudio del
lenguaje: la lingüística matemática. Y dentro de ella constituye
una buena parte la lingüística cuantitativa, que consiste en el
estudio estadístico de textos, facilitado por el gran avance
actual de la tecnología con gran capacidad de almacenamiento
y memoria de los ordenadores.
En esta entrega voy a presentar un breve esquema de lo
que se denomina la lingüística matemática que iré esbozando

Academia Iberoamericana de La Rábida-Escuela Técnica Superior de Ingeniería-Universidad de Huelva-


Campus de la Rábida-21810-Palos de la Frontera (Huelva)
CIF-Q2100418I
acaiberabida@gmail.com
en próximos artículos. De forma razonada tal vez sea apropiado
cuestionarse: ¿es posible aplicar la matemática a algo tan
inconmensurable como el lenguaje? ¿se podría encontrar un
modelo matemático utilizando ecuaciones que pudieran
resolverse para encontrar el significado de alguna palabra
distinta al idioma español, escrita en francés, inglés, alemán,
griego, …? Es comprensible, pero desde la confusión existe la
idea común pero incorrecta de que todas las matemáticas tratan
con números. Prácticamente cualquier artículo de lingüística
generativa (Syntactic Structures, page 13, Chomsky, Noam,
1957,2002, publisher Mouton de Gruyter) ilustra cómo se
pueden hacer afirmaciones precisas de naturaleza no
cuantitativa sobre el lenguaje. La lingüística matemática implica
estudiar este tipo de afirmaciones aplicando las matemáticas.
Parrondo, en NyP explora algunas curiosidades de la
lingüística cuantitativa utilizando textos que se pueden
encontrar en Internet: Don Quijote, Cien años de soledad y el
original en inglés de Ulysses de Joyce, utilizando el programa
gratuito TextStat, que realiza estadísticas elementales de
cualquier texto, creado por la Universidad Libre de Berlín.
(Como este programa se puede hallar una gran variedad en la
red, algunos gratuitos, bajo el nombre genérico de Natural
Language Processing (NPL) software, diseñados para tratar
aspectos gramaticales del lenguaje, para administrar grandes
conjuntos de textos que se denominan corpus, para encontrar
concordancias, es decir, las apariciones de una determinada
palabra en un corpus, y para algunas otras funciones
relacionadas con el estudio matemático del lenguaje.
En lingüística cuantitativa existe la denominada Ley de
Zipf (George Kingsley Zipf, 1902-1950, filólogo y lingüista
estadounidense que aplicó el análisis estadístico al estudio de
diferentes lenguas) que proporciona una sorprendente
regularidad de la distribución de las palabras en un texto de

Academia Iberoamericana de La Rábida-Escuela Técnica Superior de Ingeniería-Universidad de Huelva-


Campus de la Rábida-21810-Palos de la Frontera (Huelva)
CIF-Q2100418I
acaiberabida@gmail.com
cualquier lengua. Se toma un texto suficientemente largo y se
cuenta el número de veces que aparece en él cada palabra. En la
próxima entrega mostraré el resultado de la ley de Zidf para del
texto de Gabriel García Márquez, Cien años de Soledad.

II. Lingüística matemática: Palabras y


Número. Ley de Zipf (II)

02/10/2021
Sixto Romero Sánchez
Presidente de la Academia Iberoamericana de la Rábida
Profesor de la Universidad de Huelva

En la anterior entrega finalizábamos con un breve


comentario a la ley formulada por el lingüísta de la
Universidad de Harvard George Kingsley Zipf en 1940, que
define con qué reiteración aparecen determinadas palabras en
una lengua. Usamos miles de palabras cada día, con
significados de todo tipo y pertenecientes a categorías
gramaticales muy variadas. Sin embargo, no todas ellas se usan
con la misma frecuencia. En función de cómo de importantes
son para la estructura de la oración, hay palabras que son más
recurrentes que otras.
En el idioma español, las diez palabras más frecuentes
según la RAE son de, la, que, el, en, y, a, los, se, del por lo
tanto, la aparece la mitad de veces que de, que un tercio de
veces que de, el un cuarto de veces… Se trata de una ley de
potencias, es decir, que da igual el tamaño del texto porque la
proporción se seguirá cumpliendo y se aplica a todos los
idiomas. Podemos decir entonces que la proposición de Zipf
muestra un patrón en la repetición de palabras.

Academia Iberoamericana de La Rábida-Escuela Técnica Superior de Ingeniería-Universidad de Huelva-


Campus de la Rábida-21810-Palos de la Frontera (Huelva)
CIF-Q2100418I
acaiberabida@gmail.com
Con una simple prueba utilizando el programa TEXSTAT,
programa de libre distribución y que puede el lector descargar,
si lo desea en https://sourceforge.net/projects/textstat/ , se
puede comprobar con mucha aproximación que la afirmación
de Zipf es cierta. Para aquellos que no quieran complicarse la
vida, utilícese, naturalmente de manera más rudimentaria, el
programa de procesador de textos WORD. Un ejemplo con el
texto de la primera entrega: de las 793 palabras del artículo de
la pasada semana (representan 5295 caracteres con espacios) la
palabra de aparece 78 veces. La palabra la aparece 42 veces. La
palabra que aparece 22 veces. Y la palabra del aparece 8 veces.
Una entretenida y curiosa explicación podéis encontrarla en la
dirección https://www.smythacademy.com/6546/la-ley-zipf-
explicada/.
La ley de Zipf es un postulado que tiene en cuenta este
fenómeno y especifica cómo de probable es que una palabra sea
utilizada en base a su posición en el ranking del total de
palabras utilizadas en un determinado idioma, según el cual en
una determinada lengua la frecuencia de aparición de distintas
palabras sigue una distribución que puede aproximarse por
donde Pn representa la frecuencia de la n-ésima palabra más
frecuente y el exponente a es un número real positivo, en
general ligeramente superior a 1. (Para ampliar más visitar la
web
https://statweb.stanford.edu/~owen/courses/306a/ZipfAnd
Gutenberg.pdf). Esto significa que el segundo elemento se
repetirá aproximadamente con una frecuencia de 1⁄2 de la del
primero, el tercer elemento con una frecuencia de 1⁄3 del
primero y así sucesivamente.
¡No deja de ser curioso como la ley de Zipf se cumple para
la mayoría de las lenguas!
Desde el punto de vista del rigor de la investigación,
aunque lo observado por George Zipf, hasta hace relativamente

Academia Iberoamericana de La Rábida-Escuela Técnica Superior de Ingeniería-Universidad de Huelva-


Campus de la Rábida-21810-Palos de la Frontera (Huelva)
CIF-Q2100418I
acaiberabida@gmail.com
poco no se había podido abordar empíricamente los postulados
de la ley. No porque fuera materialmente imposible analizar
todas las conversaciones o textos del inglés, o de cualquier otro
idioma, sino por la tarea desmedida, colosal y gigantesca por el
gran esfuerzo que esto conlleva. Gracias a la presencia de los
ordenadores actuales y su gran capacidad de procesamiento
junto a los cada vez más afinados programas informáticos, ha
sido posible investigar si esta ley se daba en la forma en que
Zipf la propuso en un principio o si existían variaciones.
Mención especial son los trabajos de investigación
realizados por el Centro de Investigación Matemática (Centre
de Recerca Matemàtica) asociado a la Universidad Autónoma
de Barcelona, concretamente por Álvaro Corral, Isabel Moreno
García y Francesc Font que han llevado a cabo un análisis a
gran escala, consistente en el análisis de cientos de textos
digitalizados (en inglés) para comprobar el comportamiento de
la ley de Zipf. Su trabajo, en el que se analizó un extenso corpus
de cerca de 30.000 volúmenes, permitió obtener una ley
equivalente a la de Zipf, en la que se vio que la palabra más
utilizada era el doble de utilizada que la segunda, y así
sucesivamente.
La Ley de Zipf, que algunos la han catalogado como de
cierta opacidad matemática, también ha sido utilizada, a modo
de pronóstico, para diseñar el tamaño de las grandes ciudades
en todo el planeta en el siglo XX. La ciudad con mayor
población de cualquier país es generalmente el doble de grande
que la siguiente con mayor número de habitantes, y así
siguiendo el patrón citado ut-supra.
Cabe preguntarse por qué sucede esto. Zipf descubrió su
principio observando el uso de las palabras en una lengua
determinada, pero después vio que su ley era aplicable a la
generación de riqueza. ¡Y todo esto sin una clara explicación
lógica que lo sustente al menos por el momento!

Academia Iberoamericana de La Rábida-Escuela Técnica Superior de Ingeniería-Universidad de Huelva-


Campus de la Rábida-21810-Palos de la Frontera (Huelva)
CIF-Q2100418I
acaiberabida@gmail.com
Puede parecer sorprendente e increíble, pero la ley de Zipf
ha servido para las ciudades de todos los países del mundo
durante el siglo pasado. Basta con echar un vistazo a las
ciudades con mayor población en España, Madrid, Barcelona y
Valencia. En el censo de 2021, Madrid tiene 3.334.730, Barcelona
1.664.182, Valencia 800.215. Se puede ver que obviamente las
cifras no son exactas, pero bajo una óptica de datos estadísticos
parecen ser de gran consistencia y muy coherentes con los
vaticinios de Zipf.

III. Lingüística matemática: Palabras y


Número. La Informetría (y III)
09/10/2021
Sixto Romero Sánchez
Presidente de la Academia Iberoamericana de la Rábida
Profesor de la Universidad de Huelva

En la pasada entrega hicimos un esbozo de la Ley de Zipf.


Aunque pudiera sorprender y resultar increíble, esta ley de
1940 del lingüista de la Universidad de Harvard George
Kingsley Zipf ha hecho un gran servicio para conocer la
evolución de las grandes ciudades de todos los países del
mundo durante el siglo pasado.
Se puede decir que el descubrimiento por parte de Zipf
nos invita a dirigirnos a los primeros pasos de la Informetría,
ciencia que trata de medir las características cuantitativas de la
información. Desde que Vasili Vasílievich Nalímov (filósofo,
humanista, profesor en la Universidad Estatal de Moscú
investigador en las áreas de la filosofía de la probabilidad y sus
manifestaciones biológicas, matemáticas y lingüísticas, así como
la psicología transpersonal, para mayor información visitar:

Academia Iberoamericana de La Rábida-Escuela Técnica Superior de Ingeniería-Universidad de Huelva-


Campus de la Rábida-21810-Palos de la Frontera (Huelva)
CIF-Q2100418I
acaiberabida@gmail.com
http://integralleadershipreview.com/8514-professor-v-v-
nalimov-a-man-who-surpassed-his-time/
También estudió los roles del gnostiscismo y misticismo en la
ciencia) acuñó el término Cienciometría en la década de 1960,
expresión que ha crecido en popularidad y se utiliza para
describir el estudio de la ciencia: crecimiento, estructura,
interrelaciones y productividad. La Cienciometría está
relacionada y tiene intereses superpuestos con la Bibliometría y
la Informetría, términos que se refieren a campos relacionados
con el estudio de la dinámica de disciplinas reflejada en la
producción de su literatura. Las áreas de estudio van desde
registrar cambios en la producción de un campo académico a
través del tiempo y entre países, al problema de la colección
bibliotecaria de mantener el control de la producción, y la
productividad de publicación de la mayoría de los
investigadores.
En la actualidad la Informetría es una ciencia de gran
requerimiento, consecuencia del cual los sistemas informáticos
(motores de búsqueda) de las empresas multinacionales
especializadas en servicios y productos relacionados con
Internet, como la americana Google y la rusa Yantex, deciden la
popularidad de los sitios y el grado en que coinciden con la
consulta de búsqueda.
Juan M.R. Parrondo, Profesor del Departamento de Física
Atómica, Molecular y de la Universidad Complutense de
Madrid, y excelente divulgador científico en su artículo de
Investigación y Ciencia de febrero de 2003, Números y Palabras
afirma:
“… exploramos una sorprendente regularidad en la estadística de un
texto literario, la ley de Zipf. La ley nos dice que, si ordenamos las
palabras que aparecen en un texto de más a menos frecuentemente, la
repetición con la que aparece una palabra en el texto es inversamente
proporcional al puesto que ocupa en la lista con una constante de

Academia Iberoamericana de La Rábida-Escuela Técnica Superior de Ingeniería-Universidad de Huelva-


Campus de la Rábida-21810-Palos de la Frontera (Huelva)
CIF-Q2100418I
acaiberabida@gmail.com
proporcionalidad que es aproximadamente igual al número de palabras
diferentes que aparecen en el texto. Es decir, la frecuencia de una
palabra es: f (r) = V/r donde V es el número de palabras diferentes que
aparecen en él, y r el rango de la palabra, o lugar que ocupa en la lista
en la que todas las palabras del texto se ordenan de más a menos
frecuentes…”.
Voy a poner un ejemplo muy cercano que se asemeja al
resultado que presenta Parrondo en el artículo citado ut-supra.
“…En la novela de Gabriel García Márquez Cien años de soledad, que
tiene un vocabulario de 16019 palabras, la palabra “de” es la más
común y aparece 8684 veces. Como es la palabra más común, su rango
es 1 y la fórmula de la ley de Zipf predice para “de” una frecuencia
igual a 16019. Esta cifra es casi el doble de la frecuencia real de la
palabra por lo que parece, en principio, que la ley falla
estrepitosamente…”.
Siguiendo a Parrando, el artículo de la semana pasada en
Tiempo de Academia, tiene 5899 caracteres con espacios que
representan 965 palabras. Además, la palabra de es la más
común y aparece 90 veces. Como es la palabra más común, su
rango es 1, y la fórmula de la Ley de Zipf predice para la
palabra de una frecuencia igual a 965. Esta cifra es diez veces la
de la frecuencia real por lo que parece, en principio, que la ley
falla estrepitosamente. Si la aplicamos la ley a la siguiente
palabra, la, que aparece 58 veces, vemos que la discrepancia
aplicando la ley es menor, del orden de poco más de ocho
veces, pero sigue siendo considerable. Si seguimos
experimentando vemos que la tercera letra que sigue la ley es
que, aparece 32 veces sigue también siendo importante. Sin
embargo, esas discrepancias no son tan grandes cuándo se trata
de un texto largo, no como el caso que nos ocupa por no ser
demasiado extenso.
Existen algunas modificaciones de la ley de Zipf que se
aproximan mejor a las frecuencias reales de las palabras. La ley

Academia Iberoamericana de La Rábida-Escuela Técnica Superior de Ingeniería-Universidad de Huelva-


Campus de la Rábida-21810-Palos de la Frontera (Huelva)
CIF-Q2100418I
acaiberabida@gmail.com
original, aunque es sólo válida de modo aproximado, permite
hacer algunas predicciones interesantes acerca de la estadística
de un texto. Una de ellas es la relación entre el tamaño de un
texto o número total de palabras que lo componen, y su
vocabulario. Esta relación nos da una idea de la riqueza de
vocabulario de cada texto. El tamaño de un texto se puede
obtener sumando todas las frecuencias del vocabulario. Si el
vocabulario es muy grande al lector con algunos conocimientos
de matemáticas superiores no le resultará difícil entender que
esta aproximación consiste en sustituir la suma por una integral
dando lugar a un resultado dónde aparecen logaritmos, válido
para cualquier texto, siempre que éste cumpla la ley de Zipf.
Como esta ley se aplica a cualquier tipo de texto en cualquier
idioma, el resultado sorprendente es que todos los textos en
todos los idiomas tienen aproximadamente la misma riqueza de
vocabulario. ¡Curioso resultado!

Academia Iberoamericana de La Rábida-Escuela Técnica Superior de Ingeniería-Universidad de Huelva-


Campus de la Rábida-21810-Palos de la Frontera (Huelva)
CIF-Q2100418I
acaiberabida@gmail.com

También podría gustarte