Está en la página 1de 8

Borrador de trabajo sobre Karl Pearson

Joaquín Murcia Ballesta


Universidad Autónoma de Madrid
joaquin.murcia@estudiante.uam.es

2 de noviembre de 2022

Glosario
Diferencia entre estadística descriptiva e inferencial
- Descriptiva: intentamos sintetizar una muestra relativamente grande sobre un grupo en una
serie de parámetros y gráficos que la describan. Ejemplos de parámetros medidos son la media,
mediana, dispersión y asimetría.
- Inferencial: tomamos una muestra parcial de una población e intentamos hacer inferencias
sobre las características de dicha población en general. Herramientas de la estadística inferencial
incluyen los intervalos de confianza, las curvas de regresión y los tests de hipótesis. [1]

Estadística aplicada
Área de la estadística que trata su aplicación a una disciplina externa a ella, como pueden ser
la medicina, las ciencias sociales, la economía...

1. Introducción
<a completar> La realización y formalización de los conceptos estadísticos que Pearson popula-
rizó requiere de mucha intuición y precisión matemática. Pearson, comparado con los matemáticos
de primera liga, no era el más destacado en ninguna de las dos (<referencia su comentario sobre
Weldon ayudándole>). De hecho, Fisher y otros autores posteriores criticarían la corrección de sus
publicaciones. Pero sí tuvo la suficiente intuición (heredada en parte de Galton y Weldon) como
para imaginar los conceptos, y la suficiente precisión como para que otros pudieran rematar los
detalles de su trabajo.

2. Contexto histórico
La estadística se encuentra actualmente dividida tanto funcional como históricamente en dos
ramas: la descriptiva y la inferencial. Mientras que la primera llevaba siendo elaborada y utili-
zada principalmente por astrónomos desde hace varios siglos, la segunda tardó un tanto más en
revelársele a Pearson y sus congéneres.
Gracias al desarrollo de la teoría de la probabilidad durante la Ilustración (siglos XVII y XVIII),
estimulado por la necesidad de estudiar los juegos de azar, la estadística inferencial empezó a tomar
forma. Primero, Gauss y otros autores emplearon el método de mínimos cuadrados para inferir la

1
función continua que mejor se ajusta a una serie de datos discretos. Posteriormente, Quetelet se
encargó de extender la aplicación de la estadística a las ciencias sociales. Al mostrar su variada
aplicabilidad, empezó a atraer la atención de científicos con interés no solo por la abstracción de
las matemáticas, sino también por el mundo real. Con más mentes trabajando en esta disciplina,
se aceleró el advenimiento de la estadística inferencial. Pero igual que la estadística descriptiva
necesitó de la astronomía para que las ideas más geniales se revelaran a algún hombre, la inferencial
también iba a requerir de un campo de cultivo para que estas germinaran. Y este campo fue la
biología evolutiva.
En 1859, Charles Darwin publicó El origen de las especies, sin duda, una de las obras científicas
más importantes de la historia. Tras su divulgación, se extendieron desde Inglaterra el darwinismo y
otras corrientes de pensamiento sustentadas en esta teoría, como el darwinismo social o la eugenesia.
El polímata Sir Francis Galton, sobrino de Darwin, fue abanderado del movimiento, y vio la
estadística como la herramienta clave para dar un soporte matemático a la teoría de la evolución.
En esta empresa, popularizó el uso de la regresión y acuñó el concepto de correlación.
Así se encuentra Pearson, a finales del siglo XIX, el campo de la estadística; cuando un fortuito
encuentro con el biométrico Walter Weldon en 1892 y su filosofía darwinista personal lo instan a
emplear su talento matemático para crear la estadística moderna. Veamos ahora en qué estado se
encontró la estadística a Pearson, y cómo éste evolucionó a posteriori.

3. Biografía
"Francamente, no creo en los grupos de hombres y mujeres que tienen como total y única labor
diaria crear una nueva rama de la ciencia. Creo que esto debe ser ejecutado por un hombre que, por
fuerza de conocimiento, método y entusiasmo esboce, tal vez a grandes rasgos, pero decisivamente,
un nuevo bloque; y cree una escuela para esculpir sus detalles. Indagar en el asunto les llevará a
descubrir, opino, que esta es la historia de toda gran rama de la ciencia."[13]
—Karl Pearson, dirigido a la Sociological Society, en Sociological Papers, 1904
Frankly, I do not believe in groups of men and women who have each and all their allotted daily
task creating a new branch of science. I believe it must be done by some one man who by force
of knowledge, of method and of enthusiasm hews out, in rough outline it may be, but decisively, a
new block and creates a school to carve out its details. I think you will find on inquiry that this is
the history of each great branch of science. —Karl Pearson, address to the Sociological Society, in
Sociological Papers, 1904

Karl Pearson nació en Londres en 1857 en una familia de cuáqueros. La fluctuación y el entre-
lazamiento de sus intereses y psicología hacen su vida complicada de contar, pero también dieron
lugar al personaje improbable que el nacimiento de la estadística moderna requirió. Antes de acce-
der a la universidad estaba previsto que siguiera la trayectoria de su padre como abogado, pero se
vio interesado antes por las matemáticas. Una beca concedida por el King’s College, Cambridge,
le permitió cursar dichos estudios en 1876. [11]
Cuidó su forma física durante la universidad y se rodeó de amigos con altas capacidades, entre
ellos John Lawrence Green; Henry Bradshaw, el bibliotecario; Macaulay, el matemático; y Robert
Parker, quien sería uno de los más distinguidos Law Lords (altos jueces británicos) de su generación.
Este último lo acompañó en su introspección extrauniversitaria en la filosofía, especialmente la
alemana. Se graduó en 1879 con mucho éxito como tercero de la clase en los Mathematical Tripos
(examenes finales de matemáticas).
No pasó esta etapa, sin embargo, exento de preocupaciones. La fragilidad emocional que padecía
y desarrolló al estudiar extraescolarmente durante la secundaria se vio exacerbada por su encuentro
casual con las obras trágicas de Goethe. Esta condición, a su vez, intensificó su búsqueda de
significado. A pesar de la religiosidad de su familia, perdió paulatinamente la fe cristiana y en la
sociedad. Su desconsuelo lo llevó a buscar esperanza en Alemania, su cultura y su filosofía. Tanto
es así que, acabados sus estudios en Cambridge, decidió mudarse a Heidelberg; y posteriormente
cambió su nombre de Çarl.a "Karl", correspondiendo con la ortografía alemana.
Durante su estancia de un año, profundizó su conocimiento sobre el estilo literario alemán lo
suficiente como para escribir The New Werther, una novela con tintes autobiográficos inspirada
en Las penas del joven Werther de Goethe. También, movido por su angustia existencial, estudió
metafísica y otros campos de la filosofía bajo la tutela de Kuno Fischer; y física, enseñado por
Hermann von Helmholtz. De ambos campos se fue desencantando paulatinamente. Aunque man-
teniendo su agrado por Alemania, regresó a Londres, donde su desgastada motivación hizo que
sucumbiera a la presión de su padre para que tratara de ejercer como abogado.
Completó sus estudios compartiendo oficina con Robert Parker. Pero inmediatamente después
de ejercer en su primer caso como abogado, decidió renunciar a la ley y volver a las matemáticas.
En 1884 le fue concedida la Chair of Applied Mathematics and Mechanics en el University College,
London. Allí impartió clases de física matemática, mecánica y otros temas generales a estudiantes
de ingeniería. En 1890, accede a la Geometry Chair en el Gresham College. Sus alumnos no serían
entonces estudiantes universitarios, sino miembros de la clase industrial que atendían sus clases por
vocación. Esta nueva audiencia hizo que adquiriera un discurso menos técnico y más divulgador.
Las lecciones que impartió fueron la base de su publicación más conocida, The Grammar of Science,
en el que expone las propiedades esenciales de la ciencia con carácter positivista y explica distintos
conceptos físicos elementales -pero no por ello sencillos- como la materia o el movimiento.
Su faceta ideológica también se desarrolló en una clara dirección durante este periodo. En
1985 fundó con Robert Parker el Men’s and Women’s Club, una pequeña sociedad de debate en
la que se trataban, en particular, polémicas sobre la relación entre ambos sexos. Los siguientes
años se mostró productivo tanto en su rol de profesor como en lo personal. Contrajo matrimonio
con Maria Sharpe, secretaria de su club de debate, en 1890. Con ella engendraría a Egon Pearson,
quien contemporáneamente a Fisher completaría su legado estadístico. Durante este periodo fueron
introduciéndose en la filosofía de Pearson las ideas darwinistas, por aquel entonces en boca de todos.
Esta evolución quedó plasmada en las notas del club de debate, donde se le puede leer tratando
obras de Galton o sugiriendo la reproducción selectiva, en línea con los principios de la eugenesia.
Pearson ya había empezado a acuñar conceptos estadísticos durante este periodo, como el
histograma. Pero fue en 1892, al conocer a Walter Weldon, cuando su ambición filosófica y sus
labores académicas, por el momento tangenciales, se entrelazarían para impulsar el desarrollo de
la mayor parte de su obra estadística. Walter Weldon era un zoólogo del UCL con cierta base
matemática, convencido por la obra de Galton, concienzudo y escrupuloso en su metodología.
Viajaba con su esposa Florence a distintos países y recopilaba datos sobre organismos marinos
para analizarlos posteriormente. En su estudio de la población de cangrejos en Nápoles encontró
que todas las distribuciones de sus datos relativos a los órganos de estos animales seguían una
distribución normal, excepto para una variable. Con este problema acudió inicialmente a Pearson.
Este fue el inicio de una agradable y fructífera colaboración. Ambos sentían el mismo impulso
por revelar los secretos de la evolución. Las conversaciones diarias y los problemas que Weldon
planteaba a Pearson influyeron en el éxito académico de Pearson hasta tal punto que, cuando
Galton lo felicitó por recibir la medalla Darwin (nominado por el propio Weldon) en 1898, declaró
"fue un gran e inesperado honor... Cualquier matemático podría haber hecho lo que yo, y tantas
veces mejor, especialmente si hubiera recibido sugerencias de Weldon diariamente a la hora de
comer durante cuatro o cinco años".
ït was indeed a high and unexpected honour... Any mathematician could have done what I have
done, a dozen or so better?especially if they had suggestions from Weldon almost daily at lunch
for four or five years
Como suele ocurrir con los personajes longevos, la última etapa de la vida de Pearson fue
relativamente estable. Sus vaivenes ideológicos y motivacionales se apartaron para abrir paso a
una filosofía más conservadora y a un trabajo constante y fructífero en estadística. Aplicó con
éxito las matemáticas de Cambridge y sus lecciones en Gresham a las dificultades planteadas
por Weldon de forma muy creativa. Por ejemplo, reconoció el concepto de momento -por aquel
entonces pertenecía solo a la física y la mecánica- y lo importó a la estadística con éxito, donde lo
usó para elaborar estadísticas descriptivas y ajustar distribuciones a muestras. De él se derivaron
elegantemente parámetros esenciales de una distribución, algunos conocidos y otros nuevos: la
media, la desviación típica, la simetría y la curtosis.
A raíz del primer problema de Weldon antes mencionado, Pearson tomó conciencia de la im-
portancia de desarrollar un método para comprobar la bondad del ajuste de una distribución a la
muestra. Aunque varios matemáticos habían trabajado en el tema, ninguno dio una base teórica
sólida. Pearson, a través del sexto momento del método de momentos, empezó a construirla. En los
años posteriores colaboraría también con Galton, culminando en la obtención del test de bondad
de ajuste χ2 en 1900. <Este fue, discutiblemente, su mayor logro matemático, puesto que el test
rompió el monopolio y abuso de la distribución normal en el ajuste de muestras que venía desde
los tiempos de Quetelet, abriendo la puerta al uso del resto de distribuciones.> Fundó el primer
departamento de estadística aplicada en el UCL en 1911, y enseñó el primer curso de estadística
matemática en 1917. Continuaría afinando su nueva teoría estadística hasta pocos meses antes de
su muerte, a pesar de haber dejado la cátedra.
También fue muy activo en el campo de la biometría. Fundó la revista Biometrika junto a
Weldon y Galton, con la que continuó tras la muerte del primero en 1906; y del segundo, en 1911.
Relevó a Galton en la Chair of Eugenics y se ofreció a escribir, por pura admiración, la biografía
de este.
Con esta afabilidad, muriendo por edad a los 76 años en 1936, acaba la vida de Karl Pearson.

Podemos resumir el desarrollo personal de Pearson, y así explicar cómo fue capaz de fundar la
estadística moderna, listando los motivos por los que fue capaz de ayudar a Weldon cuando este
lo requirió:

1. Su entrenamiento para los exámenes finales de matemáticas (Cambridge Mathematical Tri-


pos) durante la universidad, preparándolo para aplicar el análisis a la solución de nuevos
problemas

2. Su desencanto con la ley; y con la física y la filosofía tras su estancia en Alemania

3. Su ferviente creencia en que las ideas estadísticas que desarrolló mientras daba clase en
Gresham podían ser aplicadas para obtener respuestas sobre la evolución

4. Su intensa vocación por el pensamiento y, particularmente, por las matemáticas


3.1. Cronología de la vida de Karl Pearson
1857 Empieza a estudiar Matemáticas en King’s College, Cambridge

Se gradúa de Matemáticas como tercero de la clase

Se muda a Heidelberg (Alemania)

Vuelve a Inglaterra

Empieza a estudiar Derecho

Termina el máster de derecho


1876
Accede a la Chair of Applied Mathematics and Mechanics en el UCL
1879
1880
1882 Funda el Men’s and Women’s Club
1884
1885 Galton publica Natural Inheritance

1889 Se casa con Maria Sharpe


1890
1891
1892 Accede a la Chair of Geometry en el Gresham College
1895
1896 Conoce a Walter Weldon
1898
1900 Publica The Grammar of Science
1901
1902
Nace Egon Pearson

1906
Presenta r, el coeficiente de correlación lineal de Pearson

1911 Recibe la medalla Darwin

Desarrolla el test χ2 de bondad de ajuste e introduce el p-valor

1917 Cofunda la revista Biometrika con Weldon y Galton

Desarrolla el método de momentos

Weldon fallece

Galton fallece

Funda el primer departamento de Estadística Aplicada en el UCL


1933

1936 Dirige el primer curso de estadística matemática de la historia

Deja de ejercer como profesor titular


4. Contribuciones más notables a las matemáticas
4.1. r, el coeficiente de correlación lineal de Pearson
4.1.1. Cómo surgió

El coeficiente de correlación nace de los trabajos genéticos de Galton con guisantes estudiando ĺa
influencia de características fenotípicas de los padres sobre las de los hijos. Galton plantó guisantes
dulces con semillas de distinto peso. Luego, esperó a que crecieran y tomó sus semillas, para
compararlas con las de su progenitora (los guisantes dulces se pueden autofertilizar, de ahí que
fueran una elección tan habitual para experimentos genéticos; el acervo génico, y por tanto la
variedad de características observadas, es más reducido así). Aplicando el método de mínimos
cuadrados, se dio cuenta de que los datos se aproximaban a una recta de pendiente menor que 1.
Había encontrado una muestra del efecto de regresión a la media.
La intuición de Galton era muy aguda. Si alguna de las variables en una regresión lineal tiene
varianza más alta o baja, la pendiente de la recta cambia. Por ejemplo, con dos variables, si aumenta
la varianza en el eje Y, aumenta la pendiente de la recta. Pero Galton entendió que dicho cambio de
varianza no tenía que afectar a la correlación entre ambas variables. Luego la pendiente de la recta
no refleja adecuadamente la correlación. Sin embargo, no tenía el bagaje matemático suficiente
como para formalizar y precisar conceptos. Calculó este ”r” aproximadamente y sin conocer su
fórmula.
Fue Pearson más tarde, al leer su obra Natural Inheritance, quien encontró su formulación
exacta. El concepto çoeficiente de correlación a había sido mencionado por Edgeworth en 1892, y
2

su fórmula ya había sido postulada por Bravais en 1846, pero Pearson relacionó ambos conceptos
en su publicación Regression, Heredity, and Panmixia, y dio una prueba de que podía obtenerse
realizando un producto de momentos.

4.1.2. En qué consiste

El coeficiente de correlación producto-momento de Pearson (por el origen de su obtención), o


simplemente coeficiente de correlación, es el parámetro más utilizado actualmente para medir
la correlación lineal entre dos variables o entre sus muestras. Sean X, Y las dos variables estudiadas.
En el caso en el que se estudian las poblaciones, el coeficiente se denota por ρX,Y , y su fórmula es

cov(X, Y )
ρX,Y = , donde cov(X, Y ) = E [(X − µX ) (Y − µY )] (1)
σX σY

Si lo que se estudian son las muestras, se denota por rxy , y en su fórmula sustituimos la covarianza
y varianzas poblacionales por las muestrales
Pn
i=1 (xi − x̄) (yi − ȳ)
rxy = qP q (2)
n 2 Pn 2
i=1 (x i − x̄) i=1 (yi − ȳ)

La principal ventaja que exhibe sobre la covarianza a secas como parámetro para observar la co-
rrelación es que el coeficiente de correlación está "normalizado", con rango [−1, 1]. A consecuencia,
su valor no depende de la escala de las variables.
(Nota: para entender intuitivamente cómo de relevante es cierto valor de r para predecir par-
cialmente el valor de una v.a. con respecto a la otra, es necesario entender la intuición detrás de
Altura del padre vs altura del hijo
77.5
75.0
72.5

Altura del hijo (cm+100)


70.0
67.5
65.0
62.5
60.0

60.0 62.5 65.0 67.5 70.0 72.5 75.0


Altura del padre (cm+100)

Figura 1: Regresión lineal de la altura del hijo con respecto a la del padre.

Altura del padre vs altura del hijo


Altura del hijo (cm+100)

70

60

180 200 220


Altura del padre (cm+100)

Figura 2: Misma gráfica que en 1, pero con las alturas de los padres multiplicadas por 3. La
pendiente de la recta cambia, pero el coeficiente de correlación es el mismo.

la covarianza. No trataré este tema en el trabajo.)

4.1.3. Ejemplo real

El dataset que he utilizado lo elaboró y empleó el propio Pearson en sus investigaciones. Contiene
datos sobre la altura de padres e hijos en familias inglesas de 1893 a 1898.
En la figura 1 aparece una regresión lineal de la altura del hijo con respecto a la del padre. El
coeficiente de correlación para estas dos características es aprox. 0.501. En la figura 2 he manipulado
la escala de las alturas de los padres. El coeficiente de correlación sigue siendo el mismo, pues como
se observa en las fórmulas, está "normalizado"por las varianzas de ambas variables.

Referencias
[1] Difference between Descriptive and Inferential Statistics - Statistics By Jim.

[2] When Chi-square Is Appropriate - Strengths/Weaknesses | Chi-Square Test for Goodness of


Fit in a Plant Breeding Example - passel.

[3] D. J. Biau, B. M. Jolles, and R. Porcher. P Value and the Theory of Hypothesis Testing: An
Explanation for New Researchers. Clinical Orthopaedics and Related Research, 468(3):885,
2010.

[4] K. P. F.R.S. X. On the criterion that a given system of deviations from the probable in the
case of a correlated system of variables is such that it can be reasonably supposed to have
arisen from random sampling. https://doi.org/10.1080/14786440009463897, 50(302):157–175,
jul 2009.
[5] Kaggle.com. Dataset on ftitanic’s passengers’ survival rate.

[6] L. Kennedy-Shaffer. Before p < 0.05 to Beyond p < 0.05: Using History to Contextualize
p-Values and Significance Testing. The American statistician, 73(Suppl 1):82, mar 2019.

[7] B. J. Norton. Karl Pearson and Statistics: The Social Origins of Scientific Innovation. Social
Studies of Science, 8(1):3–34, 1978.

[8] K. Pearson. Dataset on father-son’s heights.

[9] R. L. Plackett. Karl Pearson and the Chi-Squared Test. International Statistical Review /
Revue Internationale de Statistique, 51(1):59, apr 1983.

[10] S. Por. Breve historia de la Estadística y el Azar BENITA COMPOSTELA MUÑIZ. 2010.

[11] T. M. Porter. Karl pearson’s biography. 1998.

[12] J. M. Stanton. Galton, Pearson, and the Peas: A Brief History of Linear Regression for
Statistics Instructors. https://doi.org/10.1080/10691898.2001.11910537, 9(3), jan 2017.

[13] F. Turner. :Karl Pearson: The Scientific Life in a Statistical Age, volume 110. 2005.

[14] D. D. Wackerly, W. M. III, and R. L. Scheaffer. Mathematical Statistics with Applications.


Duxbury Advanced Series, sixth edition edition, 2002.

[15] S. Yáñez. La Estadística Una Ciencia Del Siglo Xx. R.a. Fisher, El Genio. Revista Colombiana
de Estadística, 23:1 – 14, 2000.

También podría gustarte