Está en la página 1de 9

Grados de escepticismo inductivo

Brian Skyrms

_________________________________________________________________________

No existe una única postura en el escepticismo inductivo, sino que hay grados de este. No
hay mucho que decir sobre el escepticismo radical, pero puede ser más provechoso el
análisis de algunas posturas más delimitadas de escepticismo.

La clásica afirmación moderna sobre escepticismo inductivo proviene de David Hume,


aunque él nos recuerda de sus influencias más antiguas. El razonamiento inductivo no se
justifica por relaciones de ideas: “El que el sol no saldrá mañana es una proposición no
menos inteligible que la de que sí saldrá. Es en vano, por tanto, tratar de demostrar su
falsedad” (Hume, 1748/1777, Sec. IV, Parte I, 21). El intentar justificarlo inductivamente es
una petición de principio: “Es imposible, por tanto, que cualquier argumento derivado de la
experiencia pueda probar esta semejanza entre el pasado y el futuro, puesto que cualquiera
de estos estará basado en la suposición de tal semejanza” (Sec. IV, Parte II, 32).

Una opción sería simplemente leer a Hume y darse por vencido en el asunto. Esta fue la
posición tomada por Karl Popper a principios del siglo XX. “Si aun así queremos encontrar
una manera de justificar las inferencias inductivas, primero debemos intentar establecer un
principio de inducción… Ahora, este principio de inducción no puede ser una verdad
puramente lógica… si intentamos tratar su verdad como una que es obtenida de la
experiencia, entonces los mismos problemas que ocasionó su introducción volverán a
surgir”. Según Popper, Hume ha mostrado la imposibilidad de la lógica inductiva: “Mi
propia perspectiva es la de que las variadas dificultades de la lógica inductiva que aquí se
plantean son infranqueables” (Popper 1934/1968, 29), y Popper concluye que la lógica de
la investigación científica debe ser puramente deductiva.

Uno bien podría preguntarse porque Popper no pensó en aplicar los tropos de Agripa el
escéptico al razonamiento deductivo, tal como Hume los aplicó al razonamiento inductivo.1
Existe una regresión infinita – las matemáticas se justifican por la teoría de conjuntos, cuya
consistencia es demostrada por una teoría de conjuntos más fuerte, y así sucesivamente – o,
considerando las matemáticas como un todo, una circularidad. O podríamos preguntarnos:
¿Por qué deberíamos aceptar algún argumento en absoluto? El tratar de contestarle a un
escéptico radical es un juego de tontos.

1
Agripa los aplicaba a todos los tipos de razonamiento. Por lo tanto, según la explicación de Diógenes: “Y
para que podamos saber que un argumento constituye una demostración, requerimos de un criterio, pero a
su vez, para que podamos saber que es un criterio, requerimos de una demostración” (1925), libro [IX] 90.
Pero es posible, y a veces bastante razonable, el ser escéptico sobre algunas cosas pero no
sobre otras. Existen grados de escepticismo inductivo, los que difieren en lo que el
escéptico entra a dudar y qué es lo que está dispuesto a aceptar. Para cada grado, una
discusión de si lo que duda cada escéptico es o no justificado dentro de sus propias
condiciones, puede llegar a ser provechoso. En este sentido, asumo que mi escepticismo es
probabilísticamente coherente.2

Hume fluctuó en el escepticismo global, pero existe un desafío escéptico mucho más
centrado de lo que él pudo haber planteado, si hubiese sido un mejor matemático y hubiese
estado más al tanto del surgimiento en la época de la teoría de probabilidad. El desafío fue
planteado retrospectivamente por Richard Price. Pascal y Fermat intercambiaron
correspondencia (1654), la que rápidamente se volvió conocida entre la elite intelectual
europea.3 Christian Huygens escribió una monografía sobre probabilidad (1656), la que fue
traducida al latín (1656/1657) y luego dos veces al inglés (1656/1692, 1656/1714). El Ars
Conjectandi de Jacob Bernoulli, incluyendo el texto de Huygens, fue publicado de manera
póstuma (1713/2005). Fue publicada la primera edición de La doctrina de las posibilidades
de Moivre (1718). Hubo un intenso interés en las aplicaciones prácticas de la nueva teoría
de la probabilidad. En particular, hubo interés en debatir no sólo sobre las posibilidades
conocidas en las probabilidades de ganancia en juegos de azar, sino también en la
inferencia de los datos a las posibilidades.

Bernoulli aseguró que había resuelto este problema: “Lo que no podemos deducir a priori,
podemos al menos deducirlo a posteriori – Es decir, seremos capaces de hacer una
deducción desde los muchos resultados observados de eventos similares. Puede suponerse
que cada cosa en particular sea capaz de ocurrir y de no ocurrir en tantos casos como se
haya previamente observado que ocurran o que no ocurran en circunstancias similares”
(1713/2005, cap. 4; de Moivre realizó afirmaciones similares en la segunda y tercera
edición de La doctrina de las posibilidades). Bernoulli había probado que con suficientes
intentos se volvería “moralmente cierto”, que la frecuencia se volvería aproximadamente
igual a la posibilidad verdadera. Si x es aproximadamente igual a y, entonces y es
aproximadamente igual a x. Por tanto, luego de un gran número de intentos, podemos tomar
las posibilidades reales como si fuesen iguales a las frecuencias observadas.

2
Donde lo necesite, esto incluye coherencia sigma. La coherencia tiene muchas virtudes, que no detallaré
aquí. Ver, por ejemplo Kolmogorov (1933/1950), de Finetti (1937/1980, 1972, 1974, 1975), y Joyce (1998).
3
En su mayoría a través de la Académie Parisienne del Padre Mersenne.
Este argumento informal gana un aire de plausibilidad al encubrir ciertas dificultades
detrás de una capa de certeza moral e igualdad aproximada. No es prueba, lo que es
aparente si el argumento se plantea cuidadosamente. Como Richard Price lo señala:

Mr. De Moivre… a, después de Bernoulli, y en un mayor grado de exactitud, dado


las reglas para encontrar la posibilidad que existe, que si se hacen un gran número de
intentos con respecto a un evento, la proporción del número de veces que ocurrirá por el
número de veces que fallará, en estos intentos, diferirá menos por pequeños límites
asignados de la proporción de la probabilidad de que ocurra por la probabilidad de que falle
en un intento singular. Pero no conozco persona alguna que haya mostrado cómo deducir la
solución al problema converso de esto; vale decir, “dado el número de veces que un evento
desconocido ha tenido éxito y ha fallado, encontrar la posibilidad de que la probabilidad de
que ocurra se encuentre en algún punto entre dos grados de probabilidad dados” (1763,
372-73).

En la sección de la Investigación dedicada a la probabilidad, David Hume escribió:

Pero si se encontrasen diferentes efectos que hayan seguido de las causas, que son en
apariencia exactamente similares, todos estos diversos efectos deben ocurrir en la mente en
tanto que transfieren el pasado al futuro, y son de nuestra consideración, cuando
determinamos la probabilidad del evento. A pesar de que prefiramos aquel que se ha
encontrado ser el más usual, y creemos que este efecto existirá, no debemos ignorar los
demás efectos, sino que debemos asignar a cada uno de ellos un peso particular y autoridad,
en proporción a lo que hemos descubierto que es más o menos frecuente… Que alguno
intente describir esta operación de la mente basado en cualquiera de los sistemas conocidos
de filosofía, y él se hará consciente de esta dificultad. Por mi parte, pensaré que es
suficiente, si las pistas actuales despiertan la curiosidad de los filósofos, y los vuelven
conscientes de qué tan defectuosas son las teorías comunes al tratar tales curiosos y
sublimes objetos. (1748/1777, Sec. VI, 47).

Ni Bernoulli ni de Moivre pudieron darle una respuesta a Hume.

Una respuesta fue entregada por Thomas Bayes, en un ensayo que Price nos presenta. Fue
escrito alrededor de 1749 (ver Zabell 1989) pero sólo fue publicado de manera póstuma
(Bayes 1763) en el Transacciones Filosóficas de la Sociedad Real. El objetivo de Bayes, al
menos como Prince lo ve, era el escepticismo Humeano sobre la inferencia inductiva.4 Esto
es más evidente en el título de la página dedicada a las reediciones del ensayo de Bayes,
que tiene por nombre: “Un Método de Calcular la Probabilidad Exacta de Todas las
Conclusiones basado en la Inducción” (Stigler 2013,283). La meta de Bayes era calcular la
probabilidad de que la posibilidad real de un evento dicotómico cayese dentro de un
determinado intervalo, dadas las frecuencias en un número finito de intentos. Para que el

4
Ver además Gillies (1987) y Zabell (1997). Price fue amigo tanto de Bayes como de Hume.
tema tuviese sentido, la posibilidad debe ser una variable aleatoria – debe haber una
distribución de probabilidad sobre las posibilidades posibles5- algo que faltó en Bernoulli y
de Moivre. Esto plantea la pregunta de qué tomar como la distribución de la probabilidad
sobre las posibilidades antes de cualquier intento – la pregunta sobre la cuantificación
apropiada de la ignorancia.

Bayes asume la uniformidad previa, en la que se les otorga igual probabilidad a los
intervalos de igual duración de contener la posibilidad real. Basado en esto, muestra a
través de un ingenioso argumento geométrico que sobre esta conjetura la probabilidad de
que m tenga éxito en n intentos es de 1/(n+1), para cualquier m.6 Bayes resalta en un escolio
que este resultado por sí mismo puede ser tomado como una cuantificación apropiada de la
ignorancia – cada número de éxitos tiene una probabilidad uniforme. Esta es ignorancia
sobre lo observable – y en particular sobre frecuencias.7

El análisis de Bayes fue desarrollado aún más (quizás de manera independiente) por
Laplace, en un notable ensayo de 1774.8 Asumiendo la uniformidad previa, Laplace
demuestra su famosa regla de sucesión. Dados p éxitos en p + q intentos, la probabilidad de
éxito en el siguiente intento es:

p +1____

p+q+2

De manera más general, consideró la distribución predictiva, para m éxitos en m + n


intentos adicionales dada la evidencia de p éxitos en p + q intentos. Laplace muestra que si
los datos, p + q, son grandes y m + n son pequeños, el resultado estará cerca de adoptar la
frecuencia observada dada por las posibilidades. Pero también se siente obligado a señalar
que este no será el caso si el número de intentos predichos es además grande: “Y se me
hace esencial señalar esto”.9 Es más, Laplace mostró lo que hoy en día se conoce como

5
La terminología de Bayer invierte la moderna, la cual uso.
6
Este es el argumento “mesa de billar” de Bayer, que usa geometría y simetría para encontrar el valor de
una integral. Para una discusión sobre el uso de ejemplos físicos de Bayes y otras referencias ver Stigler
(1990)
7
Esto implica la uniformidad previa, aunque Bayes no tenía prueba de esta.
8
Este ensayo fue publicado cuando Laplace tenía 25 años. Las citas son de la traducción de Stigler (Laplace
1774/1986)
9
En comparación con Hans Reichenbach. Él defiende una regla que adivina, o “sugiere” que las frecuencias
ejemplares son las frecuencias delimitantes. Las sugerencias son tratadas como verdad hasta ser corregidas.
Tratarlas como verdad implica tratarlas como si fueran una posibilidad conocida. “Sugerimos h”(es decir, la
frecuencia ejemplar) como el valor del límite, o lo que es lo mismo, apostamos en h ”tal como apostaríamos
sobre una cara de un dado” (Reichenbach 1938, 352). Tomada literalmente, esta es una observación
desmedida. Si los datos, p + q, son pequeños y el número de intentos futuros, m + n, son grandes, esto
llevaría a Reichenbach a comportamientos bizarros de apuesta. Para ilustrar este punto en un extremo,
consideremos apuestas en frecuencias delimitantes relativas. Luego de seis caras en 10 lanzamientos,
Reichenbarch sería llevado a apostar su fortuna contra un centavo de que la frecuencia delimitante relativa
consistencia Bayesiana:10 “Uno puede suponer que los números p y q son tan grandes que
se acercan tanto a la certeza, como uno desearía que la tasa del número de boletos blancos
al total del número de boletos contenidos en una urna está incluido dentro de dos límites
p/(p + q – w) y p/(p + q + w). Puede suponerse que w es menor a cualquier cantidad dada”
(Laplace 1774/1986, 366). La inferencia de Bayes-Laplace converge en las posibilidades
reales.

Dadas sus suposiciones, Bayes y Laplace mostraron que la conclusión de Bernoulli era
correcta. Podemos inferir las posibilidades aproximadas a posteriori. Y, bajo este modelo, sí
dan una respuesta a Hume. Muestran cuando, y en qué sentido, es racional creer que el
futuro es como el pasado.

Un escéptico más radical no estaría del todo equivocado si encontrase suposiciones que
cuestionen el análisis de Bayes-Laplace. El mismo Bayes sintió necesario reforzar la
suposición de la uniformidad previa con el argumento del escolio. A través de la historia de
la inferencia Bayesiana, algunos han creído necesario el defender una cuantificación única
de la ignorancia.

Creo que esto es un error. La ignorancia es lo opuesto del conocimiento, por lo que la
ignorancia previa debería ser un objeto previo que no supone conocimiento. Puedo conocer
la composición de la urna o el sesgo de la moneda de manera exacta. Puedo saber menos
que esto y aun así saber algo. Puedo saber que la urna contiene más tickets negros que
blancos o que la moneda está cargada hacia la cara en mayor medida que ½. Pero
supongamos que no sé nada de esto.

Entonces mi ignorancia previa debería otorgarme alguna probabilidad positiva en que la


posibilidad real sea un intervalo abierto entre 0 y 1. La especificación de la ignorancia
previa no es única; existen en gran cantidad. Si no es de su agrado denominarla ignorancia
previa dado lo controversial de este término, pueden denominarse no dogmática previa o
escéptica previa, dado que estos objetos previos están dentro del espíritu del escepticismo
antiguo.

Lo que Laplace mostró para la uniformidad previa se sostiene para toda la escéptica
previa. Dada la suficiente experiencia, los objetos previos guiarán a un Bayesiano a
predecir el mañana usando algo cercano a la frecuencia observada. Con una posibilidad de

será de .6. Luego de un intento más, él estaría seguro de otra frecuencia delimitante relativa. La misma clase
de cosas sucede, en menor medida, si la apuesta es en un gran número de intentos futuros.
10
De hecho, él demostró algo aún más sólido, el fenómeno Bernstein-von Mises. Este último es
asintóticamente normal.
uno, los previos llevarán a un Bayesiano a converger en las posibilidades reales.11 Los
escépticos previos se sobreponen al escepticismo.

¿Qué ocurre con el dogmático? Supongamos, por ejemplo, que esta persona está
convencida de que el sesgo (en una moneda) de que salga cara es mayor que ½ y que posee
una uniformidad previa de entre ½ y 1. Si el sesgo real fuese de ¼, jamás podría conocerlo.
Sin embargo, él cree que conocerá las posibilidades reales, porque está seguro de que estas
están entre ½ y 1. Podríamos no creer que llegará a conocer las posibilidades reales, pero sí
lo logra. Esto se sostiene de manera bastante general (Doob 1948). Con este grado de
creencia de uno (1), él convergerá en las posibilidades reales. Ni el dogmático previo ni el
previo de mente abierta son consistentes con el escepticismo inductivo.

***

Lo anterior tiene lugar dentro de un modelo específico de posibilidad. Quizás, con Hume,
podemos creer que “en el mundo no existe tal cosa como la posibilidad” (Hume 1748/1777,
Sec. VI, 46).

Supongamos que hay una secuencia potencialmente infinita de eventos de sí-no. Y


supongamos que somos frecuentistas en el siguiente sentido débil: para nosotros, lo único
que importa para la probabilidad de un resultado finito de determinada longitud es la
frecuencia relativa de éxito de esa secuencia. Es decir, que para nosotros, dos secuencias de
la misma longitud teniendo las mismas frecuencias relativas tendrán la misma probabilidad.
Luego Bruno de Finetti demuestra que nos comportamos como Bayes, con su modelo de
posibilidades y algún objeto previo (no necesariamente plano). Además, el previo es
determinado únicamente por tu grado de creencia sobre las secuencias de resultado.12

De Finetti, al igual que Hume, cree que en el mundo no existe tal cosa como la
posibilidad y muestra que podemos tener las virtudes del análisis de Bayes sin el bagaje. Si
eres escéptico acerca de la existencia de las posibilidades, el modelo de posibilidades, y el
objeto previo sobre las posibilidades, de Finetti muestra cómo obtenerlas todas desde tu
grado de creencia, siempre y cuando satisfagan la anterior condición de intercambiabilidad.
Además, debes creer con una probabilidad de 1 que una frecuencia relativa delimitante

11
En la topología débil de estrella, una secuencia de medidas de probabilidad, P n, hacen que la estrella débil
converja en P si para todas las funciones continuas limitadas, f, las expectativas asociadas convergen: En ≥ E.
Esto no quiere decir que estos resultados contengan generalidad. Con un número infinito de categorías, las
cosas se complican aún más; ver Diaconis y Freedman (1988).

12
El teorema de De Finneti ha sido demostrado en una forma considerablemente más general; ver Hewitt
and Savage (1955).
existe y que con la experiencia repetida convergerás en ella.13 Si tus grados de creencia son
intercambiables, no puedes ser un escéptico inductivista.

¿Qué ocurre si tus grados de creencia no son intercambiables? A falta de


intercambiabilidad puede haber otras simetrías que tengan consecuencias inductivas. El
mismo de Finetti inició esta línea de pensamiento en 1938 (de Finetti 1938/1980), y ha
habido desarrollos subsecuentes de esta (ver Diaconis y Freedman 1980b). Consideremos el
problema en nivel muy general y abstracto.

Supongamos que tienes un espacio medible que encapsula el problema que planteas.14
Traes este problema desde tus grados de creencia: una medida de probabilidad en conjuntos
medibles que es invariable bajo cierta transformación T (o grupo de transformaciones) del
espacio en sí mismo. La transformación T representa tu concepción de la repetición de un
experimento.15 Invariabilidad significa que la transformación (o grupo de transformaciones)
deja la estructura probabilística sin cambios.

Por ejemplo, supongamos que los puntos en el espacio de probabilidad son secuencias
infinitas por partida doble de resultados experimentales, indexados en un tiempo discreto.16
Si tu probabilidad es invariable bajo el movimiento de la transformación, esto significa que
la estructura de probabilidad no es afectada por el paso del tiempo: es decir, el proceso
estocástico es estacionario.

Establecida la transformación, el conjunto de medidas probabilísticas invariables es


convexo. Tus grados de creencia son un componente de este conjunto. Los puntos extremos
de este conjunto son probabilidades que son, en cierto sentido, resistentes ante el
condicionamiento de los conjuntos invariables.17 En estas posibilidades extremas, los
conjuntos invariables tienen una probabilidad de 1 o 0. (La medida no puede ser
descompuesta en dos o más medidas invariables por condicionamiento de los conjuntos
invariables). Estas son las medidas de probabilidad ergódicas.

Desde cierto punto, x, en tu espacio de probabilidades, observas una serie de


experimentos, x, Tx, TTx,… Tnx. Sigues el desarrollo de la frecuencia relativa de los puntos
existentes en un conjunto medible, A.18 Dado lo anterior, crees con probabilidad 1 que

13
Puede que seas escéptico sobre las secuencias infinitas como parte del mundo, como lo fue de Finetti. Si
es así, considera secuencias finitas intercambiables que pueden ser extendidas a secuencias de mayor
longitud que sigan siendo intercambiables; ver Diacionis and Freedman (1980a). Para la perspectiva finitista
del teorema de De Finetti, ver Cifarelli and Regazzini (1996) y Zabell (2009).
14
El espacio medible es {W, F} donde W es un conjunto de puntos y F es un sigma algebra de subconjuntos
de W.
15
Como lo sugiere Billingsley (1965).
16
Es decir, desde cualquier punto extendido infinitamente en el pasado y en el futuro.
17
Un conjunto A, es invariable bajo una transformación T, si su probabilidad es igual a la probabilidad de su
imagen inversa bajo T: P(A) = P(T-1 (A)).
18
De manera más general, de los valores promedio de una función medible.
existe frecuencia relativa delimitante.19 En este sentido, no puedes ser un escéptico
inductivista. No puedes ser un escéptico en el sentido de Reichenbach. Esta es la
consecuencia de la invariabilidad.20

La frecuencia relativa delimitante de A es una variable aleatoria. Tu expectativa de esta


frecuencia relativa delimitante es tu probabilidad de A. En el caso especial en el que tus
grados de creencia sean ergódicos, tendrás certeza de que tu probabilidad de A es igual a la
frecuencia relativa delimitante. Este es el teorema ergódico de Birkhoff.

Lo anterior se encuentra en un nivel tan abstracto que es imposible decir mucho sobre las
medidas ergódicas extremas. Una especificación adicional de la transformación bajo la cual
tus probabilidades son invariables puede proveer información adicional. El teorema de De
Finetti es un caso especial, siendo intercambiables sus medidas invariables, y las medidas
ergódicas, independientes e idénticamente distribuidas. Otra versión del teorema de De
Finetti para las cadenas de Markov, fue aportada por David Freedman (Freedman 1962).
Como se ha enfatizado en el principio, tus probabilidades y tu concepción de repetición del
mismo experimento dependen de ti. Podemos tener diferencias; podemos ser escépticos
sobre el otro, pero no sobre nosotros mismos.

Hasta aquí, las experiencias de aprendizaje concebidas han sido modeladas como
condicionantes en la evidencia. Un escéptico más radical puede fácilmente dudar de esto.
Esta es la postura tomada en el Probabilisimo Radical de Richard Jeffrey (Jeffrey 1965,
1968). ¿Deberá un probabilista radical ser forzosamente un escéptico inductivo radical?

Aprendemos bajo una especie de interacción de caja negra que va actualizando las
probabilidades propias. Luego necesitamos una manera de distinguir las interacciones que
son vistas como experiencias de aprendizaje, y estas que son vistas como agujeros
mentales, lavado de cerebro, alucinaciones inducidas por drogas, las Sirenas cantando a
Ulises, y similares. Un candidato plausible es la coherencia diacrónica (Goldstein 1983; van
Fraasen 1984).

Si uno contempla una secuencia de ciertas experiencias que se prolongan hacia el futuro y
las considera como experiencias de aprendizaje, la coherencia requiere que formen un lazo
(gamarra) en tus grados de creencia, como he señalado anteriormente (Skyrms 1990, 2006).
Esto significa que entra en escena el teorema de convergencia de lazo. Como un giro
adicional, aquel que sea escéptico de la aditividad contable no necesita preocuparse. Todo
esto puede conseguirse con lazos aditivos finitos (Zabell 2002). Incluso en un escenario
austero, uno no puede ser un escéptico inductivo por completo.

19
Es decir, que para casi todos los puntos en el espacio – con “casi todos” determinado por tus
probabilidades – existen las frecuencias relativas delimitantes.
20
Si, adicionalmente, tus probabilidades son ergódicas, crees que la frecuencia relativa existente en un
conjunto convergerá con tu probabilidad para ese conjunto.
Hume destaca que es psicológicamente imposible ser un escéptico consistente: “Dado que
la razón es incapaz de disipar estas nubes, la naturaleza misma cumple este propósito”
(Hume 1896, Libro 1, parte IV, sec. VII). No estamos obligados por lógica a creer en una
secuencia prospectiva de experimentos de aprendizaje. Podríamos no ser coherentes o creer
que seguiremos siendo coherentes en el futuro. No necesitamos creer que habrá un futuro.
El escepticismo absoluto es incontestable.

Pero a falta de escepticismo absoluto, existen varios grados de escepticismo inductivo,


que difieren en lo que el escéptico traiga a colación y lo que ponga en duda. Algunos tipos
de escépticos pueden plantear dudas sobre cosas en las que están implícitamente
comprometidos. En tales casos, la razón es capaz de despejar tales dudas. Es notable hasta
qué punto la lógica de la creencia coherente limita el escepticismo inductivo.

También podría gustarte