Está en la página 1de 27

Capı́tulo 1

Introducción

1
2 CAPÍTULO 1. INTRODUCCIÓN

1.1. Motivación

En el siglo XVII, un tal Antoine Gombaud (Fig. 1.1) planteó el siguiente problema
a su amigo Blaise Pascal: ¿Conviene o no conviene apostar dinero a
que, si tiro un par de dados 24 veces, al menos en uno de esos 24 tiros
voy a obtener un doble 6? La apuesta consiste en poner una cierta
cantidad de plata sobre la mesa. Si pierdo, me quedo sin nada. Si
gano, me llevo mi plata multiplicada por dos. Los cálculos de Antoine
le decı́an que no convenı́a tomar tal apuesta. Sin embargo, la práctica
le decı́a que sı́ valı́a la pena. Blaise se entusiasmó con el problema, y
lo empezaron a discutir. Las deliberaciones los llevaron a plantear un
segundo desafı́o, que fue discutido en profundidad por Blaise Pascal
y Pierre de Fermat (Fig. 1.1), en un asiduo intercambio de cartas que
se considera un hito en la historia de la probabilidad, quizás dando
lugar a su primer formulación teórica. El problema decı́a lo siguiente.
Supongamos que dos contrincantes se enfrentan en un juego de azar,
que consta de un cierto número de rounds, por ejemplo 7, previamente
acordado. Cada round sale favorable a uno de los contendientes y
desfavorable al otro, y una vez jugados los 7 rounds, el que tiene más
victorias es proclamado ganador. El ganador se lleva toda la plata, y el
perdedor no se lleva nada. Pero ocurre un imprevisto, y el juego debe
interrumpirse antes de completar los 7 rounds, por ejemplo, al cuarto.
Figura 1.1. Antoine ¿Cómo deberı́amos distribuir la paga entre los dos contendientes, si
Gombaud (1607-1684), hasta ese momento, uno de ellos ganó n1 rounds y el otro n2 ?
Blaise Pascal (1623-
1662) y Pierre de
No fue esta la primera vez que se intentó desarrollar un formalis-
Fermat (1607-1665).
mo racional para encarar problemas con información incompleta, o
incierta. Mucho más antiguos son, por ejemplo, los intentos de establecer la inocencia o cul-
pabilidad de una persona en el ámbito criminalı́stico, juzgando su accionar en un contexto en
1.1. MOTIVACIÓN 3

el cual las consecuencias de sus actos eran inciertas, o al menos parcialmente inciertas. Si una
persona hace algo que no necesariamente produce un daño a otra, pero que, en combinación con
otros factores más o menos predecibles, sı́ puede producir un daño, ¿hasta qué punto es culpable
del perjuicio causado? Por muy interesantes que puedan ser estas disquisiciones, la formulación
cuantitativa de problemas con consecuencias en el bienestar de las personas es difı́cil, ya que
no existe una forma objetiva de evaluar los costos y beneficios de acciones que afectan recursos
tales como la dicha de las personas, su salud, sus afectos, estados de ánimo, o valores similares.
En cambio, los juegos de azar ofrecen un contexto en el cual tales costos y beneficios se pueden
evaluar cuantitativamente de una manera mucho más evidente. En primer lugar, los juegos de
azar se diseñan de tal manera de que los posibles resultados sean máximamente impredecibles.
No hay motivo para preferir la cara o la ceca, cuando tiramos una moneda. No hay motivo
para elegir un número en particular, cuando tiramos un dado. No hay motivo para preferir un
número en favor de otro, en la ruleta. Al menos, no si la moneda, el dado y la ruleta están “bien
diseñados”. En segundo lugar, la existencia de una paga hace que el problema se torne natural-
mente cuantitativo. En un problema legal, o religioso, podemos discutir interminablemente la
gravedad de las consecuencias de las posibles acciones a seguir en situaciones inciertas, pero
no existe una métrica intuitiva para tal “gravedad”, y no existe un criterio unánime para decidir
si tal problema de salud es más o menos grave que tal otro problema familiar. En un problema
que implique intercambio de dinero, en cambio, las emociones se tornan cifras: las ganancias o
pérdidas se reportan numéricamente.

El objetivo de este apunte es desarrollar herramientas para transformar corazonadas en ci-


fras. Pero ojo. El hecho de que trabajemos con corazonadas no nos habilita a chamuyar. La
transformación debe ser siempre racional y justificada. No sabemos con certeza lo que va a
pasar. Ni lo que pasa. Ni lo que pasó. Pero aún en un marco de incerteza, la cuantificación debe
hacerse con métodos rigurosos, de forma que el resultado no sea una cuestión de opinión, sino
la consecuencia de la lógica. Allá vamos.
Capı́tulo 2

Nociones básicas

9
10 CAPÍTULO 2. NOCIONES BÁSICAS

2.1. Motivación

El primer paso para operar con probabilidades es construir una escala con la cual medir
el grado de certeza con que creemos que una dada afirmación es verdadera. Ejemplos de tales
afirmaciones son

- Mañana va a salir el sol.

- El próximo auto que pase será blanco.

- Mañana va a salir el 666 en la loterı́a.

- Ayer mi vecino me mintió.

En un principio, podrı́amos pensar que estamos habilitades a utilizar la escala que se nos cante
para medir el grado de certeza de afirmaciones de este tipo. Sin embargo, si queremos que el
grado de certeza respete nociones básicas de consistencia lógica, la escala numérica tiene que
cumplir ciertos requerimientos, que englobaremos en lo que llamaremos la definición axiomáti-
ca de la probabilidad. Este capı́tulo introduce tal definición axiomática, y explora algunas de
sus consecuencias.

Para poder formular los criterios de consistencia lógica es necesario dotar al conjunto de
afirmaciones posibles de cierta estructura. Por ejemplo, trabajaremos con afirmaciones de tipo
aristotélica, es decir, afirmaciones que necesariamente son verdaderas o falsas, eliminando la
posibilidad de que tengan valores de verdad intermedio. En los ejemplos anteriores, esto signi-
fica que suponemos que

- Mañana el sol sale o no sale, pero no puede salir parcialmente. Estamos entonces descar-
tando la posibilidad de que estemos en el cı́rculo polar en el equinoccio.
2.2. ALGUNAS DEFINICIONES 11

- Los autos que pasan son blancos o no blancos. Estamos descartando la posibilidad de que
algunos autos sean blancuzcos, es decir, de un color intermedio entre blanco y no blanco.

- En la loterı́a sale el número 666 o no sale el 666. Es decir, la casa central de la loterı́a no
fue bombardeada en el momento del muestreo.

- Mi vecino dijo la verdad o mintió, sin posibilidad de haber transmitido una verdad a
medias.

Este tipo de condicionamientos, ası́ como la existencia de un conjunto universal que incluye
todas las cosas que pueden pasar, requieren que hagamos un breve repaso de nociones de lógica
y de teorı́a de conjuntos antes de seguir adelante.

2.2. Algunas definiciones

Notación: Utilizaremos los operadores lógicos


∨ = Logical OR
∧ = Logical AND
Y = Logical XOR
p̄ = NOT(p)

Notación: Dado un espacio universal M , y conjuntos A y B,


A⊂B ⇔ ∀ x ∈ A : x ∈ B.
A=B ⇔ A ⊂ B ∧ B ⊂ A.
x∈A∪B ⇔ x ∈ A ∨ x ∈ B.
x∈A∩B ⇔ x ∈ A ∧ x ∈ B.
x ∈ Ā ⇔ x∈M ∧x∈ / A.
x∈A−B ⇔ x∈A∧x∈ / B.

Definición: Un experimento es cualquier proceso de observación.


12 CAPÍTULO 2. NOCIONES BÁSICAS

Definición: Un experimento aleatorio es un experimento cuyos resultados no son predecibles,


al menos, no son enteramente predecibles. A veces, se consideran los experimentos predecibles
como casos particulares (casos lı́mites) del caso aleatorio. Pero en general, se utiliza el adjetivo
aleatorio para hacer hincapié en la impredecibilidad del experimento.

Ejemplos de experimentos aleatorios:

- Meto la mano en una caja que contiene 10 pelotas blancas y 10 pelotas negras. Revuelvo
sin mirar, y saco una pelota. El resultado del experimento es el color de la pelota extraı́da.

- Tiro una moneda, y me fijo cuál cara queda expuesta. El resultado es cara o ceca.

- Mido cuántas veces pasa el colectivo número 20 por delante del CAB en una hora.

- Mido el perı́odo de un péndulo.

- Mido la masa del electrón.

- Me fijo en el resumen de mi cuenta bancaria a ver cuánto gastamos el mes pasado en


alimentos.

- Verifico si Venus es destruida por un meteorito durante el año en curso.

Definición: El espacio de muestreo es el conjunto de todos los resultados posibles de un expe-


rimento.

Ejemplo de espacios de muestreos. Consideramos los experimentos aleatorios enumerados arri-


ba:

- M = {blanca, negra}.

- M = {cara, ceca}.
2.2. ALGUNAS DEFINICIONES 13

- M = conjunto de números enteros no negativos.

- M = conjunto de números racionales positivos.

- M = conjunto de números racionales positivos.

- M = conjunto de números racionales positivos con a lo sumo dos cifras decimales.

- M = {Venus sigue, Venus out} .

Comentario: Por ahora, supondremos que conocemos el espacio de muestreo. Sin embargo, en
algunos casos, ni siquiera se conoce cuál es el conjunto de valores que pueden ser obtenidos
como resultado de una medición. En esos casos, una opción es trabajar con un conjunto que con
certeza incluya el espacio de muestreo, dejando abierta la posibilidad de que algunos valores
nunca se observen. Tal es el caso de algunos de los ejemplos enumerados arriba: en algunos
casos, estamos incluyendo en el espacio de muestreo valores mucho mas grandes que los reali-
zables en cualquier experimento humano. Otra posibilidad es plantear un meta-problema, donde
la variable aleatoria es el espacio de muestreo del problema original (este caso se discutirá en el
capı́tulo 11).

Definición: Un evento es un subconjunto del espacio de muestreo.

Definición: Un espacio de eventos asociado a un espacio de muestreo M es un conjunto E de


eventos que cumple

1. M ∈ E. Es decir, el espacio total de resultados está en E.

2. Si A ∈ E, ⇒ Ā ∈ E. Es decir, si un conjunto de resultados está en E, su complemento


también está en E.

3. Si Ai ∈ E, con i ≥ 1, ⇒ ∪i Ai ∈ E, donde se entiende que la unión incluye un número


finito de conjuntos, o un número infinito numerable. Este requerimiento implica que si
14 CAPÍTULO 2. NOCIONES BÁSICAS

hay varios conjuntos de resultados que pertenecen a E, las uniones arbitrarias entre ellos,
también pertenecen a E. Esta propiedad también puede enunciarse como: E es cerrado
respecto de la unión.

Comentario: Los espacios de eventos también suelen llamarse “σ-álgebras”, “campo de Borel”
o “espacios medibles”.

Comentario: En la práctica se demuestra que la definición de espacio de muestreo implica que


E también es cerrado respecto de la intersección.

Comentario: Lo importante es que estos espacios tienen al conjunto total, al vacı́o, y a todas las
uniones e intersecciones que se puedan hacer con los elementos del conjunto.

Comentario: Dado un espacio de muestreo, el espacio de eventos más sencillo posible, contiene
únicamente al espacio total y al vacı́o.

Comentario: La intersección entre dos conjuntos da un tercer conjunto que contiene un número
de elementos que es necesariamente menor o igual a la suma de los cardinales de los dos origi-
nales. La unión entre dos conjuntos da un tercer conjunto que contiene un número de elementos
que es necesariamente mayor o igual a la suma de los cardinales de los dos originales. Interse-
cando achicamos, y uniendo agrandamos. Estas operaciones, por ende, jerarquizan el espacio
de eventos con la relación de inclusión. Técnicamente, decimos que la relación de inclusión
introduce un orden parcial en el espacio de eventos. Esta jerarquización es crucial para poder
definir una probabilidad (o más generalmente, una medida), como veremos en un momento.
Toda medida (y toda probabilidad) sobre un espacio de eventos debe respetar la jerarquı́a im-
puesta por la relación de inclusión: la medida (o la probabilidad) de los conjuntos más grandes
no puede ser menor a la de los conjuntos que están en su interior.

Definición: Dado un conjunto finito A, el power set de A es el conjunto cuyos elementos son
todos los subconjuntos que se pueden armar con elementos de A.
2.2. ALGUNAS DEFINICIONES 15

Ejemplo: El power set de A = {a, b, c} es Pow(A) = {∅, {a}, {b}, {c}, {a, b}, {b, c}, {c, a},
{a, b, c}}.

Comentario: Dado un espacio de muestreo finito, el espacio de eventos más grande que se puede
definir a partir de él es el power set del conjunto.

Definición: Dado un espacio de eventos E, sus átomos son todos los conjuntos A = {A ∈
E ∧ A 6= ∅/∀B ∈ E, A ∩ B = ∅ ∨ A ∩ B = A}. Es decir, son todos aquellos elementos de E
que, intersecados con cualquier otro elemento de E, dan vacı́o, o sı́ mismos. Son los elementos
de E que, sin ser vacı́os, son los más elementales.

Comentario: Si E es el power set de algún espacio de muestreo, entonces los átomos de E son
los conjuntos unitarios que contienen los elementos del espacio de muestreo. Pero si E no es el
power set del espacio de muestreo, entonces al menos un átomo contiene más de un elemento
del espacio de muestreo.

Ejemplo: Si el espacio de muestreo es M = {a, b, c}, y el espacio de eventos es E1 = {∅, {a},


{b, c}, {a, b, c}}, los átomos son {a} y {b, c}. En cambio, si el espacio de eventos es E2 =
Pow(M ), los átomos son {a}, {b} y {c}.

Definición: El alfabeto de un espacio de eventos es el conjunto de átomos. En realidad, acá hay


una sutileza de notación. En el ejemplo anterior, en el caso de E2 , el alfabeto es {{a}, {b}, {c}},
pero para simplificar la notación, diremos que el alfabeto es {a, b, c}. Esta notación puede dar
lugar a confusión cuando un elemento del alfabeto contenga más de un elemento del espacio de
muestreo, por ejemplo, el átomo {b, c} en el ejemplo E1 arriba. En estas situaciones es posible
definir b0 = {b, c} para poder trabajar sin las llaves.
16 CAPÍTULO 2. NOCIONES BÁSICAS

2.3. Probabilidad

A continuación damos la definición axiomática de probabilidad, dada por Kolmogorov en


1933

Definición: Una probabilidad definida sobre un espacio de muestreo M y un espacio de eventos


E asociado a M es una función P : E → R que cumple

1. ∀A ∈ E : P (A) ≥ 0.

2. P (M ) = 1.

3. Si se tiene un conjunto numerable de eventos A1 , A2 , . . . mutuamente excluyentes (es


P
decir, con intersecciones todas nulas) P (∪i Ai ) = i P (Ai ).

Comentario: En el caso particular de dos eventos (A, B) ∈ E 2 tales que A ∩ B = ∅, el axioma


3 de la definición de probabilidad implica que P (A ∪ B) = P (A) + P (B).

Comentario: Las probabilidades se definen sobre un espacio de eventos, que contiene todas las
uniones que se pueden formar a partir de los átomos. Por ende, basta con definir las probabilida-
des sobre los átomos para que, a través de los axiomas, queden definidas sobre todo el espacio
de eventos. Sin embargo, es importante tener en claro que no siempre es posible definir las pro-
babilidades sobre los átomos. Tal es el caso, por ejemplo, cuando trabajamos con un espacio de
muestreo continuo, que contiene un número infinito no numerable de elementos (ver clase 4).
En tal caso, se definen las probabilidades sobre todos los eventos que no son atómicos (es decir,
sobre intervalos de extensión no nula). Hecho esto, la probabilidad de cada átomo (que para
distribuciones continuas necesariamente se anula) queda definida por un lı́mite: se interpreta al
átomo como el lı́mite de una sucesión de intersecciones, y se deduce su probabilidad usando los
axiomas.
2.3. PROBABILIDAD 17

Comentario: Una medida es una probabilidad que no necesariamente cumple el segundo reque-
rimiento, es decir, que no necesariamente está normalizada. Se pide también que el conjunto
vacı́o mida cero. Esta condición también se cumple con una probabilidad, pero no es necesario
escribirla como un requerimiento adicional, porque se puede deducir de las otras 3 condiciones.
El requerimiento de que el conjunto vacı́o mida cero se exige para evitar la divergencia de la
medida sobre la totalidad de los eventos.

Comentario: Dado que históricamente se utilizaron también otras definiciones de probabilidad,


la definición de arriba suele llamarse axiomática, y se la contrapone a las definiciones clásica,
frecuentista, bayesiana, etc. (ver abajo). La definición axiomática es la más general de todas,
en el sentido de que todas las definiciones de probabilidad dan lugar a conceptos que cumplen
con los cuatro requerimientos enumerados arriba. La definición axiomática difiere de las otras
en el hecho de que no pretende dar ningún contexto a por qué esta cantidad podrı́a ser útil
o interesante, y no describe qué representa. Los cuatro requerimientos de la función P (A) se
denominan axiomas.

A continuación, introducimos los conceptos de probabilidad condicionada y probabilidad con-


junta. Con ellos, definimos la noción de eventos independientes. Estas nociones permiten cons-
truir relaciones entre eventos. Especı́ficamente, cuando la ocurrencia o no de un evento no afecta
en nada la probabilidad de la ocurrencia o no de otro evento, decimos que los eventos son inde-
pendientes.

Definición: Probabilidad condicionada. Para todo evento B con probabilidad no nula, se defi-
ne la probabilidad del evento A condicionada al evento B como P (A|B) = P (A ∩ B)/P (B).

Comentarios:

- La probabilidad condicionada P (A|B) no puede definirse si P (B) = 0.

- Sabemos que la probabilidad P (A) crece a medida que agregamos más y más elementos
18 CAPÍTULO 2. NOCIONES BÁSICAS

en el conjunto A1 . Veamos qué sucede con P (A|B) a medida que vamos metiendo más
y más elementos en el conjunto A. Al ir aumentando el cardinal de A, el número de
elementos de A ∩ B no puede disminuir, ası́ que P (A|B) tampoco puede disminuir. Lo
interesante es darse cuenta de que es inútil agregar elementos en A si esos elementos
no pertenecen también a B. Es decir, los elementos del espacio de muestreo que, al ser
agregados en A pueden cambiar el valor de P (A|B) son aquellos que pertenecen a B.
El conjunto B es a P (A|B) lo que el conjunto M es a P (A). En otras palabras, para
aquellos eventos A ⊂ B, P (A|B) es igual a P (A), salvo por un reescaleo global P (B)
que asegura que cuando A = B, P (A) = 1. Cuando A no está incluido en B, la única
parte de A que importa, es aquella que también pertenece a B.

Definición: Probabilidad conjunta. Dados dos eventos A y B, decimos que la probabilidad


conjunta P (A, B) de ambos eventos es la probabilidad de la intersección, es decir, P (A ∩ B).

Comentario: La probabilidad conjunta de dos eventos se define como la probabilidad de que


sucedan ambos. Si los dos eventos tienen intersección nula, necesariamente tienen probabilidad
conjunta nula.

Definición: Los eventos A y B se llaman independientes si y sólo si P (A ∩ B) = P (A)P (B).

Comentario: Si alguno de los dos eventos A o B (o ambos) tiene probabilidad nula, entonces
los eventos son independientes. Si ambos tienen probabilidad no nula, entonces la condición
de independencia es equivalente a P (A|B) = P (A) y P (B|A) = P (B). Es decir, dos eventos
son independientes cuando (a) alguno de ellos no ocurre nunca, y también cuando (b) el con-
dicionamiento sobre uno de los eventos no altera la probabilidad del otro. Es importante que
esta idea quede clara, porque muchas son las aplicaciones en las que la naturaleza propia de un
suceso nos permite asegurar que dos eventos son independientes. Por ejemplo, si tiro un dado
dos veces, y si X1 y X2 representan los resultados del primer y segundo tiro, respectivamente,
tı́picamente diremos que P (X1 = a, X2 = b) = P (X1 = a) P (X2 = b). Esta propuesta presu-
1
¿cómo sabemos esto? Traten de deducirlo, a partir de los aximoas de probabilidad.
2.4. DISTINTOS MARCOS CONCEPTUALES 19

pone que los eventos X1 = a y X2 = b son independientes. ¿Qué hipótesis sobre el proceso de
tirado de dados están implı́citas en esta suposición? ¿Cambiarı́an las hipótesis si ahora X1 y X2
representan el número de resultados pares, y el número de resultados impares, que se obtuvieron
de los dos dados, respectivamente?

2.4. Distintos marcos conceptuales

La definición que dimos de probabilidad no fija el valor de las probabilidades en una situación
particular. Cualquier función P : E → R que cumpla con los cuatro requerimientos listados,
es una probabilidad. Sin embargo, nuestra noción intuitiva de probabilidad es especı́fica: en un
contexto determinado, uno tiende a pensar que hay una única probabilidad. No cualquier fun-
ción que cumpla los requerimientos parece ser la probabilidad que entendemos intuitivamente.
El punto es que cualquier función que cumpla con la definición es una posible probabilidad, pe-
ro no necesariamente es la probabilidad que nos interesa. A continuación, discutimos entonces
posibles criterios que sirven para decidir si nos interesa o no trabajar con una dada noción de
probabilidad. Estos criterios siguen bastante de cerca las nociones que históricamente se fueron
utilizando para concebir la noción de probabilidad.

Criterio clásico: Los primeros cientı́ficos y/o filósofos que introdujeron la noción de probabili-
dad (Bernoulli2 y Laplace, que tenı́an pelucas tipo Bach y Mozart, respectivamente), lo hicieron
reduciendo el proceso bajo estudio a sub-procesos equiprobables. Se da por sentado que existe
un nivel suficientemente microscópico para que todos los eventos de ese nivel tengan opcio-
nes que son simétricas. Por ejemplo, si tiramos un dado, y postulamos que el dado es un cubo
perfecto y el proceso de tirado da el mismo trato a cada una de las 6 caras, por simetrı́a los
6 resultados posibles deben ser equiprobables. Esta serı́a la descripción a nivel microscópico.
Luego podemos preguntarnos probabilidades de eventos más grandes, por ejemplo, la probabi-

2
Ojo, cientı́ficos famosos de apellido Bernoulli hay muchos, y todos están emparentados; acá estamos hablando
de Don Jakob
20 CAPÍTULO 2. NOCIONES BÁSICAS

lidad de obtener un número par, o un número primo, o un número múltiplo de 3, etc. El criterio
clásico es elegante, en el sentido que exige que la simetrı́a del problema se refleje en la asig-
nación de probabilidades. La objeción natural, sin embargo, es que existen muchos procesos
que uno puede estar interesado en estudiar, cuya reducción a una descripción en términos de
variables microscópicas simétricas no es de ninguna manera evidente. La clase de procesos que
pueden ser abordados por este método es por ende limitada. Nótese que la determinación de si
una dada probabilidad cumple o no con el criterio clásico es enteramente teórica. Es uno quien
decide si las variables microscópicas tiene o no la simetrı́a adecuada. En el caso del ejemplo
del dado, está claro que ningún dado es por construcción un cubo perfecto. Nosotros podemos
imaginarlo perfecto, y en muchos casos, no nos estaremos apartando significativamente de la
realidad. Pero el criterio clásico no incluye una verificación de si el dado que tenemos delante
es perfecto o no. Se parte de una concepción teórica del proceso, en la cual se supone simetrı́a
perfecta, y a partir de esa suposición se construyen las probabilidades.

Criterio frecuentista: Este criterio surgió como postura empı́rica, opuesta a las abstracciones.
El objetivo fue poder definir probabilidades también en los casos en los que es difı́cil o im-
posible especificar las simetrı́as deseadas, pero el sistema es accesible experimentalmente. La
probabilidad que interesa a un frecuentista se define como el cociente entre el número de ve-
ces que muestreamos un dado evento (suponiendo que medimos muchas veces, en condiciones
idénticas, y muestreos independientes) y el número total de mediciones. Matemáticamente,
nA
∀A ∈ E, P (A) = lı́m , (2.1)
N →∞ N

donde N es el número total de mediciones y nA es el número de veces que el resultado de la


medición fue una muestra contenida en A. Si el lı́mite de la Ec. 2.1 existe para todo A ∈ E,
esta definición cumple con los requerimientos de la definición axiomática de probabilidad.

Crı́ticas al criterio frecuentista:

- La definición supone que el lı́mite existe, cosa que no está garantizada. Uno bien puede
ponerse a hacer un experimento, y observar que los cocientes nA /N no convergen, cuan-
2.4. DISTINTOS MARCOS CONCEPTUALES 21

do N → ∞. La no convergencia puede deberse a errores experimentales, o a que los


procesos no son estacionarios, o incluso a la naturaleza de la distribución de probabilidad
en cuestión (volveremos sobre este punto en el capı́tulo 3). Estrictamente, ningún pro-
ceso es estacionario a tiempos verdaderamente largos, ya que los cientı́ficos se mueren,
el planeta se contamina, el universo se expande y se enfrı́a y la entropı́a total aumenta.
Por ende, en sentido estricto, la definición frecuentista no aplica a ningún caso. Quienes
sostengan que el universo es cı́clico, no festejen, ya que una oscilación no es una con-
vergencia. Podemos sólo entender la existencia del lı́mite de manera aproximada, para un
subconjunto de procesos que, en tiempos limitados, parecen converger—entendiendo que
tal convergencia no es más que una apariencia, pero que estamos dispuestos a aceptar.
Es decir, la definición aplica a situaciones idealizadas, que justamente por su naturaleza
idealizada, contradicen la esencia empı́rica que pretende ofrecer el criterio frecuentista.

- La definición supone que los muestreos son independientes unos de otros. La idea in-
tuitiva es que el resultado de un muestreo no afecta el resultado de muestreos pasados o
futuros. Estrictamente, es imposible garantizar que este requerimiento se cumpla. Cuando
se toma una muestra, se altera el estado de un gran número de variables microscópicas.
Y si bien probablemente tales variables influyen mı́nimamente en la próxima medición,
la influencia existe. De hecho, la supuesta aleatoriedad del proceso de muestreo se ba-
sa muchas veces en el estado de las variables microscópicas. El hecho que nosotros no
sepamos describir la forma explı́cita en que las variables microscópicas (alteradas por la
primera medición) afectan el resultado de la segunda medición no significa que no exista
una relación causal entre ellas. La supuesta separación de las variables en microscópicas
y macroscópicas es en última instancia una idealización, un pasaje al lı́mite que sólo se
da en modelos matemáticos. Las variables microscópicas que determinan los valores de
muestreos sucesivos están correlacionadas, y por lo tanto, en última instancia, las varia-
bles macroscópicas (los resultados de las mediciones) están también correlacionadas. Más
grave aún, el requerimiento de ser independientes requiere de la noción de probabilidad.
Por ende, la definición frecuentista es circular, porque una de las premisas experimentales
hace referencia a la independencia, que a su vez, depende de las probabilidades que se
intenta medir.
22 CAPÍTULO 2. NOCIONES BÁSICAS

- La definición requiere que los muestreos se realicen en condiciones idénticas. En muchos


casos, si las condiciones son idénticas, entonces los resultados son también idénticos. Si
cada vez que tiramos una moneda al aire, la colocamos exactamente en la misma posi-
ción sobre el dedo pulgar, la rodeamos de una atmósfera de aire donde cada átomo está
exactamente en el mismo lugar, e iniciamos el movimiento del dedo con un cerebro cu-
yas neuronas están exactamente en el mismo estado, la moneda caerá con exactamente la
misma cara expuesta. Por ende, la idea no es que todos los muestreos sean en condiciones
idénticas, sino que algunas condiciones sean siempre idénticas, y otras sean aleatorias.
A las aleatorias las llamamos ruido, y a las idénticas, contexto. Pero la distinción entre
el contexto y el ruido no es experimental, es teórica. El experimentador no tiene control
estricto ni de unas ni de otras, sólo puede diferenciarlas por una cuestión de grado. La
distribución de probabilidad del ruido escapa enteramente a su control. La del contexto
la puede controlar en medida suficiente como para generarle confianza. En consecuencia,
el requerimiento de realizar muestreos idénticos es impracticable, y cualquier intento de
racionalizarlo implica cuantificar la probabilidad con que el experimentador controla el
experimento—lo que introduce nuevamente circularidad.

- La definición sólo es aplicable a eventos medibles. Uno muchas veces está interesado en
calcular la probabilidad de eventos que no se pueden medir, y que si se pudieran medir,
serı́an irrepetibles. Por ejemplo, la probabilidad de que un meteorito choque contra la
Tierra y la pulverice, la probabilidad de que al papa lo maten de un tiro en la cabeza, la
probabilidad de que mi marido me haya engañado con mi vecina la última vez que me
fui de viaje. En el marco de un modelo, estas probabilidades son ciertamente calculables,
pero no es posible hacer experimentos repetidos. Por ejemplo, uno puede partir de un mo-
delo donde se especifica la densidad y distribución de velocidades de los meteoritos que
viajan por el sistema solar, y calcular que uno suficientemente energético pegue contra la
Tierra y la pulverice. El experimento, en cambio, es complicado. En cuanto a los eventos
que implican un estudio del pasado, se refieren a un único evento.

Concepción bayesiana de la probabilidad. Los marcos clásicos y frecuentistas son útiles en


determinados contextos, pero no en otros. El marco bayesiano es una forma de interpretar las
2.4. DISTINTOS MARCOS CONCEPTUALES 23

probabilidades en la que los criterios clásico y frecuentista son casos particulares. En el marco
bayesiano, la probabilidad debe entenderse como el grado de certeza que tenemos acerca del
resultado de un dado experimento. En distintos contextos, el grado de certeza de cada resultado
varı́a. En un contexto podemos basar nuestras espectativas en criterios de simetrı́a, y usar el
criterio clásico. En otro contexto podemos desconfiar de formulaciones teóricas, y preferir basar
nuestra concepción del proceso en mediciones repetidas de un experimento. En este caso, en
vez de hacer suposiciones sobre el proceso en sı́, hacemos suposiciones sobre el proceso de
medición (suponemos independencia, estacionariedad, etc.). En otra situación podemos suponer
otra cosa.

La crı́tica obvia al criterio bayesiano es que es completamente subjetivo. Los criterios por
los cuales decidimos el grado de certeza que tenemos sobre el resultado de un experimento pa-
recen ser difı́cil de precisar. Utilizar el criterio Bayesiano implica tomarse el trabajo de justificar
ese grado de certeza. El criterio en sı́ no especifica cómo calcular la probabilidad en un deter-
minado contexto. El punto clave es que en el marco bayesiano, la subjetividad debe basarse en
un análisis racional del problema. Acá la palabra clave es “racional”. Es decir, el hecho de que
interpretemos la probabilidad como el grado de certeza con que esperamos obtener cada uno de
los resultados de una medición, no implica que estemos autorizades a esperar cualquier cosa.
Para poder calcular un grado de certeza, uno debe especificar el contexto en el cual basa sus
creencias. Si bien la probabilidad va a depender de dicho contexto, el criterio bayesiano exige
que el contexto sea racional. Por ejemplo, para calcular la probabilidad de que un meteorito
pulverice la Tierra, es necesario partir de alguna teorı́a fı́sica que especifique la densidad de
meteoritos viajando por el espacio y su distribución de velocidades y masas. Especificando un
modelo para la distribución de meteoritos se puede deducir la probabilidad de que la Tierra sea
destruida. El marco Bayesiano (al igual que el clásico) rescata el hecho de que las probabilida-
des asociadas a un fenómeno básico (los meteoritos) permiten calcular las probabilidades de un
fenómeno derivado (la Tierra destruida). La diferencia es que el criterio clásico está restringido
a situaciones en que el fenómeno básico exhiba cierta simetrı́a, para poder partir de probabilida-
des planas. El marco Bayesiano, al ser más amplio, se permite partir de cualquier distribución,
en tanto y en cuanto esa distribución represente el modelo mental sobre el cual se basan las
24 CAPÍTULO 2. NOCIONES BÁSICAS

espectativas. El cálculo de probabilidades está basado en la creencia de que la descripción ma-


temática del contexto es válida, y el grado de certeza (alto o bajo) de ser pulverizados depende
de las premisas de dicha teorı́a. Si cambiamos de teorı́a (por ejemplo, la distribución de masas
de meteoritos, o el intercambio de energı́a durante el impacto), cambian también las probabi-
lidades. En el marco bayesiano, es imposible calcular probabilidades sin suponer un contexto,
y las probabilidades son sólo válidas en la medida en que lo sea el contexto. Otro ejemplo.
Si queremos calcular la probabilidad de que una moneda salga cara o ceca, podemos hacerlo
suponiendo que la moneda no está cargada. En cuyo caso, creemos que la cara es igualmente
probable a la ceca, y por ende, ambas probabilidades dan 1/2. En este contexto, le bayesiane se
reduce al clásico. En otro contexto, le bayesiano puede volverse frecuentista, cuando las creen-
cias se basan en una idealización del proceso de muestreo repetido. Bien podemos decir: para
poder estimar el grado de certeza con que creo que esta moneda saldrá cara, la voy a tirar 1000
veces, y registrar la fracción de caras que obtengo, y voy a suponer que los tiros futuros (que
no voy a hacer, por falta de tiempo) continuarán con la misma tendencia. Ciertamente, no tengo
la certeza de que las mediciones sean estacionarias e independientes, ni tampoco de que las
mediciones futuras continuarán con la misma tendencia. Pero el marco Bayesiano da derecho
a calcular la probabilidad con mediciones, porque su única pretensión es estimar el grado de
certeza a partir de un cierto conjunto de creencias. Es lı́cito basar las creencias en mediciones
(variables y dependientes, como todas las mediciones). También es lı́cito basarlas en criterios
de simetrı́a.

En el marco bayesiano, las probabilidades no reflejan una propiedad de la naturaleza, sino


una propiedad de la forma de pensar del sujeto que las interpreta: son solo consecuencia de las
premisas de las que parte. El trabajo del sujeto es justificar esas premisas. En la práctica, esta
tarea dista de ser fácil, ya que cuesta trabajo decidir un criterio a partir del cual uno pueda (a
conciencia) basar sus espectativas. El resultado es que, en el marco bayesiano, las probabilida-
des se derivan de las premisas usando sólo la lógica. Si las premisas son ciertas o no, es otra
historia.

Cuando le bayesiane se vuelve frecuentista. Analicemos el caso en que un bayesiano decide


2.4. DISTINTOS MARCOS CONCEPTUALES 25

basar sus creencias en el resultado de experimentos previos. Sea (X) una variable aleatoria
que se genera por un proceso que le bayesiane desconoce, obteniendo valores x ∈ AX =
{a1 , . . . , ak }. Le bayesiane muestrea esa variable N veces, observa la secuencia de valores
obtenidos, y con ellos define una secuencia de variables aleatorias qN = (q1N , . . . , qkN ) como
nN
i
qiN = ,
N
donde nN
i es el número de veces en las que la secuencia de N valores medidos contenı́a el re-
sultado ai . Para todo valor N ≥ 1, los (q1N , . . . , qkN ) valores obtenidos cumplen con los axiomas
de probabilidad. Podemos decir que es una buena estrategia que el abordaje bayesiano base en
estos numeritos sus expectativas sobre los resultados de experimentos futuros? En general, no,
sobre todo si N es chico. Sin embargo, más adelante veremos que si suponemos que

a) las muestras sucesivas son independientes,

b) las muestras sucesivas provienen todas de la misma distribución de probabilidad pi ,

entonces podemos calcular la distribución de probabilidad ProbN (q) = Prob(q1N , . . . , qkN ) de


los numeritos qiN . En la distribución obtenida, las probabilidades verdaderas p1 , . . . , pk aparecen
como parámetros. Como el abordaje bayesiano desconoce las probabilidades verdaderas, no
puede escribir la probabilidad Prob(q). Sin embargo, puede dejarla expresada como un objeto
formal. Más adelante veremos que, si se cumplen las hipótesis (a, b) enumeradas arriba, en el
lı́mite de N → +∞, la probabilidad Prob(q) tiende a concentrarse cada vez más alrededor de
las probabilidades verdaderas (p1 , . . . , pk ). Es decir, que los valores obtenidos de q revelan con
muy alta probabilidad el valor subyacente de p. ¿Implica esto que el criterio frecuentista tiende
a volverse correcto? No, lo que esto implica es que las suposiciones (a, b) sustentan el criterio
frecuentista. Si la realidad sustenta las hipótesis (a, b) es otra historia. Lo que sustenta el criterio
frecuentista son las hipótesis del bayesiano - no necesariamente la realidad.

En aquellos casos en los que tomamos como válidas las hipótesis (a, b), la afirmación de
que Prob(q) tiende a concentrar toda su masa alrededor de p se denomina “Ley de los grandes
26 CAPÍTULO 2. NOCIONES BÁSICAS

números de Borel”. Hay diversas formulaciones de la ley de los grandes números, la de Borel es
sólo una de estas. Volveremos sobre estos temas más adelante. Cabe aclarar, sin embargo, que
las cosas se ponen más complicadas si k → +∞. En el caso de variables continuas, las leyes
de los grandes números (existen varias versiones) pueden o no ser válidas, dependiendo de la
forma de la distribución p(a). Las distribuciones con colas largas son problemáticas.

Consideraciones generales: En el marco bayesiano, uno sólo apunta a cuantificar grados de


creencias. Si une se permite creer cualquier cosa, nadie puede argumentar que trabaja con pro-
babilidades incorrectas—al menos, mientras cumplan con los axiomas. Pero todavı́a podemos
preguntarnos si el cálculo Bayesiano es útil, es decir, si las probabilidades obtenidas sirven para
extraer conclusiones sobre el mundo en que vivimos. No hay dudas de que representan modi-
ficaciones en el grado de certeza. Pero sı́ es posible dudar de si las probabilidades obtenidas
sirven para predecir el resultado de experimentos. Si las probabilidades bayesianas se corres-
ponden muy bien con los datos de la realidad, se concluye que el contexto teórico utilizado
es suficiente para explicar el fenómeno estudiado (aunque no necesariamente exacto). Si no
coinciden con los experimentos, queda claro que el contexto no sirve. En la mayor parte de las
aplicaciones prácticas, las probabilidades son útiles cuando el resultado bayesiano coincide con
el frecuentista. En estos casos, la Ec. 2.1 se cumple, aún cuando las probabilidades se hayan
calculado a partir de un modelo. Se dice entonces, que la Ec. 2.1 representa la ley de los gran-
des números de Borel. Es decir, no se toma como una definición de probabilidad, sino como
una ley empı́rica, que expresa la sorpresa y la alegrı́a que surgen de verificar que las creencias
coinciden con lo que surge de experimentos repetidos.

Comentario: Para ejemplificar los criterios clásico y frecuentista, ası́ como el marco bayesiano
(que puede incluir a los otros dos), volvamos a algunos de los ejemplos discutidos a lo largo de
la clase.

- Color de la pelota extraida:

. Criterio clásico: El experimento es simétrico respecto del color blanco y el color


negro. Las probabilidades son ambas 1/2.
2.4. DISTINTOS MARCOS CONCEPTUALES 27

. Criterio frecuentista: Tomo numerosas muestras del experimento, y si observo con-


vergencia en los resultados, decido las probabilidades de cada resultado.
. Criterio bayesiano: Primero es necesario decidir cuál es el criterio con el que se mi-
de el grado de certeza. Los bayesianos usualmente utilizan criterios que parten de
un análisis idealizado del proceso de estudio. En este contexto, un bayesiano puede
abrazar el criterio clásico basado en la simetrı́a. Pero si tiene motivos para sospechar
que la simetrı́a podrı́a no verificarse, debe evaluar los motivos de su desconfianza
(¿las pelotas están ordenadas? ¿El proceso de extracción se realiza con algún me-
canismo especı́fico? ¿Hay alguna clase de manipulación?), formularlos matemáti-
camente, y de allı́ deducir las probabilidades. Por último, une bayesiane también
puede decidir su grado de certeza en datos experimentales, y utilizar un criterio fre-
cuentista.

- Número de colectivos que pasan por el centro atómico en una hora.

. Criterio clásico: Descomponemos el intervalo de 1 hora en (por ejemplo) 3600 in-


tevalos de 1 segundo cada uno. Como la frecuencia media de colectivos es de 3 por
hora, suponemos que la probabilidad de que pase un colectivo en cada segundo es
3/3600, independientemente de que en los otros segundos hayan pasado colectivos
o no. Esta suposición es una idealización del proceso, en la que todos los segun-
dos son tratados en pie de igualdad. Si los colectivos tienen horario (por ejemplo,
pasan en punto, y veinte y menos veinte) esta suposición no es válida, ya que los
segundos que corresponden al horario deberı́an tener más probabilidad que los que
no corresponden al horario. Además, en la realidad, los segundos no son todos in-
dependientes: si un colectivo pasa en el segundo 25, serı́a raro que pasara otro en el
segundo 26 y otro en el segundo 27 (aunque hay quien afirma que este es el caso más
tı́pico, y que se acompaña con horas completas en las que no pasa ningún colectivo).
Las suposiciones pueden ser verdaderas o no, pero una vez hechas las suposiciones,
es posible calcular la probabilidad de que pasen 0, 1, 2, . . . , n colectivos en una hora.
Se obtiene una distribución de Poisson, como veremos la clase que viene.
. Criterio frecuentista: Durante muchas horas se mide el número de colectivos, y si se
28 CAPÍTULO 2. NOCIONES BÁSICAS

observa convergencia en los resultados, se calculan las probabilidades. Muy proba-


blemente el resultado del experimento no sea estacionario, dependa de la hora del
dı́a, la época del año, y la puntualidad en el pago de salarios a los colectiveros. Le
frecuentista tendrá que decidir si estas no estacionaridades le impiden definir la pro-
babilidad que busca calcular, o si puede utilizar algún criterio para no preocuparse
por ellas.
. Criterio bayesiano: Igual al ejemplo anterior. Le bayesiane debe decidir si su con-
fianza se basa en las suposiciones del criterio clásico, si prefiere hacer otras suposi-
ciones (y sus consecuentes cálculos) o si prefiere basarse en experimentos.

- Perı́odo del péndulo:

. Criterio clásico: No resulta evidente cómo descomponer el proceso en subprocesos


equiprobables.
. Criterio frecuentista: Se toman numerosas muestras del experimento, y si se observa
convergencia en los resultados, se calculan las probabilidades. Este criterio no re-
quiere entender el proceso subyascente, sólo requiere que las mediciones converjan.
. Criterio bayesiano: Le bayesiane debe decidir si su confianza se basa en un modelo
teórico de los procesos que introducen fluctuaciones en las mediciones (encendido y
apagado del cronómetro, rozamiento en el punto en que cuelga el péndulo, corrientes
de aire, etc.) y construir una teorı́a que le permita calcular las probabilidades a partir
de ellos. O si lo prefiere, basar su confianza en el criterio frecuentista.

- Probabilidad de que Venus sea pulverizado por un meteorito en el próximo año:

. Criterio clásico: No resulta evidente cómo descomponer el proceso en subprocesos


equiprobables.
. Criterio frecuentista: Es imposible hacer el experimento, porque la afirmación hace
referencia a un evento único. Es posible sin embargo partir de la suposición de que el
evento que nos interesa puede equipararse al de otros planetas similares en el pasado.
Nótese que esta hipótesis es fuerte, implica un modelo idealizado del proceso a
2.4. DISTINTOS MARCOS CONCEPTUALES 29

estudiar, y elimina la condición supuestamente objetiva de estar tratando con un


método libre de suposiciones.
. Criterio bayesiano: Le bayesiane debe decidir cuáles son los procesos que pueden
destruir a Venus, modelar la estadı́stica de dichos procesos, y deducir la probabilidad
de que se efectivicen en un año.
30 CAPÍTULO 2. NOCIONES BÁSICAS

2.5. Ejercicios

1. Demuestre

a) Ā¯ = A.
b) A ∩ B = Ā ∪ B̄.
c) A ∪ B = Ā ∩ B̄.

2. Una bolsa contiene 4 cartas, una de cada palo. Se extraen 2 cartas al azar, y se observa el
palo de la primera carta, y el palo de la segunda. ¿Cuál es el espacio de muestreo si

a) la primera carta se vuelve a meter en la bolsa antes de extraer la segunda?


b) la primera carta no se vuelve a meter en la bolsa?

¿Cómo se modifican las respuestas si ahora la observación no distingue qué palo corres-
ponde a qué carta?

3. Utilizando la interpretación clásica de la probabilidad, calcule la probabilidad de cada


uno de los elementos del espacio de muestreo en los 4 casos del problema 2.

4. Se tiran dos dados, y se observan los números expuestos.

a) Encuentre el espacio de muestreo.


b) Encuentre el evento A definido como el conjunto de resultados para los cuales la
suma de los puntos de los dos dados da 7.
c) Encuentre el evento B definido como el conjunto de resultados para los cuales la
suma de los puntos de los dos dados es mayor que 10.
d) Encuentre el evento C definido como el conjunto de resultados para los cuales la
suma de los puntos de los dos dados es mayor que 12.
e) Suponiendo que los dados no están cargados, encuentre la probabilidad de los even-
tos A, B y C.
2.5. EJERCICIOS 31

5. Se tira un dado. La variable aleatoria X representa el número obtenido. Se definen los


eventos

. A: el conjunto de resultados pares.


. B: el conjunto de resultados impares.
. C: el conjunto de resultados primos.
. M : {1, 2, 3, 4, 5, 6}.

Muestre que el conjunto {M, ∅, A, B} es un espacio de eventos, mientras que los conjun-
tos {M, ∅, A}, {M, A, B}, y {M, ∅, A, B, C} no lo son.

6. Demuestre que para todo espacio de eventos E,

a) ∅ ∈ E. Es decir, el conjunto vacı́o está en E.


b) Si Ai ∈ E, para i ≥ 1, ⇒ ∩i Ai ∈ E. Es decir, E es cerrado con la intersección
(numerable).
c) Si A y B pertenecen a E, entonces A − B también pertenece a E.

7. Dado el espacio de muestreo M = {a, b, c, d},

a) encuentre el espacio de eventos que coincide con el power set de M .


b) Busque otro espacio de eventos, que no coincida con Pow(M ), ni con el espacio de
eventos trivial {∅, M }.
c) Identifique los átomos de los dos casos anteriores, ası́ como los del espacio de even-
tos trivial.

8. Determine la cardinalidad del power set de un espacio de muestreo de n elementos.

9. Demuestre que si para todo A que pertenece a un espacio de eventos E el lı́mite de la


definición frecuentista de probabilidad existe, entonces la definición frecuentista cumple
con los axiomas de definición axiomática de probabilidad.

10. Demuestre que


32 CAPÍTULO 2. NOCIONES BÁSICAS

a) P (∅) = 0
b) P (A) = 1 − P (Ā)
c) 0 ≤ P (A) ≤ 1
d) Si A ⊂ B, entonces P (A) ≤ P (B).
e) P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
f ) Si el alfabeto AX = {a1 , . . . , ar } contiene r elementos equiprobables, entonces ∀i,
P (ai ) = 1/r.

11. Encuentre P (A|B) si

a) A ∩ B = ∅
b) A ⊂ B
c) B ⊂ A

12. Dos fábricas producen lamparitas. La fábrica 1 produce 1000 lamparitas, de las cuales
100 están falladas. La fábrica 2 produce 2000 lamparitas, de las cuales 150 están falladas.
Se juntan las 3000 lamparitas y se elige una al azar. Está fallada. ¿Cuál es la probabilidad
de que haya venido de la fábrica 1? Determine si estar fallada o no es independiente de
provenir de una u otra fábrica.

13. Se arroja un dado. Definimos el evento A = “el resultado es par” y el evento B = “el
resultado es menor que 3”. Determine si A y B son independientes. Repita el análisis
para el caso en que el evento B se redefine como “el resultado es menor o igual a 3”.

14. Sean A y B dos subconjuntos del alfabeto AX . Demuestre que si A y B son eventos
independientes, entonces también lo son A y B̄, Ā y B, Ā y B̄.

También podría gustarte