Clase 1

Capı́tulo 1
Introducción
1
2 CAPÍTULO 1. INTRODUCCIÓN
1.1. Motivación
En el siglo XVII, un tal Antoine Gombaud (Fig. 1.1) planteó el siguiente problema
a su amigo Blaise Pascal: ¿Conviene o no conviene apostar dinero a
que, si tiro un par de dados 24 veces, al menos en uno de esos 24 tiros
voy a obtener un doble 6? La apuesta consiste en poner una cierta
cantidad de plata sobre la mesa. Si pierdo, me quedo sin nada. Si
gano, me llevo mi plata multiplicada por dos. Los cálculos de Antoine
le decı́an que no convenı́a tomar tal apuesta. Sin embargo, la práctica
le decı́a que sı́ valı́a la pena. Blaise se entusiasmó con el problema, y
lo empezaron a discutir. Las deliberaciones los llevaron a plantear un
segundo desafı́o, que fue discutido en profundidad por Blaise Pascal
y Pierre de Fermat (Fig. 1.1), en un asiduo intercambio de cartas que
se considera un hito en la historia de la probabilidad, quizás dando
lugar a su primer formulación teórica. El problema decı́a lo siguiente.
Supongamos que dos contrincantes se enfrentan en un juego de azar,
que consta de un cierto número de rounds, por ejemplo 7, previamente
acordado. Cada round sale favorable a uno de los contendientes y
desfavorable al otro, y una vez jugados los 7 rounds, el que tiene más
victorias es proclamado ganador. El ganador se lleva toda la plata, y el
perdedor no se lleva nada. Pero ocurre un imprevisto, y el juego debe
interrumpirse antes de completar los 7 rounds, por ejemplo, al cuarto.
Figura 1.1. Antoine ¿Cómo deberı́amos distribuir la paga entre los dos contendientes, si
Gombaud (1607-1684), hasta ese momento, uno de ellos ganó n1 rounds y el otro n2 ?
Blaise Pascal (1623-
1662) y Pierre de
No fue esta la primera vez que se intentó desarrollar un formalis-
Fermat (1607-1665).
mo racional para encarar problemas con información incompleta, o
incierta. Mucho más antiguos son, por ejemplo, los intentos de establecer la inocencia o cul-
pabilidad de una persona en el ámbito criminalı́stico, juzgando su accionar en un contexto en
1.1. MOTIVACIÓN 3
el cual las consecuencias de sus actos eran inciertas, o al menos parcialmente inciertas. Si una
persona hace algo que no necesariamente produce un daño a otra, pero que, en combinación con
otros factores más o menos predecibles, sı́ puede producir un daño, ¿hasta qué punto es culpable
del perjuicio causado? Por muy interesantes que puedan ser estas disquisiciones, la formulación
cuantitativa de problemas con consecuencias en el bienestar de las personas es difı́cil, ya que
no existe una forma objetiva de evaluar los costos y beneficios de acciones que afectan recursos
tales como la dicha de las personas, su salud, sus afectos, estados de ánimo, o valores similares.
En cambio, los juegos de azar ofrecen un contexto en el cual tales costos y beneficios se pueden
evaluar cuantitativamente de una manera mucho más evidente. En primer lugar, los juegos de
azar se diseñan de tal manera de que los posibles resultados sean máximamente impredecibles.
No hay motivo para preferir la cara o la ceca, cuando tiramos una moneda. No hay motivo
para elegir un número en particular, cuando tiramos un dado. No hay motivo para preferir un
número en favor de otro, en la ruleta. Al menos, no si la moneda, el dado y la ruleta están “bien
diseñados”. En segundo lugar, la existencia de una paga hace que el problema se torne natural-
mente cuantitativo. En un problema legal, o religioso, podemos discutir interminablemente la
gravedad de las consecuencias de las posibles acciones a seguir en situaciones inciertas, pero
no existe una métrica intuitiva para tal “gravedad”, y no existe un criterio unánime para decidir
si tal problema de salud es más o menos grave que tal otro problema familiar. En un problema
que implique intercambio de dinero, en cambio, las emociones se tornan cifras: las ganancias o
pérdidas se reportan numéricamente.
El objetivo de este apunte es desarrollar herramientas para transformar corazonadas en ci-

fras. Pero ojo. El hecho de que trabajemos con corazonadas no nos habilita a chamuyar. La
transformación debe ser siempre racional y justificada. No sabemos con certeza lo que va a
pasar. Ni lo que pasa. Ni lo que pasó. Pero aún en un marco de incerteza, la cuantificación debe
hacerse con métodos rigurosos, de forma que el resultado no sea una cuestión de opinión, sino
la consecuencia de la lógica. Allá vamos.
Capı́tulo 2
Nociones básicas
9
10 CAPÍTULO 2. NOCIONES BÁSICAS
2.1. Motivación
El primer paso para operar con probabilidades es construir una escala con la cual medir
el grado de certeza con que creemos que una dada afirmación es verdadera. Ejemplos de tales
afirmaciones son
- Mañana va a salir el sol.
- El próximo auto que pase será blanco.
- Mañana va a salir el 666 en la loterı́a.
- Ayer mi vecino me mintió.
En un principio, podrı́amos pensar que estamos habilitades a utilizar la escala que se nos cante
para medir el grado de certeza de afirmaciones de este tipo. Sin embargo, si queremos que el
grado de certeza respete nociones básicas de consistencia lógica, la escala numérica tiene que
cumplir ciertos requerimientos, que englobaremos en lo que llamaremos la definición axiomáti-
ca de la probabilidad. Este capı́tulo introduce tal definición axiomática, y explora algunas de
sus consecuencias.
Para poder formular los criterios de consistencia lógica es necesario dotar al conjunto de
afirmaciones posibles de cierta estructura. Por ejemplo, trabajaremos con afirmaciones de tipo
aristotélica, es decir, afirmaciones que necesariamente son verdaderas o falsas, eliminando la
posibilidad de que tengan valores de verdad intermedio. En los ejemplos anteriores, esto signi-
fica que suponemos que
- Mañana el sol sale o no sale, pero no puede salir parcialmente. Estamos entonces descar-
tando la posibilidad de que estemos en el cı́rculo polar en el equinoccio.
2.2. ALGUNAS DEFINICIONES 11
- Los autos que pasan son blancos o no blancos. Estamos descartando la posibilidad de que
algunos autos sean blancuzcos, es decir, de un color intermedio entre blanco y no blanco.
- En la loterı́a sale el número 666 o no sale el 666. Es decir, la casa central de la loterı́a no
fue bombardeada en el momento del muestreo.
- Mi vecino dijo la verdad o mintió, sin posibilidad de haber transmitido una verdad a
medias.
Este tipo de condicionamientos, ası́ como la existencia de un conjunto universal que incluye
todas las cosas que pueden pasar, requieren que hagamos un breve repaso de nociones de lógica
y de teorı́a de conjuntos antes de seguir adelante.
2.2. Algunas definiciones
Notación: Utilizaremos los operadores lógicos

∨ = Logical OR
∧ = Logical AND
Y = Logical XOR
p̄ = NOT(p)
Notación: Dado un espacio universal M , y conjuntos A y B,

A⊂B ⇔ ∀ x ∈ A : x ∈ B.
A=B ⇔ A ⊂ B ∧ B ⊂ A.
x∈A∪B ⇔ x ∈ A ∨ x ∈ B.
x∈A∩B ⇔ x ∈ A ∧ x ∈ B.
x ∈ Ā ⇔ x∈M ∧x∈ / A.
x∈A−B ⇔ x∈A∧x∈ / B.
Definición: Un experimento es cualquier proceso de observación.

Definición: Un experimento aleatorio es un experimento cuyos resultados no son predecibles,

al menos, no son enteramente predecibles. A veces, se consideran los experimentos predecibles
como casos particulares (casos lı́mites) del caso aleatorio. Pero en general, se utiliza el adjetivo
aleatorio para hacer hincapié en la impredecibilidad del experimento.
Ejemplos de experimentos aleatorios:
- Meto la mano en una caja que contiene 10 pelotas blancas y 10 pelotas negras. Revuelvo
sin mirar, y saco una pelota. El resultado del experimento es el color de la pelota extraı́da.
- Tiro una moneda, y me fijo cuál cara queda expuesta. El resultado es cara o ceca.
- Mido cuántas veces pasa el colectivo número 20 por delante del CAB en una hora.
- Mido el perı́odo de un péndulo.
- Mido la masa del electrón.
- Me fijo en el resumen de mi cuenta bancaria a ver cuánto gastamos el mes pasado en

alimentos.
- Verifico si Venus es destruida por un meteorito durante el año en curso.
Definición: El espacio de muestreo es el conjunto de todos los resultados posibles de un expe-

rimento.
Ejemplo de espacios de muestreos. Consideramos los experimentos aleatorios enumerados arri-

ba:
- M = {blanca, negra}.
- M = {cara, ceca}.
- M = conjunto de números enteros no negativos.
- M = conjunto de números racionales positivos.
- M = conjunto de números racionales positivos.
- M = conjunto de números racionales positivos con a lo sumo dos cifras decimales.
- M = {Venus sigue, Venus out} .
Comentario: Por ahora, supondremos que conocemos el espacio de muestreo. Sin embargo, en
algunos casos, ni siquiera se conoce cuál es el conjunto de valores que pueden ser obtenidos
como resultado de una medición. En esos casos, una opción es trabajar con un conjunto que con
certeza incluya el espacio de muestreo, dejando abierta la posibilidad de que algunos valores
nunca se observen. Tal es el caso de algunos de los ejemplos enumerados arriba: en algunos
casos, estamos incluyendo en el espacio de muestreo valores mucho mas grandes que los reali-
zables en cualquier experimento humano. Otra posibilidad es plantear un meta-problema, donde
la variable aleatoria es el espacio de muestreo del problema original (este caso se discutirá en el
capı́tulo 11).
Definición: Un evento es un subconjunto del espacio de muestreo.
Definición: Un espacio de eventos asociado a un espacio de muestreo M es un conjunto E de

eventos que cumple
1. M ∈ E. Es decir, el espacio total de resultados está en E.
2. Si A ∈ E, ⇒ Ā ∈ E. Es decir, si un conjunto de resultados está en E, su complemento

también está en E.
3. Si Ai ∈ E, con i ≥ 1, ⇒ ∪i Ai ∈ E, donde se entiende que la unión incluye un número

finito de conjuntos, o un número infinito numerable. Este requerimiento implica que si
hay varios conjuntos de resultados que pertenecen a E, las uniones arbitrarias entre ellos,
también pertenecen a E. Esta propiedad también puede enunciarse como: E es cerrado
respecto de la unión.
Comentario: Los espacios de eventos también suelen llamarse “σ-álgebras”, “campo de Borel”
o “espacios medibles”.
Comentario: En la práctica se demuestra que la definición de espacio de muestreo implica que

E también es cerrado respecto de la intersección.
Comentario: Lo importante es que estos espacios tienen al conjunto total, al vacı́o, y a todas las
uniones e intersecciones que se puedan hacer con los elementos del conjunto.
Comentario: Dado un espacio de muestreo, el espacio de eventos más sencillo posible, contiene
únicamente al espacio total y al vacı́o.
Comentario: La intersección entre dos conjuntos da un tercer conjunto que contiene un número
de elementos que es necesariamente menor o igual a la suma de los cardinales de los dos origi-
nales. La unión entre dos conjuntos da un tercer conjunto que contiene un número de elementos
que es necesariamente mayor o igual a la suma de los cardinales de los dos originales. Interse-
cando achicamos, y uniendo agrandamos. Estas operaciones, por ende, jerarquizan el espacio
de eventos con la relación de inclusión. Técnicamente, decimos que la relación de inclusión
introduce un orden parcial en el espacio de eventos. Esta jerarquización es crucial para poder
definir una probabilidad (o más generalmente, una medida), como veremos en un momento.
Toda medida (y toda probabilidad) sobre un espacio de eventos debe respetar la jerarquı́a im-
puesta por la relación de inclusión: la medida (o la probabilidad) de los conjuntos más grandes
no puede ser menor a la de los conjuntos que están en su interior.
Definición: Dado un conjunto finito A, el power set de A es el conjunto cuyos elementos son
todos los subconjuntos que se pueden armar con elementos de A.
Ejemplo: El power set de A = {a, b, c} es Pow(A) = {∅, {a}, {b}, {c}, {a, b}, {b, c}, {c, a},
{a, b, c}}.
Comentario: Dado un espacio de muestreo finito, el espacio de eventos más grande que se puede
definir a partir de él es el power set del conjunto.
Definición: Dado un espacio de eventos E, sus átomos son todos los conjuntos A = {A ∈
E ∧ A 6= ∅/∀B ∈ E, A ∩ B = ∅ ∨ A ∩ B = A}. Es decir, son todos aquellos elementos de E
que, intersecados con cualquier otro elemento de E, dan vacı́o, o sı́ mismos. Son los elementos
de E que, sin ser vacı́os, son los más elementales.
Comentario: Si E es el power set de algún espacio de muestreo, entonces los átomos de E son
los conjuntos unitarios que contienen los elementos del espacio de muestreo. Pero si E no es el
power set del espacio de muestreo, entonces al menos un átomo contiene más de un elemento
del espacio de muestreo.
Ejemplo: Si el espacio de muestreo es M = {a, b, c}, y el espacio de eventos es E1 = {∅, {a},

{b, c}, {a, b, c}}, los átomos son {a} y {b, c}. En cambio, si el espacio de eventos es E2 =
Pow(M ), los átomos son {a}, {b} y {c}.
Definición: El alfabeto de un espacio de eventos es el conjunto de átomos. En realidad, acá hay

una sutileza de notación. En el ejemplo anterior, en el caso de E2 , el alfabeto es {{a}, {b}, {c}},
pero para simplificar la notación, diremos que el alfabeto es {a, b, c}. Esta notación puede dar
lugar a confusión cuando un elemento del alfabeto contenga más de un elemento del espacio de
muestreo, por ejemplo, el átomo {b, c} en el ejemplo E1 arriba. En estas situaciones es posible
definir b0 = {b, c} para poder trabajar sin las llaves.
2.3. Probabilidad
A continuación damos la definición axiomática de probabilidad, dada por Kolmogorov en

1933
Definición: Una probabilidad definida sobre un espacio de muestreo M y un espacio de eventos

E asociado a M es una función P : E → R que cumple
1. ∀A ∈ E : P (A) ≥ 0.
2. P (M ) = 1.
3. Si se tiene un conjunto numerable de eventos A1 , A2 , . . . mutuamente excluyentes (es

P
decir, con intersecciones todas nulas) P (∪i Ai ) = i P (Ai ).
Comentario: En el caso particular de dos eventos (A, B) ∈ E 2 tales que A ∩ B = ∅, el axioma

3 de la definición de probabilidad implica que P (A ∪ B) = P (A) + P (B).
Comentario: Las probabilidades se definen sobre un espacio de eventos, que contiene todas las
uniones que se pueden formar a partir de los átomos. Por ende, basta con definir las probabilida-
des sobre los átomos para que, a través de los axiomas, queden definidas sobre todo el espacio
de eventos. Sin embargo, es importante tener en claro que no siempre es posible definir las pro-
babilidades sobre los átomos. Tal es el caso, por ejemplo, cuando trabajamos con un espacio de
muestreo continuo, que contiene un número infinito no numerable de elementos (ver clase 4).
En tal caso, se definen las probabilidades sobre todos los eventos que no son atómicos (es decir,
sobre intervalos de extensión no nula). Hecho esto, la probabilidad de cada átomo (que para
distribuciones continuas necesariamente se anula) queda definida por un lı́mite: se interpreta al
átomo como el lı́mite de una sucesión de intersecciones, y se deduce su probabilidad usando los
axiomas.
2.3. PROBABILIDAD 17
Comentario: Una medida es una probabilidad que no necesariamente cumple el segundo reque-
rimiento, es decir, que no necesariamente está normalizada. Se pide también que el conjunto
vacı́o mida cero. Esta condición también se cumple con una probabilidad, pero no es necesario
escribirla como un requerimiento adicional, porque se puede deducir de las otras 3 condiciones.
El requerimiento de que el conjunto vacı́o mida cero se exige para evitar la divergencia de la
medida sobre la totalidad de los eventos.
Comentario: Dado que históricamente se utilizaron también otras definiciones de probabilidad,

la definición de arriba suele llamarse axiomática, y se la contrapone a las definiciones clásica,
frecuentista, bayesiana, etc. (ver abajo). La definición axiomática es la más general de todas,
en el sentido de que todas las definiciones de probabilidad dan lugar a conceptos que cumplen
con los cuatro requerimientos enumerados arriba. La definición axiomática difiere de las otras
en el hecho de que no pretende dar ningún contexto a por qué esta cantidad podrı́a ser útil
o interesante, y no describe qué representa. Los cuatro requerimientos de la función P (A) se
denominan axiomas.
A continuación, introducimos los conceptos de probabilidad condicionada y probabilidad con-

junta. Con ellos, definimos la noción de eventos independientes. Estas nociones permiten cons-
truir relaciones entre eventos. Especı́ficamente, cuando la ocurrencia o no de un evento no afecta
en nada la probabilidad de la ocurrencia o no de otro evento, decimos que los eventos son inde-
pendientes.
Definición: Probabilidad condicionada. Para todo evento B con probabilidad no nula, se defi-
ne la probabilidad del evento A condicionada al evento B como P (A|B) = P (A ∩ B)/P (B).
Comentarios:
- La probabilidad condicionada P (A|B) no puede definirse si P (B) = 0.
- Sabemos que la probabilidad P (A) crece a medida que agregamos más y más elementos
en el conjunto A1 . Veamos qué sucede con P (A|B) a medida que vamos metiendo más
y más elementos en el conjunto A. Al ir aumentando el cardinal de A, el número de
elementos de A ∩ B no puede disminuir, ası́ que P (A|B) tampoco puede disminuir. Lo
interesante es darse cuenta de que es inútil agregar elementos en A si esos elementos
no pertenecen también a B. Es decir, los elementos del espacio de muestreo que, al ser
agregados en A pueden cambiar el valor de P (A|B) son aquellos que pertenecen a B.
El conjunto B es a P (A|B) lo que el conjunto M es a P (A). En otras palabras, para
aquellos eventos A ⊂ B, P (A|B) es igual a P (A), salvo por un reescaleo global P (B)
que asegura que cuando A = B, P (A) = 1. Cuando A no está incluido en B, la única
parte de A que importa, es aquella que también pertenece a B.
Definición: Probabilidad conjunta. Dados dos eventos A y B, decimos que la probabilidad

conjunta P (A, B) de ambos eventos es la probabilidad de la intersección, es decir, P (A ∩ B).
Comentario: La probabilidad conjunta de dos eventos se define como la probabilidad de que

sucedan ambos. Si los dos eventos tienen intersección nula, necesariamente tienen probabilidad
conjunta nula.
Definición: Los eventos A y B se llaman independientes si y sólo si P (A ∩ B) = P (A)P (B).
Comentario: Si alguno de los dos eventos A o B (o ambos) tiene probabilidad nula, entonces
los eventos son independientes. Si ambos tienen probabilidad no nula, entonces la condición
de independencia es equivalente a P (A|B) = P (A) y P (B|A) = P (B). Es decir, dos eventos
son independientes cuando (a) alguno de ellos no ocurre nunca, y también cuando (b) el con-
dicionamiento sobre uno de los eventos no altera la probabilidad del otro. Es importante que
esta idea quede clara, porque muchas son las aplicaciones en las que la naturaleza propia de un
suceso nos permite asegurar que dos eventos son independientes. Por ejemplo, si tiro un dado
dos veces, y si X1 y X2 representan los resultados del primer y segundo tiro, respectivamente,
tı́picamente diremos que P (X1 = a, X2 = b) = P (X1 = a) P (X2 = b). Esta propuesta presu-
1
¿cómo sabemos esto? Traten de deducirlo, a partir de los aximoas de probabilidad.
2.4. DISTINTOS MARCOS CONCEPTUALES 19
pone que los eventos X1 = a y X2 = b son independientes. ¿Qué hipótesis sobre el proceso de
tirado de dados están implı́citas en esta suposición? ¿Cambiarı́an las hipótesis si ahora X1 y X2
representan el número de resultados pares, y el número de resultados impares, que se obtuvieron
de los dos dados, respectivamente?
2.4. Distintos marcos conceptuales
La definición que dimos de probabilidad no fija el valor de las probabilidades en una situación
particular. Cualquier función P : E → R que cumpla con los cuatro requerimientos listados,
es una probabilidad. Sin embargo, nuestra noción intuitiva de probabilidad es especı́fica: en un
contexto determinado, uno tiende a pensar que hay una única probabilidad. No cualquier fun-
ción que cumpla los requerimientos parece ser la probabilidad que entendemos intuitivamente.
El punto es que cualquier función que cumpla con la definición es una posible probabilidad, pe-
ro no necesariamente es la probabilidad que nos interesa. A continuación, discutimos entonces
posibles criterios que sirven para decidir si nos interesa o no trabajar con una dada noción de
probabilidad. Estos criterios siguen bastante de cerca las nociones que históricamente se fueron
utilizando para concebir la noción de probabilidad.
Criterio clásico: Los primeros cientı́ficos y/o filósofos que introdujeron la noción de probabili-
dad (Bernoulli2 y Laplace, que tenı́an pelucas tipo Bach y Mozart, respectivamente), lo hicieron
reduciendo el proceso bajo estudio a sub-procesos equiprobables. Se da por sentado que existe
un nivel suficientemente microscópico para que todos los eventos de ese nivel tengan opcio-
nes que son simétricas. Por ejemplo, si tiramos un dado, y postulamos que el dado es un cubo
perfecto y el proceso de tirado da el mismo trato a cada una de las 6 caras, por simetrı́a los
6 resultados posibles deben ser equiprobables. Esta serı́a la descripción a nivel microscópico.
Luego podemos preguntarnos probabilidades de eventos más grandes, por ejemplo, la probabi-
2
Ojo, cientı́ficos famosos de apellido Bernoulli hay muchos, y todos están emparentados; acá estamos hablando
de Don Jakob
lidad de obtener un número par, o un número primo, o un número múltiplo de 3, etc. El criterio
clásico es elegante, en el sentido que exige que la simetrı́a del problema se refleje en la asig-
nación de probabilidades. La objeción natural, sin embargo, es que existen muchos procesos
que uno puede estar interesado en estudiar, cuya reducción a una descripción en términos de
variables microscópicas simétricas no es de ninguna manera evidente. La clase de procesos que
pueden ser abordados por este método es por ende limitada. Nótese que la determinación de si
una dada probabilidad cumple o no con el criterio clásico es enteramente teórica. Es uno quien
decide si las variables microscópicas tiene o no la simetrı́a adecuada. En el caso del ejemplo
del dado, está claro que ningún dado es por construcción un cubo perfecto. Nosotros podemos
imaginarlo perfecto, y en muchos casos, no nos estaremos apartando significativamente de la
realidad. Pero el criterio clásico no incluye una verificación de si el dado que tenemos delante
es perfecto o no. Se parte de una concepción teórica del proceso, en la cual se supone simetrı́a
perfecta, y a partir de esa suposición se construyen las probabilidades.
Criterio frecuentista: Este criterio surgió como postura empı́rica, opuesta a las abstracciones.
El objetivo fue poder definir probabilidades también en los casos en los que es difı́cil o im-
posible especificar las simetrı́as deseadas, pero el sistema es accesible experimentalmente. La
probabilidad que interesa a un frecuentista se define como el cociente entre el número de ve-
ces que muestreamos un dado evento (suponiendo que medimos muchas veces, en condiciones
idénticas, y muestreos independientes) y el número total de mediciones. Matemáticamente,
nA
∀A ∈ E, P (A) = lı́m , (2.1)
N →∞ N
donde N es el número total de mediciones y nA es el número de veces que el resultado de la

medición fue una muestra contenida en A. Si el lı́mite de la Ec. 2.1 existe para todo A ∈ E,
esta definición cumple con los requerimientos de la definición axiomática de probabilidad.
Crı́ticas al criterio frecuentista:
- La definición supone que el lı́mite existe, cosa que no está garantizada. Uno bien puede
ponerse a hacer un experimento, y observar que los cocientes nA /N no convergen, cuan-
do N → ∞. La no convergencia puede deberse a errores experimentales, o a que los

procesos no son estacionarios, o incluso a la naturaleza de la distribución de probabilidad
en cuestión (volveremos sobre este punto en el capı́tulo 3). Estrictamente, ningún pro-
ceso es estacionario a tiempos verdaderamente largos, ya que los cientı́ficos se mueren,
el planeta se contamina, el universo se expande y se enfrı́a y la entropı́a total aumenta.
Por ende, en sentido estricto, la definición frecuentista no aplica a ningún caso. Quienes
sostengan que el universo es cı́clico, no festejen, ya que una oscilación no es una con-
vergencia. Podemos sólo entender la existencia del lı́mite de manera aproximada, para un
subconjunto de procesos que, en tiempos limitados, parecen converger—entendiendo que
tal convergencia no es más que una apariencia, pero que estamos dispuestos a aceptar.
Es decir, la definición aplica a situaciones idealizadas, que justamente por su naturaleza
idealizada, contradicen la esencia empı́rica que pretende ofrecer el criterio frecuentista.
- La definición supone que los muestreos son independientes unos de otros. La idea in-
tuitiva es que el resultado de un muestreo no afecta el resultado de muestreos pasados o
futuros. Estrictamente, es imposible garantizar que este requerimiento se cumpla. Cuando
se toma una muestra, se altera el estado de un gran número de variables microscópicas.
Y si bien probablemente tales variables influyen mı́nimamente en la próxima medición,
la influencia existe. De hecho, la supuesta aleatoriedad del proceso de muestreo se ba-
sa muchas veces en el estado de las variables microscópicas. El hecho que nosotros no
sepamos describir la forma explı́cita en que las variables microscópicas (alteradas por la
primera medición) afectan el resultado de la segunda medición no significa que no exista
una relación causal entre ellas. La supuesta separación de las variables en microscópicas
y macroscópicas es en última instancia una idealización, un pasaje al lı́mite que sólo se
da en modelos matemáticos. Las variables microscópicas que determinan los valores de
muestreos sucesivos están correlacionadas, y por lo tanto, en última instancia, las varia-
bles macroscópicas (los resultados de las mediciones) están también correlacionadas. Más
grave aún, el requerimiento de ser independientes requiere de la noción de probabilidad.
Por ende, la definición frecuentista es circular, porque una de las premisas experimentales
hace referencia a la independencia, que a su vez, depende de las probabilidades que se
intenta medir.
- La definición requiere que los muestreos se realicen en condiciones idénticas. En muchos

casos, si las condiciones son idénticas, entonces los resultados son también idénticos. Si
cada vez que tiramos una moneda al aire, la colocamos exactamente en la misma posi-
ción sobre el dedo pulgar, la rodeamos de una atmósfera de aire donde cada átomo está
exactamente en el mismo lugar, e iniciamos el movimiento del dedo con un cerebro cu-
yas neuronas están exactamente en el mismo estado, la moneda caerá con exactamente la
misma cara expuesta. Por ende, la idea no es que todos los muestreos sean en condiciones
idénticas, sino que algunas condiciones sean siempre idénticas, y otras sean aleatorias.
A las aleatorias las llamamos ruido, y a las idénticas, contexto. Pero la distinción entre
el contexto y el ruido no es experimental, es teórica. El experimentador no tiene control
estricto ni de unas ni de otras, sólo puede diferenciarlas por una cuestión de grado. La
distribución de probabilidad del ruido escapa enteramente a su control. La del contexto
la puede controlar en medida suficiente como para generarle confianza. En consecuencia,
el requerimiento de realizar muestreos idénticos es impracticable, y cualquier intento de
racionalizarlo implica cuantificar la probabilidad con que el experimentador controla el
experimento—lo que introduce nuevamente circularidad.
- La definición sólo es aplicable a eventos medibles. Uno muchas veces está interesado en
calcular la probabilidad de eventos que no se pueden medir, y que si se pudieran medir,
serı́an irrepetibles. Por ejemplo, la probabilidad de que un meteorito choque contra la
Tierra y la pulverice, la probabilidad de que al papa lo maten de un tiro en la cabeza, la
probabilidad de que mi marido me haya engañado con mi vecina la última vez que me
fui de viaje. En el marco de un modelo, estas probabilidades son ciertamente calculables,
pero no es posible hacer experimentos repetidos. Por ejemplo, uno puede partir de un mo-
delo donde se especifica la densidad y distribución de velocidades de los meteoritos que
viajan por el sistema solar, y calcular que uno suficientemente energético pegue contra la
Tierra y la pulverice. El experimento, en cambio, es complicado. En cuanto a los eventos
que implican un estudio del pasado, se refieren a un único evento.
Concepción bayesiana de la probabilidad. Los marcos clásicos y frecuentistas son útiles en

determinados contextos, pero no en otros. El marco bayesiano es una forma de interpretar las
probabilidades en la que los criterios clásico y frecuentista son casos particulares. En el marco
bayesiano, la probabilidad debe entenderse como el grado de certeza que tenemos acerca del
resultado de un dado experimento. En distintos contextos, el grado de certeza de cada resultado
varı́a. En un contexto podemos basar nuestras espectativas en criterios de simetrı́a, y usar el
criterio clásico. En otro contexto podemos desconfiar de formulaciones teóricas, y preferir basar
nuestra concepción del proceso en mediciones repetidas de un experimento. En este caso, en
vez de hacer suposiciones sobre el proceso en sı́, hacemos suposiciones sobre el proceso de
medición (suponemos independencia, estacionariedad, etc.). En otra situación podemos suponer
otra cosa.
La crı́tica obvia al criterio bayesiano es que es completamente subjetivo. Los criterios por
los cuales decidimos el grado de certeza que tenemos sobre el resultado de un experimento pa-
recen ser difı́cil de precisar. Utilizar el criterio Bayesiano implica tomarse el trabajo de justificar
ese grado de certeza. El criterio en sı́ no especifica cómo calcular la probabilidad en un deter-
minado contexto. El punto clave es que en el marco bayesiano, la subjetividad debe basarse en
un análisis racional del problema. Acá la palabra clave es “racional”. Es decir, el hecho de que
interpretemos la probabilidad como el grado de certeza con que esperamos obtener cada uno de
los resultados de una medición, no implica que estemos autorizades a esperar cualquier cosa.
Para poder calcular un grado de certeza, uno debe especificar el contexto en el cual basa sus
creencias. Si bien la probabilidad va a depender de dicho contexto, el criterio bayesiano exige
que el contexto sea racional. Por ejemplo, para calcular la probabilidad de que un meteorito
pulverice la Tierra, es necesario partir de alguna teorı́a fı́sica que especifique la densidad de
meteoritos viajando por el espacio y su distribución de velocidades y masas. Especificando un
modelo para la distribución de meteoritos se puede deducir la probabilidad de que la Tierra sea
destruida. El marco Bayesiano (al igual que el clásico) rescata el hecho de que las probabilida-
des asociadas a un fenómeno básico (los meteoritos) permiten calcular las probabilidades de un
fenómeno derivado (la Tierra destruida). La diferencia es que el criterio clásico está restringido
a situaciones en que el fenómeno básico exhiba cierta simetrı́a, para poder partir de probabilida-
des planas. El marco Bayesiano, al ser más amplio, se permite partir de cualquier distribución,
en tanto y en cuanto esa distribución represente el modelo mental sobre el cual se basan las
espectativas. El cálculo de probabilidades está basado en la creencia de que la descripción ma-

temática del contexto es válida, y el grado de certeza (alto o bajo) de ser pulverizados depende
de las premisas de dicha teorı́a. Si cambiamos de teorı́a (por ejemplo, la distribución de masas
de meteoritos, o el intercambio de energı́a durante el impacto), cambian también las probabi-
lidades. En el marco bayesiano, es imposible calcular probabilidades sin suponer un contexto,
y las probabilidades son sólo válidas en la medida en que lo sea el contexto. Otro ejemplo.
Si queremos calcular la probabilidad de que una moneda salga cara o ceca, podemos hacerlo
suponiendo que la moneda no está cargada. En cuyo caso, creemos que la cara es igualmente
probable a la ceca, y por ende, ambas probabilidades dan 1/2. En este contexto, le bayesiane se
reduce al clásico. En otro contexto, le bayesiano puede volverse frecuentista, cuando las creen-
cias se basan en una idealización del proceso de muestreo repetido. Bien podemos decir: para
poder estimar el grado de certeza con que creo que esta moneda saldrá cara, la voy a tirar 1000
veces, y registrar la fracción de caras que obtengo, y voy a suponer que los tiros futuros (que
no voy a hacer, por falta de tiempo) continuarán con la misma tendencia. Ciertamente, no tengo
la certeza de que las mediciones sean estacionarias e independientes, ni tampoco de que las
mediciones futuras continuarán con la misma tendencia. Pero el marco Bayesiano da derecho
a calcular la probabilidad con mediciones, porque su única pretensión es estimar el grado de
certeza a partir de un cierto conjunto de creencias. Es lı́cito basar las creencias en mediciones
(variables y dependientes, como todas las mediciones). También es lı́cito basarlas en criterios
de simetrı́a.
En el marco bayesiano, las probabilidades no reflejan una propiedad de la naturaleza, sino

una propiedad de la forma de pensar del sujeto que las interpreta: son solo consecuencia de las
premisas de las que parte. El trabajo del sujeto es justificar esas premisas. En la práctica, esta
tarea dista de ser fácil, ya que cuesta trabajo decidir un criterio a partir del cual uno pueda (a
conciencia) basar sus espectativas. El resultado es que, en el marco bayesiano, las probabilida-
des se derivan de las premisas usando sólo la lógica. Si las premisas son ciertas o no, es otra
historia.
Cuando le bayesiane se vuelve frecuentista. Analicemos el caso en que un bayesiano decide

basar sus creencias en el resultado de experimentos previos. Sea (X) una variable aleatoria
que se genera por un proceso que le bayesiane desconoce, obteniendo valores x ∈ AX =
{a1 , . . . , ak }. Le bayesiane muestrea esa variable N veces, observa la secuencia de valores
obtenidos, y con ellos define una secuencia de variables aleatorias qN = (q1N , . . . , qkN ) como
nN
i
qiN = ,
N
donde nN
i es el número de veces en las que la secuencia de N valores medidos contenı́a el re-
sultado ai . Para todo valor N ≥ 1, los (q1N , . . . , qkN ) valores obtenidos cumplen con los axiomas
de probabilidad. Podemos decir que es una buena estrategia que el abordaje bayesiano base en
estos numeritos sus expectativas sobre los resultados de experimentos futuros? En general, no,
sobre todo si N es chico. Sin embargo, más adelante veremos que si suponemos que
a) las muestras sucesivas son independientes,
b) las muestras sucesivas provienen todas de la misma distribución de probabilidad pi ,
entonces podemos calcular la distribución de probabilidad ProbN (q) = Prob(q1N , . . . , qkN ) de

los numeritos qiN . En la distribución obtenida, las probabilidades verdaderas p1 , . . . , pk aparecen
como parámetros. Como el abordaje bayesiano desconoce las probabilidades verdaderas, no
puede escribir la probabilidad Prob(q). Sin embargo, puede dejarla expresada como un objeto
formal. Más adelante veremos que, si se cumplen las hipótesis (a, b) enumeradas arriba, en el
lı́mite de N → +∞, la probabilidad Prob(q) tiende a concentrarse cada vez más alrededor de
las probabilidades verdaderas (p1 , . . . , pk ). Es decir, que los valores obtenidos de q revelan con
muy alta probabilidad el valor subyacente de p. ¿Implica esto que el criterio frecuentista tiende
a volverse correcto? No, lo que esto implica es que las suposiciones (a, b) sustentan el criterio
frecuentista. Si la realidad sustenta las hipótesis (a, b) es otra historia. Lo que sustenta el criterio
frecuentista son las hipótesis del bayesiano - no necesariamente la realidad.
En aquellos casos en los que tomamos como válidas las hipótesis (a, b), la afirmación de
que Prob(q) tiende a concentrar toda su masa alrededor de p se denomina “Ley de los grandes
números de Borel”. Hay diversas formulaciones de la ley de los grandes números, la de Borel es
sólo una de estas. Volveremos sobre estos temas más adelante. Cabe aclarar, sin embargo, que
las cosas se ponen más complicadas si k → +∞. En el caso de variables continuas, las leyes
de los grandes números (existen varias versiones) pueden o no ser válidas, dependiendo de la
forma de la distribución p(a). Las distribuciones con colas largas son problemáticas.
Consideraciones generales: En el marco bayesiano, uno sólo apunta a cuantificar grados de

creencias. Si une se permite creer cualquier cosa, nadie puede argumentar que trabaja con pro-
babilidades incorrectas—al menos, mientras cumplan con los axiomas. Pero todavı́a podemos
preguntarnos si el cálculo Bayesiano es útil, es decir, si las probabilidades obtenidas sirven para
extraer conclusiones sobre el mundo en que vivimos. No hay dudas de que representan modi-
ficaciones en el grado de certeza. Pero sı́ es posible dudar de si las probabilidades obtenidas
sirven para predecir el resultado de experimentos. Si las probabilidades bayesianas se corres-
ponden muy bien con los datos de la realidad, se concluye que el contexto teórico utilizado
es suficiente para explicar el fenómeno estudiado (aunque no necesariamente exacto). Si no
coinciden con los experimentos, queda claro que el contexto no sirve. En la mayor parte de las
aplicaciones prácticas, las probabilidades son útiles cuando el resultado bayesiano coincide con
el frecuentista. En estos casos, la Ec. 2.1 se cumple, aún cuando las probabilidades se hayan
calculado a partir de un modelo. Se dice entonces, que la Ec. 2.1 representa la ley de los gran-
des números de Borel. Es decir, no se toma como una definición de probabilidad, sino como
una ley empı́rica, que expresa la sorpresa y la alegrı́a que surgen de verificar que las creencias
coinciden con lo que surge de experimentos repetidos.
Comentario: Para ejemplificar los criterios clásico y frecuentista, ası́ como el marco bayesiano
(que puede incluir a los otros dos), volvamos a algunos de los ejemplos discutidos a lo largo de
la clase.
- Color de la pelota extraida:
. Criterio clásico: El experimento es simétrico respecto del color blanco y el color

negro. Las probabilidades son ambas 1/2.
. Criterio frecuentista: Tomo numerosas muestras del experimento, y si observo con-

vergencia en los resultados, decido las probabilidades de cada resultado.
. Criterio bayesiano: Primero es necesario decidir cuál es el criterio con el que se mi-
de el grado de certeza. Los bayesianos usualmente utilizan criterios que parten de
un análisis idealizado del proceso de estudio. En este contexto, un bayesiano puede
abrazar el criterio clásico basado en la simetrı́a. Pero si tiene motivos para sospechar
que la simetrı́a podrı́a no verificarse, debe evaluar los motivos de su desconfianza
(¿las pelotas están ordenadas? ¿El proceso de extracción se realiza con algún me-
canismo especı́fico? ¿Hay alguna clase de manipulación?), formularlos matemáti-
camente, y de allı́ deducir las probabilidades. Por último, une bayesiane también
puede decidir su grado de certeza en datos experimentales, y utilizar un criterio fre-
cuentista.
- Número de colectivos que pasan por el centro atómico en una hora.
. Criterio clásico: Descomponemos el intervalo de 1 hora en (por ejemplo) 3600 in-

tevalos de 1 segundo cada uno. Como la frecuencia media de colectivos es de 3 por
hora, suponemos que la probabilidad de que pase un colectivo en cada segundo es
3/3600, independientemente de que en los otros segundos hayan pasado colectivos
o no. Esta suposición es una idealización del proceso, en la que todos los segun-
dos son tratados en pie de igualdad. Si los colectivos tienen horario (por ejemplo,
pasan en punto, y veinte y menos veinte) esta suposición no es válida, ya que los
segundos que corresponden al horario deberı́an tener más probabilidad que los que
no corresponden al horario. Además, en la realidad, los segundos no son todos in-
dependientes: si un colectivo pasa en el segundo 25, serı́a raro que pasara otro en el
segundo 26 y otro en el segundo 27 (aunque hay quien afirma que este es el caso más
tı́pico, y que se acompaña con horas completas en las que no pasa ningún colectivo).
Las suposiciones pueden ser verdaderas o no, pero una vez hechas las suposiciones,
es posible calcular la probabilidad de que pasen 0, 1, 2, . . . , n colectivos en una hora.
Se obtiene una distribución de Poisson, como veremos la clase que viene.
. Criterio frecuentista: Durante muchas horas se mide el número de colectivos, y si se
observa convergencia en los resultados, se calculan las probabilidades. Muy proba-

blemente el resultado del experimento no sea estacionario, dependa de la hora del
dı́a, la época del año, y la puntualidad en el pago de salarios a los colectiveros. Le
frecuentista tendrá que decidir si estas no estacionaridades le impiden definir la pro-
babilidad que busca calcular, o si puede utilizar algún criterio para no preocuparse
por ellas.
. Criterio bayesiano: Igual al ejemplo anterior. Le bayesiane debe decidir si su con-
fianza se basa en las suposiciones del criterio clásico, si prefiere hacer otras suposi-
ciones (y sus consecuentes cálculos) o si prefiere basarse en experimentos.
- Perı́odo del péndulo:
. Criterio clásico: No resulta evidente cómo descomponer el proceso en subprocesos

equiprobables.
. Criterio frecuentista: Se toman numerosas muestras del experimento, y si se observa
convergencia en los resultados, se calculan las probabilidades. Este criterio no re-
quiere entender el proceso subyascente, sólo requiere que las mediciones converjan.
. Criterio bayesiano: Le bayesiane debe decidir si su confianza se basa en un modelo
teórico de los procesos que introducen fluctuaciones en las mediciones (encendido y
apagado del cronómetro, rozamiento en el punto en que cuelga el péndulo, corrientes
de aire, etc.) y construir una teorı́a que le permita calcular las probabilidades a partir
de ellos. O si lo prefiere, basar su confianza en el criterio frecuentista.
- Probabilidad de que Venus sea pulverizado por un meteorito en el próximo año:
. Criterio clásico: No resulta evidente cómo descomponer el proceso en subprocesos

equiprobables.
. Criterio frecuentista: Es imposible hacer el experimento, porque la afirmación hace
referencia a un evento único. Es posible sin embargo partir de la suposición de que el
evento que nos interesa puede equipararse al de otros planetas similares en el pasado.
Nótese que esta hipótesis es fuerte, implica un modelo idealizado del proceso a
estudiar, y elimina la condición supuestamente objetiva de estar tratando con un

método libre de suposiciones.
. Criterio bayesiano: Le bayesiane debe decidir cuáles son los procesos que pueden
destruir a Venus, modelar la estadı́stica de dichos procesos, y deducir la probabilidad
de que se efectivicen en un año.
2.5. Ejercicios
1. Demuestre
a) Ā¯ = A.
b) A ∩ B = Ā ∪ B̄.
c) A ∪ B = Ā ∩ B̄.
2. Una bolsa contiene 4 cartas, una de cada palo. Se extraen 2 cartas al azar, y se observa el
palo de la primera carta, y el palo de la segunda. ¿Cuál es el espacio de muestreo si
a) la primera carta se vuelve a meter en la bolsa antes de extraer la segunda?

b) la primera carta no se vuelve a meter en la bolsa?
¿Cómo se modifican las respuestas si ahora la observación no distingue qué palo corres-
ponde a qué carta?
3. Utilizando la interpretación clásica de la probabilidad, calcule la probabilidad de cada

uno de los elementos del espacio de muestreo en los 4 casos del problema 2.
4. Se tiran dos dados, y se observan los números expuestos.
a) Encuentre el espacio de muestreo.

b) Encuentre el evento A definido como el conjunto de resultados para los cuales la
suma de los puntos de los dos dados da 7.
c) Encuentre el evento B definido como el conjunto de resultados para los cuales la
suma de los puntos de los dos dados es mayor que 10.
d) Encuentre el evento C definido como el conjunto de resultados para los cuales la
suma de los puntos de los dos dados es mayor que 12.
e) Suponiendo que los dados no están cargados, encuentre la probabilidad de los even-
tos A, B y C.
2.5. EJERCICIOS 31
5. Se tira un dado. La variable aleatoria X representa el número obtenido. Se definen los

eventos
. A: el conjunto de resultados pares.

. B: el conjunto de resultados impares.
. C: el conjunto de resultados primos.
. M : {1, 2, 3, 4, 5, 6}.
Muestre que el conjunto {M, ∅, A, B} es un espacio de eventos, mientras que los conjun-
tos {M, ∅, A}, {M, A, B}, y {M, ∅, A, B, C} no lo son.
6. Demuestre que para todo espacio de eventos E,
a) ∅ ∈ E. Es decir, el conjunto vacı́o está en E.

b) Si Ai ∈ E, para i ≥ 1, ⇒ ∩i Ai ∈ E. Es decir, E es cerrado con la intersección
(numerable).
c) Si A y B pertenecen a E, entonces A − B también pertenece a E.
7. Dado el espacio de muestreo M = {a, b, c, d},
a) encuentre el espacio de eventos que coincide con el power set de M .

b) Busque otro espacio de eventos, que no coincida con Pow(M ), ni con el espacio de
eventos trivial {∅, M }.
c) Identifique los átomos de los dos casos anteriores, ası́ como los del espacio de even-
tos trivial.
8. Determine la cardinalidad del power set de un espacio de muestreo de n elementos.
9. Demuestre que si para todo A que pertenece a un espacio de eventos E el lı́mite de la

definición frecuentista de probabilidad existe, entonces la definición frecuentista cumple
con los axiomas de definición axiomática de probabilidad.
10. Demuestre que

a) P (∅) = 0
b) P (A) = 1 − P (Ā)
c) 0 ≤ P (A) ≤ 1
d) Si A ⊂ B, entonces P (A) ≤ P (B).
e) P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
f ) Si el alfabeto AX = {a1 , . . . , ar } contiene r elementos equiprobables, entonces ∀i,
P (ai ) = 1/r.
11. Encuentre P (A|B) si
a) A ∩ B = ∅
b) A ⊂ B
c) B ⊂ A
12. Dos fábricas producen lamparitas. La fábrica 1 produce 1000 lamparitas, de las cuales
100 están falladas. La fábrica 2 produce 2000 lamparitas, de las cuales 150 están falladas.
Se juntan las 3000 lamparitas y se elige una al azar. Está fallada. ¿Cuál es la probabilidad
de que haya venido de la fábrica 1? Determine si estar fallada o no es independiente de
provenir de una u otra fábrica.
13. Se arroja un dado. Definimos el evento A = “el resultado es par” y el evento B = “el
resultado es menor que 3”. Determine si A y B son independientes. Repita el análisis
para el caso en que el evento B se redefine como “el resultado es menor o igual a 3”.
14. Sean A y B dos subconjuntos del alfabeto AX . Demuestre que si A y B son eventos
independientes, entonces también lo son A y B̄, Ā y B, Ā y B̄.

Clase 1

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Clase 1

Cargado por

Copyright:

Formatos disponibles

Capı́tulo 1

El objetivo de este apunte es desarrollar herramientas para transformar corazonadas en ci-

- Mañana va a salir el sol.

- El próximo auto que pase será blanco.

- Mañana va a salir el 666 en la loterı́a.

- Ayer mi vecino me mintió.

2.2. Algunas definiciones

Notación: Utilizaremos los operadores lógicos

Notación: Dado un espacio universal M , y conjuntos A y B,

Definición: Un experimento es cualquier proceso de observación.

Definición: Un experimento aleatorio es un experimento cuyos resultados no son predecibles,

Ejemplos de experimentos aleatorios:

- Mido el perı́odo de un péndulo.

- Mido la masa del electrón.

- Me fijo en el resumen de mi cuenta bancaria a ver cuánto gastamos el mes pasado en

- Verifico si Venus es destruida por un meteorito durante el año en curso.

Definición: El espacio de muestreo es el conjunto de todos los resultados posibles de un expe-

Ejemplo de espacios de muestreos. Consideramos los experimentos aleatorios enumerados arri-

- M = conjunto de números enteros no negativos.

- M = conjunto de números racionales positivos.

- M = conjunto de números racionales positivos.

- M = conjunto de números racionales positivos con a lo sumo dos cifras decimales.

- M = {Venus sigue, Venus out} .

Definición: Un evento es un subconjunto del espacio de muestreo.

Definición: Un espacio de eventos asociado a un espacio de muestreo M es un conjunto E de

1. M ∈ E. Es decir, el espacio total de resultados está en E.

2. Si A ∈ E, ⇒ Ā ∈ E. Es decir, si un conjunto de resultados está en E, su complemento

3. Si Ai ∈ E, con i ≥ 1, ⇒ ∪i Ai ∈ E, donde se entiende que la unión incluye un número

Comentario: En la práctica se demuestra que la definición de espacio de muestreo implica que

Ejemplo: Si el espacio de muestreo es M = {a, b, c}, y el espacio de eventos es E1 = {∅, {a},

Definición: El alfabeto de un espacio de eventos es el conjunto de átomos. En realidad, acá hay

A continuación damos la definición axiomática de probabilidad, dada por Kolmogorov en

Definición: Una probabilidad definida sobre un espacio de muestreo M y un espacio de eventos

3. Si se tiene un conjunto numerable de eventos A1 , A2 , . . . mutuamente excluyentes (es

Comentario: En el caso particular de dos eventos (A, B) ∈ E 2 tales que A ∩ B = ∅, el axioma

Comentario: Dado que históricamente se utilizaron también otras definiciones de probabilidad,

A continuación, introducimos los conceptos de probabilidad condicionada y probabilidad con-

- La probabilidad condicionada P (A|B) no puede definirse si P (B) = 0.

Definición: Probabilidad conjunta. Dados dos eventos A y B, decimos que la probabilidad

Comentario: La probabilidad conjunta de dos eventos se define como la probabilidad de que

Definición: Los eventos A y B se llaman independientes si y sólo si P (A ∩ B) = P (A)P (B).

2.4. Distintos marcos conceptuales

donde N es el número total de mediciones y nA es el número de veces que el resultado de la

Crı́ticas al criterio frecuentista:

do N → ∞. La no convergencia puede deberse a errores experimentales, o a que los

- La definición requiere que los muestreos se realicen en condiciones idénticas. En muchos

Concepción bayesiana de la probabilidad. Los marcos clásicos y frecuentistas son útiles en

espectativas. El cálculo de probabilidades está basado en la creencia de que la descripción ma-

En el marco bayesiano, las probabilidades no reflejan una propiedad de la naturaleza, sino

Cuando le bayesiane se vuelve frecuentista. Analicemos el caso en que un bayesiano decide

a) las muestras sucesivas son independientes,

b) las muestras sucesivas provienen todas de la misma distribución de probabilidad pi ,

entonces podemos calcular la distribución de probabilidad ProbN (q) = Prob(q1N , . . . , qkN ) de

Consideraciones generales: En el marco bayesiano, uno sólo apunta a cuantificar grados de

- Color de la pelota extraida:

. Criterio clásico: El experimento es simétrico respecto del color blanco y el color

. Criterio frecuentista: Tomo numerosas muestras del experimento, y si observo con-

- Número de colectivos que pasan por el centro atómico en una hora.

. Criterio clásico: Descomponemos el intervalo de 1 hora en (por ejemplo) 3600 in-

observa convergencia en los resultados, se calculan las probabilidades. Muy proba-

- Perı́odo del péndulo:

. Criterio clásico: No resulta evidente cómo descomponer el proceso en subprocesos

- Probabilidad de que Venus sea pulverizado por un meteorito en el próximo año: