Está en la página 1de 131

MES 260 – T EORÍA E STADÍSTICA

P ROBABILIDADES Y VARIABLES ALEATORIAS


C ÁTEDRAS 1 A 4

Eduardo Engel
FEN, U. de Chile.
Agosto 2019.

1
O BJETIVOS

Ï Las alumnas profundizan los conceptos de probabilidad, probabilidad condicional y


variable aleatoria.

Ï Comprenden y aplican el concepto de probabilidad para modelar fenómenos


económicos, sociales, ...

Ï Comprenden y aplican los conceptos de variable aleatoria para modelar fenómenos


inciertos.

Ï Conocen varios ejemplos clásicos donde la intuición entra en contradicción con


teorías normativas de probabilidades.

2
Probabilidades

Probabilidad condicional

Variables aleatorias

3
Probabilidades

Probabilidad condicional

Variables aleatorias

4
I NTERPRETACIONES DE PROBABILIDAD

¿Qué significa afirmar que la probabilidad de que salga cara al lanzar una moneda
determinada es 0,5?

Veremos dos respuestas posibles: frecuentista y subjetiva.

Las dos respuestas guardan estrecha relación con dos escuelas distintas de estadística.

5
I NTERPRETACIÓN FRECUENTISTA

La respuesta plantea la siguiente situación hipotética:

Ï lanzamos la moneda muchas veces

Ï dicho lanzamientos son bajo condiciones similares.

Entonces decir que la probabilidad de cara es 0,5 significa que en los lanzamientos
anteriores la frecuencia de caras será aproximadamente 0,5.

Esta es la interpretación frecuentista de probabilidad.

6
P ROBLEMAS DE LA INTERPRETACIÓN FRECUENTISTA

La interpretación frecuentista tiene sus limitaciones, las cuales ilustramos con el


ejemplo de la moneda de las láminas anteriores.

La interpretación es un tanto vaga:


Ï ¿Cuántas veces corresponde a “muchas veces”?
Ï ¿Qué significa “aproximadamente”?
Ï ¿Qué significa “bajo condiciones similares”?

De hecho, personas con un muy buen control de sus manos (algunos magos
profesionales, v.g., Persi Diaconis quien luego de una incursión exitosa en el
mundo de la magia en su adolescencia, terminó siendo un probabilista y
matemático de renombre) pueden lanzar una moneda siempre de la misma
manera, de modo de que siempre (o casi siempre) obtienen cara si así se lo
proponen. Luego estamos suponiendo que hay algún grado de variabilidad en
cómo se lanza la moneda. Si quiere ver al mismísmo Diaconis explicando por qué
hablamos de probabilidades para fenómeno determinísticos, como el lanzamiento
de una moneda, pinche aquí.
7
I NTERPRETACIONES FRECUENTISTA DE PROBABILIDAD

A la vaguedad de la interpretación frecuentista de probabilidad, se agrega un problema


aun mayor.

El problema principal de la interpretación frecuentista es que aplica sólo a fenómenos


donde, al menos hipotéticamente, se puede repetir un proceso bajo condiciones
similares.

Es prácticamente imposible aplicar esta interpretación a los siguientes casos:

Ï La probabilidad de que un compañero de curso específico esté casado (o viva en


Santiago o haya egresado) antes de cumplir 30 años.
Ï La probabilidad de que Jarry llegue al top 10 del ATP.

Ï La probabilidad de que el PIB crezca más que un 3 por ciento en 2020.

Ï La probabilidad de que el precio del cobre promedio de 2020 supere los 3 dólares
la libra.

8
I NTERPRETACIONES SUBJETIVA DE PROBABILIDAD

Una segunda interpretación de probabilidad es la interpretación subjetiva.

De acuerdo a esta interpretación, cada persona, en base a la información que tiene


disponible y utilizándola como quiere, asigna una probabilidad al evento de interés.

Aun si dos personas tienen la misma información, pueden asignarle probabilidades


distintas a un mismo evento.

Se trata de probabilidades personales, por eso se les describe como “subjetivas”.

9
I NTERPRETACIONES SUBJETIVA : E JEMPLO

En el caso de los lanzamientos de una moneda, donde interesa la probabilidad de que


salga cara:

Ï La probabilidad subjetiva de una persona puede ser 0,5.

Ï Otra persona conoce la moneda que se lanza, sabe que no es simétrica, que tiene
más masa en el lado del sello, por lo cual asigna una probabilidad de 0,4 a que
salga cara.
Ï Una tercera persona también tiene la información anterior, pero le asigna una
probabilidad de 0,45 a que salga cara.
Ï Una cuarta persona tiene información diferente: la moneda pertenecía a apostador
que era famoso porque “arreglaba” las monedas para obtener cara casi todas las
veces que lanzaba sus monedas. Esta persona le asigna una probabilidad de 0,9 a
que salga cara.

10
L IMITACIONES DE PROBABILIDADES SUBJETIVAS

¿Cómo lo hacemos para que personas con probabilidades subjetivas distintas puedan
ponerse de acuerdo respecto de una probabilidad particular, o una decisión a tomar
que depende de las probabilidades que asignan a diversos eventos?

Si un economista cree que es improbable que una guerra comercial entre EE.UU.,
China y la Unión Europea tenga un impacto menor sobre Chile y otro cree que es muy
probable que dicho impacto sea mayor, ¿qué hacemos al momento de discutir políticas
a seguir en caso que se profundice la guerra comercial?

Lo que quisiéramos es que los dos estén de acuerdo lo más posible y limiten lo más
que puedan el impacto de elementos subjetivos sobre los cuales no están de acuerdo.

11
I NTERPRETACIONES DE PROBABILIDADES : R ESUMEN

Hay dos interpretaciones de probabilidades: frecuentista y subjetiva.

Las dos tienen sus ventajas y sus limitaciones.

Lo que viene:

Veremos la teoría axiomática de probabilidades, que es válida bajo las dos


interpretaciones.

12
A SIGNANDO PROBABILIDADES

1. Sofía tiene 31 años, es asertiva y muy inteligente. Estudió sociología. Mientras era
estudiante, participó activamente en las protestas estudiantiles. ¿Cuál de las siguientes es
más probable?
A. Sofía trabaja en un banco.
B. Sofía trabaja en un banco y es feminista.
2. Djokovic ganó Wimbledon este año. Suponga que Djokovic vuelve a llegar a la final de
Wimbledon el 2019. Ordene los eventos siguientes de más probable (1) a menos probable
(4):
A. Djokovic gana la final.
B. Djokovic pierde el primer set.
C. Djokovic pierde el primer set pero gana el partido.
D. Djokovic gana el primer set pero pierde el partido
3. Se toma un dado estándar y se pintan cuatro caras de color verde y dos de color rojo. El
dado se lanzará 20 veces y se anotará la secuencia de verdes (V) y rojos (R) que resulte.
Seleccione una de las siguientes tres secuencias, recibirá un premio si su secuencia
aparece en los lanzamientos.
A. RVRRR
B. VRVRRR
C. VRRRRR
13
D EFINICIÓN MATEMÁTICA DE PROBABILIDAD

A continuación definimos una función de probabilidad, especificando tres axiomas que


debe cumplir toda función de probabilidad.

Luego, derivamos una serie de teoremas que cumple toda función de probabilidad.

En lo que sigue usamos teoría de conjuntos que suponemos domina el almuno. Para un
repaso ver DGS 1.4.

14
E SPACIO MUESTRAL

Llamamos experimento a una situación donde existe incertidumbre respecto de cuál


será el resultado de algún proceso.

El espacio muestral S es un conjunto que incluye todos los resultados posibles que
puede tomar el experimento.

Ejemplos:
1. Se lanza un dado. Entonces S = {1, 2, 3, 4, 5, 6}.
2. Se lanzan dos dados. Entonces:

S = {(1, 1), (1, 2), ..., (1, 6), (2, 1), ..., (2, 6), ..., (6, 1), ..., (6, 6)}.

Es decir, S es el conjunto de pares ordenados (s 1 , s 2 ) con s 1 y s 2 denotando el


valor que toman el primer y segundo dado, respectivamente.
3. Interesa conocer la tasa de crecimiento porcentual del PIB de Chile en 2020. Una
posibilidad es S = R, donde R denota los números reales. Otra es S = [−10, 10].
4. Interesa la población de Chile en 2050. Un espacio muestral posible es S = R+ ,
donde R+ ≡ {x ∈ R : x ≥ 0} denota los reales positivos.
15
E L C ONJUNTO DE E VENTOS

El resultado de un experimento se describe mediante un espacio muestral S .

La colección de eventos de interés, que denotamos por E , es una colección de


subconjuntos de S que cumple las siguientes condiciones:

1. S y φ son eventos de interés, donde φ denota el conjunto vacío.

2. Si A y B son eventos de interés, entonces A ∪ B y A ∩ B también son eventos de


interés. Es decir, la unión e intersección de eventos de interés también es un
evento de interés.

3. Si A es un evento de interés, entonces su complemento (respecto de S ), que


denotamos por A c , también es un evento de interés.

16
E L C ONJUNTO DE E VENTOS

La colección de eventos de interés es un conjunto, cuyos elementos a su vez son


conjuntos: todos ellos son subconjuntos del espacio muestral S .

Luego podemos expresar las condiciones que debe cumplir una colección de eventos
asociada a un espacio muestral S , descritas en la lámina anterior, como sigue:

1. S ∈ E , φ ∈ E .
2. Si A ∈ E y B ∈ E entonces A ∪ B ∈ E y A ∩ B ∈ E .
3. Si A ∈ E entonces A c ∈ E .

17
E JEMPLOS DE COLECCIONES DE EVENTOS

En general, cuando S tiene un número finito de elementos, lo natural es tomar E como


todos los subconjuntos de S . En tal caso se puede mostrar que se cumplen las
propiedades que según la lámina anterior debe cumplir una colección de eventos
asociados a un espacio muestral.

Luego, en el caso de los ejemplos 1 y 2 de la lámina 15, tenemos que E viene dado por
todos los subconjunto de S .

18
E JEMPLOS DE COLECCIONES DE EVENTOS∗

Cuando S es la recta real o un intervalo (finito o infinito) contenido en la recta real no


se puede tomar como colección de eventos relevantes todos los subconjuntos de S . El
motivo se ve en cursos de postgrado.

Lo que se hace cuando S es la recta real o un intervalo (finito o infinito) contenido en


la recta real es trabajar con la colección de eventos E que contiene todos los intervalos
contenidos en S , todas las uniones e intersecciones de dichos intervalos, y así
sucesivamente. Esta colección de eventos contiene todos los eventos que podrían ser
de interés y además cumplen las condiciones de la lámina 17. Esto aplica a los
ejemplos 3 y 4 de la lámina 15.

19
E VENTOS DISJUNTOS Y PARTICIONES

Los eventos A y B son disjuntos si A ∩ B = φ, es decir, si no tienen elementos en


común. En castellano, A y B son excluyentes, no pueden suceder al mismo tiempo.

Los eventos A 1 , A 2 , ..., A n son disjuntos si cada par de ellos es disjunto en el sentido
definido en el párrafo anterior, es decir, si A i ∩ A j = φ para cualquier par i , j con i 6= j y
i , j tomando valores entre 1 y n.

Los conjuntos A 1 , A 2 , ..., A n definen una partición de un conjunto C si son disjuntos y


su unión es igual a C .

20
E JEMPLO

1. Sea A i = {i }, para i = 1, 2, ..., 6. Entonces A 1 , A 2 , ..., A 6 son disjuntos y definen una


partición de S = {1, 2, 3, 4, 5, 6}.

2. Sea A i = {(i , i )}, i = 1, 2, ..., 6. Entonces A 1 , A 2 , ..., A 6 son disjuntos pero no


constituyen una partición del espacio muestral visto en el Ejemplo 2 de la lámina
15.

3. Sea B i = {(i , 1), (i , 2), (i , 3), (i , 4), (i , 5), (i , 6)}, donde i = 1, 2, 3, 4, 5, 6. Entonces los B i ,
i = 1, 2, , ..., 6 son disjuntos y definen una partición del espacio muestral del Ejemplo
2 de la lámina 15.

21
F UNCIÓN DE PROBABILIDAD : A XIOMAS

Tenemos un experimento descrito por un espacio muestrasl S y una colección de


eventos E que satisface las propiedades de la lámina 17.

Denotamos por Pr una función que asocia un número real a cada evento en E .

Diremos que Pr define una función de probabilidad si satisface los siguientes axiomas:

A.1 Para todo evento A en E : Pr(A) ≥ 0..

A.2 Para el evento igual al espacio muestral S : Pr(S) = 1.

A.3 Para eventos disjuntos A 1 , A 2 , ..., A n :

Pr(A 1 ∪ A 2 ∪ ... ∪ A n ) = Pr(A 1 ) + Pr(A 2 ) + · · · + Pr(A n ).

22
C OMENTARIOS

El axioma A1 dice que las probabilidades no pueden ser negativas.

El axioma A2 dice que la probabilidad del espacio muestral debe ser uno. Esto es
consistente con la definición que dimos del espacio muestral, donde exigimos que
incluyera todos los valores que puede tomar el experimento de interés.

El axioma A3 es la propiedad aditiva y dice que la probabilidad de la unión de eventos


disjuntos es igual a la suma de las probabilidades. En estricto rigor este axioma
considera una unión infinita (pero enumerable) de eventos disjuntos.

23
C OMENTARIOS ( CONT.)

Los axiomas anteriores no dicen nada sobre qué valor se debe asignar a la probabilidad
de cada uno de los eventos de interés.

Sin embargo, los axiomas establece exigencias mínimas que deben cumplir las
probabilidades que asignamos. Por ejemplo, si lanzamos un dado el evento que salga 1,
2, 3 4, 5 o 6 debe tener probabilidad uno.

Luego, aun si adoptamos la interpretación subjetiva de probabilidad, no podemos


asignar los valores que queramos a las probabilidades de los eventos de interés.

24
T EOREMAS

Consideramos una función de probabilidad asociada a un experimento con espacio


muestral S y colección de eventos E . También denotamos por A y B dos eventos en E .

Entonces:

1. Pr(φ) = 0.

2. Pr(A c ) = 1 − Pr(A).

3. Pr(B ∩ A) + Pr(B ∩ A c ) = Pr(B ).

4. Si A ⊂ B entonces Pr(A) ≤ Pr(B ).

5. 0 ≤ Pr(A) ≤ 1.

6. Pr(A ∪ B ) = Pr(A) + Pr(B ) − Pr(A ∩ B ).

25
D EMOSTRACIONES

El desafío es demostrar los teoremas usando solo los axiomas (y teoremas ya


demostrados).

Este es un ejemplo de la aplicación del método axiomático que tienen un rol central en
matemáticas.

Demostración del Teorema 1

Aplicamos el Axioma A3 con n = 2, A 1 = A y A 2 = φ. Entonces:

Pr(A ∪ φ) = Pr(A) + Pr(φ)

y como A ∪ φ = A tenemos
Pr(A) = Pr(A) + Pr(φ)

de modo que Pr(φ) = 0.

26
D EMOSTRACIÓN DEL T EOREMA 2

Aplicamos el Axioma A3 con n = 2, A 1 = A y A 2 = A c :

Pr(A ∪ A c ) = Pr(A) + Pr(A c ).

Por otra parte, como A ∪ A c = S tenemos, por el Axioma A2

1 = Pr(S) = Pr(A ∪ A c ).

Combinando las dos expresiones anteriores concluimos que

1 = Pr(A) + Pr(A c )

de modo que
Pr(A c ) = 1 − Pr(A).

27
D EMOSTRACIONES ( CONT.)

Demostración del Teorema 3

Tenemos que B ∩ A y B ∩ A c definen una partición de B (use diagramas de Venn para


convencerse). Luego, aplicando el Axioma A3:

Pr(B ) = Pr((B ∩ A) ∪ (B ∩ A c )) = Pr(B ∩ A) + Pr(B ∩ A c ).

Demostración del Teorema 4

Aplicamos el Teorema 3, notando que como A ⊂ B tenemos que B ∩ A = A . Entonces:

Pr(B ) = Pr(A) + Pr(B ∩ A c )

y como Pr(B ∩ A c ) ≥ 0 por el Axioma A1, concluimos que Pr(B ) ≥ Pr(A).

28
D EMOSTRACIONES ( CONT.)

Demostración del Teorema 5

Por el Axioma A1 tenemos Pr(A) ≥ 0.

Aplicando el Teorema 4, con S en el rol de B , tendremos que Pr(A) ≤ Pr(S) donde


Pr(S) = 1 por el Axioma 2. De modo que Pr(A) ≤ 1.

Demostración del Teorema 6

Tenemos que A y B ∩ A c definen una partición de A ∪ B (use diagrama de Venn para


convencerse). Entonces, por el Axioma A3 y el Teorema 3:

Pr(A ∪ B ) = Pr(A) + Pr(B ∩ A c ) = Pr(A) + Pr(B ) − Pr(A ∩ B ).

29
S ESGOS COGNITIVOS

La teoría matemática de las probabilidades que hemos planteado viene de una larga
tradición de grandes pensadores, partiendo con Pascal (1623–1662) y Fermat
(1601–1665). La axiomatización que vimos se debe a Kolmogorov (1933).

Se trata de una teoría normativa, sobre cómo, partiendo de las probabilidades de


ciertos eventos, se debe calcular la probabilidad de otros eventos relacionados.

No estamos obligados a seguir estas reglas, pero no hacerlo tiene sus consecuencias.

Por ejemplo, veremos más adelante en el curso que a un individuo que no cumple con
las reglas del cálculo de probabilidades es posible ofrecerle apuestas donde va a perder
dinero con seguridad.

30
S ESGOS SISTEMÁTICOS

Daniel Kahneman obtuvo el Premio Nobel de Economía 2002, por su trabajo con
Amos Tversky (quien falleció en 1996). Fue el primer no economista en recibir el
premio, ambos eran sicólogos.

El trabajo de Kahneman y Tversky cubre dos grandes áreas: heurísticas para calcular
probabilidades y heurísticas para tomar decisiones bajo incertidumbre.

En sus trabajos del primer área muestran que muchas veces nos desviamos de manera
sistemática de lo que predicen los resultados más elementales de la teoría de
probabilidades.

31
S ESGOS SISTEMÁTICOS ( CONT.)∗

Se recomienda (opcional) leer el reciente libro de Michael Lewis, The Undoing Project,
que presenta de manera muy amena y didáctica la historia de estos dos cientistas
sociales, combinando sus contribuciones con sus vidas personales.

El contraste de personalidades entre Kahneman y Tversky era enorme, uno muy


inseguro y tímido, el otro muy seguro e impulsivo.

Lewis es uno de los mejores escritores de libros de divulgación que existen, cubriendo
temas técnicamente sofisticados de manera entretenida y sin sobresimplificar o
distorsionar las complejidades del tema. Las películas The Blind Side, 2009, Moneyball,
2011 y The Big Short, 2013, están basadas en libros suyos.

32
S ESGOS SISTEMÁTICOS ( CONT.)

Aunque la mayoría de las veces lo hacemos bastante bien, y la teoría de probabilidades


es una buena primera aproximación a nuestra conducta, hay situaciones donde
cometemos errores sistemáticos.

Las preguntas de la lámina 13 adaptan al Chile actual las preguntas de un trabajo


clásico de Kahmenan y Tversky de 1983: “Extensional versus Intuitive Reasoning: The
Conjunction Fallacy in Probability Judgement”, que fue publicada en Psychological
Review.

En este trabajo, dan varios ejemplos donde nuestras evaluaciones de probabilidades


contradicen una de las propiedades más elementales del cálculo probabilístico, el
Teorema 4 que vimos recién.

Concretamente, como A ∩ B ⊂ A y A ∩ B ⊂ B debemos tener que, cualesquiera sean las


probabilidades que asignemos a A , B y A ∩ B , estas deben satisfacer:

Pr(A ∩ B ) ≤ Pr(A) y Pr(A ∩ B ) ≤ Pr(B ).

33
S ESGOS SISTEMÁTICOS ( CONT.)

Vamos a los tres ejemplos de la lámina 13, que son versiones adaptadas a Chile (y a
2019) de preguntas analizadas por Kahneman y Tversky en su trabajo de 1983.

En la primera pregunta, conocida como “the Linda problem”, porque en el paper la


mujer en cuestión se llama Linda, un 85% de los encuestados optan por la opción B
aun cuando esta opción es incorrecta.

Lo que sucede, según Kahneman y Tversky, es una manifestación del sesgo de


representatividad: dadas las características de Sofía, ella encaja particularmente bien
con nuestra imagen de una feminista, por lo cual esto prima por sobre la “lógica” de
que el evento de la alternativa B está contenido en el de la alternativa A.

34
S ESGOS SISTEMÁTICOS ( CONT.)

En la segunda pregunta de la lámina 13, el rango promedio que reportan Kahneman y


Tversky es A (1.7), B (2.7), C (2.2) y D(3.5). Sin embargo, el evento C es
subconjunto de B, por lo cual el rango promedio de C debiera ser mayor que aquel de
B, lo cual no es el caso. De hecho, nadie debiera poner C como más probable que B y
más de la mitad de los encuestados cometió este error. También, C debiera tener un
rango mayor que A pues el evento C es subconjunto de A, aunque en este caso el
sesgo se manifestó menos.

Lo que sucede en este caso, según Kahneman y Tversky, es que Djokovic (en el paper
original es Bjorn Borg) se ve prácticamente imbatible en Wimbledon luego de ganar
este año por quinta vez este torneo, de modo que el escenario C se ve más probable
que el B (Djokovic es capaz de remontar un primer set que pierde) aun cuando no es
lógicamente posible.

35
S ESGOS SISTEMÁTICOS ( CONT.)

Respecto de la tercera pregunta en la lámina 13, cada vez que sucede la opción B
necesariamente sucede la opción A. Luego nadie debiera elegir la opción B pues está es
dominada por la opción A. Sin embargo, un 63% de los 125 estudiantes universitarios
encuestados eligió la opción B.

La explicación que dan Kahneman y Tversky parte notando que las tres secuencias se
perciben como poco representativas, pues contienen un gran número de Rs. Luego
argumentan que la secuencia B es la que parece más representativa, entre tres que no
lo son mucho, y por eso es la favorita.

36
R ESULTADOS FEN 2017

A continuación reportamos los resultados para las tres preguntas en el caso de la


sección 1, 2017, FEN.

Pregunta 1: 20 de los 53 alumnos respondieron la alternativa B.

Pregunta 2: Los rangos promedios fueron A(1,7), B(2,3), C(2,6) y D(3,4). De modo
que, el sesgo producto de la heurística de representatividad no se manifestó en los
promedios. Sin embargo, 13 de los alumnos dieron un rango más alto a A que a C y 20
un rango más alto a B que a C. En total, 27 alumnos respondieron contradiciendo las
leyes más elementales de las probabilidades, es decir, dieron una probabilidad más alta
a C que ya sea a A o a B.

Pregunta 3: Finalmente, en lo que la manifestación más masiva de falta de lógica


probabilística, 32 de los 53 alumnos eligieron la alternativa B como la más probable en
la pregunta 3. Para esta pregunta los resultados fueron muy parecidos a los que
obtuvieron Kahneman y Tversky en su célebre paper.
37
E SPACIO MUESTRALES FINITOS

Consideramos un espacio muestral finito, S , con un número n elementos:

S = {s 1 , s 2 , ..., s n }.

Denotamos por p i la probabilidad del evento {s i }, es decir, la probabilidad de obtener


(o que suceda) s i , donde i = 1, 2, ..., n .

Imponemos dos condiciones a los p i :


1. p i ≥ 0, i = 1, 2, ..., n .
Pn
2. p = 1.
i =1 i

Entonces, la función que asigna a un subconjunto A de S la suma de los p i


correspondientes a elementos en A define una función de probabilidad.

En el caso particular en que todos los p i son iguales a 1/n se obtiene lo que se conoce
como espacio muestral simple y tenemos que:
Número de elementos en A Casos favorables
Pr(A) = = .
n Casos posibles
38
M ODELO DE URNAS

Muchos problemas relevantes en ciencias sociales (y otras disciplinas) se pueden


modelar como la selección de una o más pelotas de una o más urnas.

Por ejemplo, podemos tener una urna con r pelotas rojas y v pelotas verdes, de la cual
extraemos, una a una, un total de k pelotas.

Cada vez que se extrae una pelota, todas las pelotas en la urna tienen la misma
probabilidad de ser escogidas.

El muestreo puede ser con o sin reemplazo. En el primer caso se regresa cada pelota a
la urna antes de sacar la siguiente, en el segundo caso no.

39
M ODELO DE URNAS ( CONT.)

Los espacios muestrales asociados a los modelos de urnas suelen ser simples, de modo
que calcular probabilidades equivale a contar el número de elementos en los eventos de
interés.

Para calcular probabilidades en espacio muestrales simples necesitamos contar el


número de elementos de S y de diversos subconjuntos de S .

40
M ÉTODOS DE CONTEO : T EOREMA F UNDAMENTAL

Prácticamente todos los resultados de conteo (y probabilidades en espacios muestrales


simples) se basan en el siguiente resultado, conocido como Regla Multiplicativa:

Suponga que un experimento consiste de k partes, k ≥ 2, y que en la parte


i -ésima hay n i resultados posibles, i = 1, 2, ..., k . Definimos el espacio
muestral, S , como todas las k -tuplas ordenadas (u 1 , u 2 , ..., u k ) que pueden
resultar de este experimento, donde u i es el resultado de la parte i -ésima.
Entonces el número de elementos de S es igual a n 1 · n 2 · ... · n k .

41
E JEMPLOS

1. Se lanza un dado dos veces. Entonces el número de elementos de S es 62 = 36.


2. Se lanza un dado k veces. Entonces S tiene 6k elementos.
3. Una urna contiene 100 pelotas, enumeradas de 1 a 100. Se extraen 3 pelotas, con
reemplazo. Entonces S tiene 1003 elementos.
4. Igual al anterior, pero el muestreo es sin reemplazo. Entonces el número de
elementos de S es 100 · 99 · 98.
5. Una urna contiene 100 pelotas, 60 rojas, 40 verdes. Las pelotas rojas son
indistinguibles entre sí, las verdes también. Se extrae tres pelotas, con reemplazo.
Entonces el número de elementos de S es 2 · 2 · 2 = 8.
6. Igual al anterior, pero el muestreo es sin reemplazo. El número de elementos de S
sigue siendo 8. [¿Por qué la diferencia con 4?]

42
P ERMUTACIONES

Def. Un experimento consiste en seleccionar k elementos de un conjunto de n


elementos distintos, uno a la vez, sin reemplazo. El resultado del experimento se
describe mediante una k -tupla ordenada, es decir, nos importa el orden en que salieron
los elementos. Cada una de estas k -tuplas ordenadas se conoce como una permutación
de tamaño k de un conjunto de tamaño n . El número de permutaciones de este tipo se
denota por P n,k .

Argumentando de manera análoga al ejemplo 4 de la lámina anterior, se demuestra el


siguiente resultado:

Teorema
n!
P n,k = n(n − 1)(n − 2) · ... · (n − k + 1) = ,
(n − k)!
donde recordamos que n ! ≡ n(n − 1)(n − 2) · ... · 1 y 0! ≡ 1.

43
E JEMPLO

Se selecciona k elementos de una urna con n elementos distintos, con reemplazo. Cada
vez que se selecciona un elemento todos tienen la misma chance de ser seleccionados.

Se pide calcular la probabilidad que los k elementos seleccionados sean distintos.

Obviamente la probabilidad que debemos calcular será cero si k > n . En lo que sigue
asumimos k ≤ n .

Consideramos el espacio muestral S de las k -tuplas ordenadas de los n elementos, por


el Principio Multiplicativo S tiene n k elementos.

El evento de interés, A en lo que sigue, es el conjunto de k -tuplas de elementos


distintos. El número de elementos de A es P n,k .

Luego la probabilidad que nos piden viene dada por:


P n,k
Pr(A) = .
nk

44
E L PROBLEMA DE LOS CUMPLEAÑOS

¿Cuál es la probabilidad de que en un grupo de k personas haya al menos dos que


tienen cumpleaños el mismo día, es decir, que hayan nacido el mismo día del mismo
mes, aunque no necesariamente en el mismo año?

Suponga que k = 120 (corresponde aproximadamente al número de alumnos tomando


este curso, sumando las dos secciones) y usando sólo su intuición, adivine la
probabilidad.

La mayoría adivina probabilidades entre 10 y 33%. Una heurística habitual es


aproximar la probabilidad por 120/365 de modo de obtener aproximadamente 1/3.

45
E L PROBLEMA DE LOS CUMPLEAÑOS : S OLUCIÓN

Para resolver el problema, hacemos los siguientes supuestos (ninguno de ellos impacta
de manera significativa sobre el resultado, es decir, si no los hacemos los cálculos son
mucho más complejos pero las probabilidades que resultan son similares):

Ï Ignoramos años bisiestos y trabajamos con años de 365 días.

Ï La probabilidad de nacer en cualquier día del año es la misma: 1/365.

Entonces, la probabilidad de que las n personas tengan cumpleaños en días distintos es


P 365,k
365!

46
E L PROBLEMA DE LOS CUMPLEAÑOS : S OLUCIÓN ( CONT.)

El evento en que al menos dos estudiantes cumplen año el mismo día es el


complemento del evento en que todos tienen cumpleaños en días distintos.

Luego la probabilidad que queremos calcular, que denotamos por p , viene dada por
P 365,k 365!
p = 1− = 1− .
365! (365 − k)!365k

Cuando k = 120, la probabilidad anterior es 99,9999995%

47
E L PROBLEMA DE LOS CUMPLEAÑOS : S OLUCIÓN ( CONT.)

Entre los 53 alumnos que estaban en clases en la sección 1 el 2017, hubo 5 pares de
cumpleañeros: 27 de febrero, 8 de abril, 5 de agosto, 29 de septiembre y 4 de
noviembre.

La tabla que sigue indica la probabilidad para distintos valores de k :

No. alumnos: 10 20 23 41 50 60 70

p (%): 11,7 41,1 50,7 90,3 97,0 99,4 99,9

Se tiene que el menor k para el cual p es mayor que 50% es 23.

Los cálculos anteriores suponen que los supuestos de la lámina 46 se cumplen


aproximadamente, lo cual frecuentemente es una buen supuesto. Sin embargo, hay
excepciones. Por ejemplo, en un restaurante especial, donde es habitual que en muchas
de las mesas se esté celebrando el cumpleaños de uno de los comensales, se encontrará
valores de p mayores que los indicados en la tabla anterior.
48
PARADOJA DE LOS CUMPLEAÑOS Y C OINCIDENCIAS

Ï El problema de los cumpleaños, también conocido como la paradoja de los


cumpleaños ilustra un fenómeno más general.

Ï A veces nos sorprendemos por supuestas “coincidencias”, que nos parecen


altamente improbables. Sin embargo, muchas veces estas se explican porque la
probabilidad que intuimos para el evento en cuestión es mucho menor a la
verdadera.

Ï Un cálculo análogo al que hicimos muestra que en un grupo de 180 personas


habrá una probabilidad mayor que un 50% de que el RUT de dos de ellas tenga
los mismos últimos cuatro dígitos.

Ï Otro cálculo análogo muestra que una secuencia de 8 lanzamientos de la bolita en


una ruleta (38 resultados posibles) basta para que la probabilidad de que se repita
un número sea mayor que un 50%.

49
Probabilidades

Probabilidad condicional

Variables aleatorias

50
Probabilidades

Probabilidad condicional

Variables aleatorias

51
P ROBABILIDAD C ONDICIONAL : D EFINICIÓN

Sean A y B dos eventos, con Pr(B ) > 0. Entonces definimos la probabilidad de A


condicional en que sucede B , que denotamos Pr(A|B ), mediante:

Pr(A ∩ B )
Pr(A|B ) ≡ .
Pr(B )

Una manera de motivar esta definición es mediante un diagrama de Venn, donde las
probabilidades corresponden a las áreas de los conjuntos y el área de S es 1, como se
muestra en la lámina que sigue.

52
M OTIVANDO PROBABILIDAD CONDICIONAL

53
E JEMPLO

Se lanza un dado estándar dos veces. ¿Cuál es la probabilidad que el segundo


lanzamiento salga un 5 dado que la suma de los dos lanzamientos es 9?

Sea A el evento “5 en el segundo lanzamiento” y B el evento “los dos lanzamientos


suman 9”. Entonces:

Pr(A ∩ B ) Pr({(4, 5)}) 1/36 1


Pr(A|B ) = = = = .
Pr(B ) Pr({(3, 6), (4, 5), (5, 4), (6, 3)}) 4/36 4

54
L A PROBABILIDAD CONDICIONAL ES UNA PROBABILIDAD

Sea S un espacio muestral, E la colección de eventos relevantes y B un evento con


probabilidad mayor que cero.

Entonces la función que a todo evento A en E le asigna Pr(A|B ) cumple con los tres
axiomas de una probabilidad. [Vemos la demostración en las láminas que siguen,
aunque estas son opcionales].

Luego, todos los resultados que derivamos para una probabilidad se cumplen también
para una probabilidad condicional.

Por ejemplo, basado en los teoremas que vimos en la lámina 25:

Ï Pr(A c |B ) = 1 − Pr(A|B ).

Ï Si A ⊂ C entonces Pr(A|B ) ≤ Pr(C |B ).

Ï 0 ≤ Pr(A|B ) ≤ 1.

Ï Pr(A ∪C |B ) = Pr(A|B ) + Pr(C |B ) − Pr(A ∩C |B ).

55
D EMOSTRACIONES∗

A continuación demostramos que una probabilidad condicional cumple con los axiomas
de una probabilidad, es decir, que:

A.1 Para todo evento A en E : Pr(A|B ) ≥ 0..

A.2 Para el evento igual al espacio muestral S : Pr(S|B ) = 1.

A.3 Para eventos disjuntos A 1 , A 2 , ..., A n :

Pr(A 1 ∪ A 2 ∪ ... ∪ A n |B ) = Pr(A 1 |B ) + Pr(A 2 |B ) + · · · + Pr(A n |B ).

56
D EMOSTRACIONES ( CONT.)∗

A.1 Tenemos:
Pr(A ∩ B )
Pr(A|B ) = ≥ 0,
Pr(B )
donde el último paso se justifica por el Axioma A1.

A.2 Tenemos:
Pr(S ∩ B ) Pr(B )
Pr(S|B ) = = = 1,
Pr(B ) Pr(B )
donde el último paso se justifica porque S ∩ B = B dado que S es el espacio
muestral.

57
D EMOSTRACIONES ( CONT.)∗

A.3 Para eventos disjuntos A 1 , A 2 , ..., A n tenemos:


Pr((A 1 ∪ A 2 ∪ ... ∪ A n ) ∩ B )
Pr(A 1 ∪ A 2 ∪ ... ∪ A n |B ) =
Pr(B )
Pr((A 1 ∩ B ) ∪ (A 2 ∩ B ) ∪ ... ∪ (A n ∩ B ))
=
Pr(B )
Pr(A 1 ∩ B ) + Pr(A 2 ∩ B ) + ... + Pr(A n ∩ B )
=
Pr(B )
Pr(A 1 ∩ B ) Pr(A 2 ∩ B ) Pr(A n ∩ B )
= + + ... +
Pr(B ) Pr(B ) Pr(B )
= Pr(A 1 |B ) + Pr(A 2 |B ) + · · · + Pr(A n |B ).

Donde la primera igualdad es por la definición de probabilidad condicional, la


segunda por propiedades de teoría de conjuntos, la tercera por el Axioma A3 pues
A 1 ∩ B , A 2 ∩ B , ... A n ∩ B son disjuntos dado que A 1 , A 2 , ..., A n son disjuntos y la
última igualdad es por la definición de probabilidad condicional.

58
T EOREMA DE P ROBABILIDADES T OTALES

Suponga que los eventos B 1 , B 2 , ..., B k forman una partición del espacio muestral S y
que Pr(B j ) > 0 para j = 1, 2, ..., k . Entonces, para todo evento A en S :

k
X
Pr(A) = Pr(A|B j ) Pr(B j ).
j =1

Dem. Queda como tarea justificar cada paso en la demostración que sigue.

Pr(A) = Pr(A ∩ S)

= Pr(A ∩ (B 1 ∪ ... ∪ B k ))

= Pr((A ∩ B 1 ) ∪ ... ∪ (A ∩ B k ))

= Pr(A ∩ B 1 ) + Pr(A ∩ B 2 ) + ... + Pr(A ∩ B k )

= Pr(A|B 1 ) Pr(B 1 ) + Pr(A|B 2 ) Pr(B 2 ) + ... + Pr(A|B k ) Pr(B k ).

59
A PLICACIÓN S IMPLE : E NUNCIADO

Se cuenta con dos urnas, la primera tiene un 60% de pelotas rojas y 40% de pelotas
verdes, la segunda un 30% de pelotas rojas y un 70% de verdes .

Se elige una urna al azar y luego se extrae una pelota. ¿Cuál es la probabilidad de que
la pelota sea roja?

A continuación resolvemos este problema aplicando el Teorema de Probabilidades


Totales.

60
A PLICACIÓN S IMPLE : S OLUCIÓN

Consideramos los siguientes eventos:


Ï U1 : se elige la primera urna

Ï U2 : se elige la segunda urna

Ï R : la pelota escogida es roja.

Entonces, tendremos que U1 y U2 definen una partición del espacio muestral. La


manera más fácil de convencerse es notar que son eventos disjuntos y su unión tiene
probabilidad uno.

Una manera más rigurosa es notar que el espacio muestral se puede escribir como

S = {(1, r ), (1, v), (2, r ), (2, v)}

donde la primera coordenada de cada par ordenado indica la urna seleccionada y la


segunda el color de la pelota elegida. Entonces U1 = {(1, r ), (1, v)}, U2 = {(2, r ), (2, v)} y
R = {(1, r ), (2, r )}.
61
A PLICACIÓN S IMPLE ( CONT.)

Nos dicen que:


Pr(R|U1 ) = 0, 6, Pr(R|U2 ) = 0, 3.

Que “la urna se eligió al azar” significa que la probabilidad de elegir cualesquiera de las
urnas es la misma:
1
Pr(U1 ) = Pr(U2 ) = .
2

Entonces, aplicando el Teorema de Probabilidades Totales:


1 1
Pr(R) = Pr(R|U1 ) Pr(U1 ) + Pr(R|U2 ) Pr(U2 ) = 0, 6 · + 0, 3 · = 0, 45.
2 2

62
P ROBLEMA DE M ONTY H ALL

Usted va un concurso de televisión donde debe elegir una de tres puertas.

Detrás de la una de las puertas hay un automóvil, detrás de las restantes puertas no
hay ningún premio.

Usted elige, digamos, la puerta No. 1, y el animador, que sabe lo que hay detrás de
cada puerta, abre otra puerta, digamos la No. 3, donde no hay nada. Luego le ofrece
cambiarse a la puerta No. 2. ¿Acepta o no acepta la oferta?

Sábados Gigantes tuvo un concurso de este tipo, el original se remonta al programa de


TV estadounidense “Let’s Make a Deal” cuyo animador era Month Hall, por lo cual se
le conoce como el problema de Monty Hall.

63
S OLUCIÓN

La mayoría de la gente responde que da lo mismo si la concursante sigue con la puerta


que eligió inicialmente o cambia de puerta, un estudio reporta que menos del 10%
elige cambiar de puerta.

Como vemos a continuación, la respuesta correcta es que conviene cambiar de puerta.

En efecto, considere los siguientes eventos:

Ï G : gana el automóvil

Ï B : el premio está tras la puerta que eligió la concursante inicialmente.

Entonces:
1 2 2
Cambia de puerta : Pr(G) = Pr(G|B ) Pr(B ) + Pr(G|B c ) Pr(B c ) = 0 · + 1 ·= ,
3 3 3
1 2 1
No cambia de puerta : Pr(G) = Pr(G|B ) Pr(B ) + Pr(G|B c ) Pr(B c ) = 1 · + 0 · = .
3 3 3

64
S OLUCIÓN ( CONT.)

Lo clave en los cálculos anteriores es que Pr(B ) = 1/3 aun después de que el animador
abre una de las puertas que no eligió la concursante.

El motivo para esto es que el juego supone que el animador no puede abrir la puerta
con el premio ni la puerta que eligió la concursante.

Luego, si la concursante eligió la puerta No. 1 y el animador abre la puerta No. 3, el


hecho que abra esta puerta:

Ï No cambia la probabilidad de que el premio esté tras la puerta No. 1 y esta sigue
siendo 1/3.
Ï Sí entrega nueva información sobre la probabilidad que el premio esté tras la
puerta No. 2. El hecho de haber elegido la puerta No. 3 pudiendo haber elegido
la No. 2 sugiere que la probabilidad de que el premio esté tras la puerta No. 2 ha
subido.

65
G ENERALIZACIÓN

Engel y Venetoulias (1993, Mathematical Scientist) generalizan el problema de Monty


Hall al caso con n puertas y k rondas en que el animados ofrece al concursante
cambiar de puerta, donde k < n .

Basado en la intuición que dimos en las láminas anteriores, sin hacer ningún cálculo,
especule sobre cuál será la estrategia óptima en este caso.

Indicación: Hay muchas estrategias óptimas, todas ellas tienen en común lo que el
jugador hace en la última ronda.

66
I NDEPENDENCIA DE DOS EVENTOS : M OTIVACIÓN

Intuitivamente, cuando decimos que dos eventos A y B son independientes, lo que


tenemos en mente es que la probabilidad que damos a ellos no depende de si el otro
evento sucede o no.

Es decir, estamos diciendo que Pr(A|B ) = Pr(A) y Pr(B |A) = Pr(B ), lo cual equivale a
Pr(A ∩ B ) Pr(B ∩ A)
= Pr(A) y = Pr(B )
Pr(B ) Pr(A)
de donde tenemos que
Pr(A ∩ B ) = Pr(A) Pr(B ).

Lo cual motiva la definición de eventos independientes que damos en la lámina


siguiente, la cual, a diferencia de la motivación que damos aquí, también vale para
eventos con probabilidad nula.

67
I NDEPENDENCIA DE DOS EVENTOS : D EFINICIÓN

Diremos que los eventos A y B son independientes si

Pr(A ∩ B ) = Pr(A) Pr(B ).

Ejemplo

Se lanza un dado estándar. Se denota por A el evento en que sale un número par
(prob.: 1/2) y por B que sale 1, 2, 3 o 4 (prob.: 4/6). Entonces, como A ∩ B es el
evento en que sale un 2 o un 4 (prob.: 2/6), tendremos:
1 1 2
Pr(A ∩ B ) = = · = Pr(A) Pr(B ),
3 2 3
y concluimos que A y B son independientes.

68
E VENTOS INDEPENDIENTES : T EOREMAS BÁSICOS

1. Si A y B son independientes, entonces A y B c ; A c y B ; y A c y B c también serán


independientes.
2. Si Pr(B ) > 0, entonces A y B son independientes si y sólo si Pr(A|B ) = Pr(A).

Dem. Demostramos un caso del resultado 1, la independencia de A y B c .

Por el Teorema 3 tenemos:

Pr(A ∩ B c ) + Pr(A ∩ B ) = Pr(A)

y como A y B son independientes

Pr(A ∩ B c ) + Pr(A) Pr(B ) = Pr(A)

de donde

Pr(A ∩ B c ) = Pr(A) − Pr(A) Pr(B ) = Pr(A)(1 − Pr(B )) = Pr(A) Pr(B c ).

69
T EOREMA DE B AYES

Sea B 1 , ..., B k una partición del espacio muestral S con Pr(B j ) > 0 para j = 1, ..., k y sea
A un evento con Pr(A) > 0.

Entonces, para i = 1, ..., k :

Pr(A|B i ) Pr(B i )
Pr(B i |A) = P .
k Pr(A|B j ) Pr(B j )
j =1

Dem. Aplicando la definición de probabilidad condicional dos veces:


Pr(B i ∩ A) Pr(A|B i ) Pr(B i )
Pr(B i |A) = = .
Pr(A) Pr(A)
El numerador de la expresión anterior es el que queremos y para pasar del denominador
que tenemos al que queremos aplicando el Teorema de Probabilidades Totales.

70
A PLICACIÓN : T ESTS PARA DIAGNOSTICAR UNA ENFERMEDAD

Dos son las probabilidades claves para evaluar la efectividad de un test para
diagnosticar una enfermedad determinada:

Ï La probabilidad de que el test de positivo si la persona tiene la enfermedad.

Ï La probabilidad de que el test de positivo si la persona no tiene la enfermedad.


Este evento se conoce como un falso positivo.

Por ejemplo, suponga que la primera probabilidad es del 90%, y la segunda del 10%.

Además suponga que un 1% de la población tiene la enfermedad. Esta probabilidad se


conoce como prevalencia. .

Se aplica el test a una persona y da positivo. ¿Cuál es la probabilidad de que tenga la


enfermedad?

71
D IAGNÓSTICOS : S OLUCIÓN

Consideramos los siguientes eventos:


Ï B : la persona tiene la enfermedad.

Ï A : el test da positivo

Las probabilidades que nos dieron se escriben como sigue:

Pr(A|B ) = 0, 9, Pr(A|B c ) = 0, 1, Pr(B ) = 0, 01.

Lo que nos piden es Pr(B |A).

Por el Teorema de Bayes:

Pr(A|B ) Pr(B ) 0, 9 · 0, 01
Pr(B |A) = = = 0,0833.
Pr(A|B ) Pr(B ) + Pr(A|B c ) Pr(B c ) 0, 9 · 0, 01 + 0, 1 · 0, 99

72
D IAGNÓSTICOS : I NTERPRETACIÓN

La probabilidad que obtuvimos es bastante baja y sugiere una baja efectividad de los
tests de diagnóstico de enfermedades.

El cálculo que hicimos vale para una persona que se elige al azar en la población.

Sin embargo, cuando un médico envía a un paciente a hacerse un test tiene elementos
clínicos (productos de examinar al paciente, de la ficha médica del paciente, etc.) que
le hacen presumir que la probabilidad de que tenga la enfermedad es mayor que en la
población en general.

Por ejemplo, si suponemos que la probabilidad subjetiva que el médico asigna a que el
paciente tenga la enfermedad antes de enviarlo a realizar el test (la llamaremos
probabilidad previa) es de 0,25, entonces un cálculo análogo muestra que dicha
probabilidad pasa a 0,75 después de un test que da positivo, mientras que un teste
negativo la hace caer a 3,6%.

Pr(A c |B ) Pr(B ) 0, 1 · 0, 25
Pr(B |A c ) = = = 0, 036.
Pr(A c |B ) Pr(B ) + Pr(A c |B c ) Pr(B c ) 0, 1 · 0, 25 + 0, 9 · 0, 75
73
A PLICACIÓN : I NCORPORANDO EVIDENCIA

Usted tiene una moneda que sabe es sesgada. De hecho, hay solo dos escenarios
posibles:

1. La probabilidad de cara es 2/3


2. La probabilidad de cara es 1/3

Usted lanza la moneda 3 veces y anota los resultados que obtiene.

En base a esos resultados, usted actualiza (pone al día, revisa) las probabilidades
iniciales que asignó a los dos escenarios posibles. Por ejemplo, si salen 2 caras y un
sello, la probabilidad del escenario 1 debiera crecer.

El Teorema de Bayes le permite pasar de sus probabilidades iniciales (probabilidades


previas) a las probabilidades que incorporan la evidencia (probabilidades posteriores).

74
B AYES Y LA INCORPORACIÓN DE NUEVA EVIDENCIA ( CONT )

Sea A 1 el evento que describe el Escenario 1 y A 2 el evento que describe el Escenario 2.

Suponemos que, antes de conocer la evidencia, usted asigna la misma probabilidad a


los dos escenarios:
1
Pr(A 1 ) = Pr(A 2 ) = .
2

Suponga que la secuencia de lanzamientos resulta ser (C ,C , S) y denote este evento por
B.

El orden en la secuencia no importa, los resultados son iguales para todas las
secuencias de tres lanzamientos con 2 caras y un sello.

Como los lanzamientos son independientes condicional en A 1 y también son


independientes condicional en A 2 :
µ ¶2 µ ¶ µ ¶2 µ ¶
2 1 4 1 2 2
Pr(B |A 1 ) = · = , Pr(B |A 2 ) = · = .
3 3 27 3 3 27

75
B AYES Y LA INCORPORACIÓN DE NUEVA EVIDENCIA ( CONT )

Notamos que Pr(B |A 1 ) es el doble de Pr(B |A 2 ), cuantificando nuestra intuición de que


el resultado del experimento es más probable bajo A 1 que bajo A 2

Luego, aplicando Bayes:


4 1
Pr(B |A 1 ) Pr(A 1 ) ·2 2
Pr(A 1 |B ) = = 4 27 1 2 1
= .
Pr(B |A 1 ) Pr(A 1 ) + Pr(B |A 2 ) Pr(A 2 ) 3
27 · 2 + 27 · 2

Se proponen los siguientes ejercicios:


Ï Calcule Pr(A 1 |B ) suponiendo que los tres lanzamientos fueron cara. Compare y
comente.
Ï Volvemos al caso de dos caras y un sello, pero ahora el escenario 2 es el de una
moneda honesta (el escenario 1 sigue siendo sesgado). Calcule Pr(A 1 |B ). Compare
y comente.

76
L O MISMO PERO MÁS GENERAL

En el ejemplo anterior, teníamos dos escenarios posibles: la probabilidad de cara es 2/3


en el primero, 1/3 en el segundo. En el caso general, se tiene un número finito de
escenarios o teorías posibles, a cada teoría se le asigna una probabilidad, la suma de las
probabilidades es uno.

Usted hace un experimento que es informativo respecto de las teorías que compiten.
Es decir, ciertos resultados del experimento apuntan a que son más probables algunas
teorías mientras que otros resultados sugieren que son más probables las restantes.

El Teorema de Bayes se usa para revisar las probabilidades que usted asignó
inicialmente a cada teoría, incorporando la evidencia que arroja el experimento.

Donde estamos asumiendo que lo que se debe hacer es condicionar en la evidencia. Se


puede mostrar que este enfoque es el mejor usando argumentos similares a los del
último problema de la Guía 1.

77
E L VALOR DE TENER MÁS EVIDENCIA

El problema es el mismo de la lámina de la moneda sesgada, pero en lugar de observar


2 caras en 3 lanzamientos, observamos 10 caras en 15 lanzamientos.

En los dos casos, la fracción de caras es 2/3. La diferencia está en que tener 2/3 de
caras en 15 lanzamientos es más evidencia a favor del Escenario 1 que tener 2/3 en
tres lanzamientos. ¿Cuánto más? Antes de seguir leyendo, adivine.

Un cálculo análogo al anterior muestra que la probabilidad posterior ahora es de 32/33,


es decir, de casi un 97 por ciento. La mayoría subestima esta probabilidad.

Esto es una manifestación de otro sesgo documentado por Kahneman y Tversky:


tendemos a subvalorar la información adicional que nos puede entregar una muestra
más grande.

Moraleja: valore debidamente las oportunidades para recabar información sobre un


fenómeno de interés.
78
Probabilidades

Probabilidad condicional

Variables aleatorias

79
Probabilidades

Probabilidad condicional

Variables aleatorias

80
VARIABLE A LEATORIA

Def. Sea S el espacio muestral asociado a un experimento. Una variable aleatoria es


una función que asocia un número real a cada elemento de S .

Ej. Una moneda se lanza diez veces y se anota la secuencia de caras y sellos que
resulta, de modo que S = {(u 1 , u 2 , ..., u 10 ) : u i ∈ {c, s}}. Definimos X como la variable
aleatoria (v.a.) que asigna a cada elemento de S el número de caras que resulta en el
experimento. Entonces X toma valores entre 0 y 10. Por ejemplo, si u = (ccssscsssc)
entonces X (u) = 4.

Otra v.a. posible es el número de sellos, Y . Es fácil ver (convénzase) que Y = 10 − X .

Una tercera variable aleatoria, Z , es el numero de rachas de largo tres, donde una
racha es una secuencia de lanzamientos iguales. Tenemos Z (u) = 2, ya que hay dos
rachas de sellos de largo 3.

81
V. A . DISCRETA

Def. Diremos que la v.a. X tiene una distribución discreta o que es una v.a. discreta si
toma un número finito de valores, x 1 , x 2 , ..., x k (o a lo más una secuencia infinita de
valores x 1 , x 2 , x 3 , ...)

Def. La función de probabilidad (f.p.) asociada a una v.a. discreta X se define para
todo número real x mediante
f (x) ≡ Pr(X = x),

donde usamos ≡ cada vez que una igualdad se cumple producto de una definición.

Ej. Sea X la v.a. igual a la suma del resultado de lanzar dos dados honestos. Entonces:

x: 2 3 4 5 6 7 8 9 10 11 12
1 1 1 1 5 1 1 1 1 1 1
f (x): 36 18 12 9 36 6 6 9 12 18 36

82
F ORMA TÍPICA DE UNA F. P.

83
T EOREMA : C ÁLCULO DE PROBABILIDADES CON LA F. P.

El siguiente teorema establece que la f.p. contiene toda la información necesaria para
calcular probabilidades asociadas a una v.a. discreta.

Teorema Sea X una v.a. discreta, con f.p. f (x), que puede tomar los valores
x 1 , x 2 , x 3 , .... Entonces
X
f (x i ) = 1,
todos los xi

y, para cualquier evento C ,


X
Pr(X ∈ C ) = f (x i ).
x i ∈C

Ej. Para la v.a. X de la lámina 82 tendremos que

1
Pr(X par) = f (2) + f (4) + f (6) + f (8) + f (10) + f (12) = ,
2
7
Pr(3,5 ≤ X ≤ 5,7) = f (4) + f (5) = .
36

84
D ISTRIBUCIÓN UNIFORME SOBRE UN CONJUNTO DE ENTEROS

Sean m y n números enteros con m ≤ n .

Decimos que X tiene una distribución uniforme sobre los enteros m, m + 1, m + 2, ..., n si
la v.a. X toma valores enteros entre m y n inclusives, asignando la misma probabilidad
a todos ellos.

La f.p. de X viene dada por:



1
 n−m+1 ,

 x = m, m + 1, m + 2, ..., n,
f (x) =


0, en caso contrario.

85
V. A . CONTINUA O DISTRIBUCIÓN CONTINUA

Def. Diremos que la v.a. X tiene una distribución continua o que es una v.a. continua
si existe una función f definida sobre la recta real, que toma valores mayores o iguales
que cero, tal que para cualquier intervalo (finito o infinito; abierto, semiabierto o
cerrado) la probabilidad de que X tome valores en el intervalo es igual a la integral de
f sobre el intervalo.

Por ejemplo, si a ≤ b son números reales, entonces:


Z b
Pr(a ≤ X ≤ b) = f (x)d x,
a
Z ∞
Pr(X ≥ a) = f (x)d x,
a
Z b
Pr(X ≤ b) = f (x)d x.
−∞

La función f es una función de densidad de probabilidad, abreviada f.d.p.

86
L A DISTRIBUCIÓN UNIFORME

Decimos que la v.a. X sigue una distribución uniforme en el intervalo [a, b], donde a y
b son números reales con a < b , si X toma valores entre a y b y la probabilidad de que
X tome valores en cualquier subintervalo de [a, b] es proporcional al largo del
subintervalo. En tal caso escribimos X ∼ U(a, b).

Una f.d.p. posible (veremos que no es la única) de X viene dada por:



1
 b−a ,

 a ≤ x ≤ b,
f (x) =


0, en caso contrario.

87
V. A . CONTINUA Y Pr(X = a)

Considere una v.a. continua X con p.d.f. f (x). Entonces, por la definición de v.a.
continua, Pr(X = a) = 0 para cualquier número real a , pues
Z a
Pr(X = a) = f (x)d x = 0.
a

Lo anterior no significa que el evento (X = a) sea imposible, ya que en tal caso todos
los valores de X serían imposibles.

Lo que significa es que debemos tener cuidado al interpretar un f.d.p.

88
I NTERPRETACIÓN DE UNA F. D. P.

Sea f (x) la f.d.p. de una v.a. X y suponga que f es continua en x 0 y f (x 0 ) > 0.

La mejor forma de interpretar lo que significa f (x 0 ) parte por considerar un intervalo


pequeño [a, b] que incluye x 0 , es decir, tal que a < x 0 < b . Entonces:
Z b Z b Z b ¯x=b
Pr(a ≤ X ≤ b) = f (x) dx ' f (x 0 ) dx = f (x 0 ) 1 dx = f (x 0 )x ¯ = f (x 0 )(b − a).
¯
a a a x=a

Es decir, la probabilidad de que X pertenezca a un intervalo pequeño que contiene x 0


es proporcional al largo del intervalo, con constante de proporcionalidad
(aproximadamente) igual a f (x 0 ).

89
C ONSECUENCIAS DE Pr(X = a)

Una consecuencia de que Pr(X = a) = 0 para una v.a. continua es que la definición de
f.p. que dimos en la lámina 86 implica que
Z b
Pr(a ≤ X ≤ b) = Pr(a < X < b) = Pr(a ≤ X < b) = Pr(a < X ≤ b) = f (x)d x.
a

La diferencia entre los cuatro eventos considerados en la igualdad anterior es si (X = a)


y (X = b) pertenece o no pertenece al evento en cuestión, y como
Pr(X = a) = Pr(X = b) = 0, esto es irrelevante.

90
N O UNICIDAD DE LA F. D. P. DE UNA V. A . CONTINUA

Otra consecuencia de que Pr(X = a) = 0 para una v.a. continua es que existen muchas
(de hecho, infinitas) funciones de densidad de probabilidad para una v.a. determinada.

Consideremos a modo de ejemplo una v.a. X ∼ U(0, 1). De acuerdo a lo que vimos en la
lámina 87, una f.d.p. posible es:

 1,

 si 0 ≤ x ≤ 1,
f (x) =


0, en caso contrario.

91
N O UNICIDAD DE LA F. D. P. DE UNA V. A . CONTINUA ( CONT.)

Podemos cambiar el valor de f (x) en un número finito de puntos y seguirá siendo una
f.d.p. para X .

Por ejemplo, si cambiamos f (0, 5) de 1 a 100, sin cambiar el valor que toma f para
valores de x distintos de 0,5, y calculamos la probabilidad de que X pertenezca a
cualquier intervalo usando la nueva f.d.p. obtendremos el mismo resultado que con la
f.d.p. original.

Lo habitual es trabajar con funciones de densidad de probabilidad que sean continuas,


o lo más continuas que sea posible.

En el ejemplo anterior esto significa tomar f (0, 5) = 1 pero no resuelve la pregunta de si


f (0) = 0 o f (0) = 1, tampoco si f (1) = 0 o f (1) = 1. La convención aquí es que el
intervalo donde f (x) toma valores estrictamente positivos sea cerrado.

92
F UNCIÓN DE DISTRIBUCIÓN CUMULATIVA

Def. La función de distribución o función de distribución cumulativa de una v.a. X es


la función
F (x) ≡ Pr(X ≤ x).

La abreviamos por función cumulativa o cumulativa o f.d.c..

La función cumulativa está definida para toda variable aleatoria: discreta y continua (y
aquellas que son mezclas de discretas y continuas).

93
C UMULATIVA DE UNA V. A . DISCRETA

La figura que sigue muestra la cumulativa de una v.a. discreta que toma valores
enteros entre 0 y 12.

Notamos que F (x) = 0 para x < 0 y F (x) = 1 para x ≥ 12.

También notamos que F (x) crece de a saltos (¿puede describir el tamaño de cada
salto?), manteniéndose constante entre un salto y otro. Esto vale para todas las
funciones cumulativas de una v.a. discreta.
94
C UMULATIVA DE UNA DISTRIBUCIÓN UNIFORME

La figura que sigue muestra la función cumulativa de una v.a. uniforme en [a, b].

Notamos que F (x) = 0 para x ≤ a y F (x) = 1 para x ≥ b .

También notamos que F (x) no tiene saltos y que es estrictamente creciente en el


conjunto [a, b] donde su f.d.p. es estrictamente positiva. Lo anterior vale para la
cumulativa de toda v.a. continua.

95
C UMULATIVA DE UNA DISTRIBUCIÓN UNIFORME ( CONT.)

Se propone derivar la cumulativa anterior formalmente usando la definición de F (x) y


la expresión para la f.d.p. de la lámina 87.

Debiera obtener: 


 0, x < a.






F (x) = x−a
b−a
, a ≤ x ≤ b,








 1, x > b.

96
T EOREMAS PARA TODA FUNCIÓN CUMULATIVA

Sea F la cumulativa de una v.a. X cualesquiera (discreta, continua, etc.) y denotemos


por x e y dos números reales.

Entonces:
1. F es creciente1 : x ≤ y =⇒ F (x) ≤ F (y).
2. lı́mx→−∞ F (x) = 0.
3. lı́mx→∞ F (x) = 1.
4. Pr(X > x) = 1 − F (x).
5. Para a < b : Pr(a < X ≤ b) = F (b) − F (a).

1 Diremos que una función g : R −→ R es creciente si

(∀x, y ∈ R) x ≤ y =⇒ g (x) ≤ g (y),

y estrictamente creciente si
(∀x, y ∈ R) x < y =⇒ g (x) < g (y).

97
A LGUNAS DEMOSTRACIONES

Teorema 1: Como el evento (X ≤ x) ⊂ (X ≤ y), por el Teorema 4 de la lámina 25


tenemos que
F (x) = Pr(X ≤ x) ≤ Pr(X ≤ y) = F (y).

Teorema 4 Como (X > x) es el complemento de (X ≤ x), por el Teorema 2 de la lámina


25 tendremos que
Pr(X > x) = 1 − Pr(X ≤ x) = 1 − F (x).

Teorema 5 Tenemos que (X ≤ a) y (a < X ≤ b) define una partición de (X ≤ b) por lo


cual, por el Axioma 3 de una probabilidad:

Pr(X ≤ b) = Pr(X ≤ a) + Pr(a < X ≤ b)

lo que, por la definición de F , equivale a:

F (b) = F (a) + Pr(a < X ≤ b),

de donde
Pr(a < X ≤ b), = F (b) − F (a).
98
T EOREMAS PARA LA CUMULATIVA DE UNA V. A . CONTINUA

Sea X una v.a. continua con cumulativa F y f.d.p. f .

Entonces:
Rx
1. F (x) = −∞ f (u)d u .

2. F 0 (x) = f (x) para todo valor de x donde f es continua.


3. Pr(X ≥ x) = 1 − F (x).
4. Para a < b : Pr(a ≤ X ≤ b) = F (b) − F (a).

99
D EMOSTRACIONES

El Teorema 1 es consecuencia directa de la definición de una f.d.p. mientras que el


Teorema 2 se demuestra aplicando el Teorema Fundamental del Cálculo.

Los Teoremas 3 y 4 son consecuencia de los teoremas análogos que derivamos para
cualquier f.d.c. en la lámina 97 y el hecho que Pr(X = x) = 0 para una v.a. continua.

100
D ISTRIBUCIONES BIVARIADAS : M OTIVACIÓN

Los ladrillos con que se construyen los modelos econométricos son las colecciones de
variables aleatorias que tienen la misma función de distribución y que son
independientes, se les conoce como muestra aleatoria.

En la segunda parte de este curso (Inferencia Estadística) usaremos una y otra vez
frases como la siguiente:

“Considere datos x 1 , x 2 , ..., x n que son realizaciones de una muestra alea-


toria X 1 , ..., X n de una distribución ...”

El concepto de muestra aleatoria es un caso particular de una v.a. multivariada, es


decir, de un vector con variables aleatorias.

101
M OTIVACIÓN ( CONT.)

Casi todos los conceptos relevantes se pueden cubrir considerando dos variables
aleatorias. Eso es lo que hacemos en esta sección.

El punto de partida, entonces, es un vector (X , Y ) donde X e Y son v.a.

El desafío es que queremos calcular probabilidades que involucran, simultáneamente, a


X e Y.

Por ejemplo, si X es la tasa de crecimiento porcentual que tendrá el PIB de Chile el


2020 e Y el desempleo ese año, entonces queremos calcular probabilidades como

Pr(X ≥ 4 %, Y ≤ 6 %),

donde adoptamos la convención de que cuando dos eventos van separados por una
coma, dentro de un paréntesis, nos estamos refiriendo a la intersección de los eventos.

102
D ISTRIBUCIÓN BIVARIADA : CASO DISCRETO

Sean X e Y dos v.a. y considere el par ordenado (X , Y ). Si este par ordenado solo
puede tomar un número finito (o enumerable) de valores diremos que (X , Y ) tienen una
distribución bivariada discreta.

En tal caso definimos la función de probabilidad conjunta de (X , Y ), para todo


(x, y) ∈ R2 , mediante
f (x, y) = Pr(X = x, Y = y).

Tendremos que f (x, y) > 0 solo para un número finito (o enumerable) de pares (x, y).
La figura de la lámina que sigue ilustra cómo se ve una f.p. bivariada.

103
F. P. CONJUNTA DE UNA DISTRIBUCIÓN BIVARIADA

104
E JEMPLO

La tabla siguiente muestra las probabilidades de todas las combinaciones posibles de


valores que pueden tomar X e Y .

Y
——————————————
6 7 8

2 0 0.1 0.2
X: 3 0.05 0.2 0.1
4 0.2 0.15 0

Denotamos por f (x, y) la función de probabilidad conjunta de X e Y . Por ejemplo,


tenemos f (3, 7) = 0,2

Si se nos pide la probabilidad que la economía crezca al menos 3% y el desempleo no


exceda el 7%, esta se calcula sumando los f (x, y) con X ≥ 3 e Y ≤ 7, de modo que

Pr(X ≥ 3, Y ≤ 7) = f (3, 6) + f (3, 7) + f (4, 6) + f (4, 7) = 0,6.

105
T EOREMAS∗

1. Si X e Y son v.a. discretas, entonces (X , Y ) tiene una distribución bivariada


discreta.

2. Tenemos:
X
f (x, y) = 1,
todos los (x, y)

donde la suma es sobre todos los (x, y) con f (x, y) > 0.

3. Para cualquier conjunto C incluido en R2 :


X
Pr((X , Y ) ∈ C ) = f (x, y)
(x, y) ∈ C

donde la suma considera todos los (x, y) ∈ C con f (x, y) > 0.

106
D EMOSTRACIONES∗

Esbozamos la demostración del Teorema 1 y omitimos las demostraciones restantes


porque aportan poco, no porque sean difíciles.

Vamos entonces al Teorema 1.

Si X toma n valores e Y toma m valores, entonces (X , Y ) toma a lo más n · m valores.


Esta es la esencia de la demostración.

La distribución bivariada (X , Y ) podría tomar menos que n · m valores, ¿se le ocurre por
qué?

107
D ISTRIBUCIÓN BIVARIADA : CASO CONTINUO

Sean X e Y dos v.a. y considere la v.a. bivariada (X , Y ). Si existe una función f de R2


en R+ tal que, para todo −∞ ≤ a ≤ b ≤ ∞ y −∞ ≤ c ≤ d ≤ ∞ se tiene
Z bZ d
Pr(a ≤ X ≤ b, c ≤ Y ≤ d ) = f (x, y) dy dx
a c

entonces diremos que f es una función de densidad de probabilidad conjunta (f.d.p.


conjunta) para la distribución bivariada (X , Y ).

Se puede mostrar que entonces, para cualquier evento C ⊂ R2 :


Ï
Pr((X , Y ) ∈ C ) = f (x, y) dy dx.
C

108
I NTERPRETACIÓN DE LA F. D. P. CONJUNTA

Sea (X , Y ) una v.a. con f.d.p. conjunta f (x, y). Para un par ordenado (x 0 , y 0 ), donde f
es continua y f (x 0 , y 0 ) > 0, consideramos un rectángulo pequeño que incluye (x 0 , y 0 ):

R = {(x, y) : a ≤ x ≤ b, c ≤ y ≤ d }.

Entonces:
Z dZ b Z dZ b
Pr((X , Y ) ∈ R) = f (x, y) dx dy ' f (x 0 , y 0 ) dx dy
c a c a
Z dZ b
= f (x 0 , y 0 ) 1 dx dy = f (x 0 , y 0 ) · [Area del rectángulo].
c a

Es decir, la probabilidad de que (X , Y ) pertenezca a un rectángulo pequeño que incluye


(x 0 , y 0 ) es proporcional al área del rectángulo, con constante de proporcionalidad
(aproximadamente) igual a f (x 0 , y 0 ).

109
F UNCIÓN CUMULATIVA CONJUNTA

Dada una distribución bivariada (X , Y ) definimos su función cumulativa conjunta


mediante
F (x, y) ≡ Pr(X ≤ x , Y ≤ y).

Si (X , Y ) tiene f.d.p. conjunta f entonces, por la definición de esta última


Z x Z y
F (x, y) = f (u, v) dv du.
−∞ −∞

También se puede mostrar que en este caso

∂2 F (x, y) ∂2 F (x, y)
f (x, y) = = .
∂x∂y ∂y∂x

110
D ISTRIBUCIONES MARGINALES

Si X e Y tienen cumulativa conjunta F (x, y), entonces las funciones cumulativas de X


e Y , que denotamos F1 (x) y F2 (y), se obtienen a partir de:

F 1 (x) = lı́m F (x, y),


y→∞
F 2 (y) = lı́m F (x, y).
x→∞

También, para obtener las f.p. en el caso discreto:


X
f 1 (x) = f (x, y).
todos los y

Y en el caso continuo: Z ∞
f 1 (x) = f (x, y) dy.
−∞

111
E JEMPLO

(X , Y ) es una v.a. bivariada continua con cumulativa conjunta



1
 cx y + 2 x, si 0 ≤ x ≤ 1, 0 ≤ y ≤ 1,


f (x, y) =


0, si no.

Comenzamos por determinar el valor de c imponiendo


Z 1Z 1 Z 1Z 1
1
1 = f (x, y) dy dx = [cx y +
x] dy dx
0 0 0 0 2
Z 1· ¸ y=1 Z 1· ¸
1 1 1 1
= cx y 2 + x y dx = cx + x dx
0 2 2 y=0 0 2 2
Z 1 x=1
1 1 ¯ 1
= (1 + c) x dx = (1 + c)x 2 ¯ = (1 + c),
¯
2 0 4 x=0 4
de modo que c = 3.

112
E JEMPLO ( CONT.)

Luego la p.d.f. de X se calcula como sigue:

Z 1 Z 1 · ¸ y=1
1 3 2 1
f 1 (x) = f (x, y) dy = [3x y + x] dy = xy + xy = 2x.
0 0 2 2 2 y=0

De manera análoga se obtiene la p.d.f. de Y :


Z 1 Z 1 · ¸x=1
1 3 2 1 3 1
f 2 (y) = f (x, y) dx = [3x y + x] dx = x y + x2 = y+ .
0 0 2 2 4 x=0 2 4

113
VARIABLES ALEATORIAS INDEPENDIENTES : D EFINICIÓN

Diremos que la v.a. X e Y son independientes si para cualquier par de conjuntos de


números reales A y B tales que (X ∈ A) e (Y ∈ B ) son eventos tenemos:

Pr(X ∈ A, Y ∈ B ) = Pr(X ∈ A) Pr(Y ∈ B ).

Es decir, cualquier evento que dicen relación con X es independiente de cualquier otro
evento relacionado con Y .

114
C ARACTERIZACIÓN DE V. A . INDEPENDIENTES

Sean X e Y v.a. con cumulativa conjunta F (x, y) y denotemos por F1 (x) y F2 (y) la
función cumulativa de X e Y , respectivamente.

Entonces X e Y son independientes si y sólo si para cualquier par de números reales x ,


y:
F (x, y) = F 1 (x)F 2 (y). (1)

Que independencia de X e Y implica (1) se obtiene aplicando la definición de


independencia con A = (X ≤ x) y B = (Y ≤ y).

La parte no trivial de la demostración es mostrar que basta con que se cumpla (1) para
que X e Y sean independientes (ver DGS solo si está interesado).

115
OTRA CARACTERIZACIÓN DE V. A . INDEPENDIENTES

Sean X e Y v.a. con discretas (o continuas) con p.f. (o p.d.f.) f 1 (x) y f 2 (y),
respectivamente y con p.f. (o p.d.f.) conjunta f (x, y).

Entonces X e Y son independientes si y sólo si para todo par de reales x , y :

f (x, y) = f 1 (x) f 2 (y).

Para una demostración ver DGS.

En el caso continuo estamos suponiendo que f 1 (x) y f 2 (y) son todo lo continuas que
pueden ser (y lo mismo para f (x, y)).

116
F UNCIONES DE VARIABLES ALEATORIAS INDEPENDIENTES

Si X e Y son v.a. independientes, entonces cualesquiera sean las funciones g y h


tendremos que g (X ) y h(Y ) también serán independientes.

Aunque se recomienda mirar DGS si quiere una demostración formal, la intuición para
este resultado es bastante obvia. Las variables aleatorias g (X ) y h(Y ) serán
independientes si cualquier evento relacionado con g (X ) es independiente de cualquier
otro evento relacionado con h(Y ). Pero cualquier evento relacionado con g (X ) tiene
que ser un evento relacionado con X , y cualquier evento relacionado con h(Y ) tiene
que ser un evento relacionado con Y . Luego, la independencia de g (X ) y h(Y ) es
consecuencia directa de la independencia de X e Y .

117
D ISTRIBUCIONES CONDICIONALES : C ASO DISCRETO

Sea (X , Y ) una v.a. bivariada discreta con p.f. bivariada f (x, y). Denotamos las p.f. de
X e Y por f 1 (x) y f 2 (y).

Para cada y con f 2 (y) > 0 definimos la f.p. condicional:


f (x, y)
g 1 (x|y) = .
f 2 (y)

La distribución discreta con p.f. g 1 (·|y) es la distribución condicional de X dado Y = y


y se denota (X |Y = y). Esta tiene todas las propiedades de una v.a. discreta.

118
E JEMPLO

Se lanzan dos dados honestos. X denota la suma, Y el número que sale en el primer
lanzamiento.

La p.f. conjunta viene dada por la siguiente tabla de doble entrada:

y
1 2 3 4 5 6
2 1/36 0 0 0 0 0
3 1/36 1/36 0 0 0 0
4 1/36 1/36 1/36 0 0 0
5 1/36 1/36 1/36 1/36 0 0
6 1/36 1/36 1/36 1/36 1/36 0
x 7 1/36 1/36 1/36 1/36 1/36 1/36
8 0 1/36 1/36 1/36 1/36 1/36
9 0 0 1/36 1/36 1/36 1/36
10 0 0 0 1/36 1/36 1/36
11 0 0 0 0 1/36 1/36
12 0 0 0 0 0 1/36

119
E JEMPLO ( CONT.)

Intuitivamente, notamos que dado Y = 1 la distribución de X es uniforme sobre los


enteros 2, 3, ..., 7.

En efecto, para x = 2, 3, 4, 5, 6, 7:
f (x, 1) 1/36 1
g 1 (x|1) = = = ,
f 2 (1) 1/6 6

donde usamos que f 2 (y) = 1/6 para y = 1, 2, 3, 4, 5, 6.

Y dado Y = 2, la distribución de X es uniforme sobre 3, 4, ..., 8. En general, dado Y = y ,


con y entre 1 y 6, tenemos que X tienen una distribución uniforme sobre x + 1, ..., x + 6.

También podemos condicionar en X . Por ejemplo, la distribución de Y condicional en


X = 3 es uniforme en 1, 2 mientras que si condicionamos en X = 7 es uniforme en
1, 2, 3, 4, 5, 6.

120
D ISTRIBUCIONES CONDICIONALES : C ASO CONTINUO

Sea (X , Y ) una v.a. bivariada continua con f.d.p. conjunta f (x, y). Denotamos las p.d.f.
de X e Y por f 1 (x) y f 2 (y).

Para cada y con f 2 (y) > 0 definimos la f.d.p. condicional:


f (x, y)
g 1 (x|y) = . (2)
f 2 (y)

La distribución continua g 1 (·|y) es la la f.d.p. de la distribución de X condicional en


Y = y.

La función g 1 (·|y) cumple con todas las propiedades de una p.d.f., en particular:
Z ∞ Z ∞ Z ∞
f (x, y) 1 f 2 (y)
g 1 (x|y) dx = dx = f (x, y) dx = = 1.
−∞ −∞ f 2 (y) f 2 (y) −∞ f 2 (y)

121
E JEMPLO GRÁFICO

En la lámina que sigue se muestra una densidad conjunta, f (x, y).

También se muestra la función f ( · , y 0 ), que se ve como una “tajada” de la torta que es


la densidad f (x, y).

De (2) en la lámina anterior podemos inferir que, salvo una constante (que resulta ser
1/ f 2 (y 0 )) la tajada es igual a la densidad de X condicional en Y = y 0 .

122
E JEMPLO GRÁFICO ( CONT.)

123
E JEMPLO

Se lanza una moneda honesta. Si sale cara, X es una realización de una uniforme en
[0, 1]. En cambio, si sale sello, X es una realización de una uniforme en [0, 2].
Determinamos la cumulativa y la f.d.p. de X

Denotamos mediante Y el resultado del lanzamiento de la moneda y convenimos que


Y = 1 corresponde a cara y Y = 2 a sello.

Entonces, el enunciado se traduce en:


1
Pr(Y = 1) = Pr(Y = 2) =
2
y
(X |Y = 1) ∼ U[0, 1], (X |Y = 2) ∼ U[0, 2].

124
E JEMPLO ( CONT.)

De la expresión para la cumulativa de una uniforme de la lámina 96 se tiene que,


denotando por F1 (x|y = 1) y F2 (x|y = 2) las cumulativas condicionales de (X |Y = 1) y
(X |Y = 2), tenemos 
 0,

 x < 0.
F 1 (x|y = 1) = x, 0 ≤ x ≤ 1,


1, x > 1.

y 
 0,

 x < 0.
F 1 (x|y = 2) = 1
x, 0 ≤ x ≤ 2,
 2

1, x > 2.

125
E JEMPLO ( CONT.)

Denotamos por F1 (x) la cumulativa de X .

Entonces, por el Teorema de Probabilidades Totales:

F 1 (x) = Pr(X ≤ x)

= Pr(X ≤ x|Y = 1) Pr(Y = 1) + Pr(X ≤ x|Y = 2)P r (Y = 2)


1 1
= F 1 (x|y = 1) + F 1 (x|y = 2).
2 2

Aplicando la identidad anterior para x < 0, 0 ≤ x ≤ 1, 1 ≤ x ≤ 2 y x > 2 obtenemos:




 0, x < 0;
3



 x,
 0 ≤ x ≤ 1;
F 1 (x) = 4
1
1 + x, 1 ≤ x ≤ 2;


2




1, x > 2.

126
E JEMPLO ( CONT.)

Denotamos por f 1 (x) la f.d.p. de X .

Diferenciando las expresiones que obtuvimos para F1 (x) en la lámina anterior entrega:


 0, x < 0;
3



 ,
 0 ≤ x ≤ 1;
f 1 (x) = 4
1
, 1 ≤ x ≤ 2;


 2



0, x > 2.

127
E JEMPLO DIFÍCIL

Primero se elige X ∼ U(0, 1) y luego de observar el valor de X , digamos que es x , se


elige Y ∼ U(x, 1). Deseamos calcular la p.d.f. de Y .

Denotando por f 1 (x) la p.d.f. de X y por g 2 (y|x) la p.d.f. de Y condicional en X = x


tenemos: 
 1
 para 0 < x < 1,
f 1 (x) =

si no.

0

 1
 1−x
 para 0 < x < y < 1,
g 2 (y|x) =

si no.

0

128
E JEMPLO ( CONT.)

De la definición de f.d.p. condicional en (2) se sigue que


 1
 1−x
 para 0 < x < y < 1,
f (x, y) =

si no.

0

Luego, denotando por f 2 (y) la densidad marginal de Y tenemos:


Z ∞ Z y ¯x=y
1
f 2 (y) = f (x, y) dx = dx = − log(1 − x)¯ = − log(1 − y).
¯
−∞ 0 1−x x=0

129
E JEMPLO : F. D. P. DE Y

La gráfica muestra la f.d.p. de Y .

Esta confirma la intuición de que valores de Y cercanos a 1 son mucho más probables
que valores cercanos a 0.

130
MES 260 – T EORÍA E STADÍSTICA

P ROBABILIDADES Y VARIABLES ALEATORIAS


C ÁTEDRAS 1 A 4

Eduardo Engel
FEN, U. de Chile.
Agosto 2019.

131

También podría gustarte