Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Eduardo Engel
FEN, U. de Chile.
Agosto 2019.
1
O BJETIVOS
2
Probabilidades
Probabilidad condicional
Variables aleatorias
3
Probabilidades
Probabilidad condicional
Variables aleatorias
4
I NTERPRETACIONES DE PROBABILIDAD
¿Qué significa afirmar que la probabilidad de que salga cara al lanzar una moneda
determinada es 0,5?
Las dos respuestas guardan estrecha relación con dos escuelas distintas de estadística.
5
I NTERPRETACIÓN FRECUENTISTA
Entonces decir que la probabilidad de cara es 0,5 significa que en los lanzamientos
anteriores la frecuencia de caras será aproximadamente 0,5.
6
P ROBLEMAS DE LA INTERPRETACIÓN FRECUENTISTA
De hecho, personas con un muy buen control de sus manos (algunos magos
profesionales, v.g., Persi Diaconis quien luego de una incursión exitosa en el
mundo de la magia en su adolescencia, terminó siendo un probabilista y
matemático de renombre) pueden lanzar una moneda siempre de la misma
manera, de modo de que siempre (o casi siempre) obtienen cara si así se lo
proponen. Luego estamos suponiendo que hay algún grado de variabilidad en
cómo se lanza la moneda. Si quiere ver al mismísmo Diaconis explicando por qué
hablamos de probabilidades para fenómeno determinísticos, como el lanzamiento
de una moneda, pinche aquí.
7
I NTERPRETACIONES FRECUENTISTA DE PROBABILIDAD
Ï La probabilidad de que el precio del cobre promedio de 2020 supere los 3 dólares
la libra.
8
I NTERPRETACIONES SUBJETIVA DE PROBABILIDAD
9
I NTERPRETACIONES SUBJETIVA : E JEMPLO
Ï Otra persona conoce la moneda que se lanza, sabe que no es simétrica, que tiene
más masa en el lado del sello, por lo cual asigna una probabilidad de 0,4 a que
salga cara.
Ï Una tercera persona también tiene la información anterior, pero le asigna una
probabilidad de 0,45 a que salga cara.
Ï Una cuarta persona tiene información diferente: la moneda pertenecía a apostador
que era famoso porque “arreglaba” las monedas para obtener cara casi todas las
veces que lanzaba sus monedas. Esta persona le asigna una probabilidad de 0,9 a
que salga cara.
10
L IMITACIONES DE PROBABILIDADES SUBJETIVAS
¿Cómo lo hacemos para que personas con probabilidades subjetivas distintas puedan
ponerse de acuerdo respecto de una probabilidad particular, o una decisión a tomar
que depende de las probabilidades que asignan a diversos eventos?
Si un economista cree que es improbable que una guerra comercial entre EE.UU.,
China y la Unión Europea tenga un impacto menor sobre Chile y otro cree que es muy
probable que dicho impacto sea mayor, ¿qué hacemos al momento de discutir políticas
a seguir en caso que se profundice la guerra comercial?
Lo que quisiéramos es que los dos estén de acuerdo lo más posible y limiten lo más
que puedan el impacto de elementos subjetivos sobre los cuales no están de acuerdo.
11
I NTERPRETACIONES DE PROBABILIDADES : R ESUMEN
Lo que viene:
12
A SIGNANDO PROBABILIDADES
1. Sofía tiene 31 años, es asertiva y muy inteligente. Estudió sociología. Mientras era
estudiante, participó activamente en las protestas estudiantiles. ¿Cuál de las siguientes es
más probable?
A. Sofía trabaja en un banco.
B. Sofía trabaja en un banco y es feminista.
2. Djokovic ganó Wimbledon este año. Suponga que Djokovic vuelve a llegar a la final de
Wimbledon el 2019. Ordene los eventos siguientes de más probable (1) a menos probable
(4):
A. Djokovic gana la final.
B. Djokovic pierde el primer set.
C. Djokovic pierde el primer set pero gana el partido.
D. Djokovic gana el primer set pero pierde el partido
3. Se toma un dado estándar y se pintan cuatro caras de color verde y dos de color rojo. El
dado se lanzará 20 veces y se anotará la secuencia de verdes (V) y rojos (R) que resulte.
Seleccione una de las siguientes tres secuencias, recibirá un premio si su secuencia
aparece en los lanzamientos.
A. RVRRR
B. VRVRRR
C. VRRRRR
13
D EFINICIÓN MATEMÁTICA DE PROBABILIDAD
Luego, derivamos una serie de teoremas que cumple toda función de probabilidad.
En lo que sigue usamos teoría de conjuntos que suponemos domina el almuno. Para un
repaso ver DGS 1.4.
14
E SPACIO MUESTRAL
El espacio muestral S es un conjunto que incluye todos los resultados posibles que
puede tomar el experimento.
Ejemplos:
1. Se lanza un dado. Entonces S = {1, 2, 3, 4, 5, 6}.
2. Se lanzan dos dados. Entonces:
S = {(1, 1), (1, 2), ..., (1, 6), (2, 1), ..., (2, 6), ..., (6, 1), ..., (6, 6)}.
16
E L C ONJUNTO DE E VENTOS
Luego podemos expresar las condiciones que debe cumplir una colección de eventos
asociada a un espacio muestral S , descritas en la lámina anterior, como sigue:
1. S ∈ E , φ ∈ E .
2. Si A ∈ E y B ∈ E entonces A ∪ B ∈ E y A ∩ B ∈ E .
3. Si A ∈ E entonces A c ∈ E .
17
E JEMPLOS DE COLECCIONES DE EVENTOS
Luego, en el caso de los ejemplos 1 y 2 de la lámina 15, tenemos que E viene dado por
todos los subconjunto de S .
18
E JEMPLOS DE COLECCIONES DE EVENTOS∗
19
E VENTOS DISJUNTOS Y PARTICIONES
Los eventos A 1 , A 2 , ..., A n son disjuntos si cada par de ellos es disjunto en el sentido
definido en el párrafo anterior, es decir, si A i ∩ A j = φ para cualquier par i , j con i 6= j y
i , j tomando valores entre 1 y n.
20
E JEMPLO
3. Sea B i = {(i , 1), (i , 2), (i , 3), (i , 4), (i , 5), (i , 6)}, donde i = 1, 2, 3, 4, 5, 6. Entonces los B i ,
i = 1, 2, , ..., 6 son disjuntos y definen una partición del espacio muestral del Ejemplo
2 de la lámina 15.
21
F UNCIÓN DE PROBABILIDAD : A XIOMAS
Denotamos por Pr una función que asocia un número real a cada evento en E .
Diremos que Pr define una función de probabilidad si satisface los siguientes axiomas:
22
C OMENTARIOS
El axioma A2 dice que la probabilidad del espacio muestral debe ser uno. Esto es
consistente con la definición que dimos del espacio muestral, donde exigimos que
incluyera todos los valores que puede tomar el experimento de interés.
23
C OMENTARIOS ( CONT.)
Los axiomas anteriores no dicen nada sobre qué valor se debe asignar a la probabilidad
de cada uno de los eventos de interés.
Sin embargo, los axiomas establece exigencias mínimas que deben cumplir las
probabilidades que asignamos. Por ejemplo, si lanzamos un dado el evento que salga 1,
2, 3 4, 5 o 6 debe tener probabilidad uno.
24
T EOREMAS
Entonces:
1. Pr(φ) = 0.
2. Pr(A c ) = 1 − Pr(A).
5. 0 ≤ Pr(A) ≤ 1.
25
D EMOSTRACIONES
Este es un ejemplo de la aplicación del método axiomático que tienen un rol central en
matemáticas.
y como A ∪ φ = A tenemos
Pr(A) = Pr(A) + Pr(φ)
26
D EMOSTRACIÓN DEL T EOREMA 2
1 = Pr(S) = Pr(A ∪ A c ).
1 = Pr(A) + Pr(A c )
de modo que
Pr(A c ) = 1 − Pr(A).
27
D EMOSTRACIONES ( CONT.)
28
D EMOSTRACIONES ( CONT.)
29
S ESGOS COGNITIVOS
La teoría matemática de las probabilidades que hemos planteado viene de una larga
tradición de grandes pensadores, partiendo con Pascal (1623–1662) y Fermat
(1601–1665). La axiomatización que vimos se debe a Kolmogorov (1933).
No estamos obligados a seguir estas reglas, pero no hacerlo tiene sus consecuencias.
Por ejemplo, veremos más adelante en el curso que a un individuo que no cumple con
las reglas del cálculo de probabilidades es posible ofrecerle apuestas donde va a perder
dinero con seguridad.
30
S ESGOS SISTEMÁTICOS
Daniel Kahneman obtuvo el Premio Nobel de Economía 2002, por su trabajo con
Amos Tversky (quien falleció en 1996). Fue el primer no economista en recibir el
premio, ambos eran sicólogos.
El trabajo de Kahneman y Tversky cubre dos grandes áreas: heurísticas para calcular
probabilidades y heurísticas para tomar decisiones bajo incertidumbre.
En sus trabajos del primer área muestran que muchas veces nos desviamos de manera
sistemática de lo que predicen los resultados más elementales de la teoría de
probabilidades.
31
S ESGOS SISTEMÁTICOS ( CONT.)∗
Se recomienda (opcional) leer el reciente libro de Michael Lewis, The Undoing Project,
que presenta de manera muy amena y didáctica la historia de estos dos cientistas
sociales, combinando sus contribuciones con sus vidas personales.
Lewis es uno de los mejores escritores de libros de divulgación que existen, cubriendo
temas técnicamente sofisticados de manera entretenida y sin sobresimplificar o
distorsionar las complejidades del tema. Las películas The Blind Side, 2009, Moneyball,
2011 y The Big Short, 2013, están basadas en libros suyos.
32
S ESGOS SISTEMÁTICOS ( CONT.)
33
S ESGOS SISTEMÁTICOS ( CONT.)
Vamos a los tres ejemplos de la lámina 13, que son versiones adaptadas a Chile (y a
2019) de preguntas analizadas por Kahneman y Tversky en su trabajo de 1983.
34
S ESGOS SISTEMÁTICOS ( CONT.)
Lo que sucede en este caso, según Kahneman y Tversky, es que Djokovic (en el paper
original es Bjorn Borg) se ve prácticamente imbatible en Wimbledon luego de ganar
este año por quinta vez este torneo, de modo que el escenario C se ve más probable
que el B (Djokovic es capaz de remontar un primer set que pierde) aun cuando no es
lógicamente posible.
35
S ESGOS SISTEMÁTICOS ( CONT.)
Respecto de la tercera pregunta en la lámina 13, cada vez que sucede la opción B
necesariamente sucede la opción A. Luego nadie debiera elegir la opción B pues está es
dominada por la opción A. Sin embargo, un 63% de los 125 estudiantes universitarios
encuestados eligió la opción B.
La explicación que dan Kahneman y Tversky parte notando que las tres secuencias se
perciben como poco representativas, pues contienen un gran número de Rs. Luego
argumentan que la secuencia B es la que parece más representativa, entre tres que no
lo son mucho, y por eso es la favorita.
36
R ESULTADOS FEN 2017
Pregunta 2: Los rangos promedios fueron A(1,7), B(2,3), C(2,6) y D(3,4). De modo
que, el sesgo producto de la heurística de representatividad no se manifestó en los
promedios. Sin embargo, 13 de los alumnos dieron un rango más alto a A que a C y 20
un rango más alto a B que a C. En total, 27 alumnos respondieron contradiciendo las
leyes más elementales de las probabilidades, es decir, dieron una probabilidad más alta
a C que ya sea a A o a B.
S = {s 1 , s 2 , ..., s n }.
En el caso particular en que todos los p i son iguales a 1/n se obtiene lo que se conoce
como espacio muestral simple y tenemos que:
Número de elementos en A Casos favorables
Pr(A) = = .
n Casos posibles
38
M ODELO DE URNAS
Por ejemplo, podemos tener una urna con r pelotas rojas y v pelotas verdes, de la cual
extraemos, una a una, un total de k pelotas.
Cada vez que se extrae una pelota, todas las pelotas en la urna tienen la misma
probabilidad de ser escogidas.
El muestreo puede ser con o sin reemplazo. En el primer caso se regresa cada pelota a
la urna antes de sacar la siguiente, en el segundo caso no.
39
M ODELO DE URNAS ( CONT.)
Los espacios muestrales asociados a los modelos de urnas suelen ser simples, de modo
que calcular probabilidades equivale a contar el número de elementos en los eventos de
interés.
40
M ÉTODOS DE CONTEO : T EOREMA F UNDAMENTAL
41
E JEMPLOS
42
P ERMUTACIONES
Teorema
n!
P n,k = n(n − 1)(n − 2) · ... · (n − k + 1) = ,
(n − k)!
donde recordamos que n ! ≡ n(n − 1)(n − 2) · ... · 1 y 0! ≡ 1.
43
E JEMPLO
Se selecciona k elementos de una urna con n elementos distintos, con reemplazo. Cada
vez que se selecciona un elemento todos tienen la misma chance de ser seleccionados.
Obviamente la probabilidad que debemos calcular será cero si k > n . En lo que sigue
asumimos k ≤ n .
44
E L PROBLEMA DE LOS CUMPLEAÑOS
45
E L PROBLEMA DE LOS CUMPLEAÑOS : S OLUCIÓN
Para resolver el problema, hacemos los siguientes supuestos (ninguno de ellos impacta
de manera significativa sobre el resultado, es decir, si no los hacemos los cálculos son
mucho más complejos pero las probabilidades que resultan son similares):
46
E L PROBLEMA DE LOS CUMPLEAÑOS : S OLUCIÓN ( CONT.)
Luego la probabilidad que queremos calcular, que denotamos por p , viene dada por
P 365,k 365!
p = 1− = 1− .
365! (365 − k)!365k
47
E L PROBLEMA DE LOS CUMPLEAÑOS : S OLUCIÓN ( CONT.)
Entre los 53 alumnos que estaban en clases en la sección 1 el 2017, hubo 5 pares de
cumpleañeros: 27 de febrero, 8 de abril, 5 de agosto, 29 de septiembre y 4 de
noviembre.
No. alumnos: 10 20 23 41 50 60 70
49
Probabilidades
Probabilidad condicional
Variables aleatorias
50
Probabilidades
Probabilidad condicional
Variables aleatorias
51
P ROBABILIDAD C ONDICIONAL : D EFINICIÓN
Pr(A ∩ B )
Pr(A|B ) ≡ .
Pr(B )
Una manera de motivar esta definición es mediante un diagrama de Venn, donde las
probabilidades corresponden a las áreas de los conjuntos y el área de S es 1, como se
muestra en la lámina que sigue.
52
M OTIVANDO PROBABILIDAD CONDICIONAL
53
E JEMPLO
54
L A PROBABILIDAD CONDICIONAL ES UNA PROBABILIDAD
Entonces la función que a todo evento A en E le asigna Pr(A|B ) cumple con los tres
axiomas de una probabilidad. [Vemos la demostración en las láminas que siguen,
aunque estas son opcionales].
Luego, todos los resultados que derivamos para una probabilidad se cumplen también
para una probabilidad condicional.
Ï Pr(A c |B ) = 1 − Pr(A|B ).
Ï 0 ≤ Pr(A|B ) ≤ 1.
55
D EMOSTRACIONES∗
A continuación demostramos que una probabilidad condicional cumple con los axiomas
de una probabilidad, es decir, que:
56
D EMOSTRACIONES ( CONT.)∗
A.1 Tenemos:
Pr(A ∩ B )
Pr(A|B ) = ≥ 0,
Pr(B )
donde el último paso se justifica por el Axioma A1.
A.2 Tenemos:
Pr(S ∩ B ) Pr(B )
Pr(S|B ) = = = 1,
Pr(B ) Pr(B )
donde el último paso se justifica porque S ∩ B = B dado que S es el espacio
muestral.
57
D EMOSTRACIONES ( CONT.)∗
58
T EOREMA DE P ROBABILIDADES T OTALES
Suponga que los eventos B 1 , B 2 , ..., B k forman una partición del espacio muestral S y
que Pr(B j ) > 0 para j = 1, 2, ..., k . Entonces, para todo evento A en S :
k
X
Pr(A) = Pr(A|B j ) Pr(B j ).
j =1
Dem. Queda como tarea justificar cada paso en la demostración que sigue.
Pr(A) = Pr(A ∩ S)
= Pr(A ∩ (B 1 ∪ ... ∪ B k ))
= Pr((A ∩ B 1 ) ∪ ... ∪ (A ∩ B k ))
59
A PLICACIÓN S IMPLE : E NUNCIADO
Se cuenta con dos urnas, la primera tiene un 60% de pelotas rojas y 40% de pelotas
verdes, la segunda un 30% de pelotas rojas y un 70% de verdes .
Se elige una urna al azar y luego se extrae una pelota. ¿Cuál es la probabilidad de que
la pelota sea roja?
60
A PLICACIÓN S IMPLE : S OLUCIÓN
Una manera más rigurosa es notar que el espacio muestral se puede escribir como
Que “la urna se eligió al azar” significa que la probabilidad de elegir cualesquiera de las
urnas es la misma:
1
Pr(U1 ) = Pr(U2 ) = .
2
62
P ROBLEMA DE M ONTY H ALL
Detrás de la una de las puertas hay un automóvil, detrás de las restantes puertas no
hay ningún premio.
Usted elige, digamos, la puerta No. 1, y el animador, que sabe lo que hay detrás de
cada puerta, abre otra puerta, digamos la No. 3, donde no hay nada. Luego le ofrece
cambiarse a la puerta No. 2. ¿Acepta o no acepta la oferta?
63
S OLUCIÓN
Ï G : gana el automóvil
Entonces:
1 2 2
Cambia de puerta : Pr(G) = Pr(G|B ) Pr(B ) + Pr(G|B c ) Pr(B c ) = 0 · + 1 ·= ,
3 3 3
1 2 1
No cambia de puerta : Pr(G) = Pr(G|B ) Pr(B ) + Pr(G|B c ) Pr(B c ) = 1 · + 0 · = .
3 3 3
64
S OLUCIÓN ( CONT.)
Lo clave en los cálculos anteriores es que Pr(B ) = 1/3 aun después de que el animador
abre una de las puertas que no eligió la concursante.
El motivo para esto es que el juego supone que el animador no puede abrir la puerta
con el premio ni la puerta que eligió la concursante.
Ï No cambia la probabilidad de que el premio esté tras la puerta No. 1 y esta sigue
siendo 1/3.
Ï Sí entrega nueva información sobre la probabilidad que el premio esté tras la
puerta No. 2. El hecho de haber elegido la puerta No. 3 pudiendo haber elegido
la No. 2 sugiere que la probabilidad de que el premio esté tras la puerta No. 2 ha
subido.
65
G ENERALIZACIÓN
Basado en la intuición que dimos en las láminas anteriores, sin hacer ningún cálculo,
especule sobre cuál será la estrategia óptima en este caso.
Indicación: Hay muchas estrategias óptimas, todas ellas tienen en común lo que el
jugador hace en la última ronda.
66
I NDEPENDENCIA DE DOS EVENTOS : M OTIVACIÓN
Es decir, estamos diciendo que Pr(A|B ) = Pr(A) y Pr(B |A) = Pr(B ), lo cual equivale a
Pr(A ∩ B ) Pr(B ∩ A)
= Pr(A) y = Pr(B )
Pr(B ) Pr(A)
de donde tenemos que
Pr(A ∩ B ) = Pr(A) Pr(B ).
67
I NDEPENDENCIA DE DOS EVENTOS : D EFINICIÓN
Ejemplo
Se lanza un dado estándar. Se denota por A el evento en que sale un número par
(prob.: 1/2) y por B que sale 1, 2, 3 o 4 (prob.: 4/6). Entonces, como A ∩ B es el
evento en que sale un 2 o un 4 (prob.: 2/6), tendremos:
1 1 2
Pr(A ∩ B ) = = · = Pr(A) Pr(B ),
3 2 3
y concluimos que A y B son independientes.
68
E VENTOS INDEPENDIENTES : T EOREMAS BÁSICOS
de donde
69
T EOREMA DE B AYES
Sea B 1 , ..., B k una partición del espacio muestral S con Pr(B j ) > 0 para j = 1, ..., k y sea
A un evento con Pr(A) > 0.
Pr(A|B i ) Pr(B i )
Pr(B i |A) = P .
k Pr(A|B j ) Pr(B j )
j =1
70
A PLICACIÓN : T ESTS PARA DIAGNOSTICAR UNA ENFERMEDAD
Dos son las probabilidades claves para evaluar la efectividad de un test para
diagnosticar una enfermedad determinada:
Por ejemplo, suponga que la primera probabilidad es del 90%, y la segunda del 10%.
71
D IAGNÓSTICOS : S OLUCIÓN
Ï A : el test da positivo
Pr(A|B ) Pr(B ) 0, 9 · 0, 01
Pr(B |A) = = = 0,0833.
Pr(A|B ) Pr(B ) + Pr(A|B c ) Pr(B c ) 0, 9 · 0, 01 + 0, 1 · 0, 99
72
D IAGNÓSTICOS : I NTERPRETACIÓN
La probabilidad que obtuvimos es bastante baja y sugiere una baja efectividad de los
tests de diagnóstico de enfermedades.
El cálculo que hicimos vale para una persona que se elige al azar en la población.
Sin embargo, cuando un médico envía a un paciente a hacerse un test tiene elementos
clínicos (productos de examinar al paciente, de la ficha médica del paciente, etc.) que
le hacen presumir que la probabilidad de que tenga la enfermedad es mayor que en la
población en general.
Por ejemplo, si suponemos que la probabilidad subjetiva que el médico asigna a que el
paciente tenga la enfermedad antes de enviarlo a realizar el test (la llamaremos
probabilidad previa) es de 0,25, entonces un cálculo análogo muestra que dicha
probabilidad pasa a 0,75 después de un test que da positivo, mientras que un teste
negativo la hace caer a 3,6%.
Pr(A c |B ) Pr(B ) 0, 1 · 0, 25
Pr(B |A c ) = = = 0, 036.
Pr(A c |B ) Pr(B ) + Pr(A c |B c ) Pr(B c ) 0, 1 · 0, 25 + 0, 9 · 0, 75
73
A PLICACIÓN : I NCORPORANDO EVIDENCIA
Usted tiene una moneda que sabe es sesgada. De hecho, hay solo dos escenarios
posibles:
En base a esos resultados, usted actualiza (pone al día, revisa) las probabilidades
iniciales que asignó a los dos escenarios posibles. Por ejemplo, si salen 2 caras y un
sello, la probabilidad del escenario 1 debiera crecer.
74
B AYES Y LA INCORPORACIÓN DE NUEVA EVIDENCIA ( CONT )
Suponga que la secuencia de lanzamientos resulta ser (C ,C , S) y denote este evento por
B.
El orden en la secuencia no importa, los resultados son iguales para todas las
secuencias de tres lanzamientos con 2 caras y un sello.
75
B AYES Y LA INCORPORACIÓN DE NUEVA EVIDENCIA ( CONT )
76
L O MISMO PERO MÁS GENERAL
Usted hace un experimento que es informativo respecto de las teorías que compiten.
Es decir, ciertos resultados del experimento apuntan a que son más probables algunas
teorías mientras que otros resultados sugieren que son más probables las restantes.
El Teorema de Bayes se usa para revisar las probabilidades que usted asignó
inicialmente a cada teoría, incorporando la evidencia que arroja el experimento.
77
E L VALOR DE TENER MÁS EVIDENCIA
En los dos casos, la fracción de caras es 2/3. La diferencia está en que tener 2/3 de
caras en 15 lanzamientos es más evidencia a favor del Escenario 1 que tener 2/3 en
tres lanzamientos. ¿Cuánto más? Antes de seguir leyendo, adivine.
Probabilidad condicional
Variables aleatorias
79
Probabilidades
Probabilidad condicional
Variables aleatorias
80
VARIABLE A LEATORIA
Ej. Una moneda se lanza diez veces y se anota la secuencia de caras y sellos que
resulta, de modo que S = {(u 1 , u 2 , ..., u 10 ) : u i ∈ {c, s}}. Definimos X como la variable
aleatoria (v.a.) que asigna a cada elemento de S el número de caras que resulta en el
experimento. Entonces X toma valores entre 0 y 10. Por ejemplo, si u = (ccssscsssc)
entonces X (u) = 4.
Una tercera variable aleatoria, Z , es el numero de rachas de largo tres, donde una
racha es una secuencia de lanzamientos iguales. Tenemos Z (u) = 2, ya que hay dos
rachas de sellos de largo 3.
81
V. A . DISCRETA
Def. Diremos que la v.a. X tiene una distribución discreta o que es una v.a. discreta si
toma un número finito de valores, x 1 , x 2 , ..., x k (o a lo más una secuencia infinita de
valores x 1 , x 2 , x 3 , ...)
Def. La función de probabilidad (f.p.) asociada a una v.a. discreta X se define para
todo número real x mediante
f (x) ≡ Pr(X = x),
donde usamos ≡ cada vez que una igualdad se cumple producto de una definición.
Ej. Sea X la v.a. igual a la suma del resultado de lanzar dos dados honestos. Entonces:
x: 2 3 4 5 6 7 8 9 10 11 12
1 1 1 1 5 1 1 1 1 1 1
f (x): 36 18 12 9 36 6 6 9 12 18 36
82
F ORMA TÍPICA DE UNA F. P.
83
T EOREMA : C ÁLCULO DE PROBABILIDADES CON LA F. P.
El siguiente teorema establece que la f.p. contiene toda la información necesaria para
calcular probabilidades asociadas a una v.a. discreta.
Teorema Sea X una v.a. discreta, con f.p. f (x), que puede tomar los valores
x 1 , x 2 , x 3 , .... Entonces
X
f (x i ) = 1,
todos los xi
1
Pr(X par) = f (2) + f (4) + f (6) + f (8) + f (10) + f (12) = ,
2
7
Pr(3,5 ≤ X ≤ 5,7) = f (4) + f (5) = .
36
84
D ISTRIBUCIÓN UNIFORME SOBRE UN CONJUNTO DE ENTEROS
Decimos que X tiene una distribución uniforme sobre los enteros m, m + 1, m + 2, ..., n si
la v.a. X toma valores enteros entre m y n inclusives, asignando la misma probabilidad
a todos ellos.
85
V. A . CONTINUA O DISTRIBUCIÓN CONTINUA
Def. Diremos que la v.a. X tiene una distribución continua o que es una v.a. continua
si existe una función f definida sobre la recta real, que toma valores mayores o iguales
que cero, tal que para cualquier intervalo (finito o infinito; abierto, semiabierto o
cerrado) la probabilidad de que X tome valores en el intervalo es igual a la integral de
f sobre el intervalo.
86
L A DISTRIBUCIÓN UNIFORME
Decimos que la v.a. X sigue una distribución uniforme en el intervalo [a, b], donde a y
b son números reales con a < b , si X toma valores entre a y b y la probabilidad de que
X tome valores en cualquier subintervalo de [a, b] es proporcional al largo del
subintervalo. En tal caso escribimos X ∼ U(a, b).
87
V. A . CONTINUA Y Pr(X = a)
Considere una v.a. continua X con p.d.f. f (x). Entonces, por la definición de v.a.
continua, Pr(X = a) = 0 para cualquier número real a , pues
Z a
Pr(X = a) = f (x)d x = 0.
a
Lo anterior no significa que el evento (X = a) sea imposible, ya que en tal caso todos
los valores de X serían imposibles.
88
I NTERPRETACIÓN DE UNA F. D. P.
89
C ONSECUENCIAS DE Pr(X = a)
Una consecuencia de que Pr(X = a) = 0 para una v.a. continua es que la definición de
f.p. que dimos en la lámina 86 implica que
Z b
Pr(a ≤ X ≤ b) = Pr(a < X < b) = Pr(a ≤ X < b) = Pr(a < X ≤ b) = f (x)d x.
a
90
N O UNICIDAD DE LA F. D. P. DE UNA V. A . CONTINUA
Otra consecuencia de que Pr(X = a) = 0 para una v.a. continua es que existen muchas
(de hecho, infinitas) funciones de densidad de probabilidad para una v.a. determinada.
Consideremos a modo de ejemplo una v.a. X ∼ U(0, 1). De acuerdo a lo que vimos en la
lámina 87, una f.d.p. posible es:
1,
si 0 ≤ x ≤ 1,
f (x) =
0, en caso contrario.
91
N O UNICIDAD DE LA F. D. P. DE UNA V. A . CONTINUA ( CONT.)
Podemos cambiar el valor de f (x) en un número finito de puntos y seguirá siendo una
f.d.p. para X .
Por ejemplo, si cambiamos f (0, 5) de 1 a 100, sin cambiar el valor que toma f para
valores de x distintos de 0,5, y calculamos la probabilidad de que X pertenezca a
cualquier intervalo usando la nueva f.d.p. obtendremos el mismo resultado que con la
f.d.p. original.
92
F UNCIÓN DE DISTRIBUCIÓN CUMULATIVA
La función cumulativa está definida para toda variable aleatoria: discreta y continua (y
aquellas que son mezclas de discretas y continuas).
93
C UMULATIVA DE UNA V. A . DISCRETA
La figura que sigue muestra la cumulativa de una v.a. discreta que toma valores
enteros entre 0 y 12.
También notamos que F (x) crece de a saltos (¿puede describir el tamaño de cada
salto?), manteniéndose constante entre un salto y otro. Esto vale para todas las
funciones cumulativas de una v.a. discreta.
94
C UMULATIVA DE UNA DISTRIBUCIÓN UNIFORME
La figura que sigue muestra la función cumulativa de una v.a. uniforme en [a, b].
95
C UMULATIVA DE UNA DISTRIBUCIÓN UNIFORME ( CONT.)
Debiera obtener:
0, x < a.
F (x) = x−a
b−a
, a ≤ x ≤ b,
1, x > b.
96
T EOREMAS PARA TODA FUNCIÓN CUMULATIVA
Entonces:
1. F es creciente1 : x ≤ y =⇒ F (x) ≤ F (y).
2. lı́mx→−∞ F (x) = 0.
3. lı́mx→∞ F (x) = 1.
4. Pr(X > x) = 1 − F (x).
5. Para a < b : Pr(a < X ≤ b) = F (b) − F (a).
y estrictamente creciente si
(∀x, y ∈ R) x < y =⇒ g (x) < g (y).
97
A LGUNAS DEMOSTRACIONES
de donde
Pr(a < X ≤ b), = F (b) − F (a).
98
T EOREMAS PARA LA CUMULATIVA DE UNA V. A . CONTINUA
Entonces:
Rx
1. F (x) = −∞ f (u)d u .
99
D EMOSTRACIONES
Los Teoremas 3 y 4 son consecuencia de los teoremas análogos que derivamos para
cualquier f.d.c. en la lámina 97 y el hecho que Pr(X = x) = 0 para una v.a. continua.
100
D ISTRIBUCIONES BIVARIADAS : M OTIVACIÓN
Los ladrillos con que se construyen los modelos econométricos son las colecciones de
variables aleatorias que tienen la misma función de distribución y que son
independientes, se les conoce como muestra aleatoria.
En la segunda parte de este curso (Inferencia Estadística) usaremos una y otra vez
frases como la siguiente:
101
M OTIVACIÓN ( CONT.)
Casi todos los conceptos relevantes se pueden cubrir considerando dos variables
aleatorias. Eso es lo que hacemos en esta sección.
Pr(X ≥ 4 %, Y ≤ 6 %),
donde adoptamos la convención de que cuando dos eventos van separados por una
coma, dentro de un paréntesis, nos estamos refiriendo a la intersección de los eventos.
102
D ISTRIBUCIÓN BIVARIADA : CASO DISCRETO
Sean X e Y dos v.a. y considere el par ordenado (X , Y ). Si este par ordenado solo
puede tomar un número finito (o enumerable) de valores diremos que (X , Y ) tienen una
distribución bivariada discreta.
Tendremos que f (x, y) > 0 solo para un número finito (o enumerable) de pares (x, y).
La figura de la lámina que sigue ilustra cómo se ve una f.p. bivariada.
103
F. P. CONJUNTA DE UNA DISTRIBUCIÓN BIVARIADA
104
E JEMPLO
Y
——————————————
6 7 8
2 0 0.1 0.2
X: 3 0.05 0.2 0.1
4 0.2 0.15 0
105
T EOREMAS∗
2. Tenemos:
X
f (x, y) = 1,
todos los (x, y)
106
D EMOSTRACIONES∗
La distribución bivariada (X , Y ) podría tomar menos que n · m valores, ¿se le ocurre por
qué?
107
D ISTRIBUCIÓN BIVARIADA : CASO CONTINUO
108
I NTERPRETACIÓN DE LA F. D. P. CONJUNTA
Sea (X , Y ) una v.a. con f.d.p. conjunta f (x, y). Para un par ordenado (x 0 , y 0 ), donde f
es continua y f (x 0 , y 0 ) > 0, consideramos un rectángulo pequeño que incluye (x 0 , y 0 ):
R = {(x, y) : a ≤ x ≤ b, c ≤ y ≤ d }.
Entonces:
Z dZ b Z dZ b
Pr((X , Y ) ∈ R) = f (x, y) dx dy ' f (x 0 , y 0 ) dx dy
c a c a
Z dZ b
= f (x 0 , y 0 ) 1 dx dy = f (x 0 , y 0 ) · [Area del rectángulo].
c a
109
F UNCIÓN CUMULATIVA CONJUNTA
∂2 F (x, y) ∂2 F (x, y)
f (x, y) = = .
∂x∂y ∂y∂x
110
D ISTRIBUCIONES MARGINALES
Y en el caso continuo: Z ∞
f 1 (x) = f (x, y) dy.
−∞
111
E JEMPLO
112
E JEMPLO ( CONT.)
Z 1 Z 1 · ¸ y=1
1 3 2 1
f 1 (x) = f (x, y) dy = [3x y + x] dy = xy + xy = 2x.
0 0 2 2 2 y=0
113
VARIABLES ALEATORIAS INDEPENDIENTES : D EFINICIÓN
Es decir, cualquier evento que dicen relación con X es independiente de cualquier otro
evento relacionado con Y .
114
C ARACTERIZACIÓN DE V. A . INDEPENDIENTES
Sean X e Y v.a. con cumulativa conjunta F (x, y) y denotemos por F1 (x) y F2 (y) la
función cumulativa de X e Y , respectivamente.
La parte no trivial de la demostración es mostrar que basta con que se cumpla (1) para
que X e Y sean independientes (ver DGS solo si está interesado).
115
OTRA CARACTERIZACIÓN DE V. A . INDEPENDIENTES
Sean X e Y v.a. con discretas (o continuas) con p.f. (o p.d.f.) f 1 (x) y f 2 (y),
respectivamente y con p.f. (o p.d.f.) conjunta f (x, y).
En el caso continuo estamos suponiendo que f 1 (x) y f 2 (y) son todo lo continuas que
pueden ser (y lo mismo para f (x, y)).
116
F UNCIONES DE VARIABLES ALEATORIAS INDEPENDIENTES
Aunque se recomienda mirar DGS si quiere una demostración formal, la intuición para
este resultado es bastante obvia. Las variables aleatorias g (X ) y h(Y ) serán
independientes si cualquier evento relacionado con g (X ) es independiente de cualquier
otro evento relacionado con h(Y ). Pero cualquier evento relacionado con g (X ) tiene
que ser un evento relacionado con X , y cualquier evento relacionado con h(Y ) tiene
que ser un evento relacionado con Y . Luego, la independencia de g (X ) y h(Y ) es
consecuencia directa de la independencia de X e Y .
117
D ISTRIBUCIONES CONDICIONALES : C ASO DISCRETO
Sea (X , Y ) una v.a. bivariada discreta con p.f. bivariada f (x, y). Denotamos las p.f. de
X e Y por f 1 (x) y f 2 (y).
118
E JEMPLO
Se lanzan dos dados honestos. X denota la suma, Y el número que sale en el primer
lanzamiento.
y
1 2 3 4 5 6
2 1/36 0 0 0 0 0
3 1/36 1/36 0 0 0 0
4 1/36 1/36 1/36 0 0 0
5 1/36 1/36 1/36 1/36 0 0
6 1/36 1/36 1/36 1/36 1/36 0
x 7 1/36 1/36 1/36 1/36 1/36 1/36
8 0 1/36 1/36 1/36 1/36 1/36
9 0 0 1/36 1/36 1/36 1/36
10 0 0 0 1/36 1/36 1/36
11 0 0 0 0 1/36 1/36
12 0 0 0 0 0 1/36
119
E JEMPLO ( CONT.)
En efecto, para x = 2, 3, 4, 5, 6, 7:
f (x, 1) 1/36 1
g 1 (x|1) = = = ,
f 2 (1) 1/6 6
120
D ISTRIBUCIONES CONDICIONALES : C ASO CONTINUO
Sea (X , Y ) una v.a. bivariada continua con f.d.p. conjunta f (x, y). Denotamos las p.d.f.
de X e Y por f 1 (x) y f 2 (y).
La función g 1 (·|y) cumple con todas las propiedades de una p.d.f., en particular:
Z ∞ Z ∞ Z ∞
f (x, y) 1 f 2 (y)
g 1 (x|y) dx = dx = f (x, y) dx = = 1.
−∞ −∞ f 2 (y) f 2 (y) −∞ f 2 (y)
121
E JEMPLO GRÁFICO
De (2) en la lámina anterior podemos inferir que, salvo una constante (que resulta ser
1/ f 2 (y 0 )) la tajada es igual a la densidad de X condicional en Y = y 0 .
122
E JEMPLO GRÁFICO ( CONT.)
123
E JEMPLO
Se lanza una moneda honesta. Si sale cara, X es una realización de una uniforme en
[0, 1]. En cambio, si sale sello, X es una realización de una uniforme en [0, 2].
Determinamos la cumulativa y la f.d.p. de X
124
E JEMPLO ( CONT.)
y
0,
x < 0.
F 1 (x|y = 2) = 1
x, 0 ≤ x ≤ 2,
2
1, x > 2.
125
E JEMPLO ( CONT.)
F 1 (x) = Pr(X ≤ x)
126
E JEMPLO ( CONT.)
Diferenciando las expresiones que obtuvimos para F1 (x) en la lámina anterior entrega:
0, x < 0;
3
,
0 ≤ x ≤ 1;
f 1 (x) = 4
1
, 1 ≤ x ≤ 2;
2
0, x > 2.
127
E JEMPLO DIFÍCIL
1
1−x
para 0 < x < y < 1,
g 2 (y|x) =
si no.
0
128
E JEMPLO ( CONT.)
129
E JEMPLO : F. D. P. DE Y
Esta confirma la intuición de que valores de Y cercanos a 1 son mucho más probables
que valores cercanos a 0.
130
MES 260 – T EORÍA E STADÍSTICA
Eduardo Engel
FEN, U. de Chile.
Agosto 2019.
131