Está en la página 1de 85

Estadı́stica I

Tema 4: Probabilidad y modelos probabilı́sticos


Tema 4. Probabilidad y modelos probabilı́sticos

Contenidos
I Probabilidad:
I Experimentos aleatorios, espacio muestral, sucesos elementales y
compuestos.
I Propiedades de la probabilidad. Probabilidad condicionada.
I Variables aleatorias y sus caracterı́sticas.
I Modelos de probabilidad discretos: Ensayos de Bernoulli y
distribuciones relacionadas.
I Modelos de probabilidad continuos: Distribución uniforme y
distribución normal.
I Introducción a la distribución normal bivariante.
Conceptos básicos
I Experimento aleatorio: proceso de observar un fenómeno cuyos
resultados son inciertos.
I Espacio muestral: es el conjunto de todos los posibles resultados de
un experimento aleatorio. Se denota por

Ω = {e1 , e2 , . . . , en , . . .}

donde cada uno de sus elementos se denomina suceso elemental.


Estos son siempre disjuntos dos a dos.
I Suceso: un subconjunto del espacio muestral, es decir, un conjunto
de sucesos elementales
A = {e1 , e3 }

Ejemplos:
I Resultado al lanzar una moneda.
I Precio de la acción x al cierre de sesión el próximo lunes.
Sucesos: conceptos básicos

Intersección de sucesos: Si A y B son dos sucesos del espacio muestral Ω,


entonces la intersección, A ∩ B, es el conjunto de todos los sucesos de Ω
que están en A y en B.

Representación en diagramas de Euler-Venn:


Sucesos: conceptos básicos

A y B son sucesos incompatibles si no tienen ningún suceso elemental en


común i.e., el conjunto A ∩ B es vacı́o
Sucesos: conceptos básicos

Unión de sucesos: Si A y B son dos sucesos de un espacio muestral Ω,


entonces la unión, A ∪ B, es el conjunto de todos los sucesos de Ω que
pertenecen a cualquiera de los dos, A ó B.
Sucesos: conceptos básicos

Sucesos triviales:
I Suceso seguro Ω: conjunto = espacio muestral
I Suceso imposible ∅: conjunto = conjunto vacı́o

Complementario o suceso contrario


El complementario de un suceso A es el conjunto de todos los sucesos
elementales de Ω que no están en A.
Ejemplo: lanzamiento de un dado

Consideremos el experimento aleatorio “resultado observado al lanzar un


dado”:

I suceso elemental: el 1, el 2, el 3, el 4, el 5, el 6
I espacio muestral: Ω = {1, 2, 3, 4, 5, 6}
I suceso: A = {2, 4, 6} B = {4, 5, 6}
El suceso A es “sale un número par”.
El suceso B es “sale un número mayor que tres”.
Ejemplo: lanzamiento de un dado
Ω = {1, 2, 3, 4, 5, 6} A = {2, 4, 6} B = {4, 5, 6}
I Complementario:
Ā = {1, 3, 5} B̄ = {1, 2, 3}
I Intersección:
A ∩ B = {4, 6} Ā ∩ B̄ = {1, 3} = A ∪ B
I Unión:
A ∪ B = {2, 4, 5, 6} Ā ∪ B̄ = {1, 2, 3, 5} = A ∩ B
A ∪ Ā = {1, 2, 3, 4, 5, 6} = Ω
I Sucesos incompatibles:
A ∩ Ā = ∅
I Notar que:
A∩B ⊂A A∩B ⊂B
A⊂A∪B B ⊂A∪B
Probabilidad

Probabilidad clásica (regla de Laplace)


Considera un experimento para el que todos los sucesos elementales son
equiprobables. Si tenemos k sucesos elementales,
1
P(A) = × tamaño de A
k

De esta manera, la probabilidad es una aplicación que asigna a cada


suceso A un valor numérico P (A) ∈ [0, 1].
Propiedades de la probabilidad

I 0 ≤ P(A) ≤ 1.
Pn
I Sea A = {e1 , e2 , . . . , en }, entonces P(A) = i=1 P(ei ).

I P(Ω) = 1 y P(∅) = 0.

I Complementario: P(Ā) = 1 − P(A).

I Unión: P(A ∪ B) = P(A) + P(B) − P(A ∩ B).

I Si A y B son incompatibles (A ∩ B = ∅), entonces


P(A ∪ B) = P(A) + P(B).
Ejemplo: lanzamiento de un dado

I Probabilidad de un suceso elemental: P(ei ) = 16 , donde ei = i, para


i = 1, . . . , 6.
I Probabilidad de que salga par: A = {2, 4, 6}, luego

1 1 1 1
P(A) = P(”2”) + P(”4”) + P(”6”) = + + =
6 6 6 2
I Probabilidad de que salga mayor que 3: B = {4, 5, 6}, luego

1 1 1 1
P(B) = P(”4”) + P(”5”) + P(”6”) = + + =
6 6 6 2
I Probabilidad de que salga impar
1 1
P(Ā) = 1 − P(A) = 1 − =
2 2
Ejemplo: lanzamiento de un dado

I Probabilidad de que salga par (A =“par”) o mayor que tres


(B =“mayor que 3”)

P(A ∪ B) = P(A) + P(B) − P(A ∩ B)


2 1
Como A ∩ B = {4, 6}, entonces P(A ∩ B) = 6 = 3

1 1 1 4 2
P(A ∪ B) = + − = =
2 2 3 6 3
I Probabilidad de que salga par o igual a uno.
Los sucesos A = {2, 4, 6} y C = {1} son incompatibles (A ∩ C = ∅)
por tanto
1 1 4 2
P(A ∪ C ) = P(A) + P(C ) = + = =
2 6 6 3
Ejemplo: probabilidad condicional

I Jugamos a la ruleta y apostamos a los números 3, 13 y 22. ¿Cuál es


la probabilidad de ganar?

I El espacio muestral es Ω = {0, 1, 2, . . . , 36} por lo que el número de


sucesos elementales es 37. Definimos el suceso A = ”nuestra
apuesta” = {3, 13, 22} que contiene tres sucesos elementales.

3
I Por lo tanto, la probabilidad de ganar es P (A) = 37 .

I Justo antes de empezar la partida, nos dicen que la ruleta


está trucada de manera que siempre sale un número impar. ¿Cuál es
ahora nuestra probabilidad de ganar? ¿Es la misma que antes?
Probabilidad condicional
Probabilidad condicional
Sean dos sucesos A y B tal que P(B) > 0, la probabilidad condicionada
de A dado B es:
P(A ∩ B)
P(A|B) =
P(B)

Ley de la multiplicación
Si P(B) > 0, se tiene que

P(A ∩ B) = P(A|B)P(B)

Independencia
Se dice que dos sucesos A y B son independientes si

P(A ∩ B) = P(A)P(B).

Además, si P(B) > 0, P(A|B) = P(A) y si P(A) > 0, P(B|A) = P(B).

OBS: No confundir sucesos independientes con sucesos incompatibles.


Ejemplo: Probabilidad condicional

I Definimos el suceso B =“Siempre sale impar”= {1, 3, 5, . . . , 35},


que contiene 18 sucesos elementales.

I Entonces, puesto que A ∩ B = {3, 13}, la probabilidad condicionada


nos queda:
2
P (A ∩ B) 37 2 1
P (A|B) = = 18 = =
P (B) 37
18 9

I Notar que cuando nos dicen que la ruleta está trucada, el espacio
muestral deja de ser el inicial, pues nunca puede aparecer un número
par, y se transforma en Ω∗ = B = {1, 3, 5, . . . , 35}. La probabilidad
de A en Ω∗ es ahora 91 .

I Puesto que P(A) 6= P (A ∩ B), los sucesos A y B no son


independientes.
Ejemplos
De una baraja española, saco dos cartas sin reposición. Probabilidad de
que:
10
I la primera carta sea copa: P(A) = 40 .
9
I la segunda sea copa, sabiendo que la primera lo fue: P(B|A) = 39 .
9 10
I las dos cartas sean copas: P(A ∩ B) = P(B|A)P(A) = 39 40 .

Tiro dos dados. Probabilidad de que:


I en el primer dado salga un uno: P(C ) = 16 .
I en el segundo dado salga un uno, sabiendo que en el primero
salió uno: P(D|C ) = P(D) = 61 .
I en el primer dado salga un uno, si en el segundo salió uno:
P(C |D) = P(C ) = 61 .
11
I en los dos dados salga uno: P(C ∩ D) = P(D)P(C ) = 66 (sucesos
independientes)
Ley de la probabilidad total
Un conjunto de sucesos B1 , B2 , . . . , Bk son mutuamente excluyentes si

Bi ∩ Bj = ∅, ∀i 6= j.

Si además de eso cumplen

Ω = B1 ∪ B2 ∪ . . . ∪ Bk ,

se dice que forman una partición del espacio muestral.


Ejemplo

I En la baraja española, los siguientes conjuntos de sucesos definen


particiones del espacio muestral:

I Ω = {oros, copas, espadas, bastos} .

I Ω = {ases, treses, sotas, caballos, reyes, resto de cartas} .


Ley de probabilidad total

Dada una partición del espacio muestral, B1 , B2 , . . . , Bk , y dado un


suceso A, se tiene que

P(A) = P(A ∩ B1 ) + P(A ∩ B2 ) + . . . + P(A ∩ Bk ) =


= P(A|B1 )P(B1 ) + P(A|B2 )P(B2 ) + . . . + P(A|Bk )P(Bk ).
Ejemplo: probabilidad total
I En una baraja española (48 cartas), calcular la probabilidad de sacar
un as, utilizando la ley de la probabilidad total.
I Los cuatro palos de la baraja española establecen la partición del
espacio muestral dada por Ω = {oros, copas, espadas, bastos}, por
lo que:

P (Ω) = P (oros) + P (copas) + P (espadas) + P (bastos) =


1 1 1 1
= + + +
4 4 4 4
I Si definimos el suceso A =“as”, entonces:

P (A) = P (A|oros) P (oros) + P (A|copas) P (copas) +


P (A|espadas) P (espadas) + P (A|bastos) P (bastos) =
1 12 1 12 1 12 1 12 4 1
= + + + = =
12 48 12 48 12 48 12 48 48 12
I Ahora si la carta extraı́da es un as, ¿cuál es la probabilidad que sea
el as de copas? Necesitamos invertir las condiciones.
Inversión de las condiciones: Teorema de Bayes

Para dos sucesos A y B se tiene que

P(A ∩ B) P(B|A)P(A)
P(A|B) = =
P(B) P(B)

Este Teorema se aplica en situaciones en las que la probabilidad P(B|A)


es conocida.

Ejemplo: (continuación del anterior) si la carta extraı́da es un as, ¿cuál


es la probabilidad que sea el as de copas?
1 1
P(A|copas)P(copas) 12 4 1
P(copas|A) = = 1 =
P(A) 12
4
Ejemplo

I Un gato quiere pescar un pez en una pecera que contiene tres peces
amarillos y dos negros con rayas blancas. Suponiendo que pesque un
pez, ¿cuál es la probabilidad de que sea un pez rayado?
Si R =“rayado”, entonces:
2
P (R) =
5
I Suponiendo que pesque dos peces, ¿cuál es la probabilidad de que
pesque uno rayado y uno amarillo?
Si R1 =“el primero es rayado”, R2 =“el segundo es rayado”, A1 =“el
primero es amarillo” y A2 =“el segundo es amarillo”, entonces:

P (R1 ∩ A2 ) + P (A1 ∩ R2 ) = P (A2 |R1 ) P (R1 ) + P (R2 |A1 ) P (A1 ) =


32 23 6 6 12 3
= + = + = =
45 45 20 20 20 5
Ejemplo

I Suponiendo que pesque dos peces y sabiendo que el segundo era


rayado, ¿cuál es la probabilidad de que el primero no lo fuera?

P (R2 |A1 ) P (A1 ) P (R2 |A1 ) P (A1 )


P (A1 |R2 ) = = =
P (R2 ) P (R2 |A1 ) P (A1 ) + P (R2 |R1 ) P (R1 )
23 6
45 20 6 3
= 23 12 = 6 2 = =
45 + 45 20 + 20
8 4
Variables aleatorias

I Sea Ω el espacio muestral asociado a cierto experimento aleatorio.


I Se denomina variable aleatoria (v.a.) a una función X : Ω −→ R, tal
que a cada elemento ei ∈ Ω le asigna un valor numérico
X (ei ) = xi ∈ R.
I Intuitivamente, una variable aleatoria es una medida o cantidad que
varı́a en función del resultado concreto ei que se observa al realizar
el experimento aleatorio.
I La v.a. se denota con letras mayúsculas, mientras que las letras
minúsculas indican el valor concreto que toma la v.a. cuando se
evalúa en un punto muestral.
I OBS: Las variables estadı́sticas que hemos visto en los temas 1, 2 y
3 son el resultado de evaluar las v.a. correspondientes en muestras
de individuos.
Variables aleatorias
V.a. discreta
Si X toma valores sobre un conjunto S ⊆ R finito o infinito numerable,
se dice que X es una variable aleatoria discreta.

V.a. continua
Si X toma valores sobre un conjunto S ⊆ R infinito no numerable (por
ejemplo, en un intervalo o en una unión de intervalos de R), se dice que
X es una variable aleatoria continua.

Ejemplos
I X =“Resultado al tirar un dado” es una variable discreta donde
S = {1, 2, 3, 4, 5, 6}.
I Y =“Número de coches que pasan por un cierto peaje en una
semana” es una variable discreta donde S = {0, 1, 2, . . .} = N ∪ 0 es
infinito numerable.
I Z = “altura de un alumno elegido al azar” es una variable continua
donde S = [0, +∞).
Variables aleatorias discretas

Función de probabilidad
Sea X una variable aleatoria discreta con posibles valores {x1 , x2 , . . .}. Se
llama función de probabilidad o función de masa, al conjunto de
probabilidades con las que X toma cada uno de sus valores, es decir,
pi = P[X = xi ], para i = 1, 2, . . . .

Ejemplo
X = resultado de lanzar un dado. La función de probabilidad es

x 1 2 3 4 5 6
1 1 1 1 1 1
P[X = x] 6 6 6 6 6 6

En este caso, S = {1, 2, 3, 4, 5, 6} y p1 = . . . = p6 = 16 .


Variables aleatorias discretas

Función de probabilidad. Propiedades


Sea X una variable aleatoria discreta que toma valores en el conjunto
S = {x1 , x2 . . .} con probabilidades p1 = P(X = x1 ), p2 = P(X = x2 ),. . .
I 0 ≤ P[X = xi ] ≤ 1.
X
I P[X = xi ] = 1.
i

X
I P[X ≤ x] = P[X = xi ].
i,xi ≤x

I P[X > x] = 1 − P[X ≤ x].


Ejemplo
I Un juego consiste en ensartar 3 aros, uno a uno, en una pica.
Participar cuesta 3 euros. Los premios son 4 euros por un acierto, 6
euros por dos aciertos y 30 euros por tres aciertos. Suponemos que
la probabilidad de ensartar un aro es de 0.1 en cada tiro, y que los
tiros son independientes.
I Definimos la v.a. X como la ganancia en el juego. El espacio
muestral está dado por:

Ω = {(f , f , f ) , (a, f , f ) , (f , a, f ) , (f , f , a) ,
(a, a, f ) , (a, f , a) , (f , a, a) , (a, a, a)}

donde a denota acierto y f denota fallo. Por lo tanto, X sólo admite


cuatro posibles resultados con las siguientes probabilidades:

P (X = −3) = 0,93 = 0,729


P (X = 1) = 3 × 0,1 × 0,92 = 0,243
P (X = 3) = 3 × 0,12 × 0,9 = 0,027
P (X = 27) = 0,13 = 0,001
Ejemplo

I ¿Cuál es la probabilidad de ganar 3 o más euros, descontando los 3


euros por participar?

P (X ≥ 3) = P (X = 3) + P (X = 27) = 0,027 + 0,001 = 0,028

I ¿Cuál es la probabilidad de no perder dinero?

P (X ≥ 0) = P (X = 1) + P (X = 3) + P (X = 27) =
= 0,243 + 0,027 + 0,001 = 0,271

o lo que es lo mismo:

P (X ≥ 0) = 1 − P (X < 0) = 1 − P (X = −3) = 1 − 0,729 = 0,271


Variables aleatorias discretas

Función de distribución
La función de distribución o función de probabilidad acumulada de una
variable aleatoria X es una aplicación F : R → [0, 1], que a cada valor
x ∈ R le asigna la probabilidad:
X
F (x) = P[X ≤ x] = P (X = xi )
xi ∈S,xi ≤x

OBS: Está definida para todo x ∈ R y no sólo para los valores de X .


I 0 ≤ F (x) ≤ 1 para todo x ∈ R.
I F (y ) = 0 para todo y < mı́n S. Por tanto, F (−∞) = 0.
I F (y ) = 1 para todo y > máx S. Por tanto, F (∞) = 1.
I Si x1 ≤ x2 , entonces F (x1 ) ≤ F (x2 ), es decir, F (x) es no
decreciente.
I Para todo a, b ∈ R,
P (a < X ≤ b) = P (X ≤ b) − P (X ≤ a) = F (b) − F (a).
Ejemplo
I La función de probabilidad de la variable X en el ejemplo del juego
es la siguiente:


 0,729 x = −3
0,243 x =1

P (X = x) =

 0,027 x =3
0,001 x = 27

I La función de distribución de la variable X en el ejemplo del juego es


la siguiente:


 0 x < −3
0,729 −3 ≤ x < 1



F (x) = P (X ≤ x) = 0,729 + 0,243 = 0,972 1≤x <3
0,729 + 0,243 + 0,027 = 0,999 3 ≤ x < 27




0,729 + 0,243 + 0,027 + 0,001 = 1 27 ≤ x

I Notar que esta función presenta discontinuidades de salto en los


puntos del conjunto S. El salto es de magnitud P (X = x), para
todo x ∈ S.
Esperanza de una variable aleatoria discreta

Sea X una v.a. discreta que toma valores en S = {x1 , x2 , . . . } con


probabilidades p1 = P (X = x1 ) , p2 = P (X = x2 ) , . . . Entonces, la
esperanza de X está dada por:
X X X
E [X ] = xP (X = x) = xi P (X = xi ) = xi p i
x∈S i i

Se verifican las siguientes propiedades:


I Si a, b ∈ R, entonces:

E [a + bX ] = a + bE [X ]

I Sea g una función real. Entonces:


X
E [g (X )] = g (x) P (X = x)
x∈S
Ejemplo

La esperanza de la variable aleatoria X del ejemplo del juego es la


siguiente:
X
E [X ] = xP (X = x) =
x∈S
= −3 × P (X = −3) + 1 × P (X = 1) + 3 × P (X = 3) + 27 × P (X = 27) =
= −3 × 0,729 + 1 × 0,243 + 3 × 0,027 + 27 × 0,001 = −1,836

Por lo tanto, la ganancia esperada es de −1,836 euros.


Varianza de una variable aleatoria discreta
La varianza de la v.a. discreta X está dada por:
h i X
2 2
V [X ] = E (X − E [X ]) = (x − E [X ]) P (X = x) =
x∈S
X 2
X 2
= (xi − E [X ]) P (X = xi ) = (xi − E [X ]) pi
i i

Se verifican las siguientes propiedades:


I La varianza se puede escribir también como:
2
V [X ] = E X 2 − E [X ]
 

I V [X ] ≥ 0 y Var [X ] = 0 si, y sólo si, X es una constante.


I Si a, b ∈ R, entonces:

V [a + bX ] = b 2 V [X ]

La raı́z cuadrada
p de la varianza se denomina desviación tı́pica y se denota
por S[X ] = V [X ].
Ejemplo

La varianza de la variable aleatoria X del ejemplo del juego es la


siguiente:
2 2
V [X ] = E X 2 − E [X ] = 7,776 − (−1,836) = 4,405
 

donde:
2
E X 2 = (−3) × 0,729 + 12 × 0,243 + 32 × 0,027 + 272 × 0,001 = 7,776
 


La desviación tı́pica es por tanto S[X ] = 4,405 = 2,0988.
Ejemplo
Consideramos la v.a. discreta X = número de caras al tirar una moneda
dos veces. La función de probabilidad de X es:

x 0 1 2
1 1 1
P[X = x] 4 2 4

Por un lado, su esperanza viene dada por:


1 1 1
E [X ] = 0 × +1× +2× =1
4 2 4
mientras que su varianza es:
3 1
Var [X ] = E [X 2 ] − E [X ]2 = − 12 =
2 2
donde:
1 1 1 3
E [X 2 ] = 02 × + 12 × + 22 × =
4 2 4 2
Desigualdad de Chebyschev

Este resultado es útil para estimar una probabilidad cuando se desconoce


la distribución de probabilidad de una v.a. discreta X .
Si X es una v.a. con esperanza y varianza finitas, entonces para todo
k ≥ 1:
V (X )
P (|X − E [X ]| ≥ k) ≤
k2
o, equivalentemente,

V (X )
P (|X − E [X ]| < k) ≥ 1 −
k2
OBS: La cota que proporciona la desigualdad de Chebyschev es
demasiado gruesa y sólo debe utilizarse cuando no se disponga de la
distribución de X .
Desigualdad de Chebyschev

Veamos como aplicar la desigualdad de Chebyschev con la variable


aleatoria del ejemplo del juego. Tenemos que E [X ] = −1,836 y que
V [X ] = 4,405. Entonces:

4,405
P (|X + 1,836| ≥ 3) ≤ = 0,4894
9
Por otro lado, tenemos que:

P (|X + 1,836| ≥ 3) = P (X + 1,836 ≥ 3) + P (X + 1,836 ≤ −3) =


= P (X ≥ 1,164) + P (X ≤ −4,836) =
= P (X = 3) + P (X = 27) = 0,027 + 0,001 = 0,028

que demuestra que la cota de Chebyschev puede ser muy gruesa.


Ejemplo de repaso

I Sea X , la variable aleatoria que representa el número de caras menos


el número de cruces en 3 tiradas de una moneda trucada de manera
que es dos veces más probable que salga cara que cruz.

I Indicamos por “c”={cara} y “+”={cruz}.

I El espacio muestral es:


 
e1 = {c, c, c} , e2 = {+, c, c} , e3 = {c, +, c} , e4 = {c, c, +} ,
Ω=
e5 = {+, +, c} , e6 = {+, c, +} , e7 = {c, +, +} , e8 = {+, +, +}
Ejemplo de repaso

I El conjunto S donde toma valores es S = {−3, −1, 1, 3} ya que:

X (e1 ) = 3 − 0 = 3
X (e2 ) = X (e3 ) = X (e4 ) = 2 − 1 = 1
X (e5 ) = X (e6 ) = X (e7 ) = 1 − 2 = −1
X (e8 ) = 0 − 3 = −3

I La función de probabilidad viene dada por:


 3

 P (X = −3) = 13 = 27 1
 2
P (X = −1) = 3 × 13 × 23 = 29
 
P (X = x) = 2

 P (X = 1) = 3 × 13 × 32 = 94
3

P (X = 3) = 32 = 27 8
 
Ejemplo de repaso
I Supongamos que participamos en el siguiente juego para el que hay
que pagar de inicio 6 euros. Si al lanzar 3 veces la moneda anterior
aparece 1 cruz, ganamos 4 euros, si aparecen 2 cruces ganamos 6
euros y si aparecen 3 cruces ganamos 30 euros. ¿Cuál es la ganancia
esperada?
I Sea Y la variable ganancia en el juego. Entonces:
I Si no obtenemos ninguna cruz, tenemos que X = 3, por lo que
8
Y = −6 con probabilidad P (Y = −6) = P (X = 3) = 27 .
I Si obtenemos una cruz, tenemos que X = 1, por lo que Y = −2 con
probabilidad P (Y = −2) = P (X = 1) = 94 .
I Si obtenemos dos cruces, tenemos que X = −1, por lo que Y = 0
con probabilidad P (Y = 0) = P (X = −1) = 92 .
I Si obtenemos tres cruces, tenemos que X = −3, por lo que Y = 24
1
con probabilidad P (Y = 24) = P (X = −3) = 27 .
I Por lo tanto, Y toma valores en el conjunto S = {−6, −2, 0, 24}. La
ganancia esperada es:
8 4 2 1
E [Y ] = −6 × − 2 × + 0 × + 24 × = −1,78 euros
27 9 9 27
Modelo Bernoulli

Descripción
Partimos de un experimento aleatorio con sólo dos posibles resultados,
que calificamos de éxito/fracaso.
Definimos la variable aleatoria:

1 si éxito
X =
0 si fracaso

Sea p la probabilidad de éxito. Entonces, 1 − p es la probabilidad de


fracaso.

El experimento se llama ensayo de Bernoulli y la variable aleatoria se dice


que sigue una distribución Bernoulli de parámetro p.

Se escribe X ∼ Ber (p).


Modelo Bernoulli

Ejemplo
Tirar una moneda al aire

1 sale cara
X =
0 si sale cruz

Es un ensayo Bernoulli, y X sigue una distribución Bernoulli de


parámetro 1/2.

Ejemplo
Una lı́nea aérea estima que los pasajeros que compran un billete para un
vuelo tienen una probabilidad igual a 0,05 de no presentarse al embarque
de dicho vuelo.
Definamos 
1 si el pasajero se presenta
Y =
0 si no lo hace
Y sigue una distribución Bernoulli con parámetro 0,95.
Modelo Bernoulli

Función de Probabilidad:

P[X = 0] = 1 − p P[X = 1] = p

Función de distribución:

 0 si x < 0
F (x) = 1−p si 0 ≤ x < 1
1 si x ≥ 1

Propiedades
I E [X ] = p × 1 + (1 − p) × 0 = p
I E [X 2 ] = p × 12 + (1 − p) × 02 = p
I V [X ] = E [X 2 ] − E [X ]2 = p − p 2 = p(1 − p)
p
I S[X ] = p(1 − p)
Modelo Binomial

Descripción
Un ensayo Bernoulli de parámetro p se repite n veces de manera
independiente. La variable número de éxitos obtenidos, sigue una
distribución Binomial (de parámetros n y p).

Definición
Una variable X sigue una distribución binomial con parámetros n y p si
 
n
P[X = x] = p x (1 − p)n−x
x

para x = 0, 1, . . . , n donde
 
n n!
=
x x!(n − x)!

Se escribe X ∼ B(n, p).


Modelo Binomial

Ejemplo
La lı́nea aérea del ejemplo anterior ha vendido 80 billetes para un vuelo.
La probabilidad de que un pasajero no se presente al embarque es de
0, 05. Definimos X = número de pasajeros que se presentan. Entonces
(suponiendo independencia)

X ∼ B(80, 0,95)

I La probablidad de que los 80 pasajeros se presenten


 
80
P[X = 80] = 0,9580 × (1 − 0,95)80−80 = 0,0165
80

I La probabilidad de que al menos un pasajero no se presente:

P[X < 80] = 1 − P[X = 80] = 1 − 0,0165 = 0,9835


Modelo Binomial

Propiedades
I E [X ] = np

I Var [X ] = np(1 − p)

p
I S[X ] = np(1 − p)
Variables aleatorias continuas

Función de distribución
Para X v.a. continua, la función de distribución es la función
F (x) = P[X ≤ x], ∀x ∈ R

Igual que en el caso discreto, la función F (x) da las probabilidades


acumuladas hasta el punto x ∈ R, pero ahora se trata de una función
continua y no de tipo escalón.
Variables aleatorias continuas

Propiedades
I 0 ≤ F (x) ≤ 1, para todo x ∈ R
I F (−∞) = 0.
I F (∞) = 1.
I Si x1 ≤ x2 , entonces F (x1 ) ≤ F (x2 ), es decir, F (x) es no decreciente.
I Para todo x1 , x2 ∈ R, P(x1 ≤ X ≤ x2 ) = F (x2 ) − F (x1 ).
I F (x) es continua.

La función de probabilidad no tiene sentido en variables aleatorias


continuas, porque P(X = x) = 0. Para sustituir la función de
probabilidad, en variables aleatorias continuas usaremos la función de
densidad.
Variables aleatorias continuas

Función de densidad
Para una variable aleatoria continua X con función de distribución F (x),
la función de densidad de X es:
dF (x)
f (x) = = F 0 (x)
dx

Propiedades
I f (x) ≥ 0 ∀x ∈ R
Rb
I P(a ≤ X ≤ b) = a f (x)dx ∀a, b ∈ R
Rx
I F (x) = P(X ≤ x) = −∞ f (u)du
R∞
I
−∞
f (x)dx = 1
Variables aleatorias continuas

Ejemplo
Una variable aleatoria X tiene función de densidad
12x 2 (1 − x) si 0 < x < 1

f (x) =
0 si no

Entonces:
Z 0,5 Z 0,5
P(X ≤ 0,5) = f (u)du = 12u 2 (1 − u)du = 0,3125
−∞ 0
Z 0,5 Z 0,5
P(0,2 ≤ X ≤ 0,5) = f (u)du = 12u 2 (1 − u)du = 0,2853
0,2 0,2

Z x 
  30  si x ≤ 0
x x4
F (x) = P(X ≤ x) = f (u)du = 12 3 − 4 si 0 < x ≤ 1
−∞ 
1 si x > 1

Esperanza de una variable aleatoria continua

Sea X una v.a. continua que toma valores en S ⊆ R, con función de


densidad f (x) . Entonces, la esperanza de X está dada por:
Z
E [X ] = xf (x) dx
S

Se verifican las siguientes propiedades:


I Si a, b ∈ R, entonces:

E [a + bX ] = a + bE [X ]

I Sea g una función real. Entonces:


Z
E [g (X )] = g (x) f (x) dx
S
Ejemplo

La esperanza de la variable aleatoria X del ejemplo anterior es la


siguiente:
Z Z 1
E [X ] = x · f (x)dx = x · 12x 2 (1 − x)dx =
R 0
Z 1    
3 4
 1 4 1 5 1 1 1 3
= 12(x − x ) dx = 12 x − x 0 = 12 − =
0 4 5 4 5 5
Varianza de una variable aleatoria continua

La varianza de la v.a. continua X está dada por:


h i Z
2 2
V [X ] = E (X − E [X ]) = (x − E [X ]) f (x)dx =
S
Z
2 2
x 2 f (x)dx − E [X ] = E X 2 − E [X ]
 
=
S

Se verifican las siguientes propiedades:


I V [X ] ≥ 0 y Var [X ] = 0 si, y sólo si, X es una constante.
I Si a, b ∈ R, entonces:

V [a + bX ] = b 2 V [X ]

La raı́z cuadrada
p de la varianza se denomina desviación tı́pica y se denota
por S[X ] = V [X ].
Ejemplo

La varianza de la variable aleatoria X del ejemplo anterior es la siguiente:


 2
2 2 3 2 9 1
Var [X ] = E X 2 − E [X ] = −
 
= − =
5 5 5 25 25

donde:
Z Z 1
12 5 x=1 12 6 x=1
E X2 = 2
12x 4 (1 − x)dx =
 
x f (x)dx = x |x=0 − x |x=0 =
R 0 5 6
12 2
= −2=
5 5
q
1
La desviación tı́pica es por tanto S[X ] = 25 = 15 .
Distribución uniforme

Descripción
La distribución uniforme es aquella en la que todos los intervalos de igual
longitud en su rango son igualmente probables. Es decir, que la función
de densidad es constante para todos los valores posibles de la variable.

Definición
Se dice que una variable X sigue una distribución uniforme en el intervalo
(a, b) (sus parámetros son a y b) si
 1
b−a si a < x ≤ b
f (x) =
0 si no

Se escribe X ∼ U(a, b).


Distribución uniforme

Función de densidad
Propiedades
a+b
I Esperanza: E [X ] = 2
(b−a)2
I Varianza: V [X ] = 12
I Desviación tı́pica:
b−a
S[X ] = √ 12
Ejemplo: distribución uniforme en (3,5)

Una variable aleatoria X que sigue una distribución uniforme en el


intervalo (3, 5) tiene función de densidad
 1
2 si 3 < x < 5
f (x) =
0 si no

Calculamos algunas probabilidades:


R 0,5
P(X ≤ 0,5) = −∞ f (u)du = 0
R4 R4
P(X ≤ 4) = −∞ f (u)du = 3 21 du = 12 u|43 = 21
R 4,5 R 4,5
P(3,5 ≤ X ≤ 4,5) = 3,5 f (u)du = 3,5 12 du = 12
Ejemplo: distribución uniforme en (3,5)

Función de distribución
Z x
F (x) = P(X ≤ x) = f (u)du = . . .
−∞

I Si x ≤ 3 entonces F (x) = P(X ≤ x) = 0.


Rx 1
I Si 3 < x ≤ 5 entonces F (x) = P(X ≤ x) = 3 2
du = u2 |x3 = x−3
2 .

R5 1
I Si 5 < x entonces F (x) = P(X ≤ x) = 3 2
du = u4 |53 = 5−3
2 = 1.
Es decir, que: 
 0 si x ≤ 3
x−3
F (x) = 2 si 3 < x ≤ 5
1 si x > 5

Ejemplo: distribución uniforme en (3,5)

Esperanza
R5 5
x2 52 −32
x · 12 dx =
R
E [X ] = R
x · f (x)dx = 3 4 = 4 =4
3

Varianza
x 2 · f (x)dx − E [X ]2
R
Var [X ] = R
3 5
R5 2
= 3 x2 dx − 42 = x6 − 16 = 0,33
3
Distribución normal

Descripción
La distribución normal es un modelo teórico que aproxima bien muchas
situaciones reales. La inferencia estadı́stica se fundamenta básicamente
en la distribución normal y en distribuciones que se derivan de ella.

Definición
Se dice que una variable X sigue una distribución normal o Gausiana con
parámetros µ y σ, y se denota por X ∼ N (µ, σ), si
 
1 1 2
f (x) = √ exp − 2 (x − µ)
σ 2π 2σ

Propiedades
E [X ] = µ V [X ] = σ 2
Si X ∼ N (µ, σ), f (x) es simétrica respecto de µ.
Distribución normal
Función de densidad para 3 valores distintos de µ y σ
Distribución normal

Propiedad
Si X ∼ N (µ, σ),
I P(µ − σ < X < µ + σ) ≈ 0,683
I P(µ − 2σ < X < µ + 2σ) ≈ 0,955
I P(µ − 3σ < X < µ + 3σ) ≈ 0,997

Desigualdad de Chebyshev
La desigualdad de Chebyschev también se puede aplicar en el caso de
variables continuas. En particular, si X es Gaussiana de media µ y
desviación tı́pica σ, tenemos que:

σ2
P (µ − k < X < µ + k) = P (|X − µ| < k) ≥ 1 −
k2
1
de donde, si k = cσ, tenemos que P (µ − cσ < X < µ + cσ) ≥ 1 − c2 .
Distribución normal

Transformación lineal
Si X ∼ N (µ, σ), entonces:

Y = aX + b ∼ N (aµ + b, |a|σ)

Estandarización
Si X ∼ N (µ, σ), considero

X −µ
Z= ∼ N (0, 1)
σ
Se llama distribución normal estándar. Es una distribución simétrica y
centrada en 0. Además, está tabulada por lo que no tenemos que hacer
uso de integrales para obtener probabilidades.
Tablas de la N (0, 1)
Distribución normal: Ejemplo

Sea Z ∼ N(0, 1). Calculemos algunas probabilidades:

I Pr(Z < 1,5) = 0,9332. tabla

I Pr(Z > −1,5) = Pr(Z < 1,5) = 0,9332. ¿por qué?

I Pr(Z < −1,5) = Pr(Z > 1,5) = 1 − Pr(Z < 1,5) = 1 − 0,9332 =
0,0668. ¿por qué no ≤?

I Pr(−1,5 < Z < 1,5) = Pr(Z < 1,5) − Pr(Z < −1,5) =
0,9332 − 0,0668 = 0,8664.
Distribución normal: Ejemplo

Sea X ∼ N(µ = 2, σ = 3). Queremos calcular Pr(X < 4) y


Pr(−1 < X < 3,5):
I En primer lugar, tipificamos la variable original como sigue:
 
X −2 4−2 
Pr(X < 4) = P < = Pr Z < 0,666̇ ≈ 0,7454,
3 3

donde Z ∼ N(0, 1).


I A continuación, buscamos :

Pr(−1 < X < 3,5) = Pr(−1 − 2 < X − 2 < 3,5 − 2)


 
−1 − 2 X −2 3,5 − 2
=P < < = Pr(−1 < Z < 0,5) =
3 3 3
= Pr(Z < 0,5) − Pr(Z < −1) = 0,6915 − 0,1587 = 0,5328.

donde Z ∼ N(0, 1).


Distribución normal: otro ejemplo
Es difı́cil etiquetar la carne empaquetada con su peso correcto debido a
los efectos de pérdida de lı́quido (definido como porcentaje del peso
original de la carne). Supongamos que la pérdida de lı́quido en un
paquete de pechuga de pollo se distribuye como normal con media 4 % y
desviación tı́pica 1 %.
Sea X la pérdida de lı́quido de un paquete de pechuga de pollo elegido al
azar.
I ¿Cuál es la probabilidad de que 3 % < X < 5 %?
I ¿Cuál es el valor de x para que un 90 % de paquetes tengan pérdidas
de lı́quido menores que x?
I En una muestra de 4 paquetes, hallar la probabilidad de que todos
tengan pérdidas de peso de entre 3 y 5 %.

Sexauer, B. (1980) Drained-Weight Labelling for Meat and Poultry: An


Economic Analysis of a Regulatory Proposal, Journal of Consumer Affairs, 14,
307-325.
Distribución normal: otro ejemplo
 
3−4 X −4 5−4
Pr(3 < X < 5) = Pr < < = Pr(−1 < Z < 1)
1 1 1
= Pr(Z < 1) − Pr(Z < −1) = 0,8413 − 0,1587 = 0,6827

Queremos Pr(X < x) = 0,9. Entonces


 
X −4 x −4
Pr < = Pr(Z < x − 4) = 0,9
1 1

Mirando las tablas, tenemos x − 4 ≈ 1,28 que implica que un 90 % de las


paquetes tienen pérdidas de menores que x = 5,28 %.
Para un paquete p = Pr(3 < X < 5) = 0,6827. Sea Y el número de
paquetes en la muestra de 4 paquetes que tienen pérdidas de entre 3 % y
5 %. Luego Y ∼ B(4, 0,6827).
 
4
Pr(Y = 4) = 0,68274 (1 − 0,6827)0 = 0,2172.
4
Distribución normal: otro ejemplo

Si la muestra fuera de 5 paquetes, ¿cuál seria la probabilidad que por lo


menos una tuviera perdidas de entre el 3 % y 5 %? Tenemos que n = 5 y
p = 0,6827. Por lo tanto, Y ∼ B(5, 0,6827). Entonces,

Pr(Y ≥ 1) = 1 − Pr(Y < 1) = 1 − Pr(Y = 0) =


 
5 5
=1− 0,68270 (1 − 0,6827)5−0 = 1 − (1 − 0,6827) = 0,9968.
0
Teorema central del lı́mite
El siguiente teorema nos habla de la distribución de la media de un
conjunto de muchas v.a. independientes e igualmente distribuidas:
n
1X
X̄ = Xi
n
i=1

y nos dice que si n es grande, la distribución de la media de v.a.


independientes e identicamente distribuidas es normal, sea cual sea la
distribución de las v.a. De aquı́ el papel “central” que juega la
distribución normal.
Teorema
Sean X1 , X2 , . . . , Xn v.a. independientes, e idénticamente distribuidas con
media µ y desviación tı́pica σ (ambas finitas). Si n es suficientemente
grande, se tiene que
X̄ − µ
√ ∼ N (0, 1)
σ/ n
Aproximaciones

Binomial
Si X ∼ B(n, p) con n suficientemente grande (o bien n ≥ 30 y
0,1 ≤ p ≤ 0,9 o bien np ≥ 5 y n (1 − p) ≥ 5), entonces:

X − np
p ∼ N (0, 1)
np(1 − p)
TCL y aproximaciones: Ejemplo
I Sea X ∼ B(100, 1/3). Bucamos el valor de Pr(X < 40), si bien el
cálculo exacto es muy largo ya que necesitamos un gran número de
operaciones.
I Utilizando el TCL tenemos que X ∼ B(100, 1/3) ≈ N (33,3, 4,714) ,
ya que:
1
E [X ] = 100 × = 33.3̇
3
1 2
V [X ] = 100 × × = 22.2̇
p 3 3
S[X ] = 22.2̇ = 4,714

I Por lo tanto,
 
X − 33.3̇ 40 − 33.3̇
Pr(X < 40) = P <
4,714 4,714
≈ P (Z < 1,414) donde Z ∼ N(0, 1)
≈ 0,921.
Función de distribución conjunta de dos variables

I La función de distribución conjunta de dos variables aleatorias


continuas X e Y es una aplicación F : R2 → [0, 1], tal que a cada
valor (x, y ) ∈ R2 le asigna la probabilidad:
Z x Z y
F (x, y ) = P(X ≤ x, Y ≤ y ) = f (x, y ) dydx,
−∞ −∞

donde f (x, y ) es la función de densidad conjunta de la variable


aleatoria (X , Y ).

I La función de densidad conjunta, f (x, y ), verifica tres propiedades:


1. f (x, y ) ≥ 0, para cualquier par (x, y ) ∈ R2 .
RbRd
2. P(a ≤ X ≤ b, c ≤ Y ≤ d) = a c f (x, y ) dydx.
R∞ R∞
3. −∞ −∞ f (x, y ) dydx = 1.
Distribuciones marginales y condicionadas
I Las funciones de densidad marginales de las variables aleatorias
continuas X e Y están dadas por:
Z ∞ Z ∞
fX (x) = f (x, y ) dy y fY (y ) = f (x, y ) dx
−∞ −∞

respectivamente.
I Las variables aleatorias continuas X e Y se dice que son
independientes si y sólo si:

f (x, y ) = fX (x) fY (y )

siendo fX y fY las funciones de densidad marginales de X y de Y ,


respectivamente.
I La función de densidad condicional de la variable continua Y , dado
el valor X = x0 de la variable aleatoria X , está dada por:
f (x0 , y )
fY |X (y |X = x0 ) =
fX (x0 )
Esperanza y covarianza

I La esperanza de la variable aleatoria (X , Y ) es el vector formado por


las esperanzas de las distribuciones marginales de X e Y :
   
X E [X ]
E =
Y E [Y ]

I La covarianza entre dos variables aleatorias X e Y se define como:

cov [X , Y ] = E [(X − E [X ]) (Y − E [Y ])]

y permite medir como cambian X e Y de forma conjunta.


I Si valores grandes de X se corresponden con valores grandes de Y , y
lo mismo ocurre con los valores pequeños, cov [X , Y ] será positiva.
Si valores grandes de X se corresponden con valores pequeños de Y ,
y viceversa, cov [X , Y ] será negativa.
I Notar que la covarianza depende crucialmente de las unidades de
medida de las variables X e Y lo que hace difı́cil su interpretación.
Coeficiente de correlación

I El coeficiente de correlación entre dos variables aleatorias X e Y se


define como:
cov [X , Y ]
corr [X , Y ] = p
V [X ] V [Y ]
donde cov [X , Y ] es la covarianza entre X e Y y V [X ] y V [Y ] son
las varianzas de X e Y , respectivamente.
I Notar que −1 ≤ corr [X , Y ] ≤ 1 independientemente de las unidades
de medida de X e Y .
I corr [X , Y ] sólamente mide relaciones lineales.
I Un valor de corr [X , Y ] próximo a 1 indica una alta relación lineal
positiva entre X e Y . Un valor de corr [X , Y ] próximo a −1 indica
una alta relación lineal negativa entre X e Y . Por último, un valor de
corr [X , Y ] próximo a 0 indica una relación lineal debil entre X e Y .
Matriz de covarianzas

I La matriz de covarianza de una variable aleatoria (X , Y ) es una


matriz de tamaño 2 × 2 dada por:
 
V [X ] cov [X , Y ]
C [X , Y ] =
cov [X , Y ] V [Y ]

es decir, C [X , Y ] contiene las varianzas de X e Y en la diagonal


principal y la covarianza entre X e Y fuera de la diagonal principal.
La distribución Gaussiana bivariante

I Se dice que una variable (X , Y ) sigue una distribución normal o


0
Gaussiana bivariante con parámetros µ = (µX , µY ) y matriz de
covarianzas:  2 
σX σXY
Σ=
σXY σY2
y se denota por (X , Y ) ∼ N2 (µ, Σ) si tiene función de densidad:
−1  !
σX2

1 1 σXY X − µX
f (x, y ) = exp − (X − µX , Y − µY )
2π |Σ|
1/2 2 σXY σY2 Y − µY

I Notar que µX = E [X ], µY = E [Y ], σX2 = V [X ], σY2 = V [Y ] y


σXY = cov [X , Y ].
La distribución Gaussiana bivariante

I La varianza generalizada es el valor de:


 
2
|Σ| = σX2 σY2 − σXY
2
= σX2 σY2 1 − corr [X , Y ]

y mide la dispersión global de la variable bivariante (X , Y ). Notar


como la varianza generalizada disminuye si corr [X , Y ] tiende a ±1 y
aumenta si corr [X , Y ] tiende a 0.
I Por último, la matriz Σ−1 se puede escribir como:

σY2
 
1 −σXY
Σ−1 = 2 2 2
σX σY − σXY −σXY σX2
Densidad Gaussiana bivariante µ = (0, 0)0 , σX2 = σY2 = 1 y
σXY = 0, 0,9 y −0,9, respectivamente

0.15
0.3

0.10
0.2
4 4
0.05 0.1
2 2
0.0
−4 −4
0 0

x2

x2
−2 −2

0 −2 0 −2
x1 x1
2 2

−4 −4
4 4

0.3

0.2
4
0.1
2
0.0
−4
0

x2
−2

0 −2
x1
2

−4
4
Esperanza y varianza condicional
I Si (X , Y ) sigue una distribución Gaussiana bivariante con
0
parámetros µ = (µX , µY ) y matriz de covarianzas
 2 
σX σXY
Σ=
σXY σY2
entonces:
X ∼ N µX , σX2 e Y ∼ N µY , σY2 , respectivamente.
 
I

I X e Y son independientes si y sólo si σXY = 0.


I Y |X = x0 sigue una distribución Gaussiana univariante de
parámetros:
σXY
µY |X = µY + 2 (x0 − µX )
σX
2
σXY
σY2 |X = σY2 −
σX2
I X |Y = y0 sigue una distribución Gaussiana univariante de
parámetros:
σXY
µX |Y = µX + 2 (y0 − µY )
σY
2
σXY
σX2 |Y = σX2 −
σY2
Ejemplo
I Sea (X , Y ) una variable aleatoria que sigue una distribución
0
Gaussiana bivariante con parámetros µ = (2, 1) y matriz de
covarianzas:  
5 3
Σ=
3 10
I Entonces, podemos afirmar que:
I Las distribuciones marginales de X e Y son X ∼ N (2, 5) e
Y ∼ N (1, 10), respectivamente.
I X e Y no son independientes ya que σXY 6= 0.
I Y |X = 6 sigue una distribución Gaussiana univariante de parámetros:
3
µY |X = 1 + (6 − 2) = 3,4
5
32
σY2 |X = 10 − = 8,2
5
I X |Y = 3 sigue una distribución Gaussiana univariante de parámetros:
3
µX |Y = 2 + (3 − 1) = 2,6
10
32
σX2 |Y =5− = 4,1
10

También podría gustarte