Probabilidades PDF

También podría gustarte

Está en la página 1de 250

Probabilidades y Estadı́stica

Vicente Acuña

Lab. de Bioinformática y Matemática del Genoma (Mathomics)


Centro de Modelamiento Matemático, Universidad de Chile

Primavera 2015

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 1 / 250


Advertencia 1: Las slides son sólo un complemento de la clase,
muchos ejemplos, ejercicios, y demostraciones son realizadas en la
Pizarra. El objetivo principal es hacer una clase más dinámica, pero
en ningún caso las slides reemplazan a las clases!.
Advertencia 2: Estas slides son de exclusivo uso de la clase Primavera
2015, son informales, pueden contener errores o imprecisiones y sólo
las he subido para facilitar el estudio a los alumnos de este curso. Por
favor no difundir!

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 2 / 250


Contenidos

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 3 / 250


Clase 1: ¿Qué es estadı́sitica?

Clase 1: ¿Qué es estadı́sitica?

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 4 / 250


Clase 1: ¿Qué es estadı́sitica?

Ejemplos cotidianos

Encuestas elecciones → predecir resultados


Muestreos consumidores → predecir preferencias
Experimentos clı́nicos → determinar efectos de medicamentos
Índices económicos → predecir futuro economı́a
Variables climáticas → predecir si llueve mañana, etc.

La estadı́stica entrega la teorı́a básica para intentar contestar a estas


preguntas

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 5 / 250


Clase 1: ¿Qué es estadı́sitica?

Definición/objetivos

Varias definiciones. Todas implican que la estadı́stica es una teorı́a de


la información cuyo objetivo es la inferencia
El conjunto de los objetos de interés es la población. Para conocer
con absoluta certeza una caracterı́stica tendrı́amos que mirar toda la
población → generalmente es imposible!
Seleccionamos un subconjunto de la población: la muestra. A partir
de ella inferimos caracterı́sticas de la población.
Medida de bondad: ¿Cuán buena es mi predicción? → probabilidad
de que mi estimación sea cercana a la realidad.

La meta de la estadı́stica es hacer una inferencia acerca de una población,


con base en información contenida en una muestra de esa población y dar
una medida de bondad asociada para la inferencia.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 6 / 250


dependientes, por tanto, se convierte en un deseo para determinar el efecto de las variable
Clase 1: ¿Qué es en
independientes estadı́sitica?
la distribución
conceptual de mediciones de población.
Una población individual (o cualquier conjunto de mediciones) puede estar caracterizad
por una distribución de frecuencia relativa, que puede estar representada por un histograma d
Caracterizando gráficamente un cjto. de mediciones
frecuencia relativa. Se construye una gráfica al subdividir el eje de medición en intervalos de igu
ancho. Se construye un rectángulo sobre cada intervalo, de modo que la altura del rectángu
sea proporcional a la fracción del número total de mediciones que caen en cada celda. Po
Queremos estimar el peso total de los 500 salmones en una
ejemplo, para caracterizar las diez mediciones 2.1, 2.4, 2.2, 2.3, 2.7, 2.5, 2.4, 2.6, 2.6 y 2.
piscicultura. Tenemos los pesos
podríamos dividir de unaenmuestra
el eje de medición intervalos dede igual10 ejemplares
ancho (por ejemplo .2 unidades
comenzando con 2.05. Las frecuencias relativas (fracción del número total de mediciones
escogidos al azar:
calculadas para cada intervalo, se muestran en la Figura 1.1. Observe que la figura da una cla
2.1, 2.4, 2.2, 2.3, 2.7, 2.5,
descripción gráfi2.4, 2.6,el2.6,
ca de todo 2.9.
conjunto de las diez mediciones.
Observe que no hemos dado reglas precisas para seleccionar el número, anchos o ubicacio
Una manera rápida de caracterizar una muestra
nes de los intervalos empleados para construir → distribución
un histograma. Esto es porque de
la selección d
frecuencia relativa → histograma
estos elementos está un poco a discreción de la persona que intervenga en la construcción.
Aun cuando son arbitrarias, unas cuantas guías pueden ser muy útiles para seleccionar lo
Escogemos un intervalos.
rango que contenga
Los puntos todos
de subdivisión losdevalores,
del eje medición debenlo dividimos
escogerse de modoen que
5 se
intervalos del mismo largo y contamos cuántos datos caen en cada
uno.
F I G U R A 1.1 Frecuencia
Histograma relativa
de frecuencia relativa .3

.2

.1

0
2.05 2.25 2.45 2.65 2.85 3.05
Eje
Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 7 / 250
Clase 1: ¿Qué es estadı́sitica?

Histograma en R project

> datos <- c(2.1, 2.4, 2.2, 2.3, 2.7,


2.5, 2.4, 2.6, 2.6, 2.9)
> datos
[1] 2.1 2.4 2.2 2.3 2.7 2.5 2.4 2.6 2.6 2.9
> hist(datos)
> hist(datos, breaks=20, col=7)
> min(datos)
[1] 2.1
> max(datos)
[1] 2.9
> hist(datos, breaks=seq(2.05,3.05,0.2), col=7)

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 8 / 250


Clase 1: ¿Qué es estadı́sitica?

Histograma en R project

Una versión más sofisticada que especifica los lı́mites de las barras y los
ejes.

datos <- c(2.1, 2.4, 2.2, 2.3, 2.7, 2.5, 2.4, 2.6, 2.6, 2.9)
resol <- 0.1 # Ultima cifra significativa
bar <- 0.2 # Ancho de barra. Probar distintos valores!
limites <- seq(min(datos)-0.5*resol,max(datos)+bar,bar)
h=hist(datos, breaks=limites,axes=FALSE,col=7)
axis(1,at=limites)
axis(2)

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 9 / 250


Clase 1: ¿Qué es estadı́sitica?

Histograma en R project

Hacer histogramas de:

> x <- rnorm(n=50000, m=1, sd=1)


> y <- rbinom(n=10000, size=20,prob=1/4)
> z <- runif(10000,5,9)

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 10 / 250


estos elementos está un poco a discreción de la persona que intervenga en la construcción.
ClaseAun
1: ¿Qué es estadı́sitica?
cuando son arbitrarias,
unas cuantas guías pueden ser muy útiles para seleccionar l
intervalos. Los puntos de subdivisión del eje de medición deben escogerse de modo que s
Interpretación probabilistica
F I G U R A 1.1 Frecuencia
Histograma relativa
de frecuencia relativa .3

.2

.1

0
2.05 2.25 2.45 2.65 2.85 3.05
Eje
de medición

Si escogemos un dato al azar, ¿cuál es la probabilidad que esté entre


2.05 y 2.45?
W-cap-01.indd 4 2

→ 0.5 (la mitad de los valores están ahı́)


Si hacemos una nueva medición, ¿cuál es la probabilidad que
esté entre 2.05 y 2.45?
→ Si no sabemos nada sobre el origen de los datos, podemos suponer
0.5
Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 11 / 250
el intervalo
Clase 1: ¿Quéde
es 2.05 a 2.45
es .5 porque la mitad de las mediciones caen en este interv
estadı́sitica?
manera correspondiente, el área bajo el histograma de la Figura 1.1 sobre el intervalo
Interpretación probabilistica a 2.45 es la mitad del área total bajo el histograma. Es claro que esta interpretación se
la distribución de cualquier conjunto de mediciones, es decir, una población o una mu
Suponga que la Figura 1.2 da la distribución de frecuencia relativa de utilidades
llones de dólares) para una población conceptual de respuestas de utilidades para co
Supongamos que tenemos la distribución de frecuencias relativas de los
pesos de toda la población de salmones de la piscicultura
F I G U R A 1.2 Frecuencia
Distribución de fre- relativa
cuencia relativa

0
2.05 2.25 2.45 2.65 2.85 3.05

¿cuál es la probabilidad que un salmón escogido al azar esté entre


2.05 y 2.45?
W-cap-01.indd 5

→ es la fracción del área bajo la curva entre los valores sobre el area
total.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 12 / 250


Clase 1: ¿Qué es estadı́sitica?

Medida de tendencia central: la media


Otras herramientas para describir nuestro set de datos:
Definition
La media de una muestra de n datos y1 , y2 , . . . , yn está dada por
n
1X
y= yi .
n
i=1

Si pudiéramos conocer todos los valores y1 , y2 , . . . , ym de una población


finita de tamaño m podrı́amos definir la “verdadera media” como
m
1 X
µ= yi .
m
i=1

Es decir que y es la media muestral y µ es la media poblacional. Esta


última en general no la podemos medir: es una constante desconocida que
podemos estimar calculando y a partir de una muestra.
Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 13 / 250
Clase 1: ¿Qué es estadı́sitica?

Medidas de dispersión: varianza


¿Cuán alejados están los valores de mi set de datos de su centro?
Definition
La varianza de una muestra de mediciones y1 , y2 , . . . , yn está dada por
n
1X
sn2 = (yi − y )2
n
i=1

Es decir que la varianza muestral sn2 es el promedio del cuadrado de las


distancias de los valores a la media muestral.
Nuevamente, si conociéramos el valor de todos los elementos de una
población finita y1 , y2 , . . . , ym , podrı́amos calcular σ 2 la varianza
poblacional:
m
2 1 X
σ = (yi − µ)2
m
i=1

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 14 / 250


Clase 1: ¿Qué es estadı́sitica?

Medidas de dispersión: varianza


varianza poblacional (para población finita de tamaño m) :
m
1 X
σ2 = (yi − µ)2
m
i=1

varianza muestral (para muestra de tamaño n):


n
1X
sn2 = (yi − y )2
n
i=1

Como en general el valor de la varianza poblacional σ 2 es desconocido,


la varianza muestral sn2 nos sirve como un estimador del valor de σ 2 .
Más adelante veremos que modificando levemente el denominador de
1 Pn
la definición de varianza muestral a sn−1 = n−1 i=1 (yi − y )2
2

obtendremos una estimación mejor de σ 2 .


Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 15 / 250
Clase 1: ¿Qué es estadı́sitica?

Medidas de dispersión: desviación estándar

Las definiciones de sn2 , sn−1


2 y de la varianza poblacional σ 2 resultan ser
muy manejables matemáticamente. Sin embargo, para una interpretación
más fácil y directa de la dispersión, podemos preferir la desviación
estándar:
Definition
Si s 2 es la varianza de una muestra de mediciones, definimos la desviación
estándar de la muestra como la raı́z positiva de su varianza; es decir,

s = s2
La correspondiente
√ desviación estándar poblacional se denota por
σ = σ2.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 16 / 250


Clase 1: ¿Qué es estadı́sitica?

Medidas de dispersión: desviación estándar

F I G U R A 1.4
Curva normal

68%

Cuando los datos tienen forma de campana o normal (lo que sucede muy a
menudo) Como se mencionó
tenemos en la Sección
la siguiente regla 1.2, una vez que se conozca la d
empı́rica:
de un conjunto de mediciones, se pueden hacer enunciados de prob
µ ± σ contienemediciones.
aproximadamente 68 % de las mediciones.
Estas probabilidades se mostraron como áreas bajo un h
En aproximadamente
µ ± 2σ contiene forma análoga, las probabilidades
95 % de lasespecificadas en la regla empíric
mediciones.
normal
µ ± 3σ contiene casi mostrada
todas lasenmediciones..
la Figura 1.4.
El uso de la regla empírica se ilustra mediante el siguiente ejemp
que las calificaciones en un examen vocacional aplicado a todos los e
de preparatoria en un estado tienen, aproximadamente, una distribu
Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 17 / 250
Clase 1: ¿Qué es estadı́sitica?

Inferir a partir de una muestra

Ejemplo: en una elección, queremos saber si el candidato Dr. Alberto


Ortega va a ganar la elección a alcalde.
Tomamos una muestra de 20 votantes al azar: 19 votarán por Ortega.
Intuitivamente inferimos que Ortega ganará. ¿Por qué?
No creemos que la fracción de la población debe ser exactamente
igual a la muestra. Tampoco que es imposible que Ortega pierda.
En realidad creemos que va a ganar porque si no, serı́a muy
improbable que 19 de 20 personas al azar votaran por él.
Y si fueran 12 de 20 los que votan por Ortega? ¿Pensarı́amos que es
seguro que gana? ¿Podrı́amos predecir con seguridad el resultado?

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 18 / 250


Clase 1: ¿Qué es estadı́sitica?

Inferir a partir de una muestra

Otro ejemplo: queremos verificar que un dado no está cargado. Es


decir, que la “población de resultados” está igual distribuida entre los
resultados (1/6 de los resultados para cada uno)
Tomamos una “muestra” de 30 lanzamientos.
Dependiendo de los resultados podemos confiar o no en la hipótesis.
Si en 27 lanzamientos de los 30 obtenemos el mismo valor,
claramente supondremos que está cargado, pues es un resultado
extremo, poco probable si suponemos un dado equilibrado.
Pero obviamente no necesitamos obtener exactamente 5 resultados
para cada valor, para creer que está equilibrado, sino algo cercano.
Algo que sea probable suponiendo que el dado es equilibrado.
¿Cuándo estimamos que está equilibrado y cuando que no?.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 19 / 250


Clase 1: ¿Qué es estadı́sitica?

Inferir a partir de una muestra

Si el dado está equilibrado entonces tenemos el modelo probabilı́stico


del gráfico. Esa es nuestra hipótesis. Bajo este supuesto, nos interesa
pítulo 2 calcular
Probabilidad
la probabilidad de obtener una muestra dada, para poder
confirmar o rechazar la hipótesis.

G U R A 2.1 Frecuencia
stribución de relativa
encia para la
ión generada
por un dado 1 6
balanceado

1 2 3 4 5 6
Número de
la cara superior
del dado

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 20 / 250


Clase 1: ¿Qué es estadı́sitica?

Modelos teóricos

Antes de hacer inferencias a partir de una muestra, estudiaremos los


modelos teóricos que pueden generar los datos de la población.
Estos modelos teóricos son modelos idealizados. Al estudio de estos
modelos lo llamamos la teorı́a de la probabilidad (o simplemente
“Probabilidades”).
Ası́, el estudio de la teorı́a de probabilidad nos dará la base para la
inferencia estadı́stica. Estaremos la mitad del curso estudiando estos
modelos.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 21 / 250


Clase 2: Probabilidades caso discreto

Clase 2: Probabilidades caso discreto

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 22 / 250


Clase 2: Probabilidades caso discreto

Experimento y eventos
Empezaremos con algunas definiciones
Definition
Un experimento ε es el proceso por medio del cual se hace una
observación.

Pueden ser tanto controlables (ej: tipo laboratorio, lanzar un dado)


como incontrolables (ej: cantidad agua caı́da un dı́a dado, )
Al realizar el experimento puede terminar en diferentes resultados.
Siempre vamos a preferir trabajar con un sólo experimento, aunque
consista en repetir una acción. Ejemplos:
ε: “lanzar un dado”
ε: “escoger 10 salmones”,
ε: “lanzar una moneda 5 veces”

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 23 / 250


Clase 2: Probabilidades caso discreto

Punto muestral y espacio muestral

Definition
Dado un experimento, un punto muestral es un resultado individual del
experimento.

Definition
El espacio muestral asociado a un experimento es el conjunto formado por
todos los posibles puntos muestrales. Se denota por S (o también Ω).

Los puntos muestrales del espacio muestral deben ser diferentes,


mutuamente exclusivos y colectivamente exhaustivos. De modo que
cuando el experimento es realizado se obtendrá uno y sólo uno de los
puntos muestrales.
Se omiten detalles irrelevantes para el estudio: “donde cayó el dado”.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 24 / 250


Clase 2: Probabilidades caso discreto

Espacio muestral discreto

Definition
El espacio muestral discreto es aquel que está formado ya sea por un
número finito o numerable de puntos muestrales distintos.

experimento: tirar un dado y observar resultado.


S = { Observar un 1, Observar un 2, . . . , Observar un 6}
experimento: número de bacterias en un cultivo luego de 3 dı́as.
S = {1 bactera, 2 bacterias, 3 bacterias, . . .}

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 25 / 250


Clase 2: Probabilidades caso discreto

Eventos simples

Definition
Un evento simple es un conjunto que contiene un y sólo un punto muestral
(i.e. es un singleton).

Experimento: tirar un dado y observar resultado.


Eventos simples:
E1 = {observar un 1}
E2 = {observar un 2}
E3 = {observar un 3}
E4 = {observar un 4}
E5 = {observar un 5}
E6 = {observar un 6}

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 26 / 250


Clase 2: Probabilidades caso discreto

Eventos

Definition
Un evento en un espacio muestral discreto S es un conjunto de puntos
muestrales, es decir, cualquier subconjunto de S.

ε: tirar un dado y observar resultado.


A : observar un número impar.
A = {observar un 1, observar un 3, observar un 5} = E1 ∪ E3 ∪ E5
B : observar un número menor que 5.
B = {observar un 1, observar un 2, observar un 3, observar un 4} =
E1 ∪ E2 ∪ E3 ∪ E4

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 27 / 250


Clase 2: Probabilidades caso discreto

Podemos ver los eventos en un diagrama de Venn. Por simplicidad los


eventos simples (singletons) son representados por puntos.
2.4 Un modelo probabilístico para un experimento: el caso discreto

F I G U R A 2.8 S
Diagrama de Venn
para el experimento
E1 E6
de lanzar un dado
E3 A E5
B
E2 E4

si y sólo si ocurre uno de los eventos simples E1, E3 o E5. Así,


Todo evento, en un espacio muestral discreto, puede descomponerse como
A = {E 1 , E 3 , E 5 } o A = E 1 ∪ E 3 ∪ E 5 .
la unión (disjunta) de eventos simples.
Del mismo modo, B (observar un número menor que 5) se puede escribir como

B = {E 1 , E 2 , E 3 , E 4 } o B = E1 ∪ E2 ∪ E3 ∪ E4.

La regla para determinar cuáles eventos simples incluir en un evento compuesto es muy p
sa. Un evento simple Ei se incluye en el evento A si y sólo si A ocurre siempre que ocurra

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 28 / 250


Clase 2: Probabilidades caso discreto

Eventos

Ejemplo infinito numerable:


ε: observar número de bacterias en un cultivo luego de 3 horas.
Evento B: el número de bacterias es mayor que 200.

B = {hay 201 bacterias, hay 202 bacterias, hay 203 bacterias, . . .}


[
B= Ei
i=201

donde Ei es el evento simple Ei : hay i bacterias.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 29 / 250


Clase 2: Probabilidades caso discreto

Interpretación eventos unión, intersección y complemento


2.4 Un modelo probabilístico para un experimento: el caso discreto

F I G U R A 2.8 S
Diagrama de Venn
para el experimento
E1 E6
de lanzar un dado
E3 A E5
B
E2 E4

A : Se obtiene impar.
si y sóloB : Seuno
si ocurre obtiene un simples
de los eventos número
E1, E3 menor
o E5. Así, que 5.
A = E 1 ∪ E3 ∪ E5 B = E1 ∪ E2 ∪AE=3{E∪1 , EE43 , E5} o A = E1 ∪ E3 ∪ E5.
El evento “se obtienen impar
Del mismo modo, y menorunque
B (observar 5”menor
número es que ∩seBpuede
A 5) =E 1∪E
escribir 3.
como
El evento “se obtiene impar o menor que 5” es
B = {E 1 , E 2 , E 3 , E 4 } o B = E1 ∪ E2 ∪ E3 ∪ E4.
A ∪ B = E1 ∪ E2 ∪ E3 ∪ E4 ∪ E 5 .
La regla para determinar cuáles eventos simples incluir en un evento compuesto es muy p
sa. Un evento
El evento “no se obtiene unsimple Ei se incluye
impar” es A en el E2 ∪
=evento 4 ∪ siEA6ocurre
A siEy sólo . siempre que ocurra

D E FI NIC IÓN 2.5 Un evento en un espacio muestral discreto S es un conjunto de puntos muestrales, e
decir, cualquier subconjunto de S.
Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 30 / 250
Clase 2: Probabilidades caso discreto

Recuerdo álgebra

Leyes distributivas
A ∩ (B ∪ C ) = (A ∩ B) ∪ (A ∩ C )
A ∪ (B ∩ C ) = (A ∪ B) ∩ (A ∪ C )

Leyes de DeMorgan
(A ∩ B) = A ∪ B
(A ∪ B) = A ∩ B

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 31 / 250


Clase 2: Probabilidades caso discreto

Modelo probabilı́stico
Definition
Sea S un espacio muestral asociado a un experimento. A todo evento A en
S le asignamos un número, P(A), llamado probabilidad de A, de modo que
se cumplen los siguientes axiomas:
A1: P(A) ≥ 0
A2: P(S) = 1
A3: Si A1 , A2 , A3 , . . . forman una secuencia de eventos disjuntos dos a dos
(es decir, Ai ∩ Aj = ∅ si i 6= j), entonces

X
P(A1 ∪ A2 ∪ A3 ∪ . . .) = P(Ai ).
i=1

Ojo: A3 incluye también la unión finita de conjuntos disjuntos dos a dos:

P(A1 ∪ A2 ∪ . . . ∪ Ak ) = ki=1 P(Ai ).


P
Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 32 / 250
Clase 2: Probabilidades caso discreto

Modelo probabilı́stico
Para definir un modelo probabilı́stico para un experimento con un
espacio muestral discreto basta con asignar una probabilidad
numérica a cada evento simple Ei del espacio muestral S.
Este valor debe ser coherente con lo que creemos serı́a la frecuencia
relativa al repetir el evento muchas veces. Ej: si creemos que el dado
no está cargado entonces P(Ei ) = 61 .
Los axiomas permiten otras asignaciones. Podrı́amos asignar :

2 1 1
P(E1 ) = , P(E2 ) = , P(E3 ) = ,
3 15 15
1 1 1
P(E4 ) = , P(E5 ) = , P(E6 ) =
15 15 15
si suponemos que el dado está cargado al uno.
El modelo probabilı́stico elegido va a depender de las suposiciones
(razonables!) que hagamos.
Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 33 / 250
Clase 2: Probabilidades caso discreto

Ası́ si nuestro espacio es finito o numerable, una manera para hallar la


probabilidad de un evento es la siguiente:
1. Definir el experimento y determinar con claridad cómo describir un
evento simple.
2. Indicar todos los eventos simples asociados con el experimento
asegurándose que no se pueden descomponer. Esto define el espacio
muestral S.
3. Asignar probabilidades razonables a los puntos muestrales en S,
asegurándose de que P(Ei ) ≥ 0 y P(S) = 1.
4. Definir el evento de interés, A, como un conjunto especı́fico de puntos
muestrales.
5. Encontrar P(A) al sumar las probabilidades de los puntos muestrales en
A.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 34 / 250


Clase 2: Probabilidades caso discreto

Este método puede ser útil en general pero bastante limitado si


tenemos grandes cantidades de posibles resultados.
Veremos que cuando todos los puntos muestrales de S tienen la
misma probabilidad de ocurrir, el cálculo de la probabilidad de un
evento se reduce a contar cuántos eventos simples contiene. Para ello
veremos algunas herramientas de conteo.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 35 / 250


Clase 2: Probabilidades caso discreto

Ejercicios

(Wackerly 2.17)
Los trenes de aterrizaje hidráulicos que salen de una planta de reparación
de aviones se inspeccionan para ver si tienen defectos. Registros históricos
indican que 8 % tienen defectos sólo en ejes, 6 % tienen defectos sólo en
bujes y 2 % tienen defectos en ejes y bujes. Uno de los trenes hidráulicos
se selecciona al azar. ¿Cuál es la probabilidad de que el conjunto tenga
(a) un buje defectuoso?
(b) un eje o buje defectuoso?
(c) exactamente uno de los dos tipos de defecto?
(d) ningún tipo de defecto?
Sol: Pizarra

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 36 / 250


Clase 2: Probabilidades caso discreto

Ejercicios

(Wackerly 2.18)
Suponga que dos monedas balanceadas se tiran al aire y que se observan
las caras superiores.
(a) Indique los puntos muestrales para este experimento.
(b) Asigne una probabilidad razonable a cada punto muestral. (¿Los
puntos muestrales son igualmente probables?)
(c) Denote con A el evento de que exactamente se vea una cara y con B
el evento de que se vea al menos una cara. Indique los puntos
muestrales en A y B.
(d) De su respuesta al inciso (c), encuentre
P(A), P(B), P(A ∩ B), P(A ∪ B) y P(A ∪ B).

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 37 / 250


Clase 3: Espacio muestral equiprobable

Clase 3: Espacio muestral equiprobable

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 38 / 250


Clase 3: Espacio muestral equiprobable

Espacios equiprobables

Definition
Un espacio muestral finito se denomina equiprobable si todos los eventos
simples (puntos muestrales) tienen la misma probabilidad de ocurrir.

Cuando tenemos un espacio equiprobable, entonces para cualquier evento


A tenemos
número de puntos muestrales en A |A|
P(A) = =
número de puntos muestrales en S |S|

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 39 / 250


Clase 3: Espacio muestral equiprobable

Herramientas de conteo: Principio básico

Theorem (Principio básico de conteo)


Sea un experimento del que queremos contar un número de resultados
válidos (i.e. que cumplan alguna propiedad). Si los resultados válidos se
pueden dividir en una partición de n conjuntos cada uno conteniendo
exactamente m resultados, entonces el proceso tiene en total n × m
resultados diferentes.
Dem: árbol (pizarra)
Parece bastante obvio pero muy útil si entendemos como se ocupa:
ej: lanzar sucesivamente dos dados.
Dividimos los resultados válidos de acuerdo a lo que sale en el primer
dado → 6 grupos.
Cada grupo tiene exactamente 6 resultados (dado por el resultado del
segundo dado)
Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 40 / 250
Clase 3: Espacio muestral equiprobable

Herramientas de conteo: Principio básico

Otra manera de expresarlo:


Theorem (Principio básico de conteo)
Sea un experimento del que queremos contar un número de resultados
válidos (i.e. que cumplan alguna propiedad). Si los resultados válidos
pueden ser generados por un proceso de dos etapas tales que:
la primera etapa separa los resultados posibles en n clases (que
pueden cumplir la propiedad deseada),
cada clase definida en la primera etapa tiene m valores posibles que
cumplen la propiedad.
Entonces el número de resultados diferentes que cumplen la propiedad es
n × m.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 41 / 250


Clase 3: Espacio muestral equiprobable

Herramientas de conteo: Principio básico


lanzar dos dados de cuatro lados:
Etapa 1 de clasificación: de acuerdo al resultado del primer dado (i.e.
fijamos el valor del primer dado).
Etapa 2 de clasificación: de acuerdo al resultado del segundo dado
(i.e. fijamos el valor del segundo dado).

Etapa 1 Etapa 2

(1,1)
(1,2)
(1,3)
(1,•) (1,4)

(2,1)
(2,2)
(2,•) (2,3)
(2,4)

(3,•)

(4,•)

→ 4×4
Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 42 / 250
Clase 3: Espacio muestral equiprobable

Herramientas de conteo: Principio básico


lanzar dos dados de cuatro lados y que salgan resultados diferentes en
cada uno (propiedad).
Etapa 1 de clasificación: de acuerdo al resultado del primer dado.
Etapa 2 de clasificación: de acuerdo al resultado del segundo dado.

Etapa 1 Etapa 2

(1,2)
(1,3)
(1,•) (1,4)
(2,1)
(2,•) (2,3)
(2,4)

(3,•)

(4,•)

→ 4×3
Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 43 / 250
Clase 3: Espacio muestral equiprobable

Herramientas de conteo: Principio básico

Probabilidad del evento A: lanzar dos dados de cuatro lados y que


salgan resultados diferentes en cada uno (propiedad).
Casos totales: 4 × 4
Casos favorables: 4 × 3
4×3
P(A) = 4×4

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 44 / 250


Clase 3: Espacio muestral equiprobable

Herramientas de conteo: Principio básico


Ejemplos simples de conteo de casos favorables:
lanzar sucesivamente dos dados y que salgan dos pares
resultados válidos: (2, 2), (2, 4), . . . , (6, 6)
generamos los resultados en dos etapas:
Etapa 1: fijamos primer dado (3 valores posibles)
Etapa 2: fijamos segundo dado (dada etapa 1, hay 3 valores posibles)
→ 3×3=9

lanzar sucesivamente dos dados y que salgan consecutivos ordenados


resultados válidos: (1, 2), (2, 3), . . . , (5, 6)
Etapa 1: fijamos primer dado (5 valores posibles)
Etapa 2: fijamos segundo dado (dada etapa 1, un valor posible)
→ 5×1=5
Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 45 / 250
Clase 3: Espacio muestral equiprobable

Herramientas de conteo: Principio básico

Más ejemplos simples:


sacar en orden dos cartas de una baraja de 52 cartas (con reposición)
→ 52 × 52
sacar en orden dos cartas de una baraja (sin reposición)
→ 52 × 51
sacar en orden dos cartas de una baraja (sin reposición) y que la
primera carta sea un rey.
→ 4 × 51
sacar en orden dos cartas de una baraja (sin reposición) y que la
segunda carta sea un rey.
→ ...

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 46 / 250


Clase 3: Espacio muestral equiprobable

Herramientas de conteo: Principio básico

Ojo! no confundir: las etapas elegidas para clasificar los resultados


válidos no tienen por qué ser las etapas del experimento:
Ej: sacar dos cartas de una baraja (sin reposición) y que la primera
carta sea cualquiera y la segunda carta sea un rey.
Si definiéramos la Etapa 1 como fijar la primera carta, y la Etapa 2
como fijar la segunda, entonces no se cumple que el número de
resultados válidos de cada grupo definido por la primera etapa sea el
mismo (pues depende si en la primera fijo un rey) → 52×?
Mejor, definimos,
Etapa 1: fijar la segunda carta: → 4 resultados válidos posibles.
Etapa 2: fijar la primera carta: 51 resultados válidos posibles (todas
salvo la carta fijada en la primera etapa)
→ 4 × 51 (Hacer el árbol!)

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 47 / 250


Clase 3: Espacio muestral equiprobable

Herramientas de conteo: Principio básico

Es generalizable a más etapas. Ejemplos simples:


Lanzar una moneda sucesivamente (i.e. el orden importa) 10 veces:
→ 2 × 2 × . . . × 2 = 210
Elegir una secuencia de 3 dı́gitos tal que ninguno se repite
→ 10 × 9 × 8
Elegir una secuencia de 3 dı́gitos tal que dos consecutivos son siempre
diferentes
→ 10 × 9 × 9
Lo importante es que la cantidad de resultados válidos posibles en cada
etapa de clasificación no dependa de las etapas anteriores.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 48 / 250


Clase 3: Espacio muestral equiprobable

Herramientas de conteo: Principio básico

Las etapas de clasificación no necesariamente fijan los valores. Ejemplo


más complejo:
Sacar secuencialmente (el orden importa) 3 cartas en orden de un
mazo sin reposición y que salga un par y una carta distinta:
Primera etapa de clasificación: Fijar qué cartas contienen el par (3
grupos: 1era y 2da / 1era y 3era / 2da y 3era)
Segunda etapa: Fijar el número en el par (13 posibles)
Tercera etapa: Fijar el número en la carta distinta (12 posibles)
→ 3 × 13 × 12
Par asegurarse que la clasificación está bien, verificar que cualquier
resultado válido posible aparece una y sólo una vez en las hojas del
árbol y que la cantidad de grupos posibles en cada etapa de
clasificación no dependa de las etapas anteriores.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 49 / 250


Clase 3: Espacio muestral equiprobable

Herramientas de conteo: Principio básico

¿Y si no puedo separar en grupos del mismo tamaño?:


Ej: Sacar sucesivamente dos cartas (sin reposición) y que el primero
sea un mono (J,Q,K) y el segundo un diamante.
No es claro como clasificar en etapas de manera que el número de
resultados de la segunda etapa no dependa de los resultados de la
primera. Podemos separar por casos y sumar:
Etapa 1: fijar primera carta. Separamos dos casos:
Caso A: primera carta es un mono de diamantes (3 valores posibles)
→ Etapa 2 para caso A: fijar segunda carta (12 valores posibles)
Caso B: primera carta es un mono pero no de diamantes (9 valores)
→ Etapa 2 para caso B: fijar segunda carta (13 valores posibles)
Total → 3 × 12 + 9 × 13

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 50 / 250


Clase 3: Espacio muestral equiprobable

Herramientas de conteo: Principio básico

Recomendación 1: Siempre comenzar pensando en como se codifica


un resultado particular (ej: vector de dos componentes) y calcular
primero los resultados totales. Luego los favorables.
Recomendación 2: Hacer el árbol (o un esquema de él) y verificar
que: (1) Todos los valores válidos está en alguna hoja y (2) Ningún
resultado posible está representado en más de una hoja.
Recomendación 3: Hacer diferentes intentos, no tiene por que salir a
la primera idea. En general no es fácil!

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 51 / 250


Clase 3: Espacio muestral equiprobable

Distinguible vs indistinguible

Cuando contamos resultados, debemos tener en cuenta si hay elementos


distinguibles o indistinguibles. Ej:
Extraer en orden dos bolitas de una urna conteniendo 3 bolitas de
diferente color (blanco, azul y rojo) sin reposición:
→ 3 × 2 = 6 maneras
¿Qué pasa si hay bolitas del mismo color (indistinguibles)?
Ej: Si hay dos blancas y una azul: {B, B}, {B, A}, {A, B} → 3
maneras
Más adelante veremos como resolver este caso.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 52 / 250


Clase 3: Espacio muestral equiprobable

Ordenando r objetos de n

Theorem
El número de maneras de ocupar r posiciones diferentes utilizando n
objetos distinguibles (con r ≤ n) es

n!
n(n − 1)(n − 2) . . . (n − r + 1) =
(n − r )!

Dem: Usando el principio básico clasificamos los resultados válidos fijando


cada posición.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 53 / 250


Clase 3: Espacio muestral equiprobable

Ordenando r objetos de n

Algunos ejemplos simples:


De cuantas maneras se puede elegir una directiva de 5 cargos
diferentes de un total de 20 personas.
20!
→ 20 · 19 · 18 · 17 · 16 = 15!
De cuantas maneras podemos ordenar 4 bandas en un recital
4!
→ 4·3·2·1= 0! = 24
De cuantas maneras podemos escoger sucesivamente r bolitas desde
n!
una urna conteniendo n bolitas todas diferentes → (n−r )!

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 54 / 250


Clase 3: Espacio muestral equiprobable

Ejemplo: cumpleaños

(Wackerly 2.7)
Considere un experimento que consiste en registrar el cumpleaños para
cada una de 20 personas seleccionadas al azar. Si no se presta atención a
los años bisiestos y se supone que hay sólo 365 cumpleaños distintos
posibles, encuentre el número de puntos del espacio muestral S para este
experimento. Si suponemos que cada uno de los posibles conjuntos de
cumpleaños es igualmente probable, ¿cuál es la probabilidad de que cada
persona de las 20 tenga un cumpleaños diferente?
Sol:Pizarra

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 55 / 250


Clase 3: Espacio muestral equiprobable

Permutaciones

Caso particular de Teorema anterior r = n:


Corollary (Permutación)
El número de maneras de ordenar n objetos distinguibles (i.e. el número de
permutaciones de n objetos) es

n(n − 1)(n − 2) . . . 2 · 1 = n!

Ej: De cuantas maneras puedo ordenar las letras A,B,C,D,E: → 5!

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 56 / 250


Clase 4: Espacio muestral equiprobable II

Clase 4: Espacio muestral equiprobable II

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 57 / 250


Clase 4: Espacio muestral equiprobable II

Permutaciones

n! es el número de permutaciones de n elementos distinguibles.


¿Qué pasa si hay elementos indistinguibles entre los n?
No es lo mismo el número de secuencias diferentes de 3 letras que
podemos hacer con la palabra AJO que con la palabra OJO:
AJO → 3 × 2 × 1 = 6 casos.
OJO sólo 3 casos: OJO, OOJ, JOO
Para analizar este caso podemos primero distinguir las letras de OJO
como J,O1 y O2 , luego contar el total (3 × 2 × 1) y finalmente
analizar cuantas veces aparece un resultado cuando volvemos a
indistinguir. En el ejemplo, al distinguir, cada palabra se cuenta
exactamente dos veces (OJO aparece como O1 JO2 y O2 JO1 ).

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 58 / 250


Clase 4: Espacio muestral equiprobable II

Permutaciones con elementos indistinguibles

Theorem
El número de maneras de ordenar n objetos donde n1 son Pkindistinguibles,
n2 son indistinguibles, . . . y nk son indistinguibles (con i=1 ni = n) es

n!
n1 !n2 ! . . . nk !
.
Dem: Primero distinguir y luego analizar repetidas.
Ejemplo:
Cuantas arreglos de letras se pueden hacer con las letras de
ABRACADABRA
11!
5!2!2!1!1!

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 59 / 250


Clase 4: Espacio muestral equiprobable II

Ejemplo

(a) Se debe asignar a 20 periodistas a 4 trabajos diferentes: 6 reporteros,


5 editores, 5 diagramadores y 4 correctores. ¿De cuántas maneras se
puede hacer esta asignación?
Sol: Fijar las personas en una lista ordenada y repartir los 20 trabajos. Es
como ordenar las letras de la palabra RRRRRREEEEEDDDDDCCCC
20!
|S| = 6!5!5!4!
(b) Si todas las asignaciones son igualmente probables y entre los 20
periodistas hay cuatro amigos, cuál es la probabilidad que a los cuatro
les toque reportear?
Sol: Propuesto. Hint: Suponer los amigos en las primeras cuatro posiciones
y fijar 4 R’s ahı́. Contar cuantos resultados tienen esta caracterı́stica

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 60 / 250


Clase 4: Espacio muestral equiprobable II

Repartición en grupos de tamaño fijo

Del ejemplo visto concluı́mos que la fórmula anterior también aplica a este
caso:
Corollary
El número de maneras de repartir n objetos distinguibles en k grupos
distinguibles
Pk de tamaños fijos n1 , n2 , . . . , nk respectivamente (donde
n
i=1 i = n) es
n!
n1 !n2 ! . . . nk !

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 61 / 250


Clase 4: Espacio muestral equiprobable II

Combinaciones

Theorem
Dado un conjunto A de tamaño n, el número de subconjuntos de A de
tamaño r es  
n n!
:=
r r !(n − r )!
.
Dem: Considerar dos grupos de tamaño fijo: los que quedan dentro del
subconjunto y los que quedan fuera. Aplicar resultado anterior.
Ejemplo:
Elegir un comité (sin cargos) de 5 personas de entre 20.
→ 20

5

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 62 / 250


Clase 4: Espacio muestral equiprobable II

Ejemplo

Una empresa compra abastecimientos a M distribuidores y desea hacer n


pedidos (n < M). Suponga que la empresa hace los pedidos en forma que
permita a cada distribuidor tener igual probabilidad de obtener cualquier
pedido y no hay restricción en el número de pedidos que se puedan colocar
con cualquier distribuidor. Encuentre la probabilidad de que un distribuidor
particular, por ejemplo el distribuidor I , obtenga exactamente k pedidos
(k ≤ n).
Sol: Pizarra

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 63 / 250


Clase 5: Prob. condicional, independencia y otras propiedades

Clase 5: Probabilidad condicional, independencia y otras propiedades

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 64 / 250


Clase 5: Prob. condicional, independencia y otras propiedades

Probabilidad condicional

Considere el ejemplo de lanzar un dado balanceado. La probabilidad


de que salga un 1 es P(Ei ) = 16 .
¿Qué sucede si suponemos que ha caı́do impar? ¿Cambia nuestra
noción de probabilidad de que salga 1?

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 65 / 250


Clase 5: Prob. condicional, independencia y otras propiedades

Probabilidad condicional

Definition
La probabilidad condicional de un evento A, dado que un evento B ha
ocurrido, es igual a
P(A ∩ B)
P(A|B) = ,
P(B)
siempre que P(B) > 0. El sı́mbolo P(A|B) se lee “probabilidad de A dado
B”.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 66 / 250


Clase 5: Prob. condicional, independencia y otras propiedades

Probabilidad condicional

Ejemplo:
Considere el ejemplo de lanzar un dado balanceado. Consideremos los
eventos A : “se obtiene un 1” y B: “se obtiene un número impar”.
La probabilidad de obtener un 1 dado que se obtiene impar es la
probabilidad de A dado B:

P(A ∩ B) 1/6 1
P(A|B) = = =
P(B) 1/2 3

Ası́, si suponemos que ha caı́do impar entonces la probabilidad de que


salga uno es 1/3.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 67 / 250


Clase 5: Prob. condicional, independencia y otras propiedades

Independencia de eventos

¿Qué pasa si la probabilidad de un evento no es afectada cuando


suponemos la ocurrencia o no ocurrencia de otro evento?
Tenderı́amos a calificar estos eventos como independientes

Definition
Se dice que dos eventos son independientes si cumple cualquiera de los
siguientes casos (todos son equivalentes):

P(A|B) = P(A),

P(B|A) = P(B),
P(A ∩ B) = P(A)P(B)
Si esto no sucede decimos que los sucesos son dependientes

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 68 / 250


Clase 5: Prob. condicional, independencia y otras propiedades

Independencia de eventos

Ejemplo: Tirar una moneda no balanceada 5 veces (probabilidad de


cara 0,6). ¿Cual es la probabilidad de obtener exactamente 2 caras?.
Ai : sale cara en lanzamiento i
P(Ai ) = 6/10 y P(Ai ) = 4/10
B : se obtienen exactamente dos caras. P(B) =?
Veamos la probabilidad de un evento simple en B:
E1 = (C , C , S, S, S) = A1 ∩ A2 ∩ A3 ∩ A4 ∩ A5 ∩ A6
Si suponemos , razonablemente, que cada tirada Ai es independiente:
6 2 4 3
P(E1 ) = P(A1 )P(A2 )P(A3 )P(A4 )P(A5 )P(A6 ) = ( 10 ) ( 10 )
Todos los eventos simples en B tienen la misma probabilidad:
6 2 4 3
( 10 ) ( 10 ) .
5!
= 52

¿Cuántos eventos simples contiene B? → 2!3!
Concluı́mos P(B) = 52 ( 10
 6 2 4 3
) ( 10 )
Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 69 / 250
Clase 5: Prob. condicional, independencia y otras propiedades

Probabilidad de la intersección

Theorem
La probabilidad de la intersección de dos eventos A y B es

P(A ∩ B) = P(A)P(B|A)
= P(B)P(A|B)

Si a A y B son independientes, entonces

P(A ∩ B) = P(A)P(B)

Dem: De la definición de probabilidad condicional

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 70 / 250


Clase 5: Prob. condicional, independencia y otras propiedades

Probabilidad de la intersección

Se puede extender a intersecciones mayores:

P(A ∩ B ∩ C ) = P(A)P(B|A)P(C |A ∩ B)
En general:

P(A1 ∩ A2 ∩ . . . ∩ Ak ) = P(A1 )P(A2 |A1 )P(A3 |A1 ∩ A2 ) . . .


. . . P(Ak |A1 ∩ A2 ∩ . . . ∩ Ak−1 )

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 71 / 250


Clase 5: Prob. condicional, independencia y otras propiedades

Probabilidad de la unión

Theorem
La probabilidad de la unión de dos eventos A y B es

P(A ∪ B) = P(A) + P(B) − P(A ∩ B).

Si A y B son mutuamente excluyentes, P(A ∩ B) = 0 y

P(A ∪ B) = P(A) + P(B)

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 72 / 250


Clase 5: Prob. condicional, independencia y otras propiedades

Probabilidad de la unión

Se puede extender a uniones mayores:

P(A ∪ B ∪ C ) =
= P(A)+P(B)+P(C )−P(A∩B)−P(A∩C )−P(B ∩C )+P(A∩B ∩C )
y ası́ sucesivamente...

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 73 / 250


Clase 5: Prob. condicional, independencia y otras propiedades

Probabilidad del complemento

Theorem
Si A es un evento, entonces

P(A) = 1 − P(A).

Dem: S = A ∪ A
Muchas veces es más fácil calcular la probabilidad del complemento
de nuestro evento de interés. Ej: Probabilidad que entre 20 personas
al menos dos tengan cumpleaños el mismo dı́a.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 74 / 250


Clase 5: Prob. condicional, independencia y otras propiedades

Ley de probabilidad total

Consideremos B1 , B2 , . . . Bk una partición del espacio muestral S, es


decir
(a) S = B1 ∪ B2 ∪ . . . ∪ Bk .
(b) Bi ∩ Bj = ∅ para i 6= j
Claramente cualquier conjunto A en S puede descomponerse como
sigue:

A = (A ∩ B1 ) ∪ (A ∩ B2 ) ∪ . . . ∪ (A ∩ Bk )

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 75 / 250


Clase 5: Prob. condicional, independencia y otras propiedades

Ley de probabilidad total

Theorem
Suponga que {B1 , B2 , . . . , Bk } es una partición de S tal que P(Bi ) > 0,
para i = 1, 2, . . . , k. Entonces para cualquier evento A
k
X
P(A) = P(A|Bi )P(Bi )
i=1

Dem: descomposición y probabilidad de la unión.


Utilidad: Muchas veces es más fácil calcular los P(A|Bi ) para una
partición elegida adecuadamente que calcular directamente P(A).

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 76 / 250


Clase 5: Prob. condicional, independencia y otras propiedades

Regla de Bayes

Theorem
Suponga que {B1 , B2 , . . . , Bk } es una partición de S tal que P(Bi ) > 0,
para i = 1, 2, . . . , k. Entonces

P(A|Bj )P(Bj )
P(Bj |A) = Pk
i=1 P(A|Bi )P(Bi )

Dem: ley de probabilidad total y probabilidad condicional.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 77 / 250


Clase 5: Prob. condicional, independencia y otras propiedades

Ejemplo (Wackerly)

Una prueba de diagnóstico para una enfermedad es tal que


(correctamente) detecta la enfermedad en 90 % de los individuos que en
realidad tienen la enfermedad. También, si una persona no tiene la
enfermedad, la prueba reportará que él o ella no la tiene con probabilidad
.9. Sólo 1 % de la población tiene la enfermedad en cuestión. Si una
persona es seleccionada al azar de la población y la prueba de diagnóstico
indica que tiene la enfermedad, ¿cuál es la probabilidad condicional de que
tenga, en realidad, la enfermedad? ¿La respuesta lo sorprende? ¿Se
considera confiable esta prueba de diagnóstico?
Ver applet en:
http://mcsp.wartburg.edu/nmb/fall10/math313/seeingstats/Chpt2/bayesTree.html

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 78 / 250


Clase 5: Prob. condicional, independencia y otras propiedades

Ejemplo (Wackerly)

Un fusible electrónico es producido por cinco lı́neas de producción en una


operación de manufactura. Los fusibles son costosos, sumamente
confiables y se envı́an a proveedores en lotes de 100 unidades. Como la
prueba es destructiva, la mayorı́a de los compradores de fusibles prueban
sólo un número pequeño de ellos antes de decidirse a aceptar o rechazar
lotes de fusibles que lleguen. Las cinco lı́neas de producción producen
fusibles al mismo ritmo y normalmente producen sólo 2 % de fusibles
defectuosos, que se dispersan al azar en la producción.
Desafortunadamente, la lı́nea 1 de producción sufrió problemas mecánicos
y produjo 5 % de piezas defectuosas durante el mes de marzo. Esta
situación llegó al conocimiento del fabricante después de que los fusibles
ya habı́an sido enviados. Un cliente recibió un lote producido en marzo y
probó tres fusibles. Uno falló. ¿Cuál es la probabilidad de que el lote se
haya producido en la lı́nea 1? ¿Cuál es la probabilidad de que el lote haya
provenido de una de las otras cuatro lı́neas?
Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 79 / 250
Clase 5: Prob. condicional, independencia y otras propiedades

Solución

Desarrollo: Pizarra
Sol: 0.73 y 0.63

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 80 / 250


Clase 6: Variable aleatoria discreta

Clase 6: Variables aleatorias

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 81 / 250


Clase 6: Variable aleatoria discreta

Variables aleatorias

En lo que viene, vamos a concentrarnos en descripciones numéricas de los


resultados en S.
Definition
Una variable aleatoria (v.a.) es una función que toma valores reales y cuyo
dominio es un espacio muestral

Ojo: una variable aleatoria es una función, no es una variable (a pesar del
nombre).

Y : S → RY ⊆ R

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 82 / 250


Clase 6: Variable aleatoria discreta

Variable aleatoria discreta

Definition
Una variable aleatoria Y es discreta si puede tomar sólo un número finito
o infinito numerable de valores distintos. Es decir, su recorrido RY es finito
o infinito numerable.

Ejemplo ε: lanzar 3 monedas equilibradas.


La v.a. Y :“número de caras” tiene RY = {0, 1, 2, 3}. Por lo tanto Y
es discreta.
Ejemplo ε: lanzar una moneda hasta que salga sello
La v.a. X =“número de lanzamientos” tiene RX = {1, 2, 3, . . .}.
Como RX es infinito numerable entonces X es discreta.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 83 / 250


Clase 6: Variable aleatoria discreta

Variable aleatoria discreta

¿Cuándo no es discreta?
Ejemplo ε: lanzar un dardo en un disco de tiro al blanco y mirar su
posición.
la variable aleatoria Y =“distancia entre la posición y el centro del
blanco” ¿es discreta o no?
Si asumimos una medición perfecta, el número de posibles valores de
Y es cualquier número real entre 0 y el radio del disco → Y no es
discreta. Más adelante estudiaremos este caso.
En cambio si observamos la zona en que cayó, la v.a. X =“puntaje
obtenido” es claramente discreta. Ası́, para un mismo experimento
podemos definir distintas v.a. de distinta naturaleza.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 84 / 250


Clase 6: Variable aleatoria discreta

Variable aleatoria discreta

Ejemplo: Lanzar dos monedas y observar resultado.


S = {CC , CS, SC , SS}
Definimos Y la v.a. “número de caras que se obtuvieron”
Y : S → {0, 1, 2} ⊆ R
Notación de eventos:
{Y = 0} = {SS}, {Y = 1} = {CS, SC }, {Y = 2} = {CC }
Si la moneda es balanceada y los lanzamientos independientes:
P(Y = 0) = 14 , P(Y = 1) = 1
2 y P(Y = 2) = 1
4

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 85 / 250


Clase 6: Variable aleatoria discreta

Variable aleatoria discreta

Proposition
La probabilidad de que Y tome el valor y , P(Y = y ), es la suma de las
probabilidades de todos los puntos muestrales en S a los que se asigna el
valor y . A veces denotamos P(Y = y ) como pY (y ) o simplemente como
p(y ).

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 86 / 250


Clase 6: Variable aleatoria discreta

Distribución de probabilidad

Definition
La distribución de probabilidad para una variable discreta Y es la
descripción de la probabilidad de cada uno de los valores que puede tomar
Y . Puede ser representada por una fórmula, una tabla o una gráfica que
produzca p(y ) = P(Y = y ) para todo y .

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 87 / 250


Clase 6: Variable aleatoria discreta
It is often instructive to present the probability mass function in a graphical for
Distribución
plotting dey-axis
p(xi ) on the probabilidad
against xi on the x-axis. For instance, if the probab
ss function of X is
1 1 1
p(0) =2 monedas
Ejemplo ε =“lanzar =
p(1)equilibradas”
p(2) = v.a. X que
y la
4 2 4
representa “el número de caras”.

p(x)

1

2

1

4

x
0 1 2
Figura de “A First...”, Ross
FIGURE 4.1

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 88 / 250


Clase 6: Variable aleatoria discreta

Distribución de probabilidad

Ejemplo ε =“lanzar 2 dados equilibrados” y la v.a. X que representa


pter 4
“la suma de los dados”.
Random Variables

p(x)

6

36

5

36

4

36

3

36

2

36

1

36

x
0 1 2 3 4 5 6 7 8 9 10 11 12

Figura de “A First...”, Ross


FIGURE 4.2

Vicente Acuñawe can Universidad


(CMM, representdethis function
Chile) graphically
Prob. yas shown in Figure 4.1. Similarly, a graph
Est. 89 / 250
Clase 6: Variable aleatoria discreta

Distribución de probabilidad

Algunas propiedades:
La probabilidad para Y = y debe estar entre 0 y 1 para todo y :

0 ≤ pY (y ) ≤ 1

La probabilidad para todos los valores de Y debe sumar 1


X
pY (y ) = 1
y ∈RY

Para cualquier subconjunto M de los reales se tiene que


X
P(Y ∈ M) = pY (y )
y ∈M∩RY

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 90 / 250


Clase 6: Variable aleatoria discreta

Ejemplo

Sea ε =“lanzar 3 monedas equilibradas” y la v.a. Y que representa


“el número de caras”.
Dada una ley de probabilidad sobre S, podemos calcular la función de
probabilidad de Y calculando la probabilidad de cada conjunto
{Y = k} con k = 0, . . . , 3 (es usual usar k en vez de y cuando los
valores posibles de Y son enteros)

pY (0) = P(Y = 0) = P{(S, S, S)} = 1/8


pY (1) = P(Y = 1) = P{(S, S, C ), (S, C , S), (C , S, S)} = 3/8
pY (2) = P(Y = 2) = P{(S, C , C ), (C , S, C ), (C , C , S)} = 3/8
pY (3) = P(Y = 3) = P{(C , C , C )} = 1/8

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 91 / 250


Clase 6: Variable aleatoria discreta

Ejemplo (continuación)
En general no escribimos todos los valores. En cambio calculamos una
fórmula para la función de probabilidad:
3

k
pY (k) = k = 0, . . . , 3
23
Efectivamente las probabilidades los posibles valores de Y suman 1:

3
X 1 3 3 1
pY (k) = + + + =1
8 8 8 8
k=0
También podemos corroborarlo a partir de la fórmula:

3 3   3  
X 1 X 3 1 X 3 k 3−k 1
pY (k) = 3 = 3 1 1 = 3 (1 + 1)3 = 1
2 k 2 k 2
k=0 k=0 k=0

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 92 / 250


Clase 6: Variable aleatoria discreta

Problema

Problema: Tres bolas son elegidas al azar sin reemplazo desde una
urna conteniendo 20 bolas numeradas del 1 al 20. Si apostamos que
al menos una bola elegida tiene un número mayor o igual a 17, cuál
es la probabilidad de que ganemos la apuesta?

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 93 / 250


Clase 6: Variable aleatoria discreta

Solución: Definimos ε : “Elegir tres bolas al azar”


S = {{1, 2, 3}, {1, 2, 4}, . . . , {18, 19, 20}} (el orden no importa)
S es equiprobable. |S| = 20

3
Definimos la v.a. Y como el número de bolas extraı́das con número
mayor o igual a 17.
Y puede tomar los valores 0,1,2 y 3. Es decir RY = {0, 1, 2, 3}
Contemos los casos tales que Y = k. Es decir, que exactamente k
bolitas son mayores o iguales que 17. Los casos en que eso ocurre
pueden verse como elegir k bolitas de entre las 4 bolitas mayores y
luego elegir 3 − k bolitas de las 16 menores. Es decir
4
 16 
k 3−k
P(Y = k) = 20

3

Obtenemos P(Y ≥ 1) = 1 − P(Y < 1) = 1 − P(Y = 0) =


(4)(16) 16! 3!17! 14·15·16
1 − 0 20 3 = 1 − 3!13! 20! = 1 − 18·19·20
(3)
Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 94 / 250
Clase 6: Variable aleatoria discreta

Alternativa: ¿Y si hubieramos elegido S tal que el orden sı́ importa?


S = {(1, 2, 3), (1, 2, 4), . . . , (2, 1, 3), (2, 1, 4), . . . , (20, 19, 18)} (el
orden importa). S es equiprobable. |S| = 20 · 19 · 18
Contemos los casos tales que Y = k. Es decir, que exactamente k
bolitas son mayores o iguales que 17. Los casos en que eso ocurre
pueden verse como elegir primero las k posiciones donde colocamos
las bolas mayores (esto es k3 ) y luego en esas posiciones llenarlos con

4!
k de las 4 bolitas mayores (esto es (4−k)! ) y las otras 3 − k posiciones
16!
llenarlas con bolitas menores (de (16−(3−k))! maneras). Es decir

3 4! 16!

k (4−k)! (13+k)!
P(Y = k) = 20!
17!

(k4)(3−k
16
)
Comprueben que es lo mismo que antes (es decir 20 ) pero
(3)
escrito más feo.
Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 95 / 250
Clase 7: Esperanza y varianza

Clase 7: Esperanza y varianza

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 96 / 250


Clase 7: Esperanza y varianza

Esperanza

Definition
Sea Y una v.a. discreta con función de probabilidad p(y ). Entonces el
valor esperado de Y , E (Y ), se define como
X
E (Y ) = yp(Y )
y ∈RY

La esperanza es un promedio ponderado de los valores que puede


tomar Y
Nota: hay casos en que esta suma no es convergente, pero no los
estudiaremos en este curso.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 97 / 250


Clase 7: Esperanza y varianza

Función de una variable aleatoria

Recoredemos que la v.a. Y es una función. ¿Qué pasa si definimos una


nueva función g sobre los valores que puede tomar Y ? g : R → R.
Entonces la función g ◦ Y : S → R también es una variable aleatoria.
Ejemplo: Y 2
Supongamos que Y puede tomar los valores RY = {−2, 0, 2} con
probabilidad 1/3 cada uno.
RY 2 = {0, 4}.¿Cuál es la distribución de Y 2 ?
pY 2 (0) = 1/3 pY 2 (4) = 2/3

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 98 / 250


Clase 7: Esperanza y varianza

Esperanza de una función de una v.a.

Theorem
Sea Y una v.a. discreta con función de probabilidad p(y ) y sea g (Y ) una
función de valor real de Y . Entonces el valor esperado de g (Y ) es
X
E [g (Y )] = g (y )p(Y )
y ∈RY

El teorema dice que no es necesario calcular la distribución de g (Y )


para calcular su esperanza.
Continuando
P el ejemplo: 1 1 1 8
E [Y 2 ] = y ∈{−2,0,2} y 2 p(y ) = (−2)2 · 3 + 02 · 3 + 22 · 3 = 3
→ Comprobar calculando la esperanza de Y 2 por definición.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 99 / 250


Clase 7: Esperanza y varianza

Varianza

Theorem
Si Y es una v.a. con media E (Y ) = µ, la varianza de la v.a. Y se define
como el valor esperado de (Y − µ)2 . Esto es,

V (Y ) = E ((Y − µ)2 ).

La desviación estándar de Y es la raı́z cuadrada positiva de V (Y )

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 100 / 250


Clase 7: Esperanza y varianza

Propiedades de la esperanza

Theorem
Sea Y una v.a. discreta con función de probabilidad p(y ) y sea c una
constante. Entonces E (c) = c.

Una constante es cualquier valor que no varı́a cuando realizamos el


experimento.
Caso particular interesante: E (E (X )) = E (X ) pues la esperanza de X
no depende del resultado de X

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 101 / 250


Clase 7: Esperanza y varianza

Propiedades de la esperanza

Theorem
Sea Y una v.a. discreta con función de probabilidad p(y ), g (Y ) una
función de Y y c una constante. Entonces

E (cg (Y )) = cE (g (Y ))

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 102 / 250


Clase 7: Esperanza y varianza

Propiedades de la esperanza

Theorem
Sea Y una v.a. discreta con función de probabilidad p(y ) y sean
g1 (Y ), g2 (Y ) . . . gk (Y ) k funciones de Y . Entonces

E (g1 (Y ) + g2 (Y ) + . . . + gk (Y )) = E (g1 (Y )) + E (g2 (Y )) + . . . E (gk (Y ))

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 103 / 250


Clase 7: Esperanza y varianza

Fórmula de la varianza

Theorem
Sea Y una v.a. discreta con función de probabilidad p(y ) y media
E (Y ) = µ; entonces

V (Y ) = σ 2 = E ((Y − µ)2 ) = E (Y 2 ) − µ2

Dem: Pizarra
Esta fórmula es muy usada para calcula la esperanza

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 104 / 250


Clase 7: Esperanza y varianza

Propiedad de la varianza

Theorem
Si X es una variable aleatoria y a, b son constantes, entonces

V (aX + b) = a2 V (X )

Demostración: Pizarra

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 105 / 250


Clase 8: Variables aleatorias discretas usuales

Clase 8: Variables aleatorias discretas usuales

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 106 / 250


Clase 8: Variables aleatorias discretas usuales

Variable aleatoria de Bernoulli

Definition
Decimos que una v.a. discreta X sigue una distribución de Bernoulli de
parámetro p, si la distribución de X está dada por

pX (0) = 1 − p
pX (1) = p

En este caso denotamos X ∼ Bernoulli(p).

Ejemplos:
lanzar una moneda balanceada. Si X v.a. que sale 1 si cara y 0 si
sello, entonces X ∼ Bernoulli( 12 ).
lanzar un dado balanceado. Si Y v.a. que vale 0 si sale un seis y 1 si
no. Entonces X ∼ Bernoulli( 56 ).
Pizarra: Mostrar que esperanza es p y varianza p(1 − p).
Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 107 / 250
Clase 8: Variables aleatorias discretas usuales

Variable aleatoria binomial


Recordemos el ejemplo: Tirar una moneda no balanceada 5 veces
(probabilidad de cara 0,6). ¿Cual es la probabilidad de obtener
exactamente 2 caras?.
Ai : sale cara en lanzamiento i
P(Ai ) = 6/10 y P(Ai ) = 4/10
B : se obtienen exactamente dos caras. P(B) =?
Veamos la probabilidad de un evento simple en B:
E1 = (C , C , S, S, S) = A1 ∩ A2 ∩ A3 ∩ A4 ∩ A5 ∩ A6
Si suponemos, razonablemente, que cada tirada Ai es independiente:
6 2 4 3
P(E1 ) = P(A1 )P(A2 )P(A3 )P(A4 )P(A5 )P(A6 ) = ( 10 ) ( 10 )
Todos los eventos simples en B tienen la misma probabilidad:
6 2 4 3
( 10 ) ( 10 ) .
5!
= 52

¿Cuántos eventos simples contiene B? → 2!3!
Concluı́mos P(B) = 52 ( 10
 6 2 4 3
) ( 10 )
Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 108 / 250
Clase 8: Variables aleatorias discretas usuales

Variable aleatoria binomial


Definition
Decimos que una v.a. discreta X sigue una distribución binomial de
parámetros n ∈ N∗ y p ∈ [0, 1], si la distribución de X está dada por
 
n k
pX (k) = p (1 − p)n−k para todo k ∈ {0, 1, . . . , n}
k

En este caso denotamos X ∼ bin(n, p).

Ejemplos:
Ejemplo: lanzar 10 veces una moneda balanceada y definir X el
número de caras. Entonces X ∼ bin(10, 21 ).
Pizarra: Mostrar que esperanza de binomial es np y varianza
np(1 − p).

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 109 / 250


Clase 8: Variables aleatorias discretas usuales

Variable aleatoria binomial

Un experimento binomial presenta las siguientes propiedades:


1. Consiste en un número fijo, n, de pruebas idénticas.
2. Cada prueba resulta en uno de dos resultados: éxito, S, o fracaso, F .
3. La probabilidad de éxito en una sola prueba es igual a algún valor p y
es el mismo de una prueba a la otra. La probabilidad de fracaso es
igual a q = (1–p).
4. Las pruebas son independientes.
5. La variable aleatoria de interés es Y , el número de éxitos observado
durante las n pruebas.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 110 / 250


Clase 8: Variables aleatorias discretas usuales

Variable aleatoria binomial


Problema:
Suponga que un lote de 5000 fusibles eléctricos contiene 5 % de
piezas defectuosas. Si se prueba una muestra de 5 fusibles, encuentre
la probabilidad de hallar al menos uno defectuoso (Como el lote es
grande con respecto a la muestra, asuma que la proporción de piezas
defectuosas no cambia para cada fusible extraı́do en la muestra).
La experiencia ha demostrado que 30 % de todas las personas
afectadas por cierta enfermedad se recuperan. Una empresa fabricante
de medicamentos ha inventado una nueva medicina. Diez personas
con la enfermedad se seleccionaron al azar y recibieron la medicina;
nueve se recuperaron al poco tiempo. Suponga que la medicina no es
eficaz en absoluto. ¿Cuál es la probabilidad de que se recuperen al
menos nueve de entre diez que recibieron la medicina?

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 111 / 250


Clase 8: Variables aleatorias discretas usuales

Variable aleatoria binomial


104 Capítulo 3 Variables aleatorias discretas y sus distribuciones de probabilidad

F I G U R A 3.4 p ( y)
Histogramas
.40
de probabilidad
binomial .30
n = 10, p = .1
.20

.10

0
y
0 1 2 3 4 5 6 7 8 9 10
(a)
p ( y)

.25
n = 10, p = .5
.20

.15

.10

.05

0
y
0 1 2 3 4 5 6 7 8 9 10
(b)
p ( y)

.18
.16
.14
n = 20, p = .5
.12
.10
.08
.06
.04
.02

0
0 2 4 6 8 10 12 14 16 18 20 y

Vicente Acuña (CMM, Universidad de Chile) (c)


Prob. y Est. 112 / 250
Clase 8: Variables aleatorias discretas usuales

Variable aleatoria geométrica

Definition
Decimos que una v.a. discreta X sigue una distribución geométrica de
parámetro p ∈ [0, 1], si la distribución de X está dada por

pX (k) = (1 − p)k−1 p para todo k ∈ {1, 2, . . .}

En este caso denotamos X ∼ geom(p).

Ejemplos:
Ejemplo: lanzar sucesivamente un dado hasta obtener tres. X definido
como cuantas veces se lanza el dado. X ∼ geom( 61 )
1 1−p
Propuesto: Mostrar que la esperanza es p y varianza p2
.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 113 / 250


Endiscretas
Clase 8: Variables aleatorias la Figura p(y), p = .5. Las
3.5 se ilustra un histograma de probabilidad para
usuales
los intervalos corresponden a probabilidades, como correspondieron a las distrib
frecuencia de datos en el Capítulo 1, excepto que Y puede tomar sólo valores dis
Variable aleatoria geométrica 1, 2,… , q. Por inspección de los valores respectivos es obvio que p(y) ≥ 0 . En e
3.66 demostrará que estas probabilidades ascienden a 1, como se requiere para cua
tribución de probabilidad discreta válida.

FIGURA 3.5 p ( y)
La distribución .5
de probabilidad
geométrica, p = .5
.4

.3

.2

.1

0
1 2 3 4 5 6 7 8 y

W-cap-03.indd 115

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 114 / 250


Clase 8: Variables aleatorias discretas usuales

Variable aleatoria binomial negativa (Pascal)

Definition
Decimos que una v.a. discreta X sigue una distribución binomial negativa
de parámetros r ∈ N∗ y p ∈ [0, 1], si la distribución de X está dada por
 
k −1
pX (k) = (1 − p)k−r p r para todo k ∈ {r , r + 1, . . .}
r −1

En este caso denotamos X ∼ BN(r , p).

Ejemplos:
Ejemplo: lanzar sucesivamente un dado hasta obtener 10 veces tres.
X definido como cuantas veces se lanza el dado. X ∼ BN(10, 61 )
r r (1−p)
Propuesto: Mostrar que la esperanza es p y varianza p2
.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 115 / 250


Clase 8: Variables aleatorias discretas usuales

Variable aleatoria Poisson

Ejemplo motivador: Una máquina produce una gran cantidad de


fusibles continuamente durante 24 horas. Sabemos que en promedio
fabrica pocos fusibles defectuosos, digamos λ = 8 al dı́a. Sabemos que
los defectuosos se producen en cualquier momento, sin preferencia por
algún horario y que cuando se produce un defectuoso en un instante
no influye en lo que pueda suceder en cualquier otro instante de
tiempo. ¿Cuál es la probabilidad de que produzca 9 defectuosos?
Indicación: pensar en intervalos pequeños que contengan a lo más un
defectuoso.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 116 / 250


Clase 8: Variables aleatorias discretas usuales

Variable aleatoria Poisson

Si definimos la v.a. X número de defectuosos al dı́a, sólo sabemos que


E (X ) = λ.
Supongamos que separamos el dı́a en N intervalos muy pequeños
tales que: (1) es imposible que en cada intervalo se produzca más de
un defectuoso y (2) la probabilidad de fabricar un defectuoso en un
intervalo es independiente de los que suceda en otros intervalos.
Entonces la probabilidad de que produzca un defectuoso en el
intervalo i es Nλ y X es una binomial X ∼bin(N, Nλ ).
Es coherente pues E (X ) = N Nλ = λ.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 117 / 250


Clase 8: Variables aleatorias discretas usuales

Variable aleatoria Poisson

Ası́ la distribución de X es:


 
N λ k λ
P(X = k) = ( ) (1 − )N−k para k ∈ {0, 1, . . . , N}
k N N

Pero queda dependiente de un N correspondiente al número de


intervalos, que suponemos grande para que sólo pueda contener a lo
más un evento defectuoso.
Podemos hacer N → ∞ . . .
Veremos (pizarra) que :

λk
 
N λ k λ
lı́m ( ) (1 − )N−k = e −λ
n→∞ k N N k!

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 118 / 250


Clase 8: Variables aleatorias discretas usuales

Variable aleatoria Poisson

Definition
Decimos que una v.a. discreta X sigue una distribución de Poisson de
parámetro λ > 0, si la distribución de X está dada por

λk
pX (k) = e −λ para todo k ∈ {0, 1, 2, . . .}
k!
En este caso denotamos X ∼ Poisson(λ).

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 119 / 250


Clase 8: Variables aleatorias discretas usuales

Variable aleatoria Poisson

Ejemplos tı́picos: accidentes automovilı́sticos en una unidad de


tiempo, número de llamadas telefónicas recibidas en un intervalo,
número de partı́culas radiactivas que se desintegran en un periodo
particular, número de errores que comete una mecanógrafa al escribir
una página, número de automóviles que usan una rampa de acceso a
una autopista en un intervalo de diez minutos, etc.
El parámetro λ corresponde al promedio de eventos en el intervalo
considerado. En el ejemplo, λ = 8 era el promedio de bombillas
defectuosas en un dı́a. Algo importante es que si cambiamos el
intervalo de tiempo, λ cambia proporcionalmente. Ası́ si X es el
número de defectos en una semana, entonces X ∼ Poisson(7 × 8).
La distribución de Poisson se usa también como una manera de
aproximar el cálculo de la binomial para n grande p pequeña y λ = np
menor que 7, aproximadamente.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 120 / 250


Clase 8: Variables aleatorias discretas usuales

Variable aleatoria Poisson

Propuesto
Demostrar que la distribución de Poisson
P satisface la condición
(requerida para ser distribución): y ∈RY pY (y ) = 1 (Hint: use la
expansión en serie de e λ )
Demostrar que la esperanza de una v.a. de Poisson con parámetro λ
es λ (Hint: Busque formar la condición anterior)
Demostrar que la varianza también es λ (Hint: Encuentre
E (Y (Y − 1)) para calcular E (Y 2 ) )

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 121 / 250


Clase 9: Variables aleatorias continuas

Clase 9: Variables aleatorias continuas

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 122 / 250


Clase 9: Variables aleatorias continuas

Función de distribución (acumulada)


Hay variables aleatorias en el mundo real que podrı́an tomar cualquier
valor en un intervalo (suponiendo una medición perfecta): Agua caı́da
en un dı́a, vida util de una lavadora en años, altura de una persona,
etc.
Sin embargo no podemos asignar una probabilidad positiva a cada
punto del intervalo, pues queremos que el total de probabilidad sea 1.
Ası́ en el caso de variables aleatorias continuas usaremos un método
diferente. Antes de adentrarnos en este método definiremos para
cualquier variable aleatoria Y , la función de distribución acumulada o
simplemente función de distribución F (y )

Definition
Sea Y una variable aleatoria cualquiera. La función de distribución
(acumulada) de Y , denotada por F (y ) es tal que F (y ) = P(Y ≤ y ) para
−∞ < y < ∞
Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 123 / 250
Clase 9: Variables aleatorias continuas

Función de distribución caso discreto


4.2 Distribución de probabilidad para una var

F I G U R A 4.1 F(y)
Función de distribu-
ción binomial, 1
n = 2, p = 1/2
3/4

1/2

1/4

0 1 2 y

Ejemplo, binomial(2, 0.5).


Todas las v.a. discretas son funciones
¿Cuál es F(–2) =de P(Y“escalón”.
≤ –2)? Como Los saltos
los únicos son deenY a lo
valores
des positivas positiva.
los puntos donde hay probabilidad son 0, 1 y 2 yElninguno
valor deenestos
esosvalores son menore
puntos es
usamos
el lı́mite por la derecha. Los una lógica
saltos suman 1. F(y) = 0 para toda y < 0. ¿Cuál es F
similar,
Y que son menores o iguales a 1.5 y tienen probabilidades dife
Vicente Acuña (CMM, Universidad de Chile) 0 y 1.Prob.
Por yloEst.
que, 124 / 250
Clase 9: Variables aleatorias continuas

Propiedades de una función distribución F (y )

Theorem
Si F (y ) es una función de distribución de la variable aleatoria Y entonces
1 lı́my →−∞ F (y ) = 0
2 lı́my →∞ F (y ) = 1
3 F (y ) es no decreciente en y .
4 F (y ) es continua por la derecha.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 125 / 250


Clase 9: Variables aleatorias continuas

Variables aleatorias continuas

En el caso de una variable aleatoria continua queremos asignar


probabilidades no a puntos especı́ficos sino que a intervalos.
Ası́, la función de distribución F (y ) no puede contener saltos, pero si
puede tener una pendiente creciente.

Definition
Una variable aleatoria Y con función de distribución F (y ) se dice continua
si F (y ) es continua (y derivable en “casi todos los puntos”), para
−∞ < y < ∞

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 126 / 250


Por tanto,
Clase 9: Variables aleatorias llegamos a la definición de una variable aleatoria continua.
continuas

D E F I N I C I Ó N 4.2 Una variable aleatoria Y con función de distribución F(y) se dice que es continua si F(y)
Función distribución para v.a. continuas es continua, para –q < y < q.2

F I G U R A 4.2 F(y)
Función de distribución
para una variable
aleatoria continua 1

F(y2)

F(y1)

0 y1 y2 y

La probabilidad de que Y caiga en un intervalo (y1 , y2 ) es


exactamente F (y2 ) − F (y1 ). 1. Para ser matemáticamente rigurosos, si F(y) es una función de distribución válida, entonces F(y) también debe
ser continua.
La pendiente indica cuanto crece la probabilidad en ese punto. Es una
2. Para ser matemáticamente precisos, también necesitamos que exista la primera derivada de F(y) y que sea conti-
nua excepto para, a lo sumo, un número finito de puntos en cualquier intervalo finito. Las funciones de distribución
densidad de probabilidad. para las variables aleatorias continuas estudiadas en este texto satisfacen este requisito.

Una v.a. que no es discreta, no necesariamente es continua. Podrı́a


W-cap-04.indd 160 27/7/09 02:25:31

por ejemplo tener pendientes en algunos puntos y saltos en otros (es


mixta, no lo veremos en el curso)
Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 127 / 250
Clase 9: Variables aleatorias continuas

Función densidad de probabilidad

Definition
Sea F (y ) la función de distribución para una v.a. continua Y . Entonces
f (y ), dada por
dF (y )
f (y ) = = F 0 (y )
dy
siempre que exista la derivada, se denomina función de densidad de
probabilidad para la variable aleatoria Y .

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 128 / 250


frecuencia relativa (una curva suave) que caracterizaría la
Clase 9: Variables aleatorias continuas
cante. Esta distribución teórica de frecuencia relativa corres
Variables aleatorias continuaspara la duración de vida de una sola máquina
probabilidad

F I G U R A 4.3 f ( y)
La función
de distribución

F ( y0 )

y0 y

La función de distribución y la densidad se relacionan por el teorema


fundamental del cálculo:
-cap-04.indd 161
Z y
F (y ) = f (t)dt.
−∞

La densidad es un modelo teórico de la frecuencia de un evento: es el


histograma si pudiéramos repetir un experimento infinitas veces.
Obviamente f (y ) es no negativa e integra 1 en el los reales.
Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 129 / 250
Clase 9: Variables aleatorias continuas

Propiedades de una función de densidad

Theorem
Si f (y ) es una función de densidad para una variable aleatoria continua,
entonces
1. f (y ) ≥ 0 para todo y tal que −∞ < y < ∞.
R∞
2. −∞ f (y )dy = 1.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 130 / 250


bajo la función de densidad f(y). Esto de hecho es verdad porque, si a < b,
Clase 9: Variables aleatorias continuas

b
Variables aleatorias continuas
P(a < Y ≤ b) = P(Y ≤ b) − P(Y ≤ a) = F(b) − F(a) =
a

Como P(Y = a) = 0, tenemos el siguiente resultado.


Theorem
Si la variable aleatoria
TE O R E MA 4.3 Y tiene densidad
Si la variable f (y
aleatoria ) y función
Y tiene a < b,de entonces
densidad f (y)la
y a < b, entonces
probabilidad de que Y caiga dad en
de que caiga en el intervalo
el Yintervalo [a, b] es[a, b] es
b
Z b P ≤ Y ≤ b) !
P(a f ( y) dy.
a
P(a ≤ Y ≤ b) = f (y )dy .
a
Esta probabilidad es el área sombreada de la Figura 4.8.

F I G U R A 4.8 f (y)
P (a ≤ Y ≤ b)

0 a b y

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 131 / 250


Clase 9: Variables aleatorias continuas

Ojo con los nombres

Atención: Muchas veces diremos “distribución” cuando en realidad se


entrega una densidad. Esto es porque en cierto modo son equivalentes
en la información que entregan. Basta la densidad para obtener la
distribución. Lo que es más estándar es que la distribución
(acumulada) siempre se denota por F (y ) (en mayúscula) en cambio
la densidad se denota por f (y ) (en minúscula).
Por ejemplo los resúmenes de distribuciones continuas en realidad
señalan tı́picamente las densidades. En cambio las tablas con valores
especı́ficos indican las distribuciones (acumuladas).
En cualquier caso, es fácil darse cuenta simplemente por las
propiedades que debiera tener (por ejemplo la distribución es
creciente y en el infinito debiera tender a uno, en cambio la densidad
tiende a cero).

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 132 / 250


Clase 9: Variables aleatorias continuas

Valor esperado de una v.a. continua

Muchas de las definiciones que vimos para variables aleatorias


discretas se tienen en las variables aleatorias continuas siplemente
reemplazando las sumatorias por integrales

Definition
El valor esperado de una variable aleatoria continua Y es
Z ∞
E (Y ) = yf (y )dy
−∞

siempre que exista la integral.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 133 / 250


Clase 9: Variables aleatorias continuas

Valor esperado de una función de v.a. continua

Theorem
Sea g (Y ) una función de Y ; entonces el valor esperado de g (Y ) esta dado
por Z ∞
E (Y ) = g (y )f (y )dy
−∞
siempre que exista la integral.

Es decir que no es necesario calcular la densidad de g (Y ) para


calcular su esperanza.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 134 / 250


Clase 9: Variables aleatorias continuas

Propiedades de la esperanza

Theorem
Sea c una constante y sean g (Y ), g1 (Y ), g2 (Y ), ..., gk (Y ) funciones de
una variable aleatoria continua Y . Entonces se cumplen los siguientes
resultados:
1. E (c) = c.
2. E (cg (Y )) = cE (g (Y )).
3. E [g1 (Y )+g2 (Y )+. . .+gk (Y )] = E [g1 (Y )]+E [g2 (Y )]+. . .+E [gk (Y )].

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 135 / 250


Clase 10: Variables aleatorias continuas usuales I

Clase 10: Variables aleatorias continuas usuales I

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 136 / 250


Clase 10: Variables aleatorias continuas usuales I

Distribución uniforme

Definition
Si θ1 < θ2 , se dice que una variable aleatoria Y tiene distribución de
probabilidad uniforme en el intervalo (θ1 , θ2 ) si y sólo si la función de
densidad de Y es
(
1
θ 1 ≤ y ≤ θ2
f (y ) = θ2 −θ1
0 en cualquier otro punto.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 137 / 250


N 4.6
D E F I NIC IÓClase Si u1 < continuas
10: Variables aleatorias
u2, se dice que una variable aleatoria Y tiene distribución de prob
usuales I
forme en el intervalo (u1, u2) si y sólo si la función de densidad de Y es
Distribución uniforme 1
, u 1 ≤ y ≤ u2 ,
f ( y) = u2 − u1
0, en cualquier otro punto.

F I G U R A 4.9 f(y)
Función de
densidad para Y

A1 A2

0 1 2 3 4 5 6 7 8 9 10 y

04.indd 174

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 138 / 250


Clase 10: Variables aleatorias continuas usuales I

Esperanza y varianza de distribución uniforme

Theorem
Si θ1 < θ2 e Y es una variable alatoriauniforme distribuida en el intervalo
(θ1 , θ2 ), entonces

θ1 + θ2 2 (θ2 − θ1 )2
176 Capítulo 4 µ = E (Y ) = y σ = V (Y
Variables continuas y sus distribuciones de probabilidad ) = .
2 12

TE O RE MA 4.6 Si u1 < u2 y Y es una variable aleatoria uniformemente distribuida en el intervalo


(u1, u2), entonces

u1 + u2 (u2 − u1 ) 2
m = E (Y ) = y s2 = V (Y ) = .
2 12
Prueba Por la Definición 4.5,
q
E(Y ) = y f ( y) dy
−q

Vicente Acuña (CMM, Universidad de Chile) u2


Prob. y Est.1 139 / 250
Clase 10: Variables aleatorias continuas usuales I

4.5aleatorias
Variables La distribución de probabilidad normal
continuas
La distribución de probabilidad continua que más se utiliza es la distribución normal, con la
conocida forma de campana que estudiamos en relación con la regla empírica. Los ejemplos
y ejercicios de esta sección ilustran algunas de las numerosas variables aleatorias que tienen
distribuciones que se calculan en forma muy cercana por medio de una distribución de proba-
bilidad normal. En el Capítulo 7 presentaremos un argumento que explica, al menos parcial-
mente, el suceso común de distribuciones normales de datos en la naturaleza. La función de
densidad normal es como sigue:

DE F INI C IÓN 4.8 Se dice que una variable Y tiene una distribución normal de probabilidad si y sólo si,
para s > 0 y –q < m < q, la función de densidad de Y es
1 2
%(2s2 )
f ( y) = e−( y−m) , −q < y < q .
s√2p

Observe que la función de densidad normal contiene dos parámetros, m y s.

T E O REM A 4.7 Si Y es una variable aleatoria normalmente distribuida con parámetros m y s, entonces

E(Y) = m y V(Y) = s2.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 140 / 250


bilidad normal. En el Capítulo 7 presentaremos un argumento que explica, al menos parcial-
mente, aleatorias
Clase 10: Variables el sucesocontinuas
común de distribuciones
usuales I normales de datos en la naturaleza. La función de
densidad normal es como sigue:
Variables aleatorias continuas
D E F I N IC IÓ N 4.8 Se dice que una variable Y tiene una distribución normal de probabilidad si y sólo si,
para s > 0 y –q < m < q, la función de densidad de Y es
1 2
%(2s2 )
f ( y) = e−( y−m) , −q < y < q .
s√2p

Observe que la función de densidad normal contiene dos parámetros, m y s.

TE OR E MA 4.7 Si Y es una variable aleatoria normalmente distribuida con parámetros m y s, entonces

E(Y) = m y V(Y) = s2.

cap-04.indd 178 27/7/09 0

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 141 / 250


Clase 10: Variables aleatorias continuas usuales I

Variables aleatorias continuas

4.5 La d

F I G U R A 4.10 f (y)
La función
de densidad de
probabilidad normal

! y

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 142 / 250


Clase 10: Variables aleatorias continuas usuales I

de densidad normal correspondiente


Variables aleatorias continuas

b
1 −( y−m) 2$( 2s2 )
e dy.
a s√2p

existe una expresión de forma cerrad


Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 143 / 250
asociados
Clase 10: Variables con variables
aleatorias aleatorias
normalmente distribuidas también se pueden hallar
continuas usuales I
la aplicación breve (applet) Normal Tail Areas and Quantiles accesibles en www.thoms
com/statistics/wackerly. El único beneficio real obtenido al usar software para obten
Variables aleatorias continuas
babilidades y cuantiles asociados con variables aleatorias normalmente distribuidas, es
software da respuestas que son correctas hasta un gran número de lugares decimales.
La función de densidad normal es simétrica alrededor del valor m, de modo que la
tienen que ser tabuladas en sólo un lado de la media. Las áreas tabuladas están a la d
de los puntos z, donde z es la distancia desde la media, medida en desviaciones estánd
área está sombreada en la Figura 4.11.

EJEMPLO 4.8 Denote con Z una variable aleatoria normal con media 0 y desviación estándar 1.

a Encuentre P( Z > 2).


b Encuentre P(−2 ≤ Z ≤ 2).
c Encuentre P(0 ≤ Z ≤ 1.73).

179

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 144 / 250


Clase 10: Variables aleatorias continuas usuales I

Variables aleatorias continuas

180 Capítulo 4 Variables continuas y sus distribuciones de probabilidad

F I G U R A 4.11 f (y)
Área tabulada para la
función de densidad
normal

! ! + z" y
z"

Solución a Como m = 0 y s = 1, el valor 2 está en realidad


Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 145 / 250
Clase 10: Variables aleatorias continuasP(0 ≤ ZI
usuales ≤ 1.73) = .5 − .0418 = .4582.

Variables
F I G U R A 4.12
aleatorias continuas
Área deseada para el
Ejemplo 4.8(b)

A2 A1
–2 0 2 y

EJEMPLO 4.9 Las calificaciones para un examen de admisión a una universidad están normalmente dis-
tribuidas con media de 75 y desviación estándar 10. ¿Qué fracción de las calificaciones se
encuentra entre 80 y 90?

Solución Recuerde que z es la distancia desde la media de una distribución normal expresada en unida-
des de desviación estándar. Entonces,

y −m
z= .
s

.indd 180 27/7/09 02:

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 146 / 250


Clase 10: Variables aleatorias continuas usuales I

Variables aleatorias continuas

F I G U R A 4.13
Área requerida para
el Ejemplo 4.9

A
0 .5 1.5 z

Entonces la fracción deseada de la población


Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 147 / 250
conforme
Clase 10: Variables y aumenta.
aleatorias En usuales
continuas la Figura
4.15 se muestra una función de densidad de probabilidad
I
sesgada.
Los intervalos de tiempo entre mal funcionamiento de motores de aviones poseen una dis-
Variables aleatorias continuas
tribución de frecuencia sesgada, al igual que los intervalos de llegada en una fila de espera en
las cajas de un supermercado (esto es, la fila de espera para llegar a la caja a pagar). Del mismo
modo, los intervalos de tiempo para completar una revisión de mantenimiento para un motor
de automóvil o de avión poseen una distribución de frecuencia sesgada. La población asociada
con estas variables aleatorias posee con frecuencia funciones de densidad que son modeladas
de manera adecuada por una función de densidad gamma.

DE F IN IC IÓN 4.9 Se dice que una variable aleatoria Y tiene una distribución gamma con parámetros
a > 0 y b > 0 si y sólo si la función de densidad de Y es

y a−1 e−y/b
, 0 ≤ y < q,
f ( y) = ba
0, en cualquier otro punto,

donde
q
= y a−1 e−y dy.
0

La cantidad Γ(a) se conoce como función gamma. La integración directa verificará que
Γ(1) = 1. La integración por partes verifica que = (a − 1 − 1) para cualquier a > 1
y que Γ(n) = (n – 1)!, siempre que n sea un entero.
En la Figura 4.16 se dan gráficas de funciones de densidad gamma para a = 1, 2 y 4 y
b = 1. Observe en la Figura 4.16 que la forma de la densidad gamma difiere para los diferen-
tes valores de a. Por esta razón, a recibe a veces el nombre de parámetro de forma asociado
Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 148 / 250
Clase 11: Variables aleatorias continuas usuales II

Clase 10: Variables aleatorias continuas usuales II

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 149 / 250


Clase 11: Variables aleatorias continuas usuales II

Distribución Gamma en R project

#Plot gamma distributions varying the shape parameter (alpha).


x <- seq(0, 15, length=200)
hx <- dgamma(x, shape=2, rate=1/2)
plot(x, hx, type="l", yaxs="i", xaxs="i", ylim=c(0,0.6),
xlim=c(0,10), xlab="x value", ylab="Density",
main="Probability density for gamma distribution
with variable alpha and beta=2", lwd=5)
colors <- c("red","blue", "darkgreen", "black", "purple",
"orange")
alphas <- c(0.5, 1, 1.3, 2, 3, 4)
labels <- c("alpha=0.5", "alpha=1",
"alpha=1.3", "alpha=2", "alpha=3", "alpha=4")
for(i in 1:length(alphas)) {
hx <- dgamma(x, shape=alphas[i], rate=1/2)
lines(x, hx, lwd=3, col=colors[i])}
legend("topright", inset=.05, title="Probability densities",
labels, lwd=3, col=colors)
Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 150 / 250
Clase 11: Variables aleatorias continuas usuales II

Distribución Gamma en R project


Probability density for gamma distribution
with variable alpha and beta=2

0.6 Probability densities


alpha=0.5
0.5

alpha=1
alpha=1.3
alpha=2
alpha=3
alpha=4
0.4
Density

0.3
0.2
0.1
0.0

0 2 4 6 8 10

x value
Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 151 / 250
Clase 11: Variables aleatorias continuas usuales II

Distribución Gamma en R project

#Plot gamma distributions varying the rate parameter (beta).


x <- seq(0, 15, length=200)
hx <- dgamma(x, shape=2, rate=1/2)
plot(x, hx, type="l", yaxs="i", xaxs="i", ylim=c(0,0.6),
xlim=c(0,10), xlab="x value", ylab="Density",
main="Probability density for gamma distribution
with alpha=2 and variable beta", lwd=5)
colors <- c("red", "blue", "black", "darkgreen", "purple",
"orange")
betas <- c(0.5, 1, 2, 3, 4, 8)
labels <- c("beta=0.5", "beta=1",
"beta=2", "beta=3", "beta=4", "beta=8")
for(i in 1:length(betas)) {
hx <- dgamma(x, shape=2, rate=1/betas[i])
lines(x, hx, lwd=3, col=colors[i])}
legend("topright", inset=.05, title="Probability densities",
labels, lwd=3, col=colors)
Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 152 / 250
Clase 11: Variables aleatorias continuas usuales II

Distribución Gamma en R project


Probability density for gamma distribution
with alpha=2 and variable beta

0.6 Probability densities


beta=0.5
0.5

beta=1
beta=2
beta=3
beta=4
beta=8
0.4
Density

0.3
0.2
0.1
0.0

0 2 4 6 8 10

x value
Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 153 / 250
Clase 11: Variables aleatorias continuas usuales II

Distribución Gamma en R project


x <- seq(0, 15, length=200)
hx <- dgamma(x, shape=2, rate=1/2)
plot(x, hx, type="l", yaxs="i", xaxs="i", ylim=c(0,0.6),
xlim=c(0,10), xlab="x value", ylab="Density",
main="Probability density for gamma distributions
with mean 4", lwd=5)
colors <- c("red", "blue", "darkgreen", "black", "purple",
"orange")
alphas <- c(0.5, 1, 1.33, 2, 4, 20)
betas <- c(8, 4, 3, 2, 1, 0.2)
labels <- c("alpha=0.5 beta=8", "alpha=1 beta=4",
"alpha=1.33 beta=3", "alpha=2 beta=2",
"alpha=4 beta=1", "alpha=20 beta=0.2")
for(i in 1:length(alphas)) {
hx <- dgamma(x, shape=alphas[i], rate=1/betas[i])
lines(x, hx, lwd=3, col=colors[i])}
legend("topright", inset=.05, title="Probability densities",
labels, lwd=3, col=colors)
Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 154 / 250
Clase 11: Variables aleatorias continuas usuales II

Distribución Gamma en R project


Probability density for gamma distributions
with mean 4
0.6

Probability densities
alpha=0.5 beta=8
alpha=1 beta=4
alpha=1.33 beta=3
alpha=2 beta=2
0.5

alpha=4 beta=1
alpha=20 beta=0.2
0.4
Density

0.3
0.2
0.1
0.0

0 2 4 6 8 10

x value

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 155 / 250


rma cerrada para
Clase 11: Variables aleatorias continuas usuales II

Variables aleatorias continuas

d
y a−1 e−y"b
dy.
c ba
Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 156 / 250
S–Plus) genera P(Y ≤ y ), mientras que qgamma(q,a,1"b) da el p–ésimo cu
0 II
Clase 11: Variables aleatorias continuas usuales
de fp tal que P(Y ≤ fp) = p. Además, una de las aplicaciones breves, Gamma
and Quantiles, accesible en www.thomsonedu.com/statistics/wackerly, se pu
Variables aleatorias continuas
determinar probabilidades y cuantiles asociados con variables aleatorias de di
mma. Otra aplicación breve en la página web de Thomson, Comparison of Ga
Functions, permitirá visualizar y comparar funciones de densidad gamma con d
res para a y/o b. Estas aplicaciones breves se usarán para contestar algunos de
del final de esta sección.
Como se indica en el siguiente teorema, la media y la varianza de variables
distribución gamma son fáciles de calcular.

TE O REMA 4.8 Si Y tiene una distribución gamma con parámetros a y b, entonces

m = E(Y ) = ab y s2 = V (Y ) = ab2 .

04.indd 186

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 157 / 250


0 b b 0
Clase 11: Variables aleatorias continuas usuales II
1 b 2 (α + 1
= a
[b a+2 + 2)] = = α(α + 1)b 2.
b
Variables aleatorias continuas
Entonces V(Y) = E[Y2]–[E(Y)]2, donde, desde la primera parte de la derivación,
E(Y) = ab. Sustituyendo E[Y2] y E(Y) en la fórmula para V(Y), obtenemos

V (Y ) = a(a + 1)b 2 − (ab )2 = a2 b 2 + ab2 − a2 b2 = ab2

Dos casos especiales de variables aleatorias con distribución gamma ameritan considera-
ción particular.

DE F INI CIÓ N 4.10 Sea ν un entero positivo. Se dice que una variable aleatoria Y tiene distribución
ji cuadrada con ν grados de libertad si y sólo si Y es una variable aleatoria con distribu-
ción gamma y parámetros a = ν/2 y b = 2.

Una variable aleatoria con distribución ji cuadrada se denomina variable aleatoria


(χ2) ji cuadrada. Estas variables aleatorias se presentan con frecuencia en teoría estadística.
La motivación que hay detrás de llamar al parámetro ν como grados de libertad de la distri-
bución χ2 se apoya en una de las principales formas de generar una variable aleatoria con esta
distribución y se da en el Teorema 6.4. La media y la varianza de una variable aleatoria χ2
provienen directamente del Teorema 4.8.

p-04.indd 187 27/7/09 02:2

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 158 / 250


Clase 11: Variables aleatorias continuas usuales II

Variables aleatorias continuas

188 Capítulo 4 Variables continuas y sus distribuciones de probabilidad

TE O RE MA 4.9 Si Y es una variable aleatoria ji cuadrada con ν grados de libertad, entonces

m = E(Y) = ν y s2 = V(Y) = 2ν.

Demostración Aplique el Teorema 4.8 con a = ν#2 y b = 2.

En casi todos los textos de estadística se pueden ver tablas que dan probabilidades as
con distribuciones χ2. La Tabla 6, Apéndice 3, da puntos porcentuales asociados con d
ciones χ2 para numerosas opciones de ν. No se dispone fácilmente de tablas de la distr
gamma general, pero demostraremos en el Ejercicio 6.46 que si Y tiene una distribución
con a = n/2 para algún entero n, entonces 2Y/b tiene una distribución χ2 con n gra
libertad. De ahí que, por ejemplo, si Y tiene una distribución gamma con a = 1.5 =
b = 4, entonces 2Y/b = 2Y/4 = Y/2 tiene una distribución χ2 con 3 grados de libertad. En
Vicente Acuña P(Y <de3.5)
(CMM, Universidad = P([Y/2] < 1.75)
Chile) Prob. se
y Est. 159χ2/ de
puede hallar usando tablas de la distribución 250las
Clase 11: Variables aleatorias continuas usuales II
En casi todos los textos de estadística se pueden ver tablas que dan probabilidades asociadas
con distribuciones χ2. La Tabla 6, Apéndice 3, da puntos porcentuales asociados con distribu-
Variables aleatorias continuas
ciones χ2 para numerosas opciones de ν. No se dispone fácilmente de tablas de la distribución
gamma general, pero demostraremos en el Ejercicio 6.46 que si Y tiene una distribución gamma
con a = n/2 para algún entero n, entonces 2Y/b tiene una distribución χ2 con n grados de
libertad. De ahí que, por ejemplo, si Y tiene una distribución gamma con a = 1.5 = 3/2 y
b = 4, entonces 2Y/b = 2Y/4 = Y/2 tiene una distribución χ2 con 3 grados de libertad. Entonces,
P(Y < 3.5) = P([Y/2] < 1.75) se puede hallar usando tablas de la distribución χ2 de las que se
puede disponer fácilmente.
La función de densidad gamma en la que a = 1, se llama función de densidad exponen-
cial.

DE F IN IC IÓ N 4.11 Se dice que una variable aleatoria Y tiene una distribución exponencial con parámetro
b > 0 si y sólo si la función de densidad de Y es
1 −y#b
e , 0 ≤ y < ∞,
f ( y) = b
0, en cualquier otro punto.

La función de densidad exponencial a menudo es de ayuda para modelar la vida útil de


componentes electrónicos. Suponga que el tiempo que ya ha operado un componente no afec-
ta su probabilidad de operar durante al menos b unidades de tiempo adicionales. Esto es, la
probabilidad de que el componente opere durante más de a + b unidades de tiempo, dado que
ya ha operado durante al menos a unidades de tiempo, es la misma que la probabilidad de
que un componente nuevo opere al menos b unidades de tiempo si el componente nuevo se
pone en servicio en el tiempo 0. Un fusible es un ejemplo de un componente para el cual
a veces esta suposición es razonable. Veremos en el siguiente ejemplo que la distribución
exponencial proporciona un modelo para la distribución de la vida útil de ese componente.
Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 160 / 250
Clase 11: Variables aleatorias continuas usuales II
La función de densidad exponencial a menudo es de ayuda para modela
componentes electrónicos. Suponga que el tiempo que ya ha operado un com
Variables aleatorias continuas
ta su probabilidad de operar durante al menos b unidades de tiempo adicion
probabilidad de que el componente opere durante más de a + b unidades de t
ya ha operado durante al menos a unidades de tiempo, es la misma que la
que un componente nuevo opere al menos b unidades de tiempo si el comp
pone en servicio en el tiempo 0. Un fusible es un ejemplo de un compone
a veces esta suposición es razonable. Veremos en el siguiente ejemplo qu
exponencial proporciona un modelo para la distribución de la vida útil de e

TE O R E M A 4.10 Si Y es una variable aleatoria exponencial con parámetro b, entonces

m = E(Y) = b y s2 = V(Y) = b2.

Demostración La demostración se sigue directamente del Teorema 4.8 con a = 1.

EJ E MP L O 4.10 Suponga que Y tiene una función de densidad de probabilidad exponencial. D


a > 0 y b > 0,
P(Y > a + b)Y > a) = P(Y > b).

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 161 / 250


ya ha operado durante al menos a unidades de tiempo, es la misma que la probabilidad de
Clase 11: que
Variables aleatorias continuas
un componente nuevo usuales II
opere al
menos b unidades de tiempo si el componente nuevo se
pone en servicio en el tiempo 0. Un fusible es un ejemplo de un componente para el cual
a veces esta suposición es razonable. Veremos en el siguiente ejemplo que la distribución
Variables aleatorias continuas
exponencial proporciona un modelo para la distribución de la vida útil de ese componente.

TE O RE MA 4.10 Si Y es una variable aleatoria exponencial con parámetro b, entonces

m = E(Y) = b y s2 = V(Y) = b2.

Demostración La demostración se sigue directamente del Teorema 4.8 con a = 1.

E J E MPL O 4.10 Suponga que Y tiene una función de densidad de probabilidad exponencial. Demuestre que, si
a > 0 y b > 0,
P(Y > a + b)Y > a) = P(Y > b).

-04.indd 188 27/7/09 02:2

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 162 / 250


La distribución de probabilidad beta
Clase 11: Variables aleatorias continuas usuales II

La función de densidad beta es una función de densidad de dos parámetros definida sobre
Variables aleatorias continuas
el intervalo cerrado 0 ≤ y ≤ 1. Frecuentemente se usa como modelo para proporciones, por
ejemplo como la proporción de impurezas en un producto químico o la proporción de tiempo
que una máquina está en reparación.

Se dice que una variable aleatoria Y tiene una distribución de probabilidad beta con
parámetros a > 0 y b > 0 si y sólo si la función de densidad de Y es

y a−1 (1 − y) b−1
, 0 ≤ y ≤ 1,
f ( y) = B(α , b)
0, en cualquier otro punto,
donde

1
a b
B (α, b) = y a−1 (1 − y) b−1 dy = .
0 a + b)

Las gráficas de funciones de densidad beta toman formas muy diferentes para diversos
valores de los dos parámetros a y b. Algunos de éstos se muestran en la Figura 4.17. Ciertos
Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 163 / 250
Clase 11: Variables aleatorias continuas usuales II

Variables aleatorias continuas


4.7 La distribución de probab

F I G U R A 4.17 f ( y)
Funciones de
densidad beta ! =5
" =3
! =3
" =3

! =2
" =2

0 1 y

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 164 / 250


La función
Clase 11: Variables de distribución
aleatorias acumulativa
continuas usuales II binomial se presenta en la Tabla 1, Apéndice 3, para n
= 5, 10, 15, 20 y 25 y p = .01, .05, .10, .20, .30, .40, .50, .60, .70, .80, .90, .95 y .99. El modo
más eficiente de obtener probabilidades binomiales es usar un software de estadística como
Variables aleatorias continuas
el R o S–Plus (vea el Capítulo 3). Una forma incluso más fácil para hallar probabilidades y
cuantiles asociados con variables aleatorias de distribución beta es usar directamente software
apropiado. La página web de Thomson contiene una aplicación breve, Beta Probabilities,
que proporciona probabilidades de “cola superior” [es decir, P(Y > y0)] y cuantiles asociados
con variables aleatorias con distribución beta. Además, si Y es una variable aleatoria con dis-
tribución beta y parámetros a y b, el comando pbeta(y0, a, 1$b) de R (o S–Plus) genera
P(Y ≤ y0), mientras que qbeta(p, a, 1$b ) da el p–ésimo cuantil, el valor de fp de manera
que P(Y ≤ fp) = p.

T E O R E M A 4.11 Si Y es una variable aleatoria con distribución beta a > 0 y b > 0, entonces

a ab
m = E(Y ) y s 2 = V (Y ) = .
a +b (a +b ) 2 (a + b + 1)

indd 195 27/7/09 02:25

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 165 / 250


Clase 12: Función generadora de momento y Teo. de Tchebysheff

Clase 12: Función generadora de momento y Teo. de Tchebysheff

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 166 / 250


Clase 12: Función generadora de momento y Teo. de Tchebysheff

Función generadora de momento

Consideremos una variable aleatoria discreta o continua. La esperanza


µ y la varianza σ 2 son medidas descriptivas de la distribución de la
v.a., pero en ningún caso la definen completamente. Muchas
distribuciones diferentes pueden tener la misma esperanza y varianza.
Vamos a ver un conjuntos de medidas descriptivas que (al menos en
ciertas condiciones) definen una distribución de manera única. Estas
medidas corresponden a “los momentos” de la distribución.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 167 / 250


Clase 12: Función generadora de momento y Teo. de Tchebysheff

Función generadora de momento

Definition
El k-ésimo momento de una variable aleatoria Y se define como E (Y k ) y
se denota por µ0k .

Primer momento: µ01 = E (Y ) = µ


Segundo momento: µ02 = E (Y 2 ) = σ 2 + µ2
Bajo ciertas condiciones, si X e Y son dos v.a. con igual valor para
todos los momentos (i.e. µ0iX = µ0iY para todo i = {1, 2, . . .})
entonces X e Y tienen la misma distribución de probabilidad.
Podemos “resumir” todos los momentos de una v.a. en una sola
función: la función generadora de momento.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 168 / 250


Clase 12: Función generadora de momento y Teo. de Tchebysheff

Función generadora de momento

Definition
La función generadora de momento m(t) para una variable aleatoria Y se
define como m(t) = E (e tY ). Decimos que una función generadora de
momento para Y existe si existe una constante positiva b tal que m(t) es
finita para |t| ≤ b.

Veamos (pizarra) que la f.g.m. -si existe- es igual a:

t2 0 t3
E (e tY ) = 1 + tµ01 + µ2 + µ03 + . . .
2! 3!
Es decir que efectivamente contiene todos los momentos de Y

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 169 / 250


Clase 12: Función generadora de momento y Teo. de Tchebysheff

Función generadora de momento

Theorem
Si m(t) existe, entonces para cualquier entero positivo k,
#
d k m(t)
= m(k) (0) = µ0k ,
dt k
t=0

En otras palabras, si calculamos la k-ésima derivada de m(t) con respecto


a t y luego evaluamos t = 0, el resultado será µ0k .

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 170 / 250


Clase 12: Función generadora de momento y Teo. de Tchebysheff

Función generadora de momento

Ejemplo variable discreta:


Encuentre la función generadora de momento m(t) para una variable
aleatoria con distribución de Poisson y media λ.
Encontrar a partir de la f.g.m. la esperanza y varianza de la v.a. de
Poisson.
Suponga que Y es una variable aleatoria con función generadora de
t
momento mY (t) = e 3.2(e −1) ¿Cuál es la distribución de Y ?

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 171 / 250


Clase 12: Función generadora de momento y Teo. de Tchebysheff

Función generadora de momento

Ejemplo variable continua:


Encuentre la función generadora de momento m(t) para una variable
aleatoria con distribución gamma.
Encontrar a partir de la f.g.m. la esperanza y varianza de la v.a.
gamma.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 172 / 250


Clase 12: Función generadora de momento y Teo. de Tchebysheff

Función generadora de momento

Tı́picamente los resúmenes de las variables aleatorias discretas y


continuas más comunes incluyen la f.g.m. de la distribución

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 173 / 250


de probabilidad común
Clase 12: Función generadora de momento y Teo. de Tchebysheff

v.a. discretas: distribución, media, varianza y fgm.

Tabla 1 Distribuciones discretas

Función
generadora
Distribución Función de probabilidad Media Varianza de momento

Binomial p( y) = n
y
p y (1 − p) n−y ; np np(1 − p) [ pet + (1 − p)]n
y = 0, 1, . . . , n

1 1−p pet
Geométrica p( y) = p(1 − p) y−1 ;
p p2 1 − (1 − p)et
y = 1, 2, . . .

r N −r
y n−y nr r N −r N −n No existe en
Hipergeométrica p( y) = ; n
N
N N N N −1 forma cerrada
n

y = 0, 1, . . . , n si n ≤ r ,
y = 0, 1, . . . , r si n > r

l y e−l
Poisson p( y) = ; l l exp[l(et − 1)]
y!
y = 0, 1, 2, . . .
r
r r (1 − p) pet
Binomial negativa p( y) = y−1
pr (1 − p) y−r ;
r −1
p p2 1 − (1 − p)et
y = r, r + 1, . . .

837

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 174 / 250


Clase 12: Función generadora de momento y Teo. de Tchebysheff

v.a. continuas: distribución, media, varianza y fgm.


838 Apéndice 2 Distribuciones, medias, varianzas y funciones generadoras de momento de probabilidad común

Tabla 2 Distribuciones continuas


Función
generadora
Distribución Función de probabilidad Media Varianza de momento
1 u1 + u2 (u2 − u1 ) 2 et u2 − et u1
Uniforme f ( y) = ∶u1 ≤ y ≤ u2
u2 − u1 2 12 t (u2 − u1 )

1 1 t 2 s2
Normal f ( y) = exp − ( y − m) 2 m s2 exp mt +
s√2p 2s2 2
−q < y < + q

1 −y/b
Exponencial f ( y) = e ∶ b>0 b b2 (1 − bt) −1
b
0<y< q

1
Gamma f ( y) = a
y a−1 e−y/b ; ab ab 2 (1 − bt) −a

0 < y <q

( y) (y/2)−1 e−y/2
Ji-cuadrada f ( y) = ; v 2v (1 − 2t) −y/2
2v/2 v/2)
y >0

+ b) a ab no existe en
Beta f ( y) = y a−1 (1 − y) b−1 ;
a +b (a + b) 2 (a + b + 1) forma cerrada
0<y <1

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 175 / 250


Clase 12: Función generadora de momento y Teo. de Tchebysheff

Teorema de Tchebysheff

En la primera clase vimos que en una variable aleatoria normal, el


68 % de la probabilidad se concentra a una distancia de una
desviación estándar de la media. Además el 95 % está a dos
desviaciones estándar mientras que a tres desviaciones estándar se
encuentra casi toda la probabilidad.
Podemos establecer alguna cota que sirva para evaluar la dispersión
de cualquier distribución (no necesariamente normal)?

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 176 / 250


Clase 12: Función generadora de momento y Teo. de Tchebysheff

Teorema de Tchebysheff

Theorem
Sea Y una variable aleatoria con media finita µ y varianza σ 2 . Entonces,
para cualquier k > 0
1
P(|Y − µ| < kσ) ≥ 1 −
k2
o equivalentemente
1
P(|Y − µ| ≥ kσ) ≤ 1 −
k2

Se le llama también desigualdad de Tchebysheff.


Demostación: Pizarra

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 177 / 250


Clase 12: Función generadora de momento y Teo. de Tchebysheff

Teorema de Tchebysheff

Lo que nos da el teorema es una cota de cuanta probabilidad hay a k


desviaciones estándar de la media.
Lo interesante es que no necesitamos saber la distribución. Sólo la
esperanza y varianza. O aunque sepamos la distribución, sirve para
evaluar rápidamente si un resultado es raro, poco frecuente.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 178 / 250


Clase 12: Función generadora de momento y Teo. de Tchebysheff

Teorema de Tchebysheff

Ejemplo: Suponga que la experiencia ha demostrado que el tiempo Y


(en minutos) necesario para realizar una prueba periódica de
mantenimiento en una máquina de dictados sigue una distribución
gamma con α = 3.1 y β = 2. Un nuevo trabajador de mantenimiento
tarda 22.5 minutos en probar la máquina. ¿El tiempo que tardó para
realizar la prueba es mucho mayor comparado con la experiencia
anterior?
Solución: Pizarra

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 179 / 250


Clase 12: Función generadora de momento y Teo. de Tchebysheff

Teorema de Tchebysheff

Ejemplo: El número de clientes por dı́a en un mostrador de ventas, Y ,


ha sido observado durante un largo periodo y se encontró que tiene
una media de 20 y desviación estándar de 2. La distribución de
probabilidad de Y no se conoce. ¿Qué se puede decir acerca de la
probabilidad de que, mañana, Y sea mayor que 16 pero menor que
24?
Solución: Propuesto

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 180 / 250


Clase 13: Distrib. multivariantes marginal, condicional, independ.

Clase 13: Distrib. multivariantes: marginal, condicional e independencia

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 181 / 250


Clase 13: Distrib. multivariantes marginal, condicional, independ.

Distribución Multivariantes

Dado el experimento lanzar dos dados, podemos definir varias


variables aleatorias para describir los posibles resultados.
Luego, podemos identificar eventos interesantes que se definen a
partir de más de una variable aleatoria.
Y1 : el número de puntos que aparecen en el dado 1.
Y2 : el número de puntos que aparecen en el dado 2.
Y3 : la suma del número de puntos en los dados.
Y4 : el producto del número de puntos que aparecen en los dados.
Si consideramos las v.a. Y1 e Y2 podemos denotar el evento “sale un
seis y un cuatro” como la intersección de los eventos
(Y1 = 6), (Y2 = 4).
1
Ası́ podemos calcular la probabilidad pY1 ,Y2 (6, 4) = 36 . Podemos
calcular entonces pY1 ,Y2 (y1 , y2 ) para todo (y1 , y2 ).

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 182 / 250


Clase 13: Distrib. multivariantes marginal, condicional, independ.

Distribución Multivariantes
5.2 Distribuciones de probabilidad bivariantes y mu

F I G U R A 5.1 p ( y1, y2 )
Función de probabili-
dad bivariante;
y1 = número de
puntos en el dado 1,
y2 = número de 1!36
puntos en el dado 2
0 1 2 3 4 5 6
1 y1
2
3
4
5
6

y2

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 183 / 250


Clase 13: Distrib. multivariantes marginal, condicional, independ.

Distribución Multivariantes

Dadas las variables aleatorias Y1 , Y2 , . . . , Yn vamos a identificar la


intersección de los eventos (Y1 = y1 ), (Y2 = y2 ), . . . , (Yn = yn )
por el vector (Y1 = y1 , Y2 = y2 , . . . , Yn = yn )
o simplemente por el vector (y1 , y2 , . . . , yn ).
Queremos obtener la función de probabilidad (o densidad) del vector
(y1 , y2 , . . . , yn ).

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 184 / 250


Clase 13: Distrib. multivariantes marginal, condicional, independ.

Función de probabilidad conjunta

Definition
Sean Y1 y Y2 variables aleatorias discretas. La función de probabilidad
conjunta (o bivariante) para Y1 y Y2 está dada por

p(y1 , y2 ) = P(Y1 = y1 , Y2 = y2 ), −∞ < y1 < ∞, −∞ < y2 < ∞

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 185 / 250


Clase 13: Distrib. multivariantes marginal, condicional, independ.

Función de probabilidad conjunta

Theorem
Si Y1 y Y2 son variables aleatorias discretas con función de probabilidad
conjunta p(y1 , y2 ), entonces
1. p(y1 , y2 ) ≥ 0 para todo y1 , y2 .
P
2. y1 ,y2 p(y1 , y2 ) = 1 donde la suma es para todos los valores (y1 , y2 ) a
los que se asignan probabilidades diferentes de cero.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 186 / 250


Clase 13: Distrib. multivariantes marginal, condicional, independ.

Función de probabilidad conjunta

Ejemplo: Un supermercado local tiene tres cajas. Dos clientes llegan a


las cajas en momentos diferentes cuando las cajas no atienden a otros
clientes. Cada cliente escoge una caja de manera aleatoria,
independientemente del otro. Denote con Y1 el número de clientes
que escogen la caja 1 y con Y2 el número que selecciona la caja 2.
Encuentre la función de probabilidad conjunta de Y1 y Y2 .

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 187 / 250


Clase 13: Distrib. multivariantes marginal, condicional, independ.

Distribución (acumulada) conjunta

Definition
Sean Y1 y Y2 variables aleatorias discretas. La función de distribución
(acumulada) conjunta F (y1 , y2 ) está dada por

F (y1 , y2 ) = P(Y1 ≤ y1 , Y2 ≤ y2 ), −∞ < y1 < ∞, −∞ < y2 < ∞

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 188 / 250


Clase 13: Distrib. multivariantes marginal, condicional, independ.

Densidad de probabilidad conjunta

Definition
Sean Y1 y Y2 variables aleatorias continuas con función de distribución
conjunta F (y1 , y2 ). Si existe una función no negativa f (y1 , y2 ), tal que
Z y1 Z y2
F (y1 , y2 ) = f (t1 , t2 )dt2 dt1 ,
−∞ −∞

para todo −∞ < y1 < ∞, −∞ < y1 < ∞, entonces se dice que Y1 y Y2


son variables aleatorias conjuntamente continuas. La función f (y1 , y2 )
recibe el nombre de función de densidad de probabilidad conjunta.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 189 / 250


Clase 13: Distrib. multivariantes marginal, condicional, independ.

Propiedades de función de probabilidad conjunta

Theorem
Si Y1 y Y2 son variables aleatorias con función de distribución conjunta
F (y1 , y2 ), entonces
1. lı́m F (y1 , y2 ) = lı́m F (y1 , y2 ) = lı́m F (y1 , y2 ) = 0
y1 →−∞ y1 →−∞ y2 →−∞
y2 →−∞
2. y lı́m
→∞
F (y1 , y2 ) = 1
1
y2 →∞
3. Si y1∗ > y1 y y2∗ > y2 entonces

F (y1∗ , y2∗ ) − F (y1∗ , y2 ) − F (y1 , y2∗ ) + F (y1 , y2 ) ≥ 0.

Notar que F (y1∗ , y2∗ ) − F (y1∗ , y2 ) − F (y1 , y2∗ ) + F (y1 , y2 ) es exactamente la


probabilidad P(y1 < Y1 ≤ y1∗ , y2 < Y2 ≤ y2∗ ) ≥ 0

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 190 / 250


Clase 13: Distrib. multivariantes marginal, condicional, independ.

Propiedades de función de probabilidad conjunta

Theorem
Si Y1 y Y2 son variables aleatorias continuas conjuntas con una función de
densidad conjunta dada por f (y1 , y2 ), entonces
1. f (y1 , y2 ) ≥ 0 para toda y1 , y2 .
R∞ R∞
2. −∞ −∞ f (y1 , y2 )dy1 dy2 = 1

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 191 / 250


Para el caso continuo univariante, las áreas bajo la densidad de probabilidad para un inte
Clase 13: Distrib. multivariantes marginal, condicional, independ.
valo corresponden a probabilidades. De igual manera, la función de densidad de probabilid
bivariante f (y1, y2) traza una superficie de densidad de probabilidad sobre el plano (y1, y
Densidad Bivariante
(Figura 5.2).

R A 5.2 f ( y1, y2 )
ensidad
f (y1, y2)

a1 a2 y1
0
b1

b2

y2
Z b2 Z a2
P(a1 < Y1 ≤ a2 , b1 < Y2 ≤ b2 ) = f (y1 , y2 )dy1 dy2
b1 a1

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 192 / 250


Clase 13: Distrib. multivariantes marginal, condicional, independ.

Ejemplo

Suponga que una partı́cula radiactiva se localiza aleatoriamente en un


cuadrado con lados de longitud unitaria. Esto es, si se consideran dos
regiones de igual área y dentro del cuadrado unitario es igualmente
probable que la partı́cula se encuentre en cualquiera de las dos. Denote
con Y1 y Y2 las coordenadas de la ubicación de la partı́cula. Un modelo
razonable para el histograma de frecuencia relativa para Y1 y Y2 es la
análoga bivariante de la función de densidad uniforme univariante:
(
1 0 ≤ y1 ≤ 1, 0 ≤ y2 ≤ 1
f (y1 , y2 ) =
0 en cualquier otro punto.

a. Dibuje la superficie de densidad de probabilidad.


b. F (0.2, 0.4).
c. Encuentre P(0.1 ≤ Y1 ≤ 0.3, 0 ≤ Y2 ≤ 0.5).

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 193 / 250


.4 .2 .4
Clase 13: Distrib. multivariantes marginal, condicional, independ.
= y1 dy2 = .2 dy2 = .08.
0 0 0
EjemploLa probabilidad F(.2, .4) corresponde al volumen bajo f(y1, y2)= 1, que está sombread
Figura 5.3. Como lo indican consideraciones geométricas, la probabilidad deseada (vo
es igual a .08, que obtuvimos mediante integración al principio de esta sección.

G U R A 5.3 f ( y1, y2 )
resentación
geométrica
de f (y1, y2), 1
F(.2, .4)
Ejemplo 5.3

.2
0
1 y1
.4

y2

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 194 / 250


Clase 13: Distrib. multivariantes marginal, condicional, independ.

Ejemplo
Se ha de almacenar gasolina en un enorme tanque una vez al principio de
cada semana y luego se vende a clientes individuales. Denote con Y1 el
nivel de gasolina (proporción) que alcanza el tanque después de surtirlo.
Debido a suministros limitados, Y1 varı́a de una semana a otra. Denote
con Y2 la proporción de la capacidad del tanque que se vende durante la
semana. Como Y1 y Y2 son proporciones, estas dos variables toman
valores entre 0 y 1. Además, la cantidad de gasolina vendida, y2 , no puede
ser mayor que la cantidad disponible, y1 . Suponga que la función de
densidad conjunta para Y1 y Y2 está dada por
(
3y1 0 ≤ y2 ≤ y1 ≤ 1
f (y1 , y2 ) =
0 en cualquier otro punto.
Encuentre la probabilidad de que menos de la mitad del tanque tenga
gasolina y más de un cuarto del tanque se venda (Grafico en siguiente
slide).
Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 195 / 250
dad de observar un valor en una región es el volumen bajo
Clase 13: Distrib. multivariantes marginal, condicional, independ.
de la región de interés. La función de densidad f(y1, y2) es p
Figura ejemplo

R A 5.4 f ( y1, y2 )
ensidad
para el
mplo 5.4 3

1
0
y1
1

y2

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 196 / 250


Clase 13: Distrib. multivariantes marginal, condicional, independ.

Funciones de probabilidad marginal y densidad marginal

Definition
Sean Y1 y Y2 variables aleatorias discretas conjuntas con función de
probabilidad conjunta p(y1 , y2 ). Entonces las funciones de probabilidad
marginal de Y1 y Y2 , respectivamente, están dadas por
X X
p1 (y1 ) = p(y1 , y2 ) y p2 (y2 ) = p(y1 , y2 ).
todos y2 todos y1

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 197 / 250


Clase 13: Distrib. multivariantes marginal, condicional, independ.

Funciones de probabilidad marginal y densidad marginal

Definition
Sean Y1 y Y2 variables aleatorias continuas conjuntas con función de
densidad conjunta f (y1 , y2 ). Entonces las funciones de densidad marginal
de Y1 y Y2 , respectivamente, están dadas por
Z ∞ Z ∞
f1 (y1 ) = f (y1 , y2 )dy2 y f2 (y2 ) = f (y1 , y2 )dy1 .
−∞ −∞

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 198 / 250


Clase 13: Distrib. multivariantes marginal, condicional, independ.

Ejemplo

De un grupo de tres republicanos, dos demócratas y uno independiente se


ha de seleccionar aleatoriamente un comité de dos personas. Denote con
Y1 el número de republicanos y con Y2 el número de demócratas del
comité. Encuentre la función de probabilidad conjunta de Y1 y Y2 y luego
encuentre la función de probabilidad marginal de Y1 .

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 199 / 250


Del mismo modo,
Clase 13: Distrib. multivariantes marginal, condicional, independ.

Ejemplo p1 (1) = 9#15 y p1 (2) = 3#15

En forma análoga, la función de probabilidad marginal de Y2 est

Tabla 5.2 Función de probabilidad conjunta para Y1 y Y2, Ejemplo 5.5

y1
y2 Total

Total

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 200 / 250


Clase 13: Distrib. multivariantes marginal, condicional, independ.

Ejemplo

Sea
(
2y1 0 ≤ y1 ≤ 1, 0 ≤ y2 ≤ 1
f (y1 , y2 ) =
0 en cualquier otro punto.
Grafique f (y1 , y2 ) y encuentre las funciones de densidad marginal para Y1
y Y2 .

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 201 / 250


Clase 13: Distrib. multivariantes marginal, condicional, independ.

Ejemplo

238 Capítulo 5 Distribuciones de probabilidad multivariantes

F I G U R A 5.6 f ( y1, y2 )
Representación
geométrica
2
de f(y1, y2),
Ejemplo 5.6
1

1
0 y1

y2

densidad de probabilidad triangular que se vería como el lado de la cuña de la Figura 5.6. Si
la probabilidad estuviera acumulada a lo largo del eje y2 (acumulándose a lo largo de líneas
paralelas al eje y1), la densidad resultante sería uniforme. Confirmaremos estas soluciones
visuales mediante la aplicación de la Definición 5.4. Entonces, si 0 ≤ y1 ≤ 1,
q 1 1
f 1 ( y1 ) = f ( y1 , y2 ) dy2 = 2y1 dy2 = 2y1 y2
Vicente Acuña (CMM, Universidad de Chile) Prob.
−q y Est. 0 0 202 / 250
Clase 13: Distrib. multivariantes marginal, condicional, independ.

Función de probabilidad condicional

Definition
Si Y1 y Y2 son variables aleatorias discretas conjuntas con función de
probabilidad conjunta p(y1 , y2 ) y funciones de probabilidad marginal
p1 (y1 ) y p2 (y2 ), respectivamente, entonces la función de probabilidad
discreta condicional de Y1 dada Y2 es

P(Y1 = y1 , Y2 = y2 ) p(y1 , y2 )
p(y1 |y2 ) = P(Y1 = y1 |Y2 = y2 ) = =
P(Y2 = y2 ) p2 (y2 )

siempre que p2 (y2 ) > 0.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 203 / 250


Clase 13: Distrib. multivariantes marginal, condicional, independ.

Ejemplo

Volvamos al ejemplo en que de un grupo de tres republicanos, dos


demócratas y uno independiente se ha de seleccionar aleatoriamente un
comité de dos personas. Encuentre la distribución condicional de Y1 dado
que Y2 = 1. Esto es, dado que una de las dos personas del comité es
demócrata, encuentre la distribución condicional para el número de
republicanos seleccionados para el comité.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 204 / 250


Clase 13: Distrib. multivariantes marginal, condicional, independ.

Función de distribución condicional

Definition
Si Y1 y Y2 son variables aleatorias, entonces la función de distribución
condicional de Y1 dado que Y2 = y2 es

F (y1 |y2 ) = P(Y1 ≤ y1 |Y2 = y2 ).

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 205 / 250


Clase 13: Distrib. multivariantes marginal, condicional, independ.

Densidad condicional

Definition
Sean Y1 y Y2 variables aleatorias continuas conjuntas con densidad
conjunta f (y1 , y2 ) y densidades marginales f1 (y1 ) y f2 (y2 ),
respectivamente. Para cualquier y2 tal que f2 (y2 ) > 0, la densidad
condicional de Y1 dada Y2 = y2 está dada por

f (y1 , y2 )
f (y1 |y2 ) =
f2 (y2 )

y, para cualquier y1 tal que f1 (y1 ) > 0, la densidad condicional de Y2 dada


Y1 = y1 está dada por
f (y1 , y2 )
f (y2 |y1 ) =
f1 (y1 )

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 206 / 250


Clase 13: Distrib. multivariantes marginal, condicional, independ.

Ejemplo

Una máquina automática expendedora de bebidas tiene una cantidad


aleatoria Y2 de bebida en existencia al principio de un dı́a determinado y
dosifica una cantidad aleatoria Y1 durante el dı́a (con cantidades
expresadas en galones). La máquina no se reabastece durante el dı́a y, en
consecuencia, Y1 ≤ Y2 . Se ha observado que Y1 y Y2 tienen una densidad
conjunta dada por
(
1/2 0 ≤ y1 ≤ y2 ≤ 2
f (y1 , y2 ) =
0 en cualquier otro punto.

Esto es, los puntos (y1 , y2 ) están uniformemente distribuidos en el


triángulo con las fronteras dadas. Encuentre la densidad condicional de Y1
dada Y2 = y2 . Evalúe la probabilidad de que se venda menos de 1/2
galón, dado que la máquina contiene 1.5 galones al empezar el dı́a.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 207 / 250


Clase 13: Distrib. multivariantes marginal, condicional, independ.

Independencia

Definition
Sea Y1 que tiene una función de distribución F1 (y1 ) y sea Y2 que tiene
una función de distribución F2 (y2 ), y F (y1 , y2 ) es la función de
distribución conjunta de Y1 y Y2 . Entonces se dice que Y1 y Y2 son
independientes si y sólo si

F (y1 , y2 ) = F1 (y1 )F2 (y2 )

para todo par de números reales (y1, y2). Si Y1 y Y2 no son


independientes, se dice que son dependientes.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 208 / 250


Clase 13: Distrib. multivariantes marginal, condicional, independ.

Independencia

Theorem
Si Y1 y Y2 son variables aleatorias discretas con función de probabilidad
conjunta p(y1 , y2 ) y funciones de probabilidad marginal p1 (y1 ) y p2 (y2 ),
respectivamente, entonces Y1 y Y2 son independientes si y sólo si

p(y1 , y2 ) = p1 (y1 )p2 (y2 )

para todos los pares de números reales (y1, y2).

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 209 / 250


Clase 13: Distrib. multivariantes marginal, condicional, independ.

Independencia

Theorem
Si Y1 y Y2 son variables aleatorias continuas con función de densidad
conjunta f (y1 , y2 ) y funciones de densidad marginal f1 (y1 ) y f2 (y2 ),
respectivamente, entonces Y1 y Y2 son independientes si y sólo si

f (y1 , y2 ) = f1 (y1 )f2 (y2 )

para todos los pares de números reales (y1, y2).

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 210 / 250


Clase 13: Distrib. multivariantes marginal, condicional, independ.

Ejemplo

Recordemos el ejemplo de tirar dos dados y tal que Y1 indica el valor del
primer dado e Y2 indica el valor del segundo dado. Demuestre que Y1 e Y2
son independientes.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 211 / 250


Clase 13: Distrib. multivariantes marginal, condicional, independ.

Ejemplo

Volvamos al ejemplo en que de un grupo de tres republicanos, dos


demócratas y uno independiente se ha de seleccionar aleatoriamente un
comité de dos personas. ¿Es el número de republicanos en el
comité independientes del número de demócratas?

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 212 / 250


Clase 13: Distrib. multivariantes marginal, condicional, independ.

Ejemplo

Sea (
6y1 y22 0 ≤ y1 ≤ 1, 0 ≤ y2 ≤ 1
f (y1 , y2 ) =
0 en cualquier otro punto.
Demuestre que Y1 e Y2 son independientes.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 213 / 250


Clase 13: Distrib. multivariantes marginal, condicional, independ.

Ejemplo

Sea (
2 0 ≤ y2 ≤ y1 ≤ 1
f (y1 , y2 ) =
0 en cualquier otro punto.
Demuestre que Y1 e Y2 son independientes.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 214 / 250


Clase 13: Distrib. multivariantes marginal, condicional, independ.

Descomposición de conjunta

Theorem
Sean Y1 y Y2 que tienen una densidad conjunta f (y1 , y2 ) que es positiva si
y sólo si a ≤ y1 ≤ b y c ≤ y2 ≤ d, para constantes a, b, c y d; y
f (y1 , y2 ) = 0 en otro caso. Entonces Y1 y Y2 son variables aleatorias
independientes si y sólo si

f (y1 , y2 ) = g (y1 )h(y2 )

donde g (y1 ) es una función no negativa de y1 solamente y h(y2 ) es una


función no negativa de y2 solamente.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 215 / 250


Clase 14: Distrib. Multivar.: esperanza de función, teo. especiales

Clase 14: Distribuciones Multivariantes: valor esperado de una función y


teoremas especiales

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 216 / 250


Clase 14: Distrib. Multivar.: esperanza de función, teo. especiales

Teoremas especiales

Definition
Sea g (Y1 , Y2 , . . . , Yk ) una función de las variables aleatorias discretas,
Y1 , Y2 , . . . , Yk , que tienen función de probabilidad p(y1 , y2 , . . . , yk ).
Entonces el valor esperado de g (Y1 , Y2 , . . . , Yk ) es

E (g (Y1 , Y2 , . . . , Yk )) =
X X X
... g (y1 , y2 , . . . , yk )p(y1 , y2 , . . . , yk ).
todo yk todo y2 todo y1

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 217 / 250


Clase 14: Distrib. Multivar.: esperanza de función, teo. especiales

Teoremas especiales

Definition
Sea g (Y1 , Y2 , . . . , Yk ) una función de las variables aleatorias continuas
Y1 , Y2 , . . . , Yk con función de densidad conjunta f (y1 , y2 , . . . , yk )
Entonces el valor esperado de g (Y1 , Y2 , . . . , Yk ) es

E (g (Y1 , Y2 , . . . , Yk )) =
Z ∞ Z ∞ Z ∞
... g (y1 , y2 , . . . , yk ) f (y1 , y2 , . . . , yk )dy1 dy2 . . . dyk
−∞ −∞ −∞

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 218 / 250


Clase 14: Distrib. Multivar.: esperanza de función, teo. especiales

Teoremas especiales

Theorem
Sea c una constante. Entonces

E (c) = c.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 219 / 250


Clase 14: Distrib. Multivar.: esperanza de función, teo. especiales

Teoremas especiales

Theorem
Sea g (Y1 , Y2 ) una función de las variables aleatorias Y1 y Y2 y sea c una
constante. Entonces

E [cg (Y1 , Y2 )] = cE [g (Y1 , Y2 )].

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 220 / 250


Clase 14: Distrib. Multivar.: esperanza de función, teo. especiales

Teoremas especiales

Theorem
Sean Y1 y Y2 variables aleatorias y g1 (Y1 , Y2 ), g2 (Y1 , Y2 ), . . . , gk (Y1 , Y2 )
funciones de Y1 y Y2 . Entonces

E [g1 (Y1 , Y2 ) + g2 (Y1 , Y2 ) + ... + gk (Y1 , Y2 )]

= E [g1 (Y1 , Y2 )] + E [g2 (Y1 , Y2 )] + ... + E [gk (Y1 , Y2 )].

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 221 / 250


Clase 14: Distrib. Multivar.: esperanza de función, teo. especiales

Teoremas especiales

Theorem
Sean Y1 y Y2 variables aleatorias independientes y sean g (Y1 ) y h(Y2 )
funciones sólo de Y1 y Y2 , respectivamente. Entonces

E [g (Y1 )h(Y2 )] = E [g (Y1 )]E [h(Y2 )],

siempre que existan los valores esperados.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 222 / 250


Clase 15: Covarianza y correlación de dos v.a.’s

Clase 15: Covarianza y correlación de dos variables aleatorias.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 223 / 250


Clase 15: Covarianza y correlación de dos v.a.’s

Covarianza de dos v.a.


En muchos casos de dependencia entre dos variables Y1 y Y2 se tiene
que: cuando una variable toma valores altos la otra también toma
valores altos. O cuando una toma valores altos la otra toma valores
bajos.
Este grado de dependencia se puede medir utilizando dos medidas
similares: la covarianza y el coeficiente de correlación. Estas miden
que grado de linealidad hay en la dependencia entre ellas.
Es bueno recalcar que hay otras dependencias entre variables que no
son lineales, y que estas medidas pueden no ser muy buenos
indicadores.
De hecho, si las variables son independientes, la covarianza y la
correlación son cero (pues no hay una dependencia lineal), pero lo
contrario no es necesariamente cierto: covariana y correlación pueden
ser cero, pero esto no es indicador que las variables sean
necesariamente independientes.
Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 224 / 250
Clase 15: Covarianza y correlación de dos v.a.’s

Covarianza de dos v.a.

Definition
Si Y1 y Y2 son variables aleatorias con medias µ1 y µ2 , respectivamente, la
covarianza de Y1 y Y2 es

Cov (Y1 , Y2 ) = E [(Y1 − µ1 )(Y2 − µ2 )]

Si Y1 aumenta cuando Y2 aumenta → covarianza positiva


Si Y1 disminuye cuando Y2 aumenta → covarianza negativa
Si no hay una tendencia clara → covarianza cercana a cero
No sirve como medida absoluta de la dependencia

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 225 / 250


Clase 15: Covarianza y correlación de dos v.a.’s

Covarianza de dos v.a.

Sean Y y X v.a.’s y a, b constantes. De la definición podemos ver las


siguientes propiedades:
Cov (Y , a) = 0
Cov (Y , Y ) = V (Y )
Cov (Y , X ) = Cov (X , Y )
Cov (aY , bX ) = ab Cov (Y , X )

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 226 / 250


Clase 15: Covarianza y correlación de dos v.a.’s

Covarianza de dos v.a.

5.7 Covarianza de
Teorema:

F I G U R A 5.8 y2 y2
Observaciones
dependientes e
independientes
para (y1, y2) !2 !2

!1 y1 !1 y1

(a) (b)

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 227 / 250


Clase 15: Covarianza y correlación de dos v.a.’s

Coeficiente de correlación
Definition
Si Y1 y Y2 son variables aleatorias con medias µ1 y µ2 , respectivamente, el
coeficiente correlación de Y1 y Y2 es

Cov (Y1 , Y2 )
ρ=
σ1 σ2
donde σ1 y σ2 son las desviaciones estándar de Y1 y Y2 respectivamente.

Es una medida más fácil de comparar. Se puede demostrar que


−1 ≤ ρ ≤ 1.
El signo es el mismo del de la covarianza.
ρ = 1 significa correlación perfecta (los puntos sobre una lı́nea de
pendiente positiva)
ρ = −1 también significa correlación perfecta (los puntos sobre una
lı́nea de pendiente negativa)
Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 228 / 250
Clase 15: Covarianza y correlación de dos v.a.’s

Covarianza de dos v.a.

Theorem
Si Y1 y Y2 son variables aleatorias con medias µ1 y µ2 , respectivamente,
entonces es

Cov (Y1 , Y2 ) = E [(Y1 − µ1 )(Y2 − µ2 )] = E (Y1 Y2 ) − E (Y1 )E (Y2 ).

Dem: Usando propiedades de la esperanza.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 229 / 250


Clase 15: Covarianza y correlación de dos v.a.’s

Ejemplo

Sean las v.a. Y1 y Y2 con densidad conjunta dada por


 
3y1 , 0 ≤ y2 ≤ y1 ≤ 1,
f (y1 , y2 ) =
0, en cualquier otro punto.

Muestre que E (Y1 ) = 3/4 y que E (Y2 ) = 3/8.


Muestre que la covarianza entre las v.a.’s es 0,02.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 230 / 250


Clase 15: Covarianza y correlación de dos v.a.’s

Covarianza de dos v.a.

Theorem
Si Y1 y Y2 son variables aleatorias independientes, entonces

Cov (Y1 , Y2 ) = 0.

Ası́, las variables aleatorias independientes deben ser no correlacionadas.

Dem: Pizarra
Ojo: La recı́proca no es cierta. Ver ejemplo.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 231 / 250


ve en la Tabla 5.3. Demuestre que Y1 y Y2 son dependiente
Clase 15: Covarianza y correlación de dos v.a.’s

EjemploEl cálculo de probabilidades marginales da p (–1) = p (1)


ución 1 1
= 6/ 16 = p2(0). El valor p(0, 0) = 0 en la celda del centro

Tabla 5.3 Distribución de probabilidad conjunta, Ejemplo 5.24

y1
y2 −1 0 +1
−1 1$16 3$16 1$16
0 3$16 0 3$16
+1 1$16 3$16 1$16

Ver que p(0, 0) 6= p1 (0)p2 (0), pero que Cov (Y1 , Y2 ) = 0

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 232 / 250


Clase 16: Funciones lineales de variables aleatorias

Clase 16: Funciones lineales de variables aleatorias.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 233 / 250


Clase 16: Funciones lineales de variables aleatorias

Funciones lineales de variables aleatorias

Veamos un caso particular de funciones de varias variables aleatorias,


cuando se trata de una función lineal de varias variables aleatorias. Es
decir si Y1 , Y2 , . . . , Yn son variables aleatorias y a1 , a2 , . . . , an
constantes, estudiaremos que obtenemos con la variable aleatoria
U = ni=1 ai Yi .
P

Sabemos por teorema anterior que la esperanza es lineal, lo que


expresamos en el siguiente teorema.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 234 / 250


Clase 16: Funciones lineales de variables aleatorias

Funciones lineales de v.a.: esperanza

Theorem
Sean Y1 , Y2 , . . . , Yn variables aleatorias
P tales que E (Yi ) = µi , y sean
a1 , a2 , . . . , an constantes. Sea U = ni=1 ai Yi . Entonces se tiene que:
n
X
E (U) = ai µi
i=1

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 235 / 250


Clase 16: Funciones lineales de variables aleatorias

Funciones lineales de v.a.’s: varianza

Sabemos que E (Y1 + Y2 ) = µ1 + µ2 . Pero, ¿Cuánto vale la varianza


V (Y1 + Y2 )? ¿Cuán dispersos están los valores que puede tomar
Y1 + Y2 en torno a µ1 + µ2 ?
Si Y1 y Y2 son independientes entonces se puede demostrar que
V (Y1 + Y2 ) = V (Y1 ) + V (Y2 ). Esta varianza considera casos en que
(a) Y1 es menor que µ1 y Y2 es menor que µ2
(b) Y1 es menor que µ1 y Y2 es mayor que µ2
(c) Y1 es mayor que µ1 y Y2 es menor que µ2
(d) Y1 es mayor que µ1 y Y2 es mayor que µ2
Los casos (a) y (d) aportan más varianza y los casos (b) y (c) menos.
Pero todas las combinaciones son posibles (pues las variables son
independientes).

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 236 / 250


Clase 16: Funciones lineales de variables aleatorias

Funciones lineales de v.a.’s: varianza


En cambio, si las variables no son independientes y hay una alta
covarianza positiva entre las variables entonces se tienen pocos
casos (b) y (c) (no son muy probables!) y la probabilidad se
concentra en los casos (a) y (d) que entregan mayor dispersión.
Ası́ una covarianza alta implica que la varianza de Y1 + Y2 es mayor
que la varianza que tendrı́a la suma si fueran independientes.
Análogamante, si hay una alta covarianza negativa, se tienen pocos
casos (a) y (d). Ası́ la varianza de Y1 + Y2 es mayor que la varianza
que tendrı́a si fueran independientes.
Ası́ la covarianza entrega una medida de la variación conjunta de las
variables.
En general, se tiene que
V (Y1 + Y2 ) = V (Y1 ) + V (Y2 ) + 2Cov (Y1 , Y2 )

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 237 / 250


Clase 16: Funciones lineales de variables aleatorias

Funciones lineales de v.a.’s: varianza

En general, para calcular la varianza de la función U = ni=1 Yi


P
vamos a necesitar calcular las covarianzas entre todos los pares Yi Yj .
Es decir calculamos Cov (Yi , Yj ).
Si representamos estas covarianzas en una matriz de orden n
(simétrica pues Cov (Yi , Yj ) = Cov (Yj , Yi )), entonces en la diagonal
tendrı́amos las varianzas, pues Cov (Yi , Yi ) = V (Yi ).
Esta matriz es la matriz de covarianzas de las variables Y1 , Y2 , . . . , Yn .
Se puede demostrar que V (U) es la suma de todos los valores de esa
matriz:
Xn X n
V (U) = Cov (Yi , Yj ).
i=1 j=1

Veamos el caso más general en el siguiente teorema.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 238 / 250


Clase 16: Funciones lineales de variables aleatorias

Funciones lineales de v.a.’s: varianza

Theorem
Sean Y1 , Y2 , . . . , Yn variables aleatorias
Pn tales que E (Yi ) = µi , y sean
a1 , a2 , . . . , an constantes. Sea U = i=1 ai Yi . Entonces se tiene que:
X n X X
V (U) = ai2 V (Yi ) + 2 ai aj Cov (Yi , Yj ).
i=1 1≤i<j≤n
o equivalentemente:
Xn Xn
V (U) = ai aj Cov (Yi , Yj ).
i=1 j=1

Ası́ la varianza de U es exactamente la suma de todos los términos


de la matriz de covarianzas de los ai Yi . Puede interpretarse como: la
varianza que aporta cada término por separado (la diagonal de la
matriz) más la covarianza que suma (o resta) cada par de variables.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 239 / 250


Clase 16: Funciones lineales de variables aleatorias

Funciones lineales de v.a.’s: covarianza

Theorem
Sean Y1 , Y2 , . . . , Yn variables aleatorias tales que E (Yi ) = µi ,
y sean X1 , X2 , . . . , Xm variables aleatorias tales que E (Xi ) = ξi . Sean
a1 , a2 , . . . , an y b 1 , b 2 , . . . P
, bm constantes. Entonces la covarianza entre las
n Pm
variables aleatorias U1 = i=1 ai Yi y U2 = i=1 bi Xi es
n X
X m
Cov (U1 , U2 ) = ai bj Cov (Yi , Xj ).
i=1 j=1

Notar que este teorema es un caso general del teorema anterior.


Podemos recuperar la fórmula de la varianza calculando la covarianza
de U consigo misma: V (U) = Cov (U, U).

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 240 / 250


Clase 17: Distribuciones de funciones de variables aleatorias

Clase 17: Distribuciones de funciones de variables aleatorias.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 241 / 250


Clase 17: Distribuciones de funciones de variables aleatorias

Distribuciones de funciones de variables aleatorias

Veremos algunos métodos para calcular la distribución de una función


de variables aleatorias:
Método de las funciones de distribución.
Método de las transformaciones (auxiliar).
Método de las funciones generadoras de momento.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 242 / 250


Clase 17: Distribuciones de funciones de variables aleatorias

Método de las funciones de distribución

Si U(Y1 , Y2 , . . . , Yn ) es una v.a. función de las v.a.’s Y1 , Y2 , . . . , Yn .


Determinar la función distribución FU (u) = P(U ≤ u). Para ello
determinar la región del espacio y1 , y2 , . . . , yn tal que U ≤ u e
integramos la densidad conjunta f (y1 , y2 , . . . , yn ) en esa región.
Derivamos FU (u) para obtener la densidad

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 243 / 250


Clase 17: Distribuciones de funciones de variables aleatorias

Método de las funciones generadoras de momentos

Si U(Y1 , Y2 , . . . , Yn ) es una v.a. función de las v.a.’s Y1 , Y2 , . . . , Yn .


Calcular la f.g.m. de U definida como mU (t) = E (e tU ).
Si la f.g.m. obtenida es alguna conocida, entonces tenemos la
distribución buscada.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 244 / 250


Clase 17: Distribuciones de funciones de variables aleatorias

Ejemplo: estandarizando una v.a. normal

Sea Y una v.a. normalmente distribuida con media µ y varianza σ 2 .


Demuestre que
Y −µ
Z=
σ
tiene una distribución normal estándar, es decir, una distribución
normal con media 0 y varianza 1.
Solución: Propuesta

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 245 / 250


Clase 17: Distribuciones de funciones de variables aleatorias

Ejemplo: normal estándar al cuadrado

Sea Z una v.a. normalmente distribuida con media 0 y varianza 1.


Usando f.g.m. muestre que Z 2 tiene una distribución gamma con
α = 1/2 y β = 2.
Solución: Pizarra
Ası́ podemos ver que Z 2 es una gamma con parámetros α = 1/2 y
β = 2, o lo que es lo mismo, una χ2 con ν = 1 grado de libertad.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 246 / 250


Clase 17: Distribuciones de funciones de variables aleatorias

Suma de v.a. independientes

Theorem
Sean Y1 , Y2 , . . . , Yn variables aleatorias independientes con f.g.m.
mY1 (t), mY2 (t), . . . , mYn (t), respectivamente. Si U = Y1 + Y2 + . . . + Yn ,
entonces
mU (t) = mY1 (t) × mY2 (t) × . . . × mYn (t)

Dem: Usar esperanza de multiplicación de v.a. independientes.


Este resultado permite demostrar los siguientes dos teoremas.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 247 / 250


Clase 17: Distribuciones de funciones de variables aleatorias

Función lineal de v.a. normales independientes


Theorem
Sean Y1 , Y2 , . . . , Yn variables aleatorias independientes normalmente
distribuidas con E (Yi ) = µi y V (Yi ) = σi2 , para i = 1, 2, . . . , n y sean
a1 , a2 , . . . , an constantes. Si
n
X
U= ai Yi = a1 Y1 + a2 Y2 + . . . + an Yn ,
i=1

entonces U es una variable aleatoria normalmente distribuida con


n
X
E (U) = ai µi = a1 µ1 + a2 µ2 + . . . + an µn
i=1

n
X
V (U) = ai2 σi2 = a12 σ12 + a22 σ22 + . . . + an2 σn2 .
i=1
Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 248 / 250
Clase 17: Distribuciones de funciones de variables aleatorias

Suma de cuadrados de v.a. normales estándares indep.


Theorem
Sean Y1 , Y2 , . . . , Yn variables aleatorias independientes normalmente
distribuidas con E (Yi ) = µi y V (Yi ) = σi2 , para i = 1, 2, . . . , n y definimos

Yi − µi
Zi = , i = 1, 2, . . . , n.
σi
Pn 2
Entonces i=1 Zi tiene una distribución χ2 con n grados de libertad.

Las Zi son normales estandarizadas (media 0 y varianza 1).


Como vimos, la χ2 con n grados de libertad es un caso particular de
la distribución gamma. Este resultado muestra por qué se le
bautizó con un nombre especı́fico.
El origen del nombre del parámetro “n grados de libertad” viene de
las n variables independientes involucradas.
Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 249 / 250
, de una
f.10aleatorias
Clase 17: Distribuciones de funciones de variables variable aleatoria x2 con 10 gl. En general,

Figura P x 2 > xa2 = a implica que P x 2 ≤ xa

y que xa2 = f1−a , el cuantil (1 − a) de la variable aleatoria x2.


La Tabla 6, Apéndice 3, contiene xa2 = f1−a para diez valore
.1, .90, .95, .975, .99 y .995) para cada una de las 37 distribuci
con grados de libertad 1, 2, . . . , 30 y 40, 50, 60, 70, 80, 90 y 10
información acerca de estas distribuciones y la asociada con gra

F I G U R A 7.2 f(u)
Una distribución x2
que muestra el área a
de cola superior

0 u
x2!

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 250 / 250

También podría gustarte