Probabilidades PDF

Probabilidades y Estadı́stica
Vicente Acuña
Lab. de Bioinformática y Matemática del Genoma (Mathomics)

Centro de Modelamiento Matemático, Universidad de Chile
Primavera 2015
Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 1 / 250

Advertencia 1: Las slides son sólo un complemento de la clase,
muchos ejemplos, ejercicios, y demostraciones son realizadas en la
Pizarra. El objetivo principal es hacer una clase más dinámica, pero
en ningún caso las slides reemplazan a las clases!.
Advertencia 2: Estas slides son de exclusivo uso de la clase Primavera
2015, son informales, pueden contener errores o imprecisiones y sólo
las he subido para facilitar el estudio a los alumnos de este curso. Por
favor no difundir!

Contenidos

Clase 1: ¿Qué es estadı́sitica?

Ejemplos cotidianos
Encuestas elecciones → predecir resultados

Muestreos consumidores → predecir preferencias
Experimentos clı́nicos → determinar efectos de medicamentos
Índices económicos → predecir futuro economı́a
Variables climáticas → predecir si llueve mañana, etc.
La estadı́stica entrega la teorı́a básica para intentar contestar a estas

preguntas

Definición/objetivos
Varias definiciones. Todas implican que la estadı́stica es una teorı́a de

la información cuyo objetivo es la inferencia
El conjunto de los objetos de interés es la población. Para conocer
con absoluta certeza una caracterı́stica tendrı́amos que mirar toda la
población → generalmente es imposible!
Seleccionamos un subconjunto de la población: la muestra. A partir
de ella inferimos caracterı́sticas de la población.
Medida de bondad: ¿Cuán buena es mi predicción? → probabilidad
de que mi estimación sea cercana a la realidad.
La meta de la estadı́stica es hacer una inferencia acerca de una población,

con base en información contenida en una muestra de esa población y dar
una medida de bondad asociada para la inferencia.

dependientes, por tanto, se convierte en un deseo para determinar el efecto de las variable
Clase 1: ¿Qué es en
independientes estadı́sitica?
la distribución
conceptual de mediciones de población.
Una población individual (o cualquier conjunto de mediciones) puede estar caracterizad
por una distribución de frecuencia relativa, que puede estar representada por un histograma d
Caracterizando gráficamente un cjto. de mediciones
frecuencia relativa. Se construye una gráfica al subdividir el eje de medición en intervalos de igu
ancho. Se construye un rectángulo sobre cada intervalo, de modo que la altura del rectángu
sea proporcional a la fracción del número total de mediciones que caen en cada celda. Po
Queremos estimar el peso total de los 500 salmones en una
ejemplo, para caracterizar las diez mediciones 2.1, 2.4, 2.2, 2.3, 2.7, 2.5, 2.4, 2.6, 2.6 y 2.
piscicultura. Tenemos los pesos
podríamos dividir de unaenmuestra
el eje de medición intervalos dede igual10 ejemplares
ancho (por ejemplo .2 unidades
comenzando con 2.05. Las frecuencias relativas (fracción del número total de mediciones
escogidos al azar:
calculadas para cada intervalo, se muestran en la Figura 1.1. Observe que la figura da una cla
2.1, 2.4, 2.2, 2.3, 2.7, 2.5,
descripción gráfi2.4, 2.6,el2.6,
ca de todo 2.9.
conjunto de las diez mediciones.
Observe que no hemos dado reglas precisas para seleccionar el número, anchos o ubicacio
Una manera rápida de caracterizar una muestra
nes de los intervalos empleados para construir → distribución
un histograma. Esto es porque de
la selección d
frecuencia relativa → histograma
estos elementos está un poco a discreción de la persona que intervenga en la construcción.
Aun cuando son arbitrarias, unas cuantas guías pueden ser muy útiles para seleccionar lo
Escogemos un intervalos.
rango que contenga
Los puntos todos
de subdivisión losdevalores,
del eje medición debenlo dividimos
escogerse de modoen que
5 se
intervalos del mismo largo y contamos cuántos datos caen en cada
uno.
F I G U R A 1.1 Frecuencia
Histograma relativa
de frecuencia relativa .3
.2
.1
0
2.05 2.25 2.45 2.65 2.85 3.05
Eje
Histograma en R project
> datos <- c(2.1, 2.4, 2.2, 2.3, 2.7,

2.5, 2.4, 2.6, 2.6, 2.9)
> datos
[1] 2.1 2.4 2.2 2.3 2.7 2.5 2.4 2.6 2.6 2.9
> hist(datos)
> hist(datos, breaks=20, col=7)
> min(datos)
[1] 2.1
> max(datos)
[1] 2.9
> hist(datos, breaks=seq(2.05,3.05,0.2), col=7)

Una versión más sofisticada que especifica los lı́mites de las barras y los
ejes.
datos <- c(2.1, 2.4, 2.2, 2.3, 2.7, 2.5, 2.4, 2.6, 2.6, 2.9)
resol <- 0.1 # Ultima cifra significativa
bar <- 0.2 # Ancho de barra. Probar distintos valores!
limites <- seq(min(datos)-0.5*resol,max(datos)+bar,bar)
h=hist(datos, breaks=limites,axes=FALSE,col=7)
axis(1,at=limites)
axis(2)

Hacer histogramas de:
> x <- rnorm(n=50000, m=1, sd=1)

> y <- rbinom(n=10000, size=20,prob=1/4)
> z <- runif(10000,5,9)

estos elementos está un poco a discreción de la persona que intervenga en la construcción.
ClaseAun
1: ¿Qué es estadı́sitica?
cuando son arbitrarias,
unas cuantas guías pueden ser muy útiles para seleccionar l
intervalos. Los puntos de subdivisión del eje de medición deben escogerse de modo que s
Interpretación probabilistica
Histograma relativa
de frecuencia relativa .3
.2
.1
0
2.05 2.25 2.45 2.65 2.85 3.05
Eje
de medición
Si escogemos un dato al azar, ¿cuál es la probabilidad que esté entre

2.05 y 2.45?
W-cap-01.indd 4 2
→ 0.5 (la mitad de los valores están ahı́)

Si hacemos una nueva medición, ¿cuál es la probabilidad que
esté entre 2.05 y 2.45?
→ Si no sabemos nada sobre el origen de los datos, podemos suponer
0.5
el intervalo
Clase 1: ¿Quéde
es 2.05 a 2.45
es .5 porque la mitad de las mediciones caen en este interv
estadı́sitica?
manera correspondiente, el área bajo el histograma de la Figura 1.1 sobre el intervalo
Interpretación probabilistica a 2.45 es la mitad del área total bajo el histograma. Es claro que esta interpretación se
la distribución de cualquier conjunto de mediciones, es decir, una población o una mu
Suponga que la Figura 1.2 da la distribución de frecuencia relativa de utilidades
llones de dólares) para una población conceptual de respuestas de utilidades para co
Supongamos que tenemos la distribución de frecuencias relativas de los
pesos de toda la población de salmones de la piscicultura
Distribución de fre- relativa
cuencia relativa
0
2.05 2.25 2.45 2.65 2.85 3.05
¿cuál es la probabilidad que un salmón escogido al azar esté entre

2.05 y 2.45?
W-cap-01.indd 5
→ es la fracción del área bajo la curva entre los valores sobre el area
total.

Medida de tendencia central: la media

Otras herramientas para describir nuestro set de datos:
Definition
La media de una muestra de n datos y1 , y2 , . . . , yn está dada por
n
1X
y= yi .
n
i=1
Si pudiéramos conocer todos los valores y1 , y2 , . . . , ym de una población

finita de tamaño m podrı́amos definir la “verdadera media” como
m
1 X
µ= yi .
m
i=1
Es decir que y es la media muestral y µ es la media poblacional. Esta

última en general no la podemos medir: es una constante desconocida que
podemos estimar calculando y a partir de una muestra.
Medidas de dispersión: varianza

¿Cuán alejados están los valores de mi set de datos de su centro?
Definition
La varianza de una muestra de mediciones y1 , y2 , . . . , yn está dada por
n
1X
sn2 = (yi − y )2
n
i=1
Es decir que la varianza muestral sn2 es el promedio del cuadrado de las

distancias de los valores a la media muestral.
Nuevamente, si conociéramos el valor de todos los elementos de una
población finita y1 , y2 , . . . , ym , podrı́amos calcular σ 2 la varianza
poblacional:
m
2 1 X
σ = (yi − µ)2
m
i=1

Medidas de dispersión: varianza

varianza poblacional (para población finita de tamaño m) :
m
1 X
σ2 = (yi − µ)2
m
i=1
varianza muestral (para muestra de tamaño n):

n
1X
sn2 = (yi − y )2
n
i=1
Como en general el valor de la varianza poblacional σ 2 es desconocido,

la varianza muestral sn2 nos sirve como un estimador del valor de σ 2 .
Más adelante veremos que modificando levemente el denominador de
1 Pn
la definición de varianza muestral a sn−1 = n−1 i=1 (yi − y )2
2
obtendremos una estimación mejor de σ 2 .

Medidas de dispersión: desviación estándar
Las definiciones de sn2 , sn−1

2 y de la varianza poblacional σ 2 resultan ser
muy manejables matemáticamente. Sin embargo, para una interpretación
más fácil y directa de la dispersión, podemos preferir la desviación
estándar:
Definition
Si s 2 es la varianza de una muestra de mediciones, definimos la desviación
estándar de la muestra como la raı́z positiva de su varianza; es decir,
√
s = s2
La correspondiente
√ desviación estándar poblacional se denota por
σ = σ2.

Medidas de dispersión: desviación estándar
F I G U R A 1.4
Curva normal
68%
Cuando los datos tienen forma de campana o normal (lo que sucede muy a
menudo) Como se mencionó
tenemos en la Sección
la siguiente regla 1.2, una vez que se conozca la d
empı́rica:
de un conjunto de mediciones, se pueden hacer enunciados de prob
µ ± σ contienemediciones.
aproximadamente 68 % de las mediciones.
Estas probabilidades se mostraron como áreas bajo un h
En aproximadamente
µ ± 2σ contiene forma análoga, las probabilidades
95 % de lasespecificadas en la regla empíric
mediciones.
normal
µ ± 3σ contiene casi mostrada
todas lasenmediciones..
la Figura 1.4.
El uso de la regla empírica se ilustra mediante el siguiente ejemp
que las calificaciones en un examen vocacional aplicado a todos los e
de preparatoria en un estado tienen, aproximadamente, una distribu
Inferir a partir de una muestra
Ejemplo: en una elección, queremos saber si el candidato Dr. Alberto

Ortega va a ganar la elección a alcalde.
Tomamos una muestra de 20 votantes al azar: 19 votarán por Ortega.
Intuitivamente inferimos que Ortega ganará. ¿Por qué?
No creemos que la fracción de la población debe ser exactamente
igual a la muestra. Tampoco que es imposible que Ortega pierda.
En realidad creemos que va a ganar porque si no, serı́a muy
improbable que 19 de 20 personas al azar votaran por él.
Y si fueran 12 de 20 los que votan por Ortega? ¿Pensarı́amos que es
seguro que gana? ¿Podrı́amos predecir con seguridad el resultado?

Otro ejemplo: queremos verificar que un dado no está cargado. Es

decir, que la “población de resultados” está igual distribuida entre los
resultados (1/6 de los resultados para cada uno)
Tomamos una “muestra” de 30 lanzamientos.
Dependiendo de los resultados podemos confiar o no en la hipótesis.
Si en 27 lanzamientos de los 30 obtenemos el mismo valor,
claramente supondremos que está cargado, pues es un resultado
extremo, poco probable si suponemos un dado equilibrado.
Pero obviamente no necesitamos obtener exactamente 5 resultados
para cada valor, para creer que está equilibrado, sino algo cercano.
Algo que sea probable suponiendo que el dado es equilibrado.
¿Cuándo estimamos que está equilibrado y cuando que no?.

Si el dado está equilibrado entonces tenemos el modelo probabilı́stico

del gráfico. Esa es nuestra hipótesis. Bajo este supuesto, nos interesa
pítulo 2 calcular
Probabilidad
la probabilidad de obtener una muestra dada, para poder
confirmar o rechazar la hipótesis.
G U R A 2.1 Frecuencia
stribución de relativa
encia para la
ión generada
por un dado 1 6
balanceado
1 2 3 4 5 6
Número de
la cara superior
del dado

Modelos teóricos
Antes de hacer inferencias a partir de una muestra, estudiaremos los

modelos teóricos que pueden generar los datos de la población.
Estos modelos teóricos son modelos idealizados. Al estudio de estos
modelos lo llamamos la teorı́a de la probabilidad (o simplemente
“Probabilidades”).
Ası́, el estudio de la teorı́a de probabilidad nos dará la base para la
inferencia estadı́stica. Estaremos la mitad del curso estudiando estos
modelos.

Clase 2: Probabilidades caso discreto

Experimento y eventos
Empezaremos con algunas definiciones
Definition
Un experimento ε es el proceso por medio del cual se hace una
observación.
Pueden ser tanto controlables (ej: tipo laboratorio, lanzar un dado)

como incontrolables (ej: cantidad agua caı́da un dı́a dado, )
Al realizar el experimento puede terminar en diferentes resultados.
Siempre vamos a preferir trabajar con un sólo experimento, aunque
consista en repetir una acción. Ejemplos:
ε: “lanzar un dado”
ε: “escoger 10 salmones”,
ε: “lanzar una moneda 5 veces”

Punto muestral y espacio muestral
Definition
Dado un experimento, un punto muestral es un resultado individual del
experimento.
Definition
El espacio muestral asociado a un experimento es el conjunto formado por
todos los posibles puntos muestrales. Se denota por S (o también Ω).
Los puntos muestrales del espacio muestral deben ser diferentes,

mutuamente exclusivos y colectivamente exhaustivos. De modo que
cuando el experimento es realizado se obtendrá uno y sólo uno de los
puntos muestrales.
Se omiten detalles irrelevantes para el estudio: “donde cayó el dado”.

Espacio muestral discreto
Definition
El espacio muestral discreto es aquel que está formado ya sea por un
número finito o numerable de puntos muestrales distintos.
experimento: tirar un dado y observar resultado.

S = { Observar un 1, Observar un 2, . . . , Observar un 6}
experimento: número de bacterias en un cultivo luego de 3 dı́as.
S = {1 bactera, 2 bacterias, 3 bacterias, . . .}

Eventos simples
Definition
Un evento simple es un conjunto que contiene un y sólo un punto muestral
(i.e. es un singleton).
Experimento: tirar un dado y observar resultado.

Eventos simples:
E1 = {observar un 1}

Eventos
Definition
Un evento en un espacio muestral discreto S es un conjunto de puntos
muestrales, es decir, cualquier subconjunto de S.
ε: tirar un dado y observar resultado.

A : observar un número impar.
A = {observar un 1, observar un 3, observar un 5} = E1 ∪ E3 ∪ E5
B : observar un número menor que 5.
B = {observar un 1, observar un 2, observar un 3, observar un 4} =
E1 ∪ E2 ∪ E3 ∪ E4

Podemos ver los eventos en un diagrama de Venn. Por simplicidad los

eventos simples (singletons) son representados por puntos.
2.4 Un modelo probabilístico para un experimento: el caso discreto
F I G U R A 2.8 S
Diagrama de Venn
para el experimento
E1 E6
de lanzar un dado
E3 A E5
B
E2 E4
si y sólo si ocurre uno de los eventos simples E1, E3 o E5. Así,

Todo evento, en un espacio muestral discreto, puede descomponerse como
A = {E 1 , E 3 , E 5 } o A = E 1 ∪ E 3 ∪ E 5 .
la unión (disjunta) de eventos simples.
Del mismo modo, B (observar un número menor que 5) se puede escribir como
B = {E 1 , E 2 , E 3 , E 4 } o B = E1 ∪ E2 ∪ E3 ∪ E4.
La regla para determinar cuáles eventos simples incluir en un evento compuesto es muy p
sa. Un evento simple Ei se incluye en el evento A si y sólo si A ocurre siempre que ocurra

Eventos
Ejemplo infinito numerable:

ε: observar número de bacterias en un cultivo luego de 3 horas.
Evento B: el número de bacterias es mayor que 200.
B = {hay 201 bacterias, hay 202 bacterias, hay 203 bacterias, . . .}
∞
[
B= Ei
i=201
donde Ei es el evento simple Ei : hay i bacterias.

Interpretación eventos unión, intersección y complemento

2.4 Un modelo probabilístico para un experimento: el caso discreto
F I G U R A 2.8 S
Diagrama de Venn
para el experimento
E1 E6
de lanzar un dado
E3 A E5
B
E2 E4
A : Se obtiene impar.
si y sóloB : Seuno
si ocurre obtiene un simples
de los eventos número
E1, E3 menor
o E5. Así, que 5.
A = E 1 ∪ E3 ∪ E5 B = E1 ∪ E2 ∪AE=3{E∪1 , EE43 , E5} o A = E1 ∪ E3 ∪ E5.
El evento “se obtienen impar
Del mismo modo, y menorunque
B (observar 5”menor
número es que ∩seBpuede
A 5) =E 1∪E
escribir 3.
como
El evento “se obtiene impar o menor que 5” es
B = {E 1 , E 2 , E 3 , E 4 } o B = E1 ∪ E2 ∪ E3 ∪ E4.
A ∪ B = E1 ∪ E2 ∪ E3 ∪ E4 ∪ E 5 .
La regla para determinar cuáles eventos simples incluir en un evento compuesto es muy p
sa. Un evento
El evento “no se obtiene unsimple Ei se incluye
impar” es A en el E2 ∪
=evento 4 ∪ siEA6ocurre
A siEy sólo . siempre que ocurra
D E FI NIC IÓN 2.5 Un evento en un espacio muestral discreto S es un conjunto de puntos muestrales, e
decir, cualquier subconjunto de S.
Recuerdo álgebra
Leyes distributivas
A ∩ (B ∪ C ) = (A ∩ B) ∪ (A ∩ C )
A ∪ (B ∩ C ) = (A ∪ B) ∩ (A ∪ C )
Leyes de DeMorgan
(A ∩ B) = A ∪ B
(A ∪ B) = A ∩ B

Modelo probabilı́stico
Definition
Sea S un espacio muestral asociado a un experimento. A todo evento A en
S le asignamos un número, P(A), llamado probabilidad de A, de modo que
se cumplen los siguientes axiomas:
A1: P(A) ≥ 0
A2: P(S) = 1
A3: Si A1 , A2 , A3 , . . . forman una secuencia de eventos disjuntos dos a dos
(es decir, Ai ∩ Aj = ∅ si i 6= j), entonces
∞
X
P(A1 ∪ A2 ∪ A3 ∪ . . .) = P(Ai ).
i=1
Ojo: A3 incluye también la unión finita de conjuntos disjuntos dos a dos:
P(A1 ∪ A2 ∪ . . . ∪ Ak ) = ki=1 P(Ai ).

P
Modelo probabilı́stico
Para definir un modelo probabilı́stico para un experimento con un
espacio muestral discreto basta con asignar una probabilidad
numérica a cada evento simple Ei del espacio muestral S.
Este valor debe ser coherente con lo que creemos serı́a la frecuencia
relativa al repetir el evento muchas veces. Ej: si creemos que el dado
no está cargado entonces P(Ei ) = 61 .
Los axiomas permiten otras asignaciones. Podrı́amos asignar :
2 1 1
P(E1 ) = , P(E2 ) = , P(E3 ) = ,
3 15 15
1 1 1
P(E4 ) = , P(E5 ) = , P(E6 ) =
15 15 15
si suponemos que el dado está cargado al uno.
El modelo probabilı́stico elegido va a depender de las suposiciones
(razonables!) que hagamos.
Ası́ si nuestro espacio es finito o numerable, una manera para hallar la

probabilidad de un evento es la siguiente:
1. Definir el experimento y determinar con claridad cómo describir un
evento simple.
2. Indicar todos los eventos simples asociados con el experimento
asegurándose que no se pueden descomponer. Esto define el espacio
muestral S.
3. Asignar probabilidades razonables a los puntos muestrales en S,
asegurándose de que P(Ei ) ≥ 0 y P(S) = 1.
4. Definir el evento de interés, A, como un conjunto especı́fico de puntos
muestrales.
5. Encontrar P(A) al sumar las probabilidades de los puntos muestrales en
A.

Este método puede ser útil en general pero bastante limitado si

tenemos grandes cantidades de posibles resultados.
Veremos que cuando todos los puntos muestrales de S tienen la
misma probabilidad de ocurrir, el cálculo de la probabilidad de un
evento se reduce a contar cuántos eventos simples contiene. Para ello
veremos algunas herramientas de conteo.

Ejercicios
(Wackerly 2.17)
Los trenes de aterrizaje hidráulicos que salen de una planta de reparación
de aviones se inspeccionan para ver si tienen defectos. Registros históricos
indican que 8 % tienen defectos sólo en ejes, 6 % tienen defectos sólo en
bujes y 2 % tienen defectos en ejes y bujes. Uno de los trenes hidráulicos
se selecciona al azar. ¿Cuál es la probabilidad de que el conjunto tenga
(a) un buje defectuoso?
(b) un eje o buje defectuoso?
(c) exactamente uno de los dos tipos de defecto?
(d) ningún tipo de defecto?
Sol: Pizarra

Ejercicios
(Wackerly 2.18)
Suponga que dos monedas balanceadas se tiran al aire y que se observan
las caras superiores.
(a) Indique los puntos muestrales para este experimento.
(b) Asigne una probabilidad razonable a cada punto muestral. (¿Los
puntos muestrales son igualmente probables?)
(c) Denote con A el evento de que exactamente se vea una cara y con B
el evento de que se vea al menos una cara. Indique los puntos
muestrales en A y B.
(d) De su respuesta al inciso (c), encuentre
P(A), P(B), P(A ∩ B), P(A ∪ B) y P(A ∪ B).

Clase 3: Espacio muestral equiprobable

Espacios equiprobables
Definition
Un espacio muestral finito se denomina equiprobable si todos los eventos
simples (puntos muestrales) tienen la misma probabilidad de ocurrir.
Cuando tenemos un espacio equiprobable, entonces para cualquier evento

A tenemos
número de puntos muestrales en A |A|
P(A) = =
número de puntos muestrales en S |S|

Herramientas de conteo: Principio básico
Theorem (Principio básico de conteo)

Sea un experimento del que queremos contar un número de resultados
válidos (i.e. que cumplan alguna propiedad). Si los resultados válidos se
pueden dividir en una partición de n conjuntos cada uno conteniendo
exactamente m resultados, entonces el proceso tiene en total n × m
resultados diferentes.
Dem: árbol (pizarra)
Parece bastante obvio pero muy útil si entendemos como se ocupa:
ej: lanzar sucesivamente dos dados.
Dividimos los resultados válidos de acuerdo a lo que sale en el primer
dado → 6 grupos.
Cada grupo tiene exactamente 6 resultados (dado por el resultado del
segundo dado)
Otra manera de expresarlo:

Theorem (Principio básico de conteo)
Sea un experimento del que queremos contar un número de resultados
válidos (i.e. que cumplan alguna propiedad). Si los resultados válidos
pueden ser generados por un proceso de dos etapas tales que:
la primera etapa separa los resultados posibles en n clases (que
pueden cumplir la propiedad deseada),
cada clase definida en la primera etapa tiene m valores posibles que
cumplen la propiedad.
Entonces el número de resultados diferentes que cumplen la propiedad es
n × m.


lanzar dos dados de cuatro lados:
Etapa 1 de clasificación: de acuerdo al resultado del primer dado (i.e.
fijamos el valor del primer dado).
Etapa 2 de clasificación: de acuerdo al resultado del segundo dado
(i.e. fijamos el valor del segundo dado).
Etapa 1 Etapa 2
(1,1)
(1,2)
(1,3)
(1,•) (1,4)
(2,1)
(2,2)
(2,•) (2,3)
(2,4)
(3,•)
(4,•)
→ 4×4

lanzar dos dados de cuatro lados y que salgan resultados diferentes en
cada uno (propiedad).
Etapa 1 de clasificación: de acuerdo al resultado del primer dado.
Etapa 2 de clasificación: de acuerdo al resultado del segundo dado.
Etapa 1 Etapa 2
(1,2)
(1,3)
(1,•) (1,4)
(2,1)
(2,•) (2,3)
(2,4)
(3,•)
(4,•)
→ 4×3
Probabilidad del evento A: lanzar dos dados de cuatro lados y que

salgan resultados diferentes en cada uno (propiedad).
Casos totales: 4 × 4
Casos favorables: 4 × 3
4×3
P(A) = 4×4


Ejemplos simples de conteo de casos favorables:
lanzar sucesivamente dos dados y que salgan dos pares
resultados válidos: (2, 2), (2, 4), . . . , (6, 6)
generamos los resultados en dos etapas:
Etapa 1: fijamos primer dado (3 valores posibles)
Etapa 2: fijamos segundo dado (dada etapa 1, hay 3 valores posibles)
→ 3×3=9
lanzar sucesivamente dos dados y que salgan consecutivos ordenados

resultados válidos: (1, 2), (2, 3), . . . , (5, 6)
Etapa 1: fijamos primer dado (5 valores posibles)
Etapa 2: fijamos segundo dado (dada etapa 1, un valor posible)
→ 5×1=5
Más ejemplos simples:

sacar en orden dos cartas de una baraja de 52 cartas (con reposición)
→ 52 × 52
sacar en orden dos cartas de una baraja (sin reposición)
→ 52 × 51
sacar en orden dos cartas de una baraja (sin reposición) y que la
primera carta sea un rey.
→ 4 × 51
sacar en orden dos cartas de una baraja (sin reposición) y que la
segunda carta sea un rey.
→ ...

Ojo! no confundir: las etapas elegidas para clasificar los resultados

válidos no tienen por qué ser las etapas del experimento:
Ej: sacar dos cartas de una baraja (sin reposición) y que la primera
carta sea cualquiera y la segunda carta sea un rey.
Si definiéramos la Etapa 1 como fijar la primera carta, y la Etapa 2
como fijar la segunda, entonces no se cumple que el número de
resultados válidos de cada grupo definido por la primera etapa sea el
mismo (pues depende si en la primera fijo un rey) → 52×?
Mejor, definimos,
Etapa 1: fijar la segunda carta: → 4 resultados válidos posibles.
Etapa 2: fijar la primera carta: 51 resultados válidos posibles (todas
salvo la carta fijada en la primera etapa)
→ 4 × 51 (Hacer el árbol!)

Es generalizable a más etapas. Ejemplos simples:

Lanzar una moneda sucesivamente (i.e. el orden importa) 10 veces:
→ 2 × 2 × . . . × 2 = 210
Elegir una secuencia de 3 dı́gitos tal que ninguno se repite
→ 10 × 9 × 8
Elegir una secuencia de 3 dı́gitos tal que dos consecutivos son siempre
diferentes
→ 10 × 9 × 9
Lo importante es que la cantidad de resultados válidos posibles en cada
etapa de clasificación no dependa de las etapas anteriores.

Las etapas de clasificación no necesariamente fijan los valores. Ejemplo

más complejo:
Sacar secuencialmente (el orden importa) 3 cartas en orden de un
mazo sin reposición y que salga un par y una carta distinta:
Primera etapa de clasificación: Fijar qué cartas contienen el par (3
grupos: 1era y 2da / 1era y 3era / 2da y 3era)
Segunda etapa: Fijar el número en el par (13 posibles)
Tercera etapa: Fijar el número en la carta distinta (12 posibles)
→ 3 × 13 × 12
Par asegurarse que la clasificación está bien, verificar que cualquier
resultado válido posible aparece una y sólo una vez en las hojas del
árbol y que la cantidad de grupos posibles en cada etapa de
clasificación no dependa de las etapas anteriores.

¿Y si no puedo separar en grupos del mismo tamaño?:

Ej: Sacar sucesivamente dos cartas (sin reposición) y que el primero
sea un mono (J,Q,K) y el segundo un diamante.
No es claro como clasificar en etapas de manera que el número de
resultados de la segunda etapa no dependa de los resultados de la
primera. Podemos separar por casos y sumar:
Etapa 1: fijar primera carta. Separamos dos casos:
Caso A: primera carta es un mono de diamantes (3 valores posibles)
→ Etapa 2 para caso A: fijar segunda carta (12 valores posibles)
Caso B: primera carta es un mono pero no de diamantes (9 valores)
→ Etapa 2 para caso B: fijar segunda carta (13 valores posibles)
Total → 3 × 12 + 9 × 13

Recomendación 1: Siempre comenzar pensando en como se codifica

un resultado particular (ej: vector de dos componentes) y calcular
primero los resultados totales. Luego los favorables.
Recomendación 2: Hacer el árbol (o un esquema de él) y verificar
que: (1) Todos los valores válidos está en alguna hoja y (2) Ningún
resultado posible está representado en más de una hoja.
Recomendación 3: Hacer diferentes intentos, no tiene por que salir a
la primera idea. En general no es fácil!

Distinguible vs indistinguible
Cuando contamos resultados, debemos tener en cuenta si hay elementos

distinguibles o indistinguibles. Ej:
Extraer en orden dos bolitas de una urna conteniendo 3 bolitas de
diferente color (blanco, azul y rojo) sin reposición:
→ 3 × 2 = 6 maneras
¿Qué pasa si hay bolitas del mismo color (indistinguibles)?
Ej: Si hay dos blancas y una azul: {B, B}, {B, A}, {A, B} → 3
maneras
Más adelante veremos como resolver este caso.

Ordenando r objetos de n
Theorem
El número de maneras de ocupar r posiciones diferentes utilizando n
objetos distinguibles (con r ≤ n) es
n!
n(n − 1)(n − 2) . . . (n − r + 1) =
(n − r )!
Dem: Usando el principio básico clasificamos los resultados válidos fijando

cada posición.

Ordenando r objetos de n
Algunos ejemplos simples:

De cuantas maneras se puede elegir una directiva de 5 cargos
diferentes de un total de 20 personas.
20!
→ 20 · 19 · 18 · 17 · 16 = 15!
De cuantas maneras podemos ordenar 4 bandas en un recital
4!
→ 4·3·2·1= 0! = 24
De cuantas maneras podemos escoger sucesivamente r bolitas desde
n!
una urna conteniendo n bolitas todas diferentes → (n−r )!

Ejemplo: cumpleaños
(Wackerly 2.7)
Considere un experimento que consiste en registrar el cumpleaños para
cada una de 20 personas seleccionadas al azar. Si no se presta atención a
los años bisiestos y se supone que hay sólo 365 cumpleaños distintos
posibles, encuentre el número de puntos del espacio muestral S para este
experimento. Si suponemos que cada uno de los posibles conjuntos de
cumpleaños es igualmente probable, ¿cuál es la probabilidad de que cada
persona de las 20 tenga un cumpleaños diferente?
Sol:Pizarra

Permutaciones
Caso particular de Teorema anterior r = n:

Corollary (Permutación)
El número de maneras de ordenar n objetos distinguibles (i.e. el número de
permutaciones de n objetos) es
n(n − 1)(n − 2) . . . 2 · 1 = n!
Ej: De cuantas maneras puedo ordenar las letras A,B,C,D,E: → 5!

Clase 4: Espacio muestral equiprobable II

Permutaciones
n! es el número de permutaciones de n elementos distinguibles.

¿Qué pasa si hay elementos indistinguibles entre los n?
No es lo mismo el número de secuencias diferentes de 3 letras que
podemos hacer con la palabra AJO que con la palabra OJO:
AJO → 3 × 2 × 1 = 6 casos.
OJO sólo 3 casos: OJO, OOJ, JOO
Para analizar este caso podemos primero distinguir las letras de OJO
como J,O1 y O2 , luego contar el total (3 × 2 × 1) y finalmente
analizar cuantas veces aparece un resultado cuando volvemos a
indistinguir. En el ejemplo, al distinguir, cada palabra se cuenta
exactamente dos veces (OJO aparece como O1 JO2 y O2 JO1 ).

Permutaciones con elementos indistinguibles
Theorem
El número de maneras de ordenar n objetos donde n1 son Pkindistinguibles,
n2 son indistinguibles, . . . y nk son indistinguibles (con i=1 ni = n) es
n!
n1 !n2 ! . . . nk !
.
Dem: Primero distinguir y luego analizar repetidas.
Ejemplo:
Cuantas arreglos de letras se pueden hacer con las letras de
ABRACADABRA
11!
5!2!2!1!1!

Ejemplo
(a) Se debe asignar a 20 periodistas a 4 trabajos diferentes: 6 reporteros,

5 editores, 5 diagramadores y 4 correctores. ¿De cuántas maneras se
puede hacer esta asignación?
Sol: Fijar las personas en una lista ordenada y repartir los 20 trabajos. Es
como ordenar las letras de la palabra RRRRRREEEEEDDDDDCCCC
20!
|S| = 6!5!5!4!
(b) Si todas las asignaciones son igualmente probables y entre los 20
periodistas hay cuatro amigos, cuál es la probabilidad que a los cuatro
les toque reportear?
Sol: Propuesto. Hint: Suponer los amigos en las primeras cuatro posiciones
y fijar 4 R’s ahı́. Contar cuantos resultados tienen esta caracterı́stica

Repartición en grupos de tamaño fijo
Del ejemplo visto concluı́mos que la fórmula anterior también aplica a este
caso:
Corollary
El número de maneras de repartir n objetos distinguibles en k grupos
distinguibles
Pk de tamaños fijos n1 , n2 , . . . , nk respectivamente (donde
n
i=1 i = n) es
n!
n1 !n2 ! . . . nk !

Combinaciones
Theorem
Dado un conjunto A de tamaño n, el número de subconjuntos de A de
tamaño r es
n n!
:=
r r !(n − r )!
.
Dem: Considerar dos grupos de tamaño fijo: los que quedan dentro del
subconjunto y los que quedan fuera. Aplicar resultado anterior.
Ejemplo:
Elegir un comité (sin cargos) de 5 personas de entre 20.
→ 20

5

Ejemplo
Una empresa compra abastecimientos a M distribuidores y desea hacer n

pedidos (n < M). Suponga que la empresa hace los pedidos en forma que
permita a cada distribuidor tener igual probabilidad de obtener cualquier
pedido y no hay restricción en el número de pedidos que se puedan colocar
con cualquier distribuidor. Encuentre la probabilidad de que un distribuidor
particular, por ejemplo el distribuidor I , obtenga exactamente k pedidos
(k ≤ n).
Sol: Pizarra

Clase 5: Prob. condicional, independencia y otras propiedades
Clase 5: Probabilidad condicional, independencia y otras propiedades

Probabilidad condicional
Considere el ejemplo de lanzar un dado balanceado. La probabilidad

de que salga un 1 es P(Ei ) = 16 .
¿Qué sucede si suponemos que ha caı́do impar? ¿Cambia nuestra
noción de probabilidad de que salga 1?

Definition
La probabilidad condicional de un evento A, dado que un evento B ha
ocurrido, es igual a
P(A ∩ B)
P(A|B) = ,
P(B)
siempre que P(B) > 0. El sı́mbolo P(A|B) se lee “probabilidad de A dado
B”.

Ejemplo:
Considere el ejemplo de lanzar un dado balanceado. Consideremos los
eventos A : “se obtiene un 1” y B: “se obtiene un número impar”.
La probabilidad de obtener un 1 dado que se obtiene impar es la
probabilidad de A dado B:
P(A ∩ B) 1/6 1
P(A|B) = = =
P(B) 1/2 3
Ası́, si suponemos que ha caı́do impar entonces la probabilidad de que

salga uno es 1/3.

Independencia de eventos
¿Qué pasa si la probabilidad de un evento no es afectada cuando

suponemos la ocurrencia o no ocurrencia de otro evento?
Tenderı́amos a calificar estos eventos como independientes
Definition
Se dice que dos eventos son independientes si cumple cualquiera de los
siguientes casos (todos son equivalentes):
P(A|B) = P(A),
P(B|A) = P(B),
P(A ∩ B) = P(A)P(B)
Si esto no sucede decimos que los sucesos son dependientes

Independencia de eventos
Ejemplo: Tirar una moneda no balanceada 5 veces (probabilidad de

cara 0,6). ¿Cual es la probabilidad de obtener exactamente 2 caras?.
Ai : sale cara en lanzamiento i
P(Ai ) = 6/10 y P(Ai ) = 4/10
B : se obtienen exactamente dos caras. P(B) =?
Veamos la probabilidad de un evento simple en B:
E1 = (C , C , S, S, S) = A1 ∩ A2 ∩ A3 ∩ A4 ∩ A5 ∩ A6
Si suponemos , razonablemente, que cada tirada Ai es independiente:
6 2 4 3
P(E1 ) = P(A1 )P(A2 )P(A3 )P(A4 )P(A5 )P(A6 ) = ( 10 ) ( 10 )
Todos los eventos simples en B tienen la misma probabilidad:
6 2 4 3
( 10 ) ( 10 ) .
5!
= 52

¿Cuántos eventos simples contiene B? → 2!3!
Concluı́mos P(B) = 52 ( 10
6 2 4 3
) ( 10 )
Probabilidad de la intersección
Theorem
La probabilidad de la intersección de dos eventos A y B es
P(A ∩ B) = P(A)P(B|A)
= P(B)P(A|B)
Si a A y B son independientes, entonces
P(A ∩ B) = P(A)P(B)
Dem: De la definición de probabilidad condicional

Probabilidad de la intersección
Se puede extender a intersecciones mayores:
P(A ∩ B ∩ C ) = P(A)P(B|A)P(C |A ∩ B)
En general:
P(A1 ∩ A2 ∩ . . . ∩ Ak ) = P(A1 )P(A2 |A1 )P(A3 |A1 ∩ A2 ) . . .

. . . P(Ak |A1 ∩ A2 ∩ . . . ∩ Ak−1 )

Probabilidad de la unión
Theorem
La probabilidad de la unión de dos eventos A y B es
P(A ∪ B) = P(A) + P(B) − P(A ∩ B).
Si A y B son mutuamente excluyentes, P(A ∩ B) = 0 y
P(A ∪ B) = P(A) + P(B)

Probabilidad de la unión
Se puede extender a uniones mayores:
P(A ∪ B ∪ C ) =
= P(A)+P(B)+P(C )−P(A∩B)−P(A∩C )−P(B ∩C )+P(A∩B ∩C )
y ası́ sucesivamente...

Probabilidad del complemento
Theorem
Si A es un evento, entonces
P(A) = 1 − P(A).
Dem: S = A ∪ A
Muchas veces es más fácil calcular la probabilidad del complemento
de nuestro evento de interés. Ej: Probabilidad que entre 20 personas
al menos dos tengan cumpleaños el mismo dı́a.

Ley de probabilidad total
Consideremos B1 , B2 , . . . Bk una partición del espacio muestral S, es

decir
(a) S = B1 ∪ B2 ∪ . . . ∪ Bk .
(b) Bi ∩ Bj = ∅ para i 6= j
Claramente cualquier conjunto A en S puede descomponerse como
sigue:
A = (A ∩ B1 ) ∪ (A ∩ B2 ) ∪ . . . ∪ (A ∩ Bk )

Ley de probabilidad total
Theorem
Suponga que {B1 , B2 , . . . , Bk } es una partición de S tal que P(Bi ) > 0,
para i = 1, 2, . . . , k. Entonces para cualquier evento A
k
X
P(A) = P(A|Bi )P(Bi )
i=1
Dem: descomposición y probabilidad de la unión.

Utilidad: Muchas veces es más fácil calcular los P(A|Bi ) para una
partición elegida adecuadamente que calcular directamente P(A).

Regla de Bayes
Theorem
Suponga que {B1 , B2 , . . . , Bk } es una partición de S tal que P(Bi ) > 0,
para i = 1, 2, . . . , k. Entonces
P(A|Bj )P(Bj )
P(Bj |A) = Pk
i=1 P(A|Bi )P(Bi )
Dem: ley de probabilidad total y probabilidad condicional.

Ejemplo (Wackerly)
Una prueba de diagnóstico para una enfermedad es tal que

(correctamente) detecta la enfermedad en 90 % de los individuos que en
realidad tienen la enfermedad. También, si una persona no tiene la
enfermedad, la prueba reportará que él o ella no la tiene con probabilidad
.9. Sólo 1 % de la población tiene la enfermedad en cuestión. Si una
persona es seleccionada al azar de la población y la prueba de diagnóstico
indica que tiene la enfermedad, ¿cuál es la probabilidad condicional de que
tenga, en realidad, la enfermedad? ¿La respuesta lo sorprende? ¿Se
considera confiable esta prueba de diagnóstico?
Ver applet en:
http://mcsp.wartburg.edu/nmb/fall10/math313/seeingstats/Chpt2/bayesTree.html

Ejemplo (Wackerly)
Un fusible electrónico es producido por cinco lı́neas de producción en una

operación de manufactura. Los fusibles son costosos, sumamente
confiables y se envı́an a proveedores en lotes de 100 unidades. Como la
prueba es destructiva, la mayorı́a de los compradores de fusibles prueban
sólo un número pequeño de ellos antes de decidirse a aceptar o rechazar
lotes de fusibles que lleguen. Las cinco lı́neas de producción producen
fusibles al mismo ritmo y normalmente producen sólo 2 % de fusibles
defectuosos, que se dispersan al azar en la producción.
Desafortunadamente, la lı́nea 1 de producción sufrió problemas mecánicos
y produjo 5 % de piezas defectuosas durante el mes de marzo. Esta
situación llegó al conocimiento del fabricante después de que los fusibles
ya habı́an sido enviados. Un cliente recibió un lote producido en marzo y
probó tres fusibles. Uno falló. ¿Cuál es la probabilidad de que el lote se
haya producido en la lı́nea 1? ¿Cuál es la probabilidad de que el lote haya
provenido de una de las otras cuatro lı́neas?
Solución
Desarrollo: Pizarra
Sol: 0.73 y 0.63

Clase 6: Variable aleatoria discreta
Clase 6: Variables aleatorias

Variables aleatorias
En lo que viene, vamos a concentrarnos en descripciones numéricas de los

resultados en S.
Definition
Una variable aleatoria (v.a.) es una función que toma valores reales y cuyo
dominio es un espacio muestral
Ojo: una variable aleatoria es una función, no es una variable (a pesar del
nombre).
Y : S → RY ⊆ R

Variable aleatoria discreta
Definition
Una variable aleatoria Y es discreta si puede tomar sólo un número finito
o infinito numerable de valores distintos. Es decir, su recorrido RY es finito
o infinito numerable.
Ejemplo ε: lanzar 3 monedas equilibradas.

La v.a. Y :“número de caras” tiene RY = {0, 1, 2, 3}. Por lo tanto Y
es discreta.
Ejemplo ε: lanzar una moneda hasta que salga sello
La v.a. X =“número de lanzamientos” tiene RX = {1, 2, 3, . . .}.
Como RX es infinito numerable entonces X es discreta.

¿Cuándo no es discreta?
Ejemplo ε: lanzar un dardo en un disco de tiro al blanco y mirar su
posición.
la variable aleatoria Y =“distancia entre la posición y el centro del
blanco” ¿es discreta o no?
Si asumimos una medición perfecta, el número de posibles valores de
Y es cualquier número real entre 0 y el radio del disco → Y no es
discreta. Más adelante estudiaremos este caso.
En cambio si observamos la zona en que cayó, la v.a. X =“puntaje
obtenido” es claramente discreta. Ası́, para un mismo experimento
podemos definir distintas v.a. de distinta naturaleza.

Ejemplo: Lanzar dos monedas y observar resultado.

S = {CC , CS, SC , SS}
Definimos Y la v.a. “número de caras que se obtuvieron”
Y : S → {0, 1, 2} ⊆ R
Notación de eventos:
{Y = 0} = {SS}, {Y = 1} = {CS, SC }, {Y = 2} = {CC }
Si la moneda es balanceada y los lanzamientos independientes:
P(Y = 0) = 14 , P(Y = 1) = 1
2 y P(Y = 2) = 1
4

Proposition
La probabilidad de que Y tome el valor y , P(Y = y ), es la suma de las
probabilidades de todos los puntos muestrales en S a los que se asigna el
valor y . A veces denotamos P(Y = y ) como pY (y ) o simplemente como
p(y ).

Distribución de probabilidad
Definition
La distribución de probabilidad para una variable discreta Y es la
descripción de la probabilidad de cada uno de los valores que puede tomar
Y . Puede ser representada por una fórmula, una tabla o una gráfica que
produzca p(y ) = P(Y = y ) para todo y .

It is often instructive to present the probability mass function in a graphical for
Distribución
plotting dey-axis
p(xi ) on the probabilidad
against xi on the x-axis. For instance, if the probab
ss function of X is
1 1 1
p(0) =2 monedas
Ejemplo ε =“lanzar =
p(1)equilibradas”
p(2) = v.a. X que
y la
4 2 4
representa “el número de caras”.
p(x)
1
–
2
1
–
4
x
0 1 2
Figura de “A First...”, Ross
FIGURE 4.1

Ejemplo ε =“lanzar 2 dados equilibrados” y la v.a. X que representa

pter 4
“la suma de los dados”.
Random Variables
p(x)
6
—
36
5
—
36
4
—
36
3
—
36
2
—
36
1
—
36
x
0 1 2 3 4 5 6 7 8 9 10 11 12
Figura de “A First...”, Ross

FIGURE 4.2
Vicente Acuñawe can Universidad

(CMM, representdethis function
Chile) graphically
Prob. yas shown in Figure 4.1. Similarly, a graph
Est. 89 / 250
Algunas propiedades:
La probabilidad para Y = y debe estar entre 0 y 1 para todo y :
0 ≤ pY (y ) ≤ 1
La probabilidad para todos los valores de Y debe sumar 1

X
pY (y ) = 1
y ∈RY
Para cualquier subconjunto M de los reales se tiene que

X
P(Y ∈ M) = pY (y )
y ∈M∩RY

Ejemplo
Sea ε =“lanzar 3 monedas equilibradas” y la v.a. Y que representa

“el número de caras”.
Dada una ley de probabilidad sobre S, podemos calcular la función de
probabilidad de Y calculando la probabilidad de cada conjunto
{Y = k} con k = 0, . . . , 3 (es usual usar k en vez de y cuando los
valores posibles de Y son enteros)
pY (0) = P(Y = 0) = P{(S, S, S)} = 1/8

pY (1) = P(Y = 1) = P{(S, S, C ), (S, C , S), (C , S, S)} = 3/8
pY (2) = P(Y = 2) = P{(S, C , C ), (C , S, C ), (C , C , S)} = 3/8
pY (3) = P(Y = 3) = P{(C , C , C )} = 1/8

Ejemplo (continuación)
En general no escribimos todos los valores. En cambio calculamos una
fórmula para la función de probabilidad:
3

k
pY (k) = k = 0, . . . , 3
23
Efectivamente las probabilidades los posibles valores de Y suman 1:
3
X 1 3 3 1
pY (k) = + + + =1
8 8 8 8
k=0
También podemos corroborarlo a partir de la fórmula:
3 3 3
X 1 X 3 1 X 3 k 3−k 1
pY (k) = 3 = 3 1 1 = 3 (1 + 1)3 = 1
2 k 2 k 2
k=0 k=0 k=0

Problema
Problema: Tres bolas son elegidas al azar sin reemplazo desde una
urna conteniendo 20 bolas numeradas del 1 al 20. Si apostamos que
al menos una bola elegida tiene un número mayor o igual a 17, cuál
es la probabilidad de que ganemos la apuesta?

Solución: Definimos ε : “Elegir tres bolas al azar”

S = {{1, 2, 3}, {1, 2, 4}, . . . , {18, 19, 20}} (el orden no importa)
S es equiprobable. |S| = 20

3
Definimos la v.a. Y como el número de bolas extraı́das con número
mayor o igual a 17.
Y puede tomar los valores 0,1,2 y 3. Es decir RY = {0, 1, 2, 3}
Contemos los casos tales que Y = k. Es decir, que exactamente k
bolitas son mayores o iguales que 17. Los casos en que eso ocurre
pueden verse como elegir k bolitas de entre las 4 bolitas mayores y
luego elegir 3 − k bolitas de las 16 menores. Es decir
4
16
k 3−k
P(Y = k) = 20

3
Obtenemos P(Y ≥ 1) = 1 − P(Y < 1) = 1 − P(Y = 0) =

(4)(16) 16! 3!17! 14·15·16
1 − 0 20 3 = 1 − 3!13! 20! = 1 − 18·19·20
(3)
Alternativa: ¿Y si hubieramos elegido S tal que el orden sı́ importa?

S = {(1, 2, 3), (1, 2, 4), . . . , (2, 1, 3), (2, 1, 4), . . . , (20, 19, 18)} (el
orden importa). S es equiprobable. |S| = 20 · 19 · 18
Contemos los casos tales que Y = k. Es decir, que exactamente k
bolitas son mayores o iguales que 17. Los casos en que eso ocurre
pueden verse como elegir primero las k posiciones donde colocamos
las bolas mayores (esto es k3 ) y luego en esas posiciones llenarlos con

4!
k de las 4 bolitas mayores (esto es (4−k)! ) y las otras 3 − k posiciones
16!
llenarlas con bolitas menores (de (16−(3−k))! maneras). Es decir
3 4! 16!

k (4−k)! (13+k)!
P(Y = k) = 20!
17!
(k4)(3−k
16
)
Comprueben que es lo mismo que antes (es decir 20 ) pero
(3)
escrito más feo.
Clase 7: Esperanza y varianza

Esperanza
Definition
Sea Y una v.a. discreta con función de probabilidad p(y ). Entonces el
valor esperado de Y , E (Y ), se define como
X
E (Y ) = yp(Y )
y ∈RY
La esperanza es un promedio ponderado de los valores que puede

tomar Y
Nota: hay casos en que esta suma no es convergente, pero no los
estudiaremos en este curso.

Función de una variable aleatoria
Recoredemos que la v.a. Y es una función. ¿Qué pasa si definimos una

nueva función g sobre los valores que puede tomar Y ? g : R → R.
Entonces la función g ◦ Y : S → R también es una variable aleatoria.
Ejemplo: Y 2
Supongamos que Y puede tomar los valores RY = {−2, 0, 2} con
probabilidad 1/3 cada uno.
RY 2 = {0, 4}.¿Cuál es la distribución de Y 2 ?
pY 2 (0) = 1/3 pY 2 (4) = 2/3

Esperanza de una función de una v.a.
Theorem
Sea Y una v.a. discreta con función de probabilidad p(y ) y sea g (Y ) una
función de valor real de Y . Entonces el valor esperado de g (Y ) es
X
E [g (Y )] = g (y )p(Y )
y ∈RY
El teorema dice que no es necesario calcular la distribución de g (Y )

para calcular su esperanza.
Continuando
P el ejemplo: 1 1 1 8
E [Y 2 ] = y ∈{−2,0,2} y 2 p(y ) = (−2)2 · 3 + 02 · 3 + 22 · 3 = 3
→ Comprobar calculando la esperanza de Y 2 por definición.

Varianza
Theorem
Si Y es una v.a. con media E (Y ) = µ, la varianza de la v.a. Y se define
como el valor esperado de (Y − µ)2 . Esto es,
V (Y ) = E ((Y − µ)2 ).
La desviación estándar de Y es la raı́z cuadrada positiva de V (Y )

Propiedades de la esperanza
Theorem
Sea Y una v.a. discreta con función de probabilidad p(y ) y sea c una
constante. Entonces E (c) = c.
Una constante es cualquier valor que no varı́a cuando realizamos el

experimento.
Caso particular interesante: E (E (X )) = E (X ) pues la esperanza de X
no depende del resultado de X

Theorem
Sea Y una v.a. discreta con función de probabilidad p(y ), g (Y ) una
función de Y y c una constante. Entonces
E (cg (Y )) = cE (g (Y ))

Theorem
Sea Y una v.a. discreta con función de probabilidad p(y ) y sean
g1 (Y ), g2 (Y ) . . . gk (Y ) k funciones de Y . Entonces
E (g1 (Y ) + g2 (Y ) + . . . + gk (Y )) = E (g1 (Y )) + E (g2 (Y )) + . . . E (gk (Y ))

Fórmula de la varianza
Theorem
Sea Y una v.a. discreta con función de probabilidad p(y ) y media
E (Y ) = µ; entonces
V (Y ) = σ 2 = E ((Y − µ)2 ) = E (Y 2 ) − µ2
Dem: Pizarra
Esta fórmula es muy usada para calcula la esperanza

Propiedad de la varianza
Theorem
Si X es una variable aleatoria y a, b son constantes, entonces
V (aX + b) = a2 V (X )
Demostración: Pizarra

Clase 8: Variables aleatorias discretas usuales

Variable aleatoria de Bernoulli
Definition
Decimos que una v.a. discreta X sigue una distribución de Bernoulli de
parámetro p, si la distribución de X está dada por
pX (0) = 1 − p
pX (1) = p
En este caso denotamos X ∼ Bernoulli(p).
Ejemplos:
lanzar una moneda balanceada. Si X v.a. que sale 1 si cara y 0 si
sello, entonces X ∼ Bernoulli( 12 ).
lanzar un dado balanceado. Si Y v.a. que vale 0 si sale un seis y 1 si
no. Entonces X ∼ Bernoulli( 56 ).
Pizarra: Mostrar que esperanza es p y varianza p(1 − p).
Variable aleatoria binomial

Recordemos el ejemplo: Tirar una moneda no balanceada 5 veces
(probabilidad de cara 0,6). ¿Cual es la probabilidad de obtener
exactamente 2 caras?.
Ai : sale cara en lanzamiento i
P(Ai ) = 6/10 y P(Ai ) = 4/10
B : se obtienen exactamente dos caras. P(B) =?
Veamos la probabilidad de un evento simple en B:
E1 = (C , C , S, S, S) = A1 ∩ A2 ∩ A3 ∩ A4 ∩ A5 ∩ A6
Si suponemos, razonablemente, que cada tirada Ai es independiente:
6 2 4 3
P(E1 ) = P(A1 )P(A2 )P(A3 )P(A4 )P(A5 )P(A6 ) = ( 10 ) ( 10 )
Todos los eventos simples en B tienen la misma probabilidad:
6 2 4 3
( 10 ) ( 10 ) .
5!
= 52

¿Cuántos eventos simples contiene B? → 2!3!
Concluı́mos P(B) = 52 ( 10
6 2 4 3
) ( 10 )

Definition
Decimos que una v.a. discreta X sigue una distribución binomial de
parámetros n ∈ N∗ y p ∈ [0, 1], si la distribución de X está dada por

n k
pX (k) = p (1 − p)n−k para todo k ∈ {0, 1, . . . , n}
k
En este caso denotamos X ∼ bin(n, p).
Ejemplos:
Ejemplo: lanzar 10 veces una moneda balanceada y definir X el
número de caras. Entonces X ∼ bin(10, 21 ).
Pizarra: Mostrar que esperanza de binomial es np y varianza
np(1 − p).

Un experimento binomial presenta las siguientes propiedades:

1. Consiste en un número fijo, n, de pruebas idénticas.
2. Cada prueba resulta en uno de dos resultados: éxito, S, o fracaso, F .
3. La probabilidad de éxito en una sola prueba es igual a algún valor p y
es el mismo de una prueba a la otra. La probabilidad de fracaso es
igual a q = (1–p).
4. Las pruebas son independientes.
5. La variable aleatoria de interés es Y , el número de éxitos observado
durante las n pruebas.


Problema:
Suponga que un lote de 5000 fusibles eléctricos contiene 5 % de
piezas defectuosas. Si se prueba una muestra de 5 fusibles, encuentre
la probabilidad de hallar al menos uno defectuoso (Como el lote es
grande con respecto a la muestra, asuma que la proporción de piezas
defectuosas no cambia para cada fusible extraı́do en la muestra).
La experiencia ha demostrado que 30 % de todas las personas
afectadas por cierta enfermedad se recuperan. Una empresa fabricante
de medicamentos ha inventado una nueva medicina. Diez personas
con la enfermedad se seleccionaron al azar y recibieron la medicina;
nueve se recuperaron al poco tiempo. Suponga que la medicina no es
eficaz en absoluto. ¿Cuál es la probabilidad de que se recuperen al
menos nueve de entre diez que recibieron la medicina?


104 Capítulo 3 Variables aleatorias discretas y sus distribuciones de probabilidad
F I G U R A 3.4 p ( y)
Histogramas
.40
de probabilidad
binomial .30
n = 10, p = .1
.20
.10
0
y
0 1 2 3 4 5 6 7 8 9 10
(a)
p ( y)
.25
n = 10, p = .5
.20
.15
.10
.05
0
y
0 1 2 3 4 5 6 7 8 9 10
(b)
p ( y)
.18
.16
.14
n = 20, p = .5
.12
.10
.08
.06
.04
.02
0
0 2 4 6 8 10 12 14 16 18 20 y
Vicente Acuña (CMM, Universidad de Chile) (c)

Prob. y Est. 112 / 250
Variable aleatoria geométrica
Definition
Decimos que una v.a. discreta X sigue una distribución geométrica de
parámetro p ∈ [0, 1], si la distribución de X está dada por
pX (k) = (1 − p)k−1 p para todo k ∈ {1, 2, . . .}
En este caso denotamos X ∼ geom(p).
Ejemplos:
Ejemplo: lanzar sucesivamente un dado hasta obtener tres. X definido
como cuantas veces se lanza el dado. X ∼ geom( 61 )
1 1−p
Propuesto: Mostrar que la esperanza es p y varianza p2
.

Endiscretas
Clase 8: Variables aleatorias la Figura p(y), p = .5. Las
3.5 se ilustra un histograma de probabilidad para
usuales
los intervalos corresponden a probabilidades, como correspondieron a las distrib
frecuencia de datos en el Capítulo 1, excepto que Y puede tomar sólo valores dis
Variable aleatoria geométrica 1, 2,… , q. Por inspección de los valores respectivos es obvio que p(y) ≥ 0 . En e
3.66 demostrará que estas probabilidades ascienden a 1, como se requiere para cua
tribución de probabilidad discreta válida.
FIGURA 3.5 p ( y)
La distribución .5
de probabilidad
geométrica, p = .5
.4
.3
.2
.1
0
1 2 3 4 5 6 7 8 y
W-cap-03.indd 115

Variable aleatoria binomial negativa (Pascal)
Definition
Decimos que una v.a. discreta X sigue una distribución binomial negativa
de parámetros r ∈ N∗ y p ∈ [0, 1], si la distribución de X está dada por

k −1
pX (k) = (1 − p)k−r p r para todo k ∈ {r , r + 1, . . .}
r −1
En este caso denotamos X ∼ BN(r , p).
Ejemplos:
Ejemplo: lanzar sucesivamente un dado hasta obtener 10 veces tres.
X definido como cuantas veces se lanza el dado. X ∼ BN(10, 61 )
r r (1−p)
Propuesto: Mostrar que la esperanza es p y varianza p2
.

Variable aleatoria Poisson
Ejemplo motivador: Una máquina produce una gran cantidad de

fusibles continuamente durante 24 horas. Sabemos que en promedio
fabrica pocos fusibles defectuosos, digamos λ = 8 al dı́a. Sabemos que
los defectuosos se producen en cualquier momento, sin preferencia por
algún horario y que cuando se produce un defectuoso en un instante
no influye en lo que pueda suceder en cualquier otro instante de
tiempo. ¿Cuál es la probabilidad de que produzca 9 defectuosos?
Indicación: pensar en intervalos pequeños que contengan a lo más un
defectuoso.

Si definimos la v.a. X número de defectuosos al dı́a, sólo sabemos que

E (X ) = λ.
Supongamos que separamos el dı́a en N intervalos muy pequeños
tales que: (1) es imposible que en cada intervalo se produzca más de
un defectuoso y (2) la probabilidad de fabricar un defectuoso en un
intervalo es independiente de los que suceda en otros intervalos.
Entonces la probabilidad de que produzca un defectuoso en el
intervalo i es Nλ y X es una binomial X ∼bin(N, Nλ ).
Es coherente pues E (X ) = N Nλ = λ.

Ası́ la distribución de X es:

N λ k λ
P(X = k) = ( ) (1 − )N−k para k ∈ {0, 1, . . . , N}
k N N
Pero queda dependiente de un N correspondiente al número de

intervalos, que suponemos grande para que sólo pueda contener a lo
más un evento defectuoso.
Podemos hacer N → ∞ . . .
Veremos (pizarra) que :
λk

N λ k λ
lı́m ( ) (1 − )N−k = e −λ
n→∞ k N N k!

Definition
Decimos que una v.a. discreta X sigue una distribución de Poisson de
parámetro λ > 0, si la distribución de X está dada por
λk
pX (k) = e −λ para todo k ∈ {0, 1, 2, . . .}
k!
En este caso denotamos X ∼ Poisson(λ).

Ejemplos tı́picos: accidentes automovilı́sticos en una unidad de

tiempo, número de llamadas telefónicas recibidas en un intervalo,
número de partı́culas radiactivas que se desintegran en un periodo
particular, número de errores que comete una mecanógrafa al escribir
una página, número de automóviles que usan una rampa de acceso a
una autopista en un intervalo de diez minutos, etc.
El parámetro λ corresponde al promedio de eventos en el intervalo
considerado. En el ejemplo, λ = 8 era el promedio de bombillas
defectuosas en un dı́a. Algo importante es que si cambiamos el
intervalo de tiempo, λ cambia proporcionalmente. Ası́ si X es el
número de defectos en una semana, entonces X ∼ Poisson(7 × 8).
La distribución de Poisson se usa también como una manera de
aproximar el cálculo de la binomial para n grande p pequeña y λ = np
menor que 7, aproximadamente.

Propuesto
Demostrar que la distribución de Poisson
P satisface la condición
(requerida para ser distribución): y ∈RY pY (y ) = 1 (Hint: use la
expansión en serie de e λ )
Demostrar que la esperanza de una v.a. de Poisson con parámetro λ
es λ (Hint: Busque formar la condición anterior)
Demostrar que la varianza también es λ (Hint: Encuentre
E (Y (Y − 1)) para calcular E (Y 2 ) )

Clase 9: Variables aleatorias continuas

Función de distribución (acumulada)

Hay variables aleatorias en el mundo real que podrı́an tomar cualquier
valor en un intervalo (suponiendo una medición perfecta): Agua caı́da
en un dı́a, vida util de una lavadora en años, altura de una persona,
etc.
Sin embargo no podemos asignar una probabilidad positiva a cada
punto del intervalo, pues queremos que el total de probabilidad sea 1.
Ası́ en el caso de variables aleatorias continuas usaremos un método
diferente. Antes de adentrarnos en este método definiremos para
cualquier variable aleatoria Y , la función de distribución acumulada o
simplemente función de distribución F (y )
Definition
Sea Y una variable aleatoria cualquiera. La función de distribución
(acumulada) de Y , denotada por F (y ) es tal que F (y ) = P(Y ≤ y ) para
−∞ < y < ∞
Función de distribución caso discreto

4.2 Distribución de probabilidad para una var
F I G U R A 4.1 F(y)
Función de distribu-
ción binomial, 1
n = 2, p = 1/2
3/4
1/2
1/4
0 1 2 y
Ejemplo, binomial(2, 0.5).

Todas las v.a. discretas son funciones
¿Cuál es F(–2) =de P(Y“escalón”.
≤ –2)? Como Los saltos
los únicos son deenY a lo
valores
des positivas positiva.
los puntos donde hay probabilidad son 0, 1 y 2 yElninguno
valor deenestos
esosvalores son menore
puntos es
usamos
el lı́mite por la derecha. Los una lógica
saltos suman 1. F(y) = 0 para toda y < 0. ¿Cuál es F
similar,
Y que son menores o iguales a 1.5 y tienen probabilidades dife
Vicente Acuña (CMM, Universidad de Chile) 0 y 1.Prob.
Por yloEst.
que, 124 / 250
Propiedades de una función distribución F (y )
Theorem
Si F (y ) es una función de distribución de la variable aleatoria Y entonces
1 lı́my →−∞ F (y ) = 0
2 lı́my →∞ F (y ) = 1
3 F (y ) es no decreciente en y .
4 F (y ) es continua por la derecha.

Variables aleatorias continuas
En el caso de una variable aleatoria continua queremos asignar

probabilidades no a puntos especı́ficos sino que a intervalos.
Ası́, la función de distribución F (y ) no puede contener saltos, pero si
puede tener una pendiente creciente.
Definition
Una variable aleatoria Y con función de distribución F (y ) se dice continua
si F (y ) es continua (y derivable en “casi todos los puntos”), para
−∞ < y < ∞

Por tanto,
Clase 9: Variables aleatorias llegamos a la definición de una variable aleatoria continua.
continuas
D E F I N I C I Ó N 4.2 Una variable aleatoria Y con función de distribución F(y) se dice que es continua si F(y)
Función distribución para v.a. continuas es continua, para –q < y < q.2
F I G U R A 4.2 F(y)
Función de distribución
para una variable
aleatoria continua 1
F(y2)
F(y1)
0 y1 y2 y
La probabilidad de que Y caiga en un intervalo (y1 , y2 ) es

exactamente F (y2 ) − F (y1 ). 1. Para ser matemáticamente rigurosos, si F(y) es una función de distribución válida, entonces F(y) también debe
ser continua.
La pendiente indica cuanto crece la probabilidad en ese punto. Es una
2. Para ser matemáticamente precisos, también necesitamos que exista la primera derivada de F(y) y que sea conti-
nua excepto para, a lo sumo, un número finito de puntos en cualquier intervalo finito. Las funciones de distribución
densidad de probabilidad. para las variables aleatorias continuas estudiadas en este texto satisfacen este requisito.
Una v.a. que no es discreta, no necesariamente es continua. Podrı́a

W-cap-04.indd 160 27/7/09 02:25:31
por ejemplo tener pendientes en algunos puntos y saltos en otros (es

mixta, no lo veremos en el curso)
Función densidad de probabilidad
Definition
Sea F (y ) la función de distribución para una v.a. continua Y . Entonces
f (y ), dada por
dF (y )
f (y ) = = F 0 (y )
dy
siempre que exista la derivada, se denomina función de densidad de
probabilidad para la variable aleatoria Y .

frecuencia relativa (una curva suave) que caracterizaría la
cante. Esta distribución teórica de frecuencia relativa corres
Variables aleatorias continuaspara la duración de vida de una sola máquina
probabilidad
F I G U R A 4.3 f ( y)
La función
de distribución
F ( y0 )
y0 y
La función de distribución y la densidad se relacionan por el teorema

fundamental del cálculo:
-cap-04.indd 161
Z y
F (y ) = f (t)dt.
−∞
La densidad es un modelo teórico de la frecuencia de un evento: es el

histograma si pudiéramos repetir un experimento infinitas veces.
Obviamente f (y ) es no negativa e integra 1 en el los reales.
Propiedades de una función de densidad
Theorem
Si f (y ) es una función de densidad para una variable aleatoria continua,
entonces
1. f (y ) ≥ 0 para todo y tal que −∞ < y < ∞.
R∞
2. −∞ f (y )dy = 1.

bajo la función de densidad f(y). Esto de hecho es verdad porque, si a < b,
b
P(a < Y ≤ b) = P(Y ≤ b) − P(Y ≤ a) = F(b) − F(a) =
a
Como P(Y = a) = 0, tenemos el siguiente resultado.

Theorem
Si la variable aleatoria
TE O R E MA 4.3 Y tiene densidad
Si la variable f (y
aleatoria ) y función
Y tiene a < b,de entonces
densidad f (y)la
y a < b, entonces
probabilidad de que Y caiga dad en
de que caiga en el intervalo
el Yintervalo [a, b] es[a, b] es
b
Z b P ≤ Y ≤ b) !
P(a f ( y) dy.
a
P(a ≤ Y ≤ b) = f (y )dy .
a
Esta probabilidad es el área sombreada de la Figura 4.8.
F I G U R A 4.8 f (y)
P (a ≤ Y ≤ b)
0 a b y

Ojo con los nombres
Atención: Muchas veces diremos “distribución” cuando en realidad se

entrega una densidad. Esto es porque en cierto modo son equivalentes
en la información que entregan. Basta la densidad para obtener la
distribución. Lo que es más estándar es que la distribución
(acumulada) siempre se denota por F (y ) (en mayúscula) en cambio
la densidad se denota por f (y ) (en minúscula).
Por ejemplo los resúmenes de distribuciones continuas en realidad
señalan tı́picamente las densidades. En cambio las tablas con valores
especı́ficos indican las distribuciones (acumuladas).
En cualquier caso, es fácil darse cuenta simplemente por las
propiedades que debiera tener (por ejemplo la distribución es
creciente y en el infinito debiera tender a uno, en cambio la densidad
tiende a cero).

Valor esperado de una v.a. continua
Muchas de las definiciones que vimos para variables aleatorias

discretas se tienen en las variables aleatorias continuas siplemente
reemplazando las sumatorias por integrales
Definition
El valor esperado de una variable aleatoria continua Y es
Z ∞
E (Y ) = yf (y )dy
−∞
siempre que exista la integral.

Valor esperado de una función de v.a. continua
Theorem
Sea g (Y ) una función de Y ; entonces el valor esperado de g (Y ) esta dado
por Z ∞
E (Y ) = g (y )f (y )dy
−∞
siempre que exista la integral.
Es decir que no es necesario calcular la densidad de g (Y ) para

calcular su esperanza.

Theorem
Sea c una constante y sean g (Y ), g1 (Y ), g2 (Y ), ..., gk (Y ) funciones de
una variable aleatoria continua Y . Entonces se cumplen los siguientes
resultados:
1. E (c) = c.
2. E (cg (Y )) = cE (g (Y )).
3. E [g1 (Y )+g2 (Y )+. . .+gk (Y )] = E [g1 (Y )]+E [g2 (Y )]+. . .+E [gk (Y )].

Clase 10: Variables aleatorias continuas usuales I

Distribución uniforme
Definition
Si θ1 < θ2 , se dice que una variable aleatoria Y tiene distribución de
probabilidad uniforme en el intervalo (θ1 , θ2 ) si y sólo si la función de
densidad de Y es
(
1
θ 1 ≤ y ≤ θ2
f (y ) = θ2 −θ1
0 en cualquier otro punto.

N 4.6
D E F I NIC IÓClase Si u1 < continuas
10: Variables aleatorias
u2, se dice que una variable aleatoria Y tiene distribución de prob
usuales I
forme en el intervalo (u1, u2) si y sólo si la función de densidad de Y es
Distribución uniforme 1
, u 1 ≤ y ≤ u2 ,
f ( y) = u2 − u1
0, en cualquier otro punto.
F I G U R A 4.9 f(y)
Función de
densidad para Y
A1 A2
0 1 2 3 4 5 6 7 8 9 10 y
04.indd 174

Esperanza y varianza de distribución uniforme
Theorem
Si θ1 < θ2 e Y es una variable alatoriauniforme distribuida en el intervalo
(θ1 , θ2 ), entonces
θ1 + θ2 2 (θ2 − θ1 )2
176 Capítulo 4 µ = E (Y ) = y σ = V (Y
Variables continuas y sus distribuciones de probabilidad ) = .
2 12
TE O RE MA 4.6 Si u1 < u2 y Y es una variable aleatoria uniformemente distribuida en el intervalo

(u1, u2), entonces
u1 + u2 (u2 − u1 ) 2
m = E (Y ) = y s2 = V (Y ) = .
2 12
Prueba Por la Definición 4.5,
q
E(Y ) = y f ( y) dy
−q
Vicente Acuña (CMM, Universidad de Chile) u2

Prob. y Est.1 139 / 250
4.5aleatorias
Variables La distribución de probabilidad normal
continuas
La distribución de probabilidad continua que más se utiliza es la distribución normal, con la
conocida forma de campana que estudiamos en relación con la regla empírica. Los ejemplos
y ejercicios de esta sección ilustran algunas de las numerosas variables aleatorias que tienen
distribuciones que se calculan en forma muy cercana por medio de una distribución de proba-
bilidad normal. En el Capítulo 7 presentaremos un argumento que explica, al menos parcial-
mente, el suceso común de distribuciones normales de datos en la naturaleza. La función de
densidad normal es como sigue:
DE F INI C IÓN 4.8 Se dice que una variable Y tiene una distribución normal de probabilidad si y sólo si,
para s > 0 y –q < m < q, la función de densidad de Y es
1 2
%(2s2 )
f ( y) = e−( y−m) , −q < y < q .
s√2p
Observe que la función de densidad normal contiene dos parámetros, m y s.
T E O REM A 4.7 Si Y es una variable aleatoria normalmente distribuida con parámetros m y s, entonces
E(Y) = m y V(Y) = s2.

bilidad normal. En el Capítulo 7 presentaremos un argumento que explica, al menos parcial-
mente, aleatorias
Clase 10: Variables el sucesocontinuas
común de distribuciones
usuales I normales de datos en la naturaleza. La función de
densidad normal es como sigue:
D E F I N IC IÓ N 4.8 Se dice que una variable Y tiene una distribución normal de probabilidad si y sólo si,
para s > 0 y –q < m < q, la función de densidad de Y es
1 2
%(2s2 )
f ( y) = e−( y−m) , −q < y < q .
s√2p
Observe que la función de densidad normal contiene dos parámetros, m y s.
TE OR E MA 4.7 Si Y es una variable aleatoria normalmente distribuida con parámetros m y s, entonces
E(Y) = m y V(Y) = s2.
cap-04.indd 178 27/7/09 0

4.5 La d
F I G U R A 4.10 f (y)
La función
de densidad de
probabilidad normal
! y

de densidad normal correspondiente

b
1 −( y−m) 2$( 2s2 )
e dy.
a s√2p
existe una expresión de forma cerrad

asociados
Clase 10: Variables con variables
aleatorias aleatorias
normalmente distribuidas también se pueden hallar
continuas usuales I
la aplicación breve (applet) Normal Tail Areas and Quantiles accesibles en www.thoms
com/statistics/wackerly. El único beneficio real obtenido al usar software para obten
babilidades y cuantiles asociados con variables aleatorias normalmente distribuidas, es
software da respuestas que son correctas hasta un gran número de lugares decimales.
La función de densidad normal es simétrica alrededor del valor m, de modo que la
tienen que ser tabuladas en sólo un lado de la media. Las áreas tabuladas están a la d
de los puntos z, donde z es la distancia desde la media, medida en desviaciones estánd
área está sombreada en la Figura 4.11.
EJEMPLO 4.8 Denote con Z una variable aleatoria normal con media 0 y desviación estándar 1.
a Encuentre P( Z > 2).

b Encuentre P(−2 ≤ Z ≤ 2).
c Encuentre P(0 ≤ Z ≤ 1.73).
179

180 Capítulo 4 Variables continuas y sus distribuciones de probabilidad
F I G U R A 4.11 f (y)
Área tabulada para la
función de densidad
normal
! ! + z" y
z"
Solución a Como m = 0 y s = 1, el valor 2 está en realidad

Clase 10: Variables aleatorias continuasP(0 ≤ ZI
usuales ≤ 1.73) = .5 − .0418 = .4582.
Variables
F I G U R A 4.12
aleatorias continuas
Área deseada para el
Ejemplo 4.8(b)
A2 A1
–2 0 2 y
EJEMPLO 4.9 Las calificaciones para un examen de admisión a una universidad están normalmente dis-
tribuidas con media de 75 y desviación estándar 10. ¿Qué fracción de las calificaciones se
encuentra entre 80 y 90?
Solución Recuerde que z es la distancia desde la media de una distribución normal expresada en unida-
des de desviación estándar. Entonces,
y −m
z= .
s
.indd 180 27/7/09 02:

F I G U R A 4.13
Área requerida para
el Ejemplo 4.9
A
0 .5 1.5 z
Entonces la fracción deseada de la población

conforme
Clase 10: Variables y aumenta.
aleatorias En usuales
continuas la Figura
4.15 se muestra una función de densidad de probabilidad
I
sesgada.
Los intervalos de tiempo entre mal funcionamiento de motores de aviones poseen una dis-
tribución de frecuencia sesgada, al igual que los intervalos de llegada en una fila de espera en
las cajas de un supermercado (esto es, la fila de espera para llegar a la caja a pagar). Del mismo
modo, los intervalos de tiempo para completar una revisión de mantenimiento para un motor
de automóvil o de avión poseen una distribución de frecuencia sesgada. La población asociada
con estas variables aleatorias posee con frecuencia funciones de densidad que son modeladas
de manera adecuada por una función de densidad gamma.
DE F IN IC IÓN 4.9 Se dice que una variable aleatoria Y tiene una distribución gamma con parámetros
a > 0 y b > 0 si y sólo si la función de densidad de Y es
y a−1 e−y/b
, 0 ≤ y < q,
f ( y) = ba
0, en cualquier otro punto,
donde
q
= y a−1 e−y dy.
0
La cantidad Γ(a) se conoce como función gamma. La integración directa verificará que
Γ(1) = 1. La integración por partes verifica que = (a − 1 − 1) para cualquier a > 1
y que Γ(n) = (n – 1)!, siempre que n sea un entero.
En la Figura 4.16 se dan gráficas de funciones de densidad gamma para a = 1, 2 y 4 y
b = 1. Observe en la Figura 4.16 que la forma de la densidad gamma difiere para los diferen-
tes valores de a. Por esta razón, a recibe a veces el nombre de parámetro de forma asociado
Clase 11: Variables aleatorias continuas usuales II

Distribución Gamma en R project
#Plot gamma distributions varying the shape parameter (alpha).

x <- seq(0, 15, length=200)
hx <- dgamma(x, shape=2, rate=1/2)
plot(x, hx, type="l", yaxs="i", xaxs="i", ylim=c(0,0.6),
xlim=c(0,10), xlab="x value", ylab="Density",
main="Probability density for gamma distribution
with variable alpha and beta=2", lwd=5)
colors <- c("red","blue", "darkgreen", "black", "purple",
"orange")
alphas <- c(0.5, 1, 1.3, 2, 3, 4)
labels <- c("alpha=0.5", "alpha=1",
"alpha=1.3", "alpha=2", "alpha=3", "alpha=4")
for(i in 1:length(alphas)) {
hx <- dgamma(x, shape=alphas[i], rate=1/2)
lines(x, hx, lwd=3, col=colors[i])}
legend("topright", inset=.05, title="Probability densities",
labels, lwd=3, col=colors)

Probability density for gamma distribution
with variable alpha and beta=2
0.6 Probability densities

alpha=0.5
0.5
alpha=1
alpha=1.3
alpha=2
alpha=3
alpha=4
0.4
Density
0.3
0.2
0.1
0.0
0 2 4 6 8 10
x value
#Plot gamma distributions varying the rate parameter (beta).

x <- seq(0, 15, length=200)
main="Probability density for gamma distribution
with alpha=2 and variable beta", lwd=5)
colors <- c("red", "blue", "black", "darkgreen", "purple",
"orange")
betas <- c(0.5, 1, 2, 3, 4, 8)
labels <- c("beta=0.5", "beta=1",
"beta=2", "beta=3", "beta=4", "beta=8")
for(i in 1:length(betas)) {
hx <- dgamma(x, shape=2, rate=1/betas[i])

Probability density for gamma distribution
with alpha=2 and variable beta
0.6 Probability densities

beta=0.5
0.5
beta=1
beta=2
beta=3
beta=4
beta=8
0.4
Density
0.3
0.2
0.1
0.0
0 2 4 6 8 10
x value

x <- seq(0, 15, length=200)
main="Probability density for gamma distributions
with mean 4", lwd=5)
colors <- c("red", "blue", "darkgreen", "black", "purple",
"orange")
alphas <- c(0.5, 1, 1.33, 2, 4, 20)
betas <- c(8, 4, 3, 2, 1, 0.2)
labels <- c("alpha=0.5 beta=8", "alpha=1 beta=4",
"alpha=1.33 beta=3", "alpha=2 beta=2",
"alpha=4 beta=1", "alpha=20 beta=0.2")
for(i in 1:length(alphas)) {
hx <- dgamma(x, shape=alphas[i], rate=1/betas[i])

Probability density for gamma distributions
with mean 4
0.6
Probability densities
alpha=0.5 beta=8
alpha=1 beta=4
alpha=1.33 beta=3
alpha=2 beta=2
0.5
alpha=4 beta=1
alpha=20 beta=0.2
0.4
Density
0.3
0.2
0.1
0.0
0 2 4 6 8 10
x value

rma cerrada para
d
y a−1 e−y"b
dy.
c ba
S–Plus) genera P(Y ≤ y ), mientras que qgamma(q,a,1"b) da el p–ésimo cu
0 II
Clase 11: Variables aleatorias continuas usuales
de fp tal que P(Y ≤ fp) = p. Además, una de las aplicaciones breves, Gamma
and Quantiles, accesible en www.thomsonedu.com/statistics/wackerly, se pu
determinar probabilidades y cuantiles asociados con variables aleatorias de di
mma. Otra aplicación breve en la página web de Thomson, Comparison of Ga
Functions, permitirá visualizar y comparar funciones de densidad gamma con d
res para a y/o b. Estas aplicaciones breves se usarán para contestar algunos de
del final de esta sección.
Como se indica en el siguiente teorema, la media y la varianza de variables
distribución gamma son fáciles de calcular.
TE O REMA 4.8 Si Y tiene una distribución gamma con parámetros a y b, entonces
m = E(Y ) = ab y s2 = V (Y ) = ab2 .
04.indd 186

0 b b 0
1 b 2 (α + 1
= a
[b a+2 + 2)] = = α(α + 1)b 2.
b
Entonces V(Y) = E[Y2]–[E(Y)]2, donde, desde la primera parte de la derivación,
E(Y) = ab. Sustituyendo E[Y2] y E(Y) en la fórmula para V(Y), obtenemos
V (Y ) = a(a + 1)b 2 − (ab )2 = a2 b 2 + ab2 − a2 b2 = ab2
Dos casos especiales de variables aleatorias con distribución gamma ameritan considera-
ción particular.
DE F INI CIÓ N 4.10 Sea ν un entero positivo. Se dice que una variable aleatoria Y tiene distribución
ji cuadrada con ν grados de libertad si y sólo si Y es una variable aleatoria con distribu-
ción gamma y parámetros a = ν/2 y b = 2.
Una variable aleatoria con distribución ji cuadrada se denomina variable aleatoria

(χ2) ji cuadrada. Estas variables aleatorias se presentan con frecuencia en teoría estadística.
La motivación que hay detrás de llamar al parámetro ν como grados de libertad de la distri-
bución χ2 se apoya en una de las principales formas de generar una variable aleatoria con esta
distribución y se da en el Teorema 6.4. La media y la varianza de una variable aleatoria χ2
provienen directamente del Teorema 4.8.
p-04.indd 187 27/7/09 02:2

188 Capítulo 4 Variables continuas y sus distribuciones de probabilidad
TE O RE MA 4.9 Si Y es una variable aleatoria ji cuadrada con ν grados de libertad, entonces
m = E(Y) = ν y s2 = V(Y) = 2ν.
Demostración Aplique el Teorema 4.8 con a = ν#2 y b = 2.
En casi todos los textos de estadística se pueden ver tablas que dan probabilidades as
con distribuciones χ2. La Tabla 6, Apéndice 3, da puntos porcentuales asociados con d
ciones χ2 para numerosas opciones de ν. No se dispone fácilmente de tablas de la distr
gamma general, pero demostraremos en el Ejercicio 6.46 que si Y tiene una distribución
con a = n/2 para algún entero n, entonces 2Y/b tiene una distribución χ2 con n gra
libertad. De ahí que, por ejemplo, si Y tiene una distribución gamma con a = 1.5 =
b = 4, entonces 2Y/b = 2Y/4 = Y/2 tiene una distribución χ2 con 3 grados de libertad. En
Vicente Acuña P(Y <de3.5)
(CMM, Universidad = P([Y/2] < 1.75)
Chile) Prob. se
y Est. 159χ2/ de
puede hallar usando tablas de la distribución 250las
En casi todos los textos de estadística se pueden ver tablas que dan probabilidades asociadas
con distribuciones χ2. La Tabla 6, Apéndice 3, da puntos porcentuales asociados con distribu-
ciones χ2 para numerosas opciones de ν. No se dispone fácilmente de tablas de la distribución
gamma general, pero demostraremos en el Ejercicio 6.46 que si Y tiene una distribución gamma
con a = n/2 para algún entero n, entonces 2Y/b tiene una distribución χ2 con n grados de
libertad. De ahí que, por ejemplo, si Y tiene una distribución gamma con a = 1.5 = 3/2 y
b = 4, entonces 2Y/b = 2Y/4 = Y/2 tiene una distribución χ2 con 3 grados de libertad. Entonces,
P(Y < 3.5) = P([Y/2] < 1.75) se puede hallar usando tablas de la distribución χ2 de las que se
puede disponer fácilmente.
La función de densidad gamma en la que a = 1, se llama función de densidad exponen-
cial.
DE F IN IC IÓ N 4.11 Se dice que una variable aleatoria Y tiene una distribución exponencial con parámetro
b > 0 si y sólo si la función de densidad de Y es
1 −y#b
e , 0 ≤ y < ∞,
f ( y) = b
La función de densidad exponencial a menudo es de ayuda para modelar la vida útil de

componentes electrónicos. Suponga que el tiempo que ya ha operado un componente no afec-
ta su probabilidad de operar durante al menos b unidades de tiempo adicionales. Esto es, la
probabilidad de que el componente opere durante más de a + b unidades de tiempo, dado que
ya ha operado durante al menos a unidades de tiempo, es la misma que la probabilidad de
que un componente nuevo opere al menos b unidades de tiempo si el componente nuevo se
pone en servicio en el tiempo 0. Un fusible es un ejemplo de un componente para el cual
a veces esta suposición es razonable. Veremos en el siguiente ejemplo que la distribución
exponencial proporciona un modelo para la distribución de la vida útil de ese componente.
La función de densidad exponencial a menudo es de ayuda para modela
componentes electrónicos. Suponga que el tiempo que ya ha operado un com
ta su probabilidad de operar durante al menos b unidades de tiempo adicion
probabilidad de que el componente opere durante más de a + b unidades de t
ya ha operado durante al menos a unidades de tiempo, es la misma que la
que un componente nuevo opere al menos b unidades de tiempo si el comp
pone en servicio en el tiempo 0. Un fusible es un ejemplo de un compone
a veces esta suposición es razonable. Veremos en el siguiente ejemplo qu
exponencial proporciona un modelo para la distribución de la vida útil de e
TE O R E M A 4.10 Si Y es una variable aleatoria exponencial con parámetro b, entonces
m = E(Y) = b y s2 = V(Y) = b2.
Demostración La demostración se sigue directamente del Teorema 4.8 con a = 1.
EJ E MP L O 4.10 Suponga que Y tiene una función de densidad de probabilidad exponencial. D

a > 0 y b > 0,
P(Y > a + b)Y > a) = P(Y > b).

ya ha operado durante al menos a unidades de tiempo, es la misma que la probabilidad de
Clase 11: que
un componente nuevo usuales II
opere al
menos b unidades de tiempo si el componente nuevo se
pone en servicio en el tiempo 0. Un fusible es un ejemplo de un componente para el cual
a veces esta suposición es razonable. Veremos en el siguiente ejemplo que la distribución
exponencial proporciona un modelo para la distribución de la vida útil de ese componente.
TE O RE MA 4.10 Si Y es una variable aleatoria exponencial con parámetro b, entonces
m = E(Y) = b y s2 = V(Y) = b2.
Demostración La demostración se sigue directamente del Teorema 4.8 con a = 1.
E J E MPL O 4.10 Suponga que Y tiene una función de densidad de probabilidad exponencial. Demuestre que, si
a > 0 y b > 0,
P(Y > a + b)Y > a) = P(Y > b).
-04.indd 188 27/7/09 02:2

La distribución de probabilidad beta
La función de densidad beta es una función de densidad de dos parámetros definida sobre
el intervalo cerrado 0 ≤ y ≤ 1. Frecuentemente se usa como modelo para proporciones, por
ejemplo como la proporción de impurezas en un producto químico o la proporción de tiempo
que una máquina está en reparación.
Se dice que una variable aleatoria Y tiene una distribución de probabilidad beta con
parámetros a > 0 y b > 0 si y sólo si la función de densidad de Y es
y a−1 (1 − y) b−1
, 0 ≤ y ≤ 1,
f ( y) = B(α , b)
0, en cualquier otro punto,
donde
1
a b
B (α, b) = y a−1 (1 − y) b−1 dy = .
0 a + b)
Las gráficas de funciones de densidad beta toman formas muy diferentes para diversos
valores de los dos parámetros a y b. Algunos de éstos se muestran en la Figura 4.17. Ciertos

4.7 La distribución de probab
F I G U R A 4.17 f ( y)
Funciones de
densidad beta ! =5
" =3
! =3
" =3
! =2
" =2
0 1 y

La función
Clase 11: Variables de distribución
aleatorias acumulativa
continuas usuales II binomial se presenta en la Tabla 1, Apéndice 3, para n
= 5, 10, 15, 20 y 25 y p = .01, .05, .10, .20, .30, .40, .50, .60, .70, .80, .90, .95 y .99. El modo
más eficiente de obtener probabilidades binomiales es usar un software de estadística como
el R o S–Plus (vea el Capítulo 3). Una forma incluso más fácil para hallar probabilidades y
cuantiles asociados con variables aleatorias de distribución beta es usar directamente software
apropiado. La página web de Thomson contiene una aplicación breve, Beta Probabilities,
que proporciona probabilidades de “cola superior” [es decir, P(Y > y0)] y cuantiles asociados
con variables aleatorias con distribución beta. Además, si Y es una variable aleatoria con dis-
tribución beta y parámetros a y b, el comando pbeta(y0, a, 1$b) de R (o S–Plus) genera
P(Y ≤ y0), mientras que qbeta(p, a, 1$b ) da el p–ésimo cuantil, el valor de fp de manera
que P(Y ≤ fp) = p.
T E O R E M A 4.11 Si Y es una variable aleatoria con distribución beta a > 0 y b > 0, entonces
a ab
m = E(Y ) y s 2 = V (Y ) = .
a +b (a +b ) 2 (a + b + 1)
indd 195 27/7/09 02:25

Clase 12: Función generadora de momento y Teo. de Tchebysheff

Función generadora de momento
Consideremos una variable aleatoria discreta o continua. La esperanza

µ y la varianza σ 2 son medidas descriptivas de la distribución de la
v.a., pero en ningún caso la definen completamente. Muchas
distribuciones diferentes pueden tener la misma esperanza y varianza.
Vamos a ver un conjuntos de medidas descriptivas que (al menos en
ciertas condiciones) definen una distribución de manera única. Estas
medidas corresponden a “los momentos” de la distribución.

Definition
El k-ésimo momento de una variable aleatoria Y se define como E (Y k ) y
se denota por µ0k .
Primer momento: µ01 = E (Y ) = µ

Segundo momento: µ02 = E (Y 2 ) = σ 2 + µ2
Bajo ciertas condiciones, si X e Y son dos v.a. con igual valor para
todos los momentos (i.e. µ0iX = µ0iY para todo i = {1, 2, . . .})
entonces X e Y tienen la misma distribución de probabilidad.
Podemos “resumir” todos los momentos de una v.a. en una sola
función: la función generadora de momento.

Definition
La función generadora de momento m(t) para una variable aleatoria Y se
define como m(t) = E (e tY ). Decimos que una función generadora de
momento para Y existe si existe una constante positiva b tal que m(t) es
finita para |t| ≤ b.
Veamos (pizarra) que la f.g.m. -si existe- es igual a:
t2 0 t3
E (e tY ) = 1 + tµ01 + µ2 + µ03 + . . .
2! 3!
Es decir que efectivamente contiene todos los momentos de Y

Theorem
Si m(t) existe, entonces para cualquier entero positivo k,
#
d k m(t)
= m(k) (0) = µ0k ,
dt k
t=0
En otras palabras, si calculamos la k-ésima derivada de m(t) con respecto

a t y luego evaluamos t = 0, el resultado será µ0k .

Ejemplo variable discreta:

Encuentre la función generadora de momento m(t) para una variable
aleatoria con distribución de Poisson y media λ.
Encontrar a partir de la f.g.m. la esperanza y varianza de la v.a. de
Poisson.
Suponga que Y es una variable aleatoria con función generadora de
t
momento mY (t) = e 3.2(e −1) ¿Cuál es la distribución de Y ?

Ejemplo variable continua:

Encuentre la función generadora de momento m(t) para una variable
aleatoria con distribución gamma.
Encontrar a partir de la f.g.m. la esperanza y varianza de la v.a.
gamma.

Tı́picamente los resúmenes de las variables aleatorias discretas y

continuas más comunes incluyen la f.g.m. de la distribución

de probabilidad común
v.a. discretas: distribución, media, varianza y fgm.
Tabla 1 Distribuciones discretas
Función
generadora
Distribución Función de probabilidad Media Varianza de momento
Binomial p( y) = n
y
p y (1 − p) n−y ; np np(1 − p) [ pet + (1 − p)]n
y = 0, 1, . . . , n
1 1−p pet
Geométrica p( y) = p(1 − p) y−1 ;
p p2 1 − (1 − p)et
y = 1, 2, . . .
r N −r
y n−y nr r N −r N −n No existe en
Hipergeométrica p( y) = ; n
N
N N N N −1 forma cerrada
n
y = 0, 1, . . . , n si n ≤ r ,
y = 0, 1, . . . , r si n > r
l y e−l
Poisson p( y) = ; l l exp[l(et − 1)]
y!
y = 0, 1, 2, . . .
r
r r (1 − p) pet
Binomial negativa p( y) = y−1
pr (1 − p) y−r ;
r −1
p p2 1 − (1 − p)et
y = r, r + 1, . . .
837

v.a. continuas: distribución, media, varianza y fgm.

838 Apéndice 2 Distribuciones, medias, varianzas y funciones generadoras de momento de probabilidad común
Tabla 2 Distribuciones continuas

Función
generadora
Distribución Función de probabilidad Media Varianza de momento
1 u1 + u2 (u2 − u1 ) 2 et u2 − et u1
Uniforme f ( y) = ∶u1 ≤ y ≤ u2
u2 − u1 2 12 t (u2 − u1 )
1 1 t 2 s2
Normal f ( y) = exp − ( y − m) 2 m s2 exp mt +
s√2p 2s2 2
−q < y < + q
1 −y/b
Exponencial f ( y) = e ∶ b>0 b b2 (1 − bt) −1
b
0<y< q
1
Gamma f ( y) = a
y a−1 e−y/b ; ab ab 2 (1 − bt) −a
0 < y <q
( y) (y/2)−1 e−y/2
Ji-cuadrada f ( y) = ; v 2v (1 − 2t) −y/2
2v/2 v/2)
y >0
+ b) a ab no existe en
Beta f ( y) = y a−1 (1 − y) b−1 ;
a +b (a + b) 2 (a + b + 1) forma cerrada
0<y <1

Teorema de Tchebysheff
En la primera clase vimos que en una variable aleatoria normal, el

68 % de la probabilidad se concentra a una distancia de una
desviación estándar de la media. Además el 95 % está a dos
desviaciones estándar mientras que a tres desviaciones estándar se
encuentra casi toda la probabilidad.
Podemos establecer alguna cota que sirva para evaluar la dispersión
de cualquier distribución (no necesariamente normal)?

Theorem
Sea Y una variable aleatoria con media finita µ y varianza σ 2 . Entonces,
para cualquier k > 0
1
P(|Y − µ| < kσ) ≥ 1 −
k2
o equivalentemente
1
P(|Y − µ| ≥ kσ) ≤ 1 −
k2
Se le llama también desigualdad de Tchebysheff.

Demostación: Pizarra

Lo que nos da el teorema es una cota de cuanta probabilidad hay a k

desviaciones estándar de la media.
Lo interesante es que no necesitamos saber la distribución. Sólo la
esperanza y varianza. O aunque sepamos la distribución, sirve para
evaluar rápidamente si un resultado es raro, poco frecuente.

Ejemplo: Suponga que la experiencia ha demostrado que el tiempo Y

(en minutos) necesario para realizar una prueba periódica de
mantenimiento en una máquina de dictados sigue una distribución
gamma con α = 3.1 y β = 2. Un nuevo trabajador de mantenimiento
tarda 22.5 minutos en probar la máquina. ¿El tiempo que tardó para
realizar la prueba es mucho mayor comparado con la experiencia
anterior?
Solución: Pizarra

Ejemplo: El número de clientes por dı́a en un mostrador de ventas, Y ,

ha sido observado durante un largo periodo y se encontró que tiene
una media de 20 y desviación estándar de 2. La distribución de
probabilidad de Y no se conoce. ¿Qué se puede decir acerca de la
probabilidad de que, mañana, Y sea mayor que 16 pero menor que
24?
Solución: Propuesto

Clase 13: Distrib. multivariantes marginal, condicional, independ.
Clase 13: Distrib. multivariantes: marginal, condicional e independencia

Distribución Multivariantes
Dado el experimento lanzar dos dados, podemos definir varias

variables aleatorias para describir los posibles resultados.
Luego, podemos identificar eventos interesantes que se definen a
partir de más de una variable aleatoria.
Y1 : el número de puntos que aparecen en el dado 1.
Y2 : el número de puntos que aparecen en el dado 2.
Y3 : la suma del número de puntos en los dados.
Y4 : el producto del número de puntos que aparecen en los dados.
Si consideramos las v.a. Y1 e Y2 podemos denotar el evento “sale un
seis y un cuatro” como la intersección de los eventos
(Y1 = 6), (Y2 = 4).
1
Ası́ podemos calcular la probabilidad pY1 ,Y2 (6, 4) = 36 . Podemos
calcular entonces pY1 ,Y2 (y1 , y2 ) para todo (y1 , y2 ).

5.2 Distribuciones de probabilidad bivariantes y mu
F I G U R A 5.1 p ( y1, y2 )
Función de probabili-
dad bivariante;
y1 = número de
puntos en el dado 1,
y2 = número de 1!36
puntos en el dado 2
0 1 2 3 4 5 6
1 y1
2
3
4
5
6
y2

Dadas las variables aleatorias Y1 , Y2 , . . . , Yn vamos a identificar la

intersección de los eventos (Y1 = y1 ), (Y2 = y2 ), . . . , (Yn = yn )
por el vector (Y1 = y1 , Y2 = y2 , . . . , Yn = yn )
o simplemente por el vector (y1 , y2 , . . . , yn ).
Queremos obtener la función de probabilidad (o densidad) del vector
(y1 , y2 , . . . , yn ).

Función de probabilidad conjunta
Definition
Sean Y1 y Y2 variables aleatorias discretas. La función de probabilidad
conjunta (o bivariante) para Y1 y Y2 está dada por
p(y1 , y2 ) = P(Y1 = y1 , Y2 = y2 ), −∞ < y1 < ∞, −∞ < y2 < ∞

Theorem
Si Y1 y Y2 son variables aleatorias discretas con función de probabilidad
conjunta p(y1 , y2 ), entonces
1. p(y1 , y2 ) ≥ 0 para todo y1 , y2 .
P
2. y1 ,y2 p(y1 , y2 ) = 1 donde la suma es para todos los valores (y1 , y2 ) a
los que se asignan probabilidades diferentes de cero.

Ejemplo: Un supermercado local tiene tres cajas. Dos clientes llegan a

las cajas en momentos diferentes cuando las cajas no atienden a otros
clientes. Cada cliente escoge una caja de manera aleatoria,
independientemente del otro. Denote con Y1 el número de clientes
que escogen la caja 1 y con Y2 el número que selecciona la caja 2.
Encuentre la función de probabilidad conjunta de Y1 y Y2 .

Distribución (acumulada) conjunta
Definition
Sean Y1 y Y2 variables aleatorias discretas. La función de distribución
(acumulada) conjunta F (y1 , y2 ) está dada por
F (y1 , y2 ) = P(Y1 ≤ y1 , Y2 ≤ y2 ), −∞ < y1 < ∞, −∞ < y2 < ∞

Densidad de probabilidad conjunta
Definition
Sean Y1 y Y2 variables aleatorias continuas con función de distribución
conjunta F (y1 , y2 ). Si existe una función no negativa f (y1 , y2 ), tal que
Z y1 Z y2
F (y1 , y2 ) = f (t1 , t2 )dt2 dt1 ,
−∞ −∞
para todo −∞ < y1 < ∞, −∞ < y1 < ∞, entonces se dice que Y1 y Y2

son variables aleatorias conjuntamente continuas. La función f (y1 , y2 )
recibe el nombre de función de densidad de probabilidad conjunta.

Propiedades de función de probabilidad conjunta
Theorem
Si Y1 y Y2 son variables aleatorias con función de distribución conjunta
F (y1 , y2 ), entonces
1. lı́m F (y1 , y2 ) = lı́m F (y1 , y2 ) = lı́m F (y1 , y2 ) = 0
y1 →−∞ y1 →−∞ y2 →−∞
y2 →−∞
2. y lı́m
→∞
F (y1 , y2 ) = 1
1
y2 →∞
3. Si y1∗ > y1 y y2∗ > y2 entonces
F (y1∗ , y2∗ ) − F (y1∗ , y2 ) − F (y1 , y2∗ ) + F (y1 , y2 ) ≥ 0.
Notar que F (y1∗ , y2∗ ) − F (y1∗ , y2 ) − F (y1 , y2∗ ) + F (y1 , y2 ) es exactamente la

probabilidad P(y1 < Y1 ≤ y1∗ , y2 < Y2 ≤ y2∗ ) ≥ 0

Propiedades de función de probabilidad conjunta
Theorem
Si Y1 y Y2 son variables aleatorias continuas conjuntas con una función de
densidad conjunta dada por f (y1 , y2 ), entonces
1. f (y1 , y2 ) ≥ 0 para toda y1 , y2 .
R∞ R∞
2. −∞ −∞ f (y1 , y2 )dy1 dy2 = 1

Para el caso continuo univariante, las áreas bajo la densidad de probabilidad para un inte
valo corresponden a probabilidades. De igual manera, la función de densidad de probabilid
bivariante f (y1, y2) traza una superficie de densidad de probabilidad sobre el plano (y1, y
Densidad Bivariante
(Figura 5.2).
R A 5.2 f ( y1, y2 )
ensidad
f (y1, y2)
a1 a2 y1
0
b1
b2
y2
Z b2 Z a2
P(a1 < Y1 ≤ a2 , b1 < Y2 ≤ b2 ) = f (y1 , y2 )dy1 dy2
b1 a1

Ejemplo
Suponga que una partı́cula radiactiva se localiza aleatoriamente en un

cuadrado con lados de longitud unitaria. Esto es, si se consideran dos
regiones de igual área y dentro del cuadrado unitario es igualmente
probable que la partı́cula se encuentre en cualquiera de las dos. Denote
con Y1 y Y2 las coordenadas de la ubicación de la partı́cula. Un modelo
razonable para el histograma de frecuencia relativa para Y1 y Y2 es la
análoga bivariante de la función de densidad uniforme univariante:
(
1 0 ≤ y1 ≤ 1, 0 ≤ y2 ≤ 1
f (y1 , y2 ) =
a. Dibuje la superficie de densidad de probabilidad.

b. F (0.2, 0.4).
c. Encuentre P(0.1 ≤ Y1 ≤ 0.3, 0 ≤ Y2 ≤ 0.5).

.4 .2 .4
= y1 dy2 = .2 dy2 = .08.
0 0 0
EjemploLa probabilidad F(.2, .4) corresponde al volumen bajo f(y1, y2)= 1, que está sombread
Figura 5.3. Como lo indican consideraciones geométricas, la probabilidad deseada (vo
es igual a .08, que obtuvimos mediante integración al principio de esta sección.
G U R A 5.3 f ( y1, y2 )
resentación
geométrica
de f (y1, y2), 1
F(.2, .4)
Ejemplo 5.3
.2
0
1 y1
.4
y2

Ejemplo
Se ha de almacenar gasolina en un enorme tanque una vez al principio de
cada semana y luego se vende a clientes individuales. Denote con Y1 el
nivel de gasolina (proporción) que alcanza el tanque después de surtirlo.
Debido a suministros limitados, Y1 varı́a de una semana a otra. Denote
con Y2 la proporción de la capacidad del tanque que se vende durante la
semana. Como Y1 y Y2 son proporciones, estas dos variables toman
valores entre 0 y 1. Además, la cantidad de gasolina vendida, y2 , no puede
ser mayor que la cantidad disponible, y1 . Suponga que la función de
densidad conjunta para Y1 y Y2 está dada por
(
3y1 0 ≤ y2 ≤ y1 ≤ 1
f (y1 , y2 ) =
Encuentre la probabilidad de que menos de la mitad del tanque tenga
gasolina y más de un cuarto del tanque se venda (Grafico en siguiente
slide).
dad de observar un valor en una región es el volumen bajo
de la región de interés. La función de densidad f(y1, y2) es p
Figura ejemplo
R A 5.4 f ( y1, y2 )
ensidad
para el
mplo 5.4 3
1
0
y1
1
y2

Funciones de probabilidad marginal y densidad marginal
Definition
Sean Y1 y Y2 variables aleatorias discretas conjuntas con función de
probabilidad conjunta p(y1 , y2 ). Entonces las funciones de probabilidad
marginal de Y1 y Y2 , respectivamente, están dadas por
X X
p1 (y1 ) = p(y1 , y2 ) y p2 (y2 ) = p(y1 , y2 ).
todos y2 todos y1

Funciones de probabilidad marginal y densidad marginal
Definition
Sean Y1 y Y2 variables aleatorias continuas conjuntas con función de
densidad conjunta f (y1 , y2 ). Entonces las funciones de densidad marginal
de Y1 y Y2 , respectivamente, están dadas por
Z ∞ Z ∞
f1 (y1 ) = f (y1 , y2 )dy2 y f2 (y2 ) = f (y1 , y2 )dy1 .
−∞ −∞

Ejemplo
De un grupo de tres republicanos, dos demócratas y uno independiente se

ha de seleccionar aleatoriamente un comité de dos personas. Denote con
Y1 el número de republicanos y con Y2 el número de demócratas del
comité. Encuentre la función de probabilidad conjunta de Y1 y Y2 y luego
encuentre la función de probabilidad marginal de Y1 .

Del mismo modo,
Ejemplo p1 (1) = 9#15 y p1 (2) = 3#15
En forma análoga, la función de probabilidad marginal de Y2 est
Tabla 5.2 Función de probabilidad conjunta para Y1 y Y2, Ejemplo 5.5
y1
y2 Total
Total

Ejemplo
Sea
(
2y1 0 ≤ y1 ≤ 1, 0 ≤ y2 ≤ 1
f (y1 , y2 ) =
Grafique f (y1 , y2 ) y encuentre las funciones de densidad marginal para Y1
y Y2 .

Ejemplo
238 Capítulo 5 Distribuciones de probabilidad multivariantes
F I G U R A 5.6 f ( y1, y2 )
Representación
geométrica
2
de f(y1, y2),
Ejemplo 5.6
1
1
0 y1
y2
densidad de probabilidad triangular que se vería como el lado de la cuña de la Figura 5.6. Si
la probabilidad estuviera acumulada a lo largo del eje y2 (acumulándose a lo largo de líneas
paralelas al eje y1), la densidad resultante sería uniforme. Confirmaremos estas soluciones
visuales mediante la aplicación de la Definición 5.4. Entonces, si 0 ≤ y1 ≤ 1,
q 1 1
f 1 ( y1 ) = f ( y1 , y2 ) dy2 = 2y1 dy2 = 2y1 y2
Vicente Acuña (CMM, Universidad de Chile) Prob.
−q y Est. 0 0 202 / 250
Función de probabilidad condicional
Definition
Si Y1 y Y2 son variables aleatorias discretas conjuntas con función de
probabilidad conjunta p(y1 , y2 ) y funciones de probabilidad marginal
p1 (y1 ) y p2 (y2 ), respectivamente, entonces la función de probabilidad
discreta condicional de Y1 dada Y2 es
P(Y1 = y1 , Y2 = y2 ) p(y1 , y2 )
p(y1 |y2 ) = P(Y1 = y1 |Y2 = y2 ) = =
P(Y2 = y2 ) p2 (y2 )
siempre que p2 (y2 ) > 0.

Ejemplo
Volvamos al ejemplo en que de un grupo de tres republicanos, dos

demócratas y uno independiente se ha de seleccionar aleatoriamente un
comité de dos personas. Encuentre la distribución condicional de Y1 dado
que Y2 = 1. Esto es, dado que una de las dos personas del comité es
demócrata, encuentre la distribución condicional para el número de
republicanos seleccionados para el comité.

Función de distribución condicional
Definition
Si Y1 y Y2 son variables aleatorias, entonces la función de distribución
condicional de Y1 dado que Y2 = y2 es
F (y1 |y2 ) = P(Y1 ≤ y1 |Y2 = y2 ).

Densidad condicional
Definition
Sean Y1 y Y2 variables aleatorias continuas conjuntas con densidad
conjunta f (y1 , y2 ) y densidades marginales f1 (y1 ) y f2 (y2 ),
respectivamente. Para cualquier y2 tal que f2 (y2 ) > 0, la densidad
condicional de Y1 dada Y2 = y2 está dada por
f (y1 , y2 )
f (y1 |y2 ) =
f2 (y2 )
y, para cualquier y1 tal que f1 (y1 ) > 0, la densidad condicional de Y2 dada

Y1 = y1 está dada por
f (y1 , y2 )
f (y2 |y1 ) =
f1 (y1 )

Ejemplo
Una máquina automática expendedora de bebidas tiene una cantidad

aleatoria Y2 de bebida en existencia al principio de un dı́a determinado y
dosifica una cantidad aleatoria Y1 durante el dı́a (con cantidades
expresadas en galones). La máquina no se reabastece durante el dı́a y, en
consecuencia, Y1 ≤ Y2 . Se ha observado que Y1 y Y2 tienen una densidad
conjunta dada por
(
1/2 0 ≤ y1 ≤ y2 ≤ 2
f (y1 , y2 ) =
Esto es, los puntos (y1 , y2 ) están uniformemente distribuidos en el

triángulo con las fronteras dadas. Encuentre la densidad condicional de Y1
dada Y2 = y2 . Evalúe la probabilidad de que se venda menos de 1/2
galón, dado que la máquina contiene 1.5 galones al empezar el dı́a.

Independencia
Definition
Sea Y1 que tiene una función de distribución F1 (y1 ) y sea Y2 que tiene
una función de distribución F2 (y2 ), y F (y1 , y2 ) es la función de
distribución conjunta de Y1 y Y2 . Entonces se dice que Y1 y Y2 son
independientes si y sólo si
F (y1 , y2 ) = F1 (y1 )F2 (y2 )
para todo par de números reales (y1, y2). Si Y1 y Y2 no son

independientes, se dice que son dependientes.

Independencia
Theorem
Si Y1 y Y2 son variables aleatorias discretas con función de probabilidad
conjunta p(y1 , y2 ) y funciones de probabilidad marginal p1 (y1 ) y p2 (y2 ),
respectivamente, entonces Y1 y Y2 son independientes si y sólo si
p(y1 , y2 ) = p1 (y1 )p2 (y2 )
para todos los pares de números reales (y1, y2).

Independencia
Theorem
Si Y1 y Y2 son variables aleatorias continuas con función de densidad
conjunta f (y1 , y2 ) y funciones de densidad marginal f1 (y1 ) y f2 (y2 ),
respectivamente, entonces Y1 y Y2 son independientes si y sólo si
f (y1 , y2 ) = f1 (y1 )f2 (y2 )
para todos los pares de números reales (y1, y2).

Ejemplo
Recordemos el ejemplo de tirar dos dados y tal que Y1 indica el valor del
primer dado e Y2 indica el valor del segundo dado. Demuestre que Y1 e Y2
son independientes.

Ejemplo
Volvamos al ejemplo en que de un grupo de tres republicanos, dos

demócratas y uno independiente se ha de seleccionar aleatoriamente un
comité de dos personas. ¿Es el número de republicanos en el
comité independientes del número de demócratas?

Ejemplo
Sea (
6y1 y22 0 ≤ y1 ≤ 1, 0 ≤ y2 ≤ 1
f (y1 , y2 ) =
Demuestre que Y1 e Y2 son independientes.

Ejemplo
Sea (
2 0 ≤ y2 ≤ y1 ≤ 1
f (y1 , y2 ) =
Demuestre que Y1 e Y2 son independientes.

Descomposición de conjunta
Theorem
Sean Y1 y Y2 que tienen una densidad conjunta f (y1 , y2 ) que es positiva si
y sólo si a ≤ y1 ≤ b y c ≤ y2 ≤ d, para constantes a, b, c y d; y
f (y1 , y2 ) = 0 en otro caso. Entonces Y1 y Y2 son variables aleatorias
independientes si y sólo si
f (y1 , y2 ) = g (y1 )h(y2 )
donde g (y1 ) es una función no negativa de y1 solamente y h(y2 ) es una

función no negativa de y2 solamente.

Clase 14: Distrib. Multivar.: esperanza de función, teo. especiales
Clase 14: Distribuciones Multivariantes: valor esperado de una función y

teoremas especiales

Teoremas especiales
Definition
Sea g (Y1 , Y2 , . . . , Yk ) una función de las variables aleatorias discretas,
Y1 , Y2 , . . . , Yk , que tienen función de probabilidad p(y1 , y2 , . . . , yk ).
Entonces el valor esperado de g (Y1 , Y2 , . . . , Yk ) es
E (g (Y1 , Y2 , . . . , Yk )) =
X X X
... g (y1 , y2 , . . . , yk )p(y1 , y2 , . . . , yk ).
todo yk todo y2 todo y1

Teoremas especiales
Definition
Sea g (Y1 , Y2 , . . . , Yk ) una función de las variables aleatorias continuas
Y1 , Y2 , . . . , Yk con función de densidad conjunta f (y1 , y2 , . . . , yk )
Entonces el valor esperado de g (Y1 , Y2 , . . . , Yk ) es
E (g (Y1 , Y2 , . . . , Yk )) =
Z ∞ Z ∞ Z ∞
... g (y1 , y2 , . . . , yk ) f (y1 , y2 , . . . , yk )dy1 dy2 . . . dyk
−∞ −∞ −∞

Teoremas especiales
Theorem
Sea c una constante. Entonces
E (c) = c.

Teoremas especiales
Theorem
Sea g (Y1 , Y2 ) una función de las variables aleatorias Y1 y Y2 y sea c una
constante. Entonces
E [cg (Y1 , Y2 )] = cE [g (Y1 , Y2 )].

Teoremas especiales
Theorem
Sean Y1 y Y2 variables aleatorias y g1 (Y1 , Y2 ), g2 (Y1 , Y2 ), . . . , gk (Y1 , Y2 )
funciones de Y1 y Y2 . Entonces
E [g1 (Y1 , Y2 ) + g2 (Y1 , Y2 ) + ... + gk (Y1 , Y2 )]
= E [g1 (Y1 , Y2 )] + E [g2 (Y1 , Y2 )] + ... + E [gk (Y1 , Y2 )].

Teoremas especiales
Theorem
Sean Y1 y Y2 variables aleatorias independientes y sean g (Y1 ) y h(Y2 )
funciones sólo de Y1 y Y2 , respectivamente. Entonces
E [g (Y1 )h(Y2 )] = E [g (Y1 )]E [h(Y2 )],
siempre que existan los valores esperados.

Clase 15: Covarianza y correlación de dos v.a.’s
Clase 15: Covarianza y correlación de dos variables aleatorias.

Covarianza de dos v.a.

En muchos casos de dependencia entre dos variables Y1 y Y2 se tiene
que: cuando una variable toma valores altos la otra también toma
valores altos. O cuando una toma valores altos la otra toma valores
bajos.
Este grado de dependencia se puede medir utilizando dos medidas
similares: la covarianza y el coeficiente de correlación. Estas miden
que grado de linealidad hay en la dependencia entre ellas.
Es bueno recalcar que hay otras dependencias entre variables que no
son lineales, y que estas medidas pueden no ser muy buenos
indicadores.
De hecho, si las variables son independientes, la covarianza y la
correlación son cero (pues no hay una dependencia lineal), pero lo
contrario no es necesariamente cierto: covariana y correlación pueden
ser cero, pero esto no es indicador que las variables sean
necesariamente independientes.
Definition
Si Y1 y Y2 son variables aleatorias con medias µ1 y µ2 , respectivamente, la
covarianza de Y1 y Y2 es
Cov (Y1 , Y2 ) = E [(Y1 − µ1 )(Y2 − µ2 )]
Si Y1 aumenta cuando Y2 aumenta → covarianza positiva

Si Y1 disminuye cuando Y2 aumenta → covarianza negativa
Si no hay una tendencia clara → covarianza cercana a cero
No sirve como medida absoluta de la dependencia

Sean Y y X v.a.’s y a, b constantes. De la definición podemos ver las

siguientes propiedades:
Cov (Y , a) = 0
Cov (Y , Y ) = V (Y )
Cov (Y , X ) = Cov (X , Y )
Cov (aY , bX ) = ab Cov (Y , X )

5.7 Covarianza de
Teorema:
F I G U R A 5.8 y2 y2
Observaciones
dependientes e
independientes
para (y1, y2) !2 !2
!1 y1 !1 y1
(a) (b)

Coeficiente de correlación
Definition
Si Y1 y Y2 son variables aleatorias con medias µ1 y µ2 , respectivamente, el
coeficiente correlación de Y1 y Y2 es
Cov (Y1 , Y2 )
ρ=
σ1 σ2
donde σ1 y σ2 son las desviaciones estándar de Y1 y Y2 respectivamente.
Es una medida más fácil de comparar. Se puede demostrar que

−1 ≤ ρ ≤ 1.
El signo es el mismo del de la covarianza.
ρ = 1 significa correlación perfecta (los puntos sobre una lı́nea de
pendiente positiva)
ρ = −1 también significa correlación perfecta (los puntos sobre una
lı́nea de pendiente negativa)
Theorem
Si Y1 y Y2 son variables aleatorias con medias µ1 y µ2 , respectivamente,
entonces es
Cov (Y1 , Y2 ) = E [(Y1 − µ1 )(Y2 − µ2 )] = E (Y1 Y2 ) − E (Y1 )E (Y2 ).
Dem: Usando propiedades de la esperanza.

Ejemplo
Sean las v.a. Y1 y Y2 con densidad conjunta dada por

3y1 , 0 ≤ y2 ≤ y1 ≤ 1,
f (y1 , y2 ) =
Muestre que E (Y1 ) = 3/4 y que E (Y2 ) = 3/8.

Muestre que la covarianza entre las v.a.’s es 0,02.

Theorem
Si Y1 y Y2 son variables aleatorias independientes, entonces
Cov (Y1 , Y2 ) = 0.
Ası́, las variables aleatorias independientes deben ser no correlacionadas.
Dem: Pizarra
Ojo: La recı́proca no es cierta. Ver ejemplo.

ve en la Tabla 5.3. Demuestre que Y1 y Y2 son dependiente
EjemploEl cálculo de probabilidades marginales da p (–1) = p (1)

ución 1 1
= 6/ 16 = p2(0). El valor p(0, 0) = 0 en la celda del centro
Tabla 5.3 Distribución de probabilidad conjunta, Ejemplo 5.24
y1
y2 −1 0 +1
−1 1$16 3$16 1$16
0 3$16 0 3$16
+1 1$16 3$16 1$16
Ver que p(0, 0) 6= p1 (0)p2 (0), pero que Cov (Y1 , Y2 ) = 0

Clase 16: Funciones lineales de variables aleatorias
Clase 16: Funciones lineales de variables aleatorias.

Funciones lineales de variables aleatorias
Veamos un caso particular de funciones de varias variables aleatorias,

cuando se trata de una función lineal de varias variables aleatorias. Es
decir si Y1 , Y2 , . . . , Yn son variables aleatorias y a1 , a2 , . . . , an
constantes, estudiaremos que obtenemos con la variable aleatoria
U = ni=1 ai Yi .
P
Sabemos por teorema anterior que la esperanza es lineal, lo que

expresamos en el siguiente teorema.

Funciones lineales de v.a.: esperanza
Theorem
Sean Y1 , Y2 , . . . , Yn variables aleatorias
P tales que E (Yi ) = µi , y sean
a1 , a2 , . . . , an constantes. Sea U = ni=1 ai Yi . Entonces se tiene que:
n
X
E (U) = ai µi
i=1

Funciones lineales de v.a.’s: varianza
Sabemos que E (Y1 + Y2 ) = µ1 + µ2 . Pero, ¿Cuánto vale la varianza

V (Y1 + Y2 )? ¿Cuán dispersos están los valores que puede tomar
Y1 + Y2 en torno a µ1 + µ2 ?
Si Y1 y Y2 son independientes entonces se puede demostrar que
V (Y1 + Y2 ) = V (Y1 ) + V (Y2 ). Esta varianza considera casos en que
(a) Y1 es menor que µ1 y Y2 es menor que µ2
(b) Y1 es menor que µ1 y Y2 es mayor que µ2
(c) Y1 es mayor que µ1 y Y2 es menor que µ2
(d) Y1 es mayor que µ1 y Y2 es mayor que µ2
Los casos (a) y (d) aportan más varianza y los casos (b) y (c) menos.
Pero todas las combinaciones son posibles (pues las variables son
independientes).


En cambio, si las variables no son independientes y hay una alta
covarianza positiva entre las variables entonces se tienen pocos
casos (b) y (c) (no son muy probables!) y la probabilidad se
concentra en los casos (a) y (d) que entregan mayor dispersión.
Ası́ una covarianza alta implica que la varianza de Y1 + Y2 es mayor
que la varianza que tendrı́a la suma si fueran independientes.
Análogamante, si hay una alta covarianza negativa, se tienen pocos
casos (a) y (d). Ası́ la varianza de Y1 + Y2 es mayor que la varianza
que tendrı́a si fueran independientes.
Ası́ la covarianza entrega una medida de la variación conjunta de las
variables.
En general, se tiene que
V (Y1 + Y2 ) = V (Y1 ) + V (Y2 ) + 2Cov (Y1 , Y2 )

En general, para calcular la varianza de la función U = ni=1 Yi

P
vamos a necesitar calcular las covarianzas entre todos los pares Yi Yj .
Es decir calculamos Cov (Yi , Yj ).
Si representamos estas covarianzas en una matriz de orden n
(simétrica pues Cov (Yi , Yj ) = Cov (Yj , Yi )), entonces en la diagonal
tendrı́amos las varianzas, pues Cov (Yi , Yi ) = V (Yi ).
Esta matriz es la matriz de covarianzas de las variables Y1 , Y2 , . . . , Yn .
Se puede demostrar que V (U) es la suma de todos los valores de esa
matriz:
Xn X n
V (U) = Cov (Yi , Yj ).
i=1 j=1
Veamos el caso más general en el siguiente teorema.

Theorem
Sean Y1 , Y2 , . . . , Yn variables aleatorias
Pn tales que E (Yi ) = µi , y sean
a1 , a2 , . . . , an constantes. Sea U = i=1 ai Yi . Entonces se tiene que:
X n X X
V (U) = ai2 V (Yi ) + 2 ai aj Cov (Yi , Yj ).
i=1 1≤i<j≤n
o equivalentemente:
Xn Xn
V (U) = ai aj Cov (Yi , Yj ).
i=1 j=1
Ası́ la varianza de U es exactamente la suma de todos los términos

de la matriz de covarianzas de los ai Yi . Puede interpretarse como: la
varianza que aporta cada término por separado (la diagonal de la
matriz) más la covarianza que suma (o resta) cada par de variables.

Funciones lineales de v.a.’s: covarianza
Theorem
Sean Y1 , Y2 , . . . , Yn variables aleatorias tales que E (Yi ) = µi ,
y sean X1 , X2 , . . . , Xm variables aleatorias tales que E (Xi ) = ξi . Sean
a1 , a2 , . . . , an y b 1 , b 2 , . . . P
, bm constantes. Entonces la covarianza entre las
n Pm
variables aleatorias U1 = i=1 ai Yi y U2 = i=1 bi Xi es
n X
X m
Cov (U1 , U2 ) = ai bj Cov (Yi , Xj ).
i=1 j=1
Notar que este teorema es un caso general del teorema anterior.

Podemos recuperar la fórmula de la varianza calculando la covarianza
de U consigo misma: V (U) = Cov (U, U).

Clase 17: Distribuciones de funciones de variables aleatorias
Clase 17: Distribuciones de funciones de variables aleatorias.

Distribuciones de funciones de variables aleatorias
Veremos algunos métodos para calcular la distribución de una función

de variables aleatorias:
Método de las funciones de distribución.
Método de las transformaciones (auxiliar).
Método de las funciones generadoras de momento.

Método de las funciones de distribución
Si U(Y1 , Y2 , . . . , Yn ) es una v.a. función de las v.a.’s Y1 , Y2 , . . . , Yn .

Determinar la función distribución FU (u) = P(U ≤ u). Para ello
determinar la región del espacio y1 , y2 , . . . , yn tal que U ≤ u e
integramos la densidad conjunta f (y1 , y2 , . . . , yn ) en esa región.
Derivamos FU (u) para obtener la densidad

Método de las funciones generadoras de momentos
Si U(Y1 , Y2 , . . . , Yn ) es una v.a. función de las v.a.’s Y1 , Y2 , . . . , Yn .

Calcular la f.g.m. de U definida como mU (t) = E (e tU ).
Si la f.g.m. obtenida es alguna conocida, entonces tenemos la
distribución buscada.

Ejemplo: estandarizando una v.a. normal
Sea Y una v.a. normalmente distribuida con media µ y varianza σ 2 .

Demuestre que
Y −µ
Z=
σ
tiene una distribución normal estándar, es decir, una distribución
normal con media 0 y varianza 1.
Solución: Propuesta

Ejemplo: normal estándar al cuadrado
Sea Z una v.a. normalmente distribuida con media 0 y varianza 1.

Usando f.g.m. muestre que Z 2 tiene una distribución gamma con
α = 1/2 y β = 2.
Solución: Pizarra
Ası́ podemos ver que Z 2 es una gamma con parámetros α = 1/2 y
β = 2, o lo que es lo mismo, una χ2 con ν = 1 grado de libertad.

Suma de v.a. independientes
Theorem
Sean Y1 , Y2 , . . . , Yn variables aleatorias independientes con f.g.m.
mY1 (t), mY2 (t), . . . , mYn (t), respectivamente. Si U = Y1 + Y2 + . . . + Yn ,
entonces
mU (t) = mY1 (t) × mY2 (t) × . . . × mYn (t)
Dem: Usar esperanza de multiplicación de v.a. independientes.

Este resultado permite demostrar los siguientes dos teoremas.

Función lineal de v.a. normales independientes

Theorem
Sean Y1 , Y2 , . . . , Yn variables aleatorias independientes normalmente
distribuidas con E (Yi ) = µi y V (Yi ) = σi2 , para i = 1, 2, . . . , n y sean
a1 , a2 , . . . , an constantes. Si
n
X
U= ai Yi = a1 Y1 + a2 Y2 + . . . + an Yn ,
i=1
entonces U es una variable aleatoria normalmente distribuida con

n
X
E (U) = ai µi = a1 µ1 + a2 µ2 + . . . + an µn
i=1
n
X
V (U) = ai2 σi2 = a12 σ12 + a22 σ22 + . . . + an2 σn2 .
i=1
Suma de cuadrados de v.a. normales estándares indep.

Theorem
Sean Y1 , Y2 , . . . , Yn variables aleatorias independientes normalmente
distribuidas con E (Yi ) = µi y V (Yi ) = σi2 , para i = 1, 2, . . . , n y definimos
Yi − µi
Zi = , i = 1, 2, . . . , n.
σi
Pn 2
Entonces i=1 Zi tiene una distribución χ2 con n grados de libertad.
Las Zi son normales estandarizadas (media 0 y varianza 1).

Como vimos, la χ2 con n grados de libertad es un caso particular de
la distribución gamma. Este resultado muestra por qué se le
bautizó con un nombre especı́fico.
El origen del nombre del parámetro “n grados de libertad” viene de
las n variables independientes involucradas.
, de una
f.10aleatorias
Clase 17: Distribuciones de funciones de variables variable aleatoria x2 con 10 gl. En general,
Figura P x 2 > xa2 = a implica que P x 2 ≤ xa
y que xa2 = f1−a , el cuantil (1 − a) de la variable aleatoria x2.

La Tabla 6, Apéndice 3, contiene xa2 = f1−a para diez valore
.1, .90, .95, .975, .99 y .995) para cada una de las 37 distribuci
con grados de libertad 1, 2, . . . , 30 y 40, 50, 60, 70, 80, 90 y 10
información acerca de estas distribuciones y la asociada con gra
F I G U R A 7.2 f(u)
Una distribución x2
que muestra el área a
de cola superior
0 u
x2!

Probabilidades PDF

Cargado por

Copyright:

Formatos disponibles

También podría gustarte

Probabilidades PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Probabilidades PDF

Cargado por

Copyright:

Formatos disponibles

Probabilidades y Estadı́stica

Lab. de Bioinformática y Matemática del Genoma (Mathomics)

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 1 / 250

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 2 / 250

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 3 / 250

Clase 1: ¿Qué es estadı́sitica?

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 4 / 250

Encuestas elecciones → predecir resultados

La estadı́stica entrega la teorı́a básica para intentar contestar a estas

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 5 / 250

Varias definiciones. Todas implican que la estadı́stica es una teorı́a de

La meta de la estadı́stica es hacer una inferencia acerca de una población,

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 6 / 250

> datos <- c(2.1, 2.4, 2.2, 2.3, 2.7,

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 8 / 250

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 9 / 250

Hacer histogramas de:

> x <- rnorm(n=50000, m=1, sd=1)

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 10 / 250

Si escogemos un dato al azar, ¿cuál es la probabilidad que esté entre

→ 0.5 (la mitad de los valores están ahı́)

¿cuál es la probabilidad que un salmón escogido al azar esté entre

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 12 / 250

Medida de tendencia central: la media

Si pudiéramos conocer todos los valores y1 , y2 , . . . , ym de una población

Es decir que y es la media muestral y µ es la media poblacional. Esta

Medidas de dispersión: varianza

Es decir que la varianza muestral sn2 es el promedio del cuadrado de las

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 14 / 250

Medidas de dispersión: varianza

varianza muestral (para muestra de tamaño n):

Como en general el valor de la varianza poblacional σ 2 es desconocido,

obtendremos una estimación mejor de σ 2 .

Medidas de dispersión: desviación estándar

Las definiciones de sn2 , sn−1

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 16 / 250

Medidas de dispersión: desviación estándar

Inferir a partir de una muestra

Ejemplo: en una elección, queremos saber si el candidato Dr. Alberto

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 18 / 250

Inferir a partir de una muestra

Otro ejemplo: queremos verificar que un dado no está cargado. Es

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 19 / 250

Inferir a partir de una muestra

Si el dado está equilibrado entonces tenemos el modelo probabilı́stico

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 20 / 250

Antes de hacer inferencias a partir de una muestra, estudiaremos los

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 21 / 250

Clase 2: Probabilidades caso discreto

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 22 / 250

Pueden ser tanto controlables (ej: tipo laboratorio, lanzar un dado)

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 23 / 250

Punto muestral y espacio muestral

Los puntos muestrales del espacio muestral deben ser diferentes,

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 24 / 250

Espacio muestral discreto

experimento: tirar un dado y observar resultado.

Vicente Acuña (CMM, Universidad de Chile) Prob. y Est. 25 / 250