Probabilidad Prof Vc3adctor Bernal P

Universidad Centroccidental
Lisandro Alvarado
Decanato de Ciencias y Tecnología.
Departamento de Matemáticas
Probabilidad
Prof. Víctor Bernal P.

Contenido
Capítulo 1. Introducción a la probabilidad 1

1. Aspectos históricos de la probabilidad 1
2. La etimología de algunos términos 5
2.1. Probabilidad 5
2.2. Probable 5
2.3. Aleatorio 5
2.4. Azar 5
2.5. Chance 5
3. Preliminares matemáticos 6
3.1. Conjuntos y operaciones 6
3.2. Operaciones entre conjuntos 6
3.3. Leyes del álgebra de los conjuntos 6
3.4. Conjunto potencia. Partición 7
3.5. Producto Cartesiano. Conjuntos con índices 7
3.6. La estructura de σ −álgebra. 8
3.7. Conjuntos finitos. Conjuntos infinitos numerables. Conjuntos no numerables. 8
4. Experimento aleatorio. Espacio muestral. Evento 8
4.1. Experimento aleatorio 8
4.2. Espacio muestral 9
4.3. Evento 9
5. El concepto axiomático de probabilidad 9
5.1. Propiedades de la función de probabilidad 10
5.2. Espacios finitos de probabilidad 11
5.3. Espacios finitos equiprobables 11
iii
6. Técnicas de conteo 11
6.1. Introducción a los problemas de conteo 11
6.2. Principio de adición 14
6.3. Principio de multiplicación 14
6.4. Principio de Distribución 15
6.5. Diagramas de árbol 16
6.5.1. Diagrama de árbol. Ejemplo 1 16
7. Variaciones, permutaciones y combinaciones 17
7.1. Arreglos 17
7.2. Variaciones con repetición 17
7.3. Variaciones sin repetición 18
7.4. Permutaciones ordinarias 18
7.5. Permutaciones con repetición 19
7.6. Combinaciones 19
7.7. Combinaciones con repetición 19
8. Conteo por recurrencia 20
9. Probabilidad condicional 22
10. Independencia estadística 23
10.1. La probabilidad total 24
10.2. El Teorema de Bayes 25
11. Ejercicios 27
11.1. Diagrama de árbol 27
11.2. Variaciones y permutaciones, con y sin repetición 28
11.3. Combinaciones 29
11.4. Espacios muestrales y eventos 30
11.6. Espacios finitos equiprobables 32
11.7. Probabilidad condicional. Independencia estadística 33
11.8. Fórmula de Bayes 33
Capítulo 2. Variables aleatorias discretas 37

1. Función de densidad y función de distribución 37
1.1. Función de densidad de probabilidad 37
Prof. Victor Bernal 2010 – 2011 Resumen. Pág. iv de 125.
1.2. Función de distribución de probabilidad 38
2. Media y Varianza 38
2.1. Media 38
2.2. Varianza 38
3. Operaciones con variables aleatorias 38
4. Propiedades de la media y la varianza 39
5. Variables aleatorias independientes 40
Propiedades de las variables independientes 40
6. Distribuciones especiales 40
6.1. La distribución de Bernoulli 41
6.2. La función indicadora 41
6.3. La distribución binomial 42
6.4. La distribución geométrica 46
6.5. La distribución hipergeométrica 47
6.6. La distribución de Pascal o Binomial negativa 49
6.7. La distribución de Poisson 50
7. Funciones generadoras 52
7.1. La función generadora de momentos 53
7.2. Propiedades de la función generadora de momentos 53
7.3. La función generadora de probabilidad 54
7.4. Propiedades de la función generadora de probabilidad 54
8. Ejercicios 55
Capítulo 3. Variables aleatorias continuas 61

1. Definición de variables aleatorias continuas 61
1.1. Función de densidad y función de distribución 61
1.2. Propiedades de la función de densidad 62
1.3. Función de distribución 64
1.4. Propiedades de las distribuciones 64
1.5. Cálculo de probabilidades con F (x) 64
2. Funciones de una variable aleatoria 64
3. Esperanza de una variable aleatoria 66
3.1. Esperanza de una función 67
3.2. Propiedades de la esperanza 67
3.3. Varianza, desviación típica y propiedades 68
Prof. Victor Bernal 2010 – 2011 Resumen. Pág. v de 125.
3.4. Función generadora de momentos 68
La desigualdad de Tchebychev 68
4. Las funciones Gamma y Beta 69
4.1. La definición como integral 69
4.2. La ecuación funcional 70
4.3. La función Beta 70
5. Principales distribuciones continuas 71
5.1. Distribución uniforme 72
5.2. Distribución exponencial 73
5.3. Distribución Gamma 74
5.4. Distribución Beta 75
5.5. Distribución χ 2 (Chi-cuadrado) 76
5.6. Distribución Weibull 77
5.7. Distribución normal 78
5.8. Distribución t de Student 79
6. El sistema de distribuciones de Pearson 80
7. Ejercicios generales 84
8. Ejercicios sobre las distribuciones principales 88
Respuestas. Ejercicios generales 92
Capítulo 4. Variables aleatorias bidimensionales 95

1. Funciones de densidad y de distribución 95
1.1. La función de densidad 95
1.2. La función de distribución 96
1.3. Esperanza 97
1.4. Densidades marginales 97
2. Densidades condicionales 97
2.1. Independencia 98
2.2. El coeficiente de correlación 98
2.3. Funciones de dos variables aleatorias 98
2.4. Valor esperado condicional e iterado 99
2.5. Ejemplo 100
3. Ejercicios 102
4. Distribuciones de funciones de variables aleatorias 105
5. Generación de variables aleatorias continuas 106
Prof. Victor Bernal 2010 – 2011 Resumen. Pág. vi de 125.
5.1. Generalidades 106
5.2. La distribución exponencial 106
5.3. La distribución Gamma 107
5.4. La distribución normal 107
5.5. La distribución χ 2 (Chi-cuadrada) 108
5.6. La distribución F 109
5.7. La distribución t 109
6. Suma de variables independientes 110
Ejemplos 110
Suma de variables uniformes 110
Suma de variables exponenciales 111
7. Aplicaciones de la Proposición 2.1 112
7.1. Distribución del producto de variables aleatorias 112
7.2. Distribución del cociente de variables aleatorias 112
8. Estadísticos de orden 113
9. Ejercicios 113
Capítulo 5. Teoremas límites 117

1. Modos de convergencia de variables aleatorias 117
1.1. Convergencia puntual 117
1.2. Convergencia casi segura 117
1.3. Convergencia en probabilidad 117
1.4. Convergencia en media 118
1.5. Convergencia en distribución 118
2. Desigualdades básicas 118
3. La ley de los grandes números 121
4. Teorema del límite central 122
5. Ejercicios 123
Prof. Victor Bernal 2010 – 2011 Resumen. Pág. vii de 125.

Capı́tulo 1
Introducción a la probabilidad
1. Aspectos históricos de la probabilidad
La rama de la matemática conocida como Teoría de la Probabilidad tiene su origen en el estudio

de algunos problemas relacionados con juegos de azar, especialmente sobre los distintos jue-
gos de dados. Uno de los primeros escritos sobre el tema fué el manual Liber de Ludo Aleae (El
Libro del Juego de Dados), escrito por Girolamo Cardano (1501-1576), un matemático italiano,
médico y jugador, en el que discute aspectos de la probabilidad, junto con un análisis detallado
de muchos problemas del juego. Desafortunadamente, este trabajo tuvo poca influencia en el
Figura 1. Girolamo Cardano (1501-1576)
desarrollo de la probabilidad puesto que fue publicado sólo hasta 1663 y además recibió poca
atención. El estudio sistemático, con base matemática, del concepto de probabilidad se remon-
ta a mediados del siglo 17 y evoluciona durante los siglos 18 y 19 al intervenir no solamente
en la ciencia sino en otras áreas del conocimiento. En algunos casos, la probabilidad aporta
más conocimiento que otras ramas de la ciencia puesto que sus métodos de análisis aparecen
1
Figura 2. Blas Pascal (1623-1662) Pierre de Fermat (1601-1665)
en diversas aplicaciones. Los conceptos de chance, fortuna y suerte son tan antiguos como los
primeros juegos de dados. La humanidad había especulado durante muchos siglos acerca de
las probabilidades para resolver aspectos tales como la legalidad de la evidencia, esquemas de
seguridad para viajes de comercio y análisis de los juegos de azar, pero es sólo hasta mediados
del siglo 17 que estas especulaciones conducen al establecimiento de principios matemáticos.
La presencia de riesgos era reconocida con mucha anterioridad a la aparición de la teoría mate-
mática, los Babilonios tenían métodos para calcular seguros marítimos, los Romanos utilizaban
la anualidad, consistente en proporcionar una suma de dinero a cambio de pagos regulares en
un tiempo relativamente largo, contemplando la posibilidad de que la persona receptora del
dinero muriera antes de completar la totalidad de los pagos, por otra parte, los juegos de azar
han existido desde tiempos inmemoriales. Sin embargo, como ya se dijo, fue sólo hasta el siglo
17 que se trató de comprender estos conceptos desde el punto de vista matemático.
Los orígenes del interés en la matemática de la probabilidad en el siglo 17 han generado arduas
discusiones acerca de su contribución a la astronomía, las artes, el juego y los seguros. Esta
discusión se hace difícil puesto que no se necesitaron descubrimientos en el área matemática
que marcaran el inicio de esta disciplina. Tampoco fue necesaria una teoría del azar puesto
que hasta el siglo 18 se tenia como creencia que todo lo que sucedía en el universo estaba
estrictamente determinado y por lo tanto el azar era sólo aparente, producto de la ignorancia
humana y como los sucesos sin causa determinada eran inexistentes, no se podia pensar en
nada que sucediera completamente al azar.
Tradicionalmente, se considera como origen de la teoría moderna de probabilidad al intercam-
bio de correspondencia en julio y octubre de 1654 entre los matemáticos franceses Blas Pascal
Prof. Victor Bernal 2010 – 2011 Resumen. Pág. 2 de 125.
(1623-1662) y Pierre de Fermat (1601-1665). Las primeras cartas fueron escritas en torno al
siguiente problema: Dos jugadores A y B escogen, cada uno de ellos, un número del 1 al 6,
distinto uno del otro, apuestan cada uno 32 monedas de oro a que el número escogido por uno
de ellos aparece en tres ocasiones antes que el número del contrario al lanzar sucesivamente
un dado. Cuando A tiene 2 aciertos y B tiene un acierto el juego se interrumpe y no puede
continuar. Se preguntaba cómo deberían repartirse, de manera justa, las 64 monedas entre los
dos jugadores.
Pascal dividió la solución en dos partes. Si importar el resultado final A debería obtener al me-
nos la mitad (32 monedas). Por lo tanto, la incertidumbre se tenía sobre la otra mitad y A tenía
un 50 % de posibilidades de ganarla, por lo que la distribución justa sería que A recibiera 48
monedas (las 32 seguras y la mitad de las 32 no seguras) y B recibiría 16 monedas.
Para resguardar la tradición de legalidad y justicia el énfasis de Pascal estuvo en la esperanza
y la igualdad de los dos jugadores, el punto central no fue el cálculo de probabilidades sino la
certeza de la ganancia y la igualdad de oportunidades.
El francés Antoine Gombaud (1607-1684), conocido como Chevalier de Méré quien también
sostuvo correspondencia con Pascal sobre el problema anterior, llamado problema del juego
interrumpido, calculó que podía apostar a obtener al menos un doble 6 en 24 lanzamientos de
dos dados, sin embargo cuando comenzó a perder propuso a Pascal el analizar tal problema.
Pascal determinó que debería esperar perder el 51 % de las veces. Este nuevo problema hizo
que Pascal comenzara a estudiar otros similares. La relativamente breve discusión de tales pro-
blemas, plasmada en la correspondencia con Pierre de Fermat se considera como la base de la
teoría matemática de la probabilidad.
Las cartas sólo se publicaron en 1679 por lo que el crédito al primer libro sobre probabilidad
se atribuye a los matemáticos holandeses Christian Huygens (1629-1695), quien conocía los
argumentos Pascal–Fermat, y Johann de Witt (1625-1672). Al igual que en la correspondencia
de Pascal estos trabajos se concentraron en la matemática de la esperanza. El libro de Huygens
Van Rekeningh in Spelen van Geluck (1657) (Razonamientos sobre el juego de dados) contie-
ne el primer estudio publicado sobre esperanza matemática y una serie de análisis acerca de
las diferentes esperanzas en varios juegos de dados. Para Huygens, un juego justo es aquel
en el que los dos jugadores tienen la misma esperanza, de manera que el juego no se vuelva
desventajoso para ninguno de los que apuestan y toman el riesgo de pérdida originado por su
participación. La visión moderna de la probabilidad define como juego justo aquel en donde
las probabilidades de los jugadores son iguales y por lo tanto sus esperanzas.
De Witt, en una serie de cartas escritas en 1671 extendió la probabilidad matemática a otros

aspectos no relacionados con el juego intentando analizar las anualidades sobre la base de la
mortalidad, correlacionando la edad con la probabilidad de morir. En 1671 fue publicada su
obra Waardije van Lyf-renten naer Proportie van Los-renten (El Valor de las Rentas Vitalicias
comparadas con los Bonos de Rescate). Éste libro combinaba los intereses del estadístico y del
matemático. Desde la Edad Media la renta vitalicia era una manera de “regalarle” a alguien un
ingreso regular de una fuente confiable. El Estado por ejemplo podía proveerle a una viuda
un ingreso regular hasta su muerte a cambio de una cantidad fija de dinero por adelantado.
También había bonos de rescate que eran como un préstamo estatal regular. De Witt demostró,
usando probabilidad matemática, que para una misma suma de dinero un bono de 4 % daría el
mismo beneficio que una renta vitalicia del 6 % (1 en 17). Pero el Staten en ese momento pagaba
más del 7 % (1 en 14). La publicación sobre rentas vitalicias es vista como la primera aproxima-
ción matemática y estadística al azar y la probabilidad. La disminución de los ingresos de las
viudas contribuyó sin duda a la “mala prensa” de los hermanos De Witt. De forma significativa
en 1673, luego de la violenta muerte (linchamiento) de los hermanos De Witt el Staten estable-
ció nuevas rentas vitalicias con la antigua tasa de 1 en 14. El énfasis en esperanzas, más que en
Figura 3. Christian Huygens (1629-1695). Johan de Witt (1625-1672)
probabilidades, teniendo en cuenta la falta de información estadística no pudo resolver situa-

ciones más complejas con diferentes grados de riesgo, por ejemplo, cuando los jugadores no
tenían iguales habilidades u oportunidades. En los casos legales, la decisión se dejó en manos
de la experiencia práctica de un juez.
2. La etimología de algunos términos
2.1. Probabilidad. [Derivada de: probable ] La propiedad que una afirmación o evento
tiene de acuerdo con evidencia presente de ser probable, tener apariencia de verdad o tener la
posibilidad de realización.
2.2. Probable. [ Del Latin probabilis. Que puede ser probado, de probare ensayar, probar,
aprobar, ser aceptable, de probus bueno, correcto.]
1. Capaz de ser probado, demostrado, probable.

2. Aceptable o creíble.
3. Que tiene apariencia de verdad.
4. Que puede llegar a ser. Realizable.
2.3. Aleatorio. [Del latin: aleatorius, de aleator jugador de dados, de alea dados.]
Que depende del lanzamiento de dados, por lo tanto dependiente de contingencias o incerti-
dumbre.
2.4. Azar. [ Un tipo de juego de dados. De acuerdo con Guillermo de Tiro (cronista de las
Cruzadas1) el juego toma su nombre del castillo Asart (o Hasart) en Palestina. El nombre árabe
de este castillo parece haber sido Ain Zarba. Otra hipótesis lo relaciona con la palabra árabe
para dados: az-zahr]
1. Un juego de dados con reglas muy complicadas.

2. Un chance o aventura.
3. Riesgo de pérdida o daño.
2.5. Chance. [Del antiguo Latin: cadentia cayendo, del Latin cadere caer ]
1. La aparición u ocurrencia de eventos; la manera en que las cosas se pueden presentar.

2. La ocurrencia o aparición de cosas en una forma particular; una circunstancia fortuita
o casual.
3. La posibilidad o probabilidad de que algo ocurra en una forma diferente a la certidum-
bre total.
1
Las cruzadas fueron una serie de campañas militares comúnmente hechas a petición del Papado, y que tuvieron
lugar entre los siglos XI y XIII, contra los turcos selyúcidas y sarracenos (llamados así los musulmanes) para la
reconquista de Tierra Santa.

3. Preliminares matemáticos
3.1. Conjuntos y operaciones.
1. Conjunto: Lista o colección bien definida de objetos. Cada uno de los objetos se llama
elemento.
2. La propiedad que caracteriza a los elementos de un conjunto se llama relación de per-

tenencia.
3. Se dice que el conjunto A es subconjunto del conjunto B, notado A ⊂ B, si todo ele-

mento que pertenece a A también pertenece a B.
A ⊂ B a (x ∈ A ⇒ x ∈ B)
4. Dos conjuntos A y B son iguales, notado A = B, si cada uno es subconjunto del otro.
A = B a (x ∈ A a x ∈ B)
3.2. Operaciones entre conjuntos. Si A y B son conjuntos,
1. La unión de A y B, notada A ∪ B, se define por,
A ∪ B = {x : x ∈ A ∨ x ∈ B}
2. La intersección de A y B, notada A ∩ B, se define por,
A ∩ B = {x : x ∈ A ∧ x ∈ B}
3. La diferencia de A y B, notada A \ B, se define por,
A \ B = {x : x ∈ A ∧ x 6∈ B}
4. El complemento de A, notado A0 , se define por,
A0 = {x : x ∈ U ∧ x 6∈ A}
3.3. Leyes del álgebra de los conjuntos. Si A, B, C, son conjuntos, se cumplen las siguien-
tes leyes:
Figura 4. Augustus de Morgan (1806 – 1871). John Venn (1834 – 1923).
A ∪ A= A A∩A=A
(A ∪ B) ∪ C = A ∪ (B ∪ C) (A ∩ B) ∩ C = A ∩ (B ∩ C)
A∪B =B∪A A∩B =B∩A
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
A∪∅=A A∩U=A
A∪U=U A∩∅=∅
0
A∪A =U A ∩ A0 = ∅
(A0 )0 = A U0 = ∅, ∅0 = U
(A ∪ B)0 = A0 ∩ B 0 (A ∩ B)0 = A0 ∪ B 0
3.4. Conjunto potencia. Partición. Si A es un conjunto, se llama conjunto potencia de A,

o conjunto de partes de A, notado P(A), a la colección formada por los subconjuntos de A.
P(A) = {B : B ⊂ A}
Se debe notar que, ∅ ∈ P(A) y A ∈ P(A).

Las particiones son refinamientos del conjunto potencia. Se llama partición de un conjunto A
a una colección P de subconjuntos, no vacíos, de A, tales que
1. Son disjuntos dos a dos. Si B, C ∈ P entonces B ∩ C = ∅.

S
2. La unión de los elementos de P es A. B∈P = A.
3.5. Producto Cartesiano. Conjuntos con índices. Si A y B son conjuntos, se llama pro-
ducto cartesiano de A y B, notado A × B, al conjunto definido por,
A × B = {(a, b) : a ∈ A, b ∈ B}
La definición se puede extender a varios factores A1 , . . . , An .

Una clase de conjuntos con índices, notada {Aι : ι ∈ I}, o sencillamente {Aι } se construye
asignando un conjunto Aι a cada elemento ι ∈ I. Cuando el conjunto I es un subconjunto de
N, los números naturales, la clase se llama sucesión de conjuntos.
3.6. La estructura de σ −álgebra. En lo que sigue se adoptará la siguiente notación:

n
[ n
\
Ai = A1 ∪ A2 ∪ · · · ∪ An , = A1 ∩ A2 ∩ · · · ∩ An
i=1 i=1
∞
[ ∞
\
Ai = A1 ∪ A2 ∪ A3 . . . , = A1 ∩ A2 ∩ A3 ∩ . . .
i=1 i=1
Una clase no vacía A de subconjuntos de U, se denomina σ −álgebra de conjuntos si:
1. Si B ∈ A entonces B 0 ∈ A.
S∞
2. Si A1 , A2 ,… son elementos de A entonces i=1 Ai es un elemento de A
3.7. Conjuntos finitos. Conjuntos infinitos numerables. Conjuntos no numerables.
1. Un conjunto A es finito si sus elementos pueden ser ordenados como una sucesión en
la que el conjunto de índices I es de la forma I = {1, . . . , n}.
A = {a1 , . . . , an }
2. Un conjunto A es infinito numerable si sus elementos pueden ser ordenados como una
sucesión en la que I = {1, 2, . . . }.
A = {a1 , a2 , a3 , . . . }
3. Un conjunto A es infinito no numerable si no es finito ni infinito numerable.
4. Experimento aleatorio. Espacio muestral. Evento
4.1. Experimento aleatorio. El concepto de experimento aleatorio es la base de la teoría

de la probabilidad, en principio puede ser definido como un experimento cuyo resultado no
puede predecirse con certeza antes de su realización, sin embargo, se puede reconocer por las
características:
1. Es posible repetirlo en forma indefinida sin cambiar esencialmente las condiciones.

2. Aunque en general no podemos especificar cual será el resultado particular, podemos
describir el conjunto de todos los resultados posibles del experimento.
3. Cuando se repite un gran número de veces, aparece un patrón definido o regularidad.
Esta regularidad hace posible la construcción de un modelo preciso con el cual podemos
analizar el experimento.

4.2. Espacio muestral. Para cada experimento E definimos el espacio muestral como el
conjunto de todos los resultados posibles de E. Usualmente se designa este conjunto como Ω.
De acuerdo con el número de resultados posibles, puede ser: finito, infinito numerable, infinito
no numerable.
4.3. Evento. Un evento A (respecto a un espacio muestral particular Ω asociado a un

experimento E) es un conjunto de resultados posibles. En términos de conjuntos, un evento A
es un subconjunto del espacio muestral Ω. Esto implica que Ω, el conjunto vacío ∅ y cualquier
resultado individual se consideran como eventos.
Cada uno de los elementos individuales del espacio muestral se llama evento elemental. Un
evento A se asocia con un evento elemental ω si se puede verificar que ω lleva a la ocurrencia
de A, por lo tanto el símbolo A se utiliza tanto para la descripción del evento como para el
subconjunto del espacio muestral Ω asociados con A. El evento Ω se llama evento seguro y el
evento ∅ se llama evento imposible.
Dos eventos A1 , A2 , se llaman equivalentes si A1 ocurre si, y sólo si, A2 ocurre, en ese caso se
escribe A1 = A2 . Por ejemplo, si se lanzan dos dados y A1 es el evento “la suma de los puntos es
par”, A2 el evento “los dos dados muestran números pares o los dos dados muestran números
pares” entonces A1 = A2 .
Dos eventos se llaman mutuamente excluyentes (o incompatibles) si la ocurrencia de un evento
excluye la ocurrencia del otro, es decir, si A1 y A2 no pueden darse de manera simultánea.
Se llama unión de los eventos A1 y A2 , notada A1 ∪ A2 al evento asociado con la ocurrencia de
uno cualquiera de los dos eventos. La unión de una familia de eventos A1 , A2 , . . . se define de
S
manera similar y se nota k Ak .
Se llama intersección de los eventos A1 y A2 , notada A1 ∩A2 al evento asociado con la ocurrencia
simultánea de los dos eventos. La intersección de una familia de eventos A1 , A2 , . . . se define
T
de manera similar y se nota k Ak .
Se llama diferencia de dos eventos A1 y A2 , notada A1 \ A2 al evento asociado con la ocurrencia
de A1 sin que ocurra A2 . El evento complementario (o complemento) de un evento A, notado A0
es el evento “A no ocurre”, entonces
A0 = Ω \ A
5. El concepto axiomático de probabilidad
En el segundo congreso internacional de matemáticas, celebrado en la ciudad de Paris en el

año 1900, el matemático David Hilbert (1862–1943) planteó 23 problemas matemáticos de
importancia. Uno de estos problemas es el de encontrar axiomas o postulados a partir de
los cuales se pueda construir una teoría matemática de la probabilidad. Aproximadamente
treinta años después, en 1933, el matemático ruso Andrey N. Kolmogorov (1903–1987) propuso
ciertos axiomas que a la postre resultaron adecuados para la construcción de una teoría de la
probabilidad.
Dado un espacio muestral Ω, y una σ -álgebra de eventos A, se dice que P que es una función
de probabilidad sobre A si se cumplen las siguientes propiedades (axiomas):
1. Si A ∈ A, entonces 0 ≤ P (A) ≤ 1.
2. P (Ω) = 1.
3. Si A1 , A2 , . . . , An son elementos de A, disjuntos dos a dos, entonces
 
n
[ Xn
P  Ai =
 P (Ai )
i=1 i=1
4. El sistema (Ω, A, P ) se llama Espacio de probabilidad. Si el espacio muestral Ω es finito

o infinito numerable, entenderemos que la σ -álgebra de eventos es P(Ω).
5.1. Propiedades de la función de probabilidad. Si Ω es el espacio muestral y A, B, C son

eventos,
1. P (∅) = 0
2. P (A0 ) = 1 − P (A)
3. Si A ⊂ B, P (A) ≤ P (B).
4. P (A \ B) = P (A) − P (A ∩ B)
5. P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
6. P (A ∪ B ∪ C) = P (A) + P (B) + P (C)
−P (A ∩ B) − P (A ∩ C) − P (B ∩ C)
+P (A ∩ B ∩ C)
Figura 5. Andrey Nikolaevich Kolmogorov (1903–1987)

5.2. Espacios finitos de probabilidad. Si Ω es un espacio muestral finito, es decir, Ω =
{a1 , a2 , . . . , an }. Se define un espacio finito de probabilidad si a cada elemento ai ∈ Ω se
asigna un número pi , llamado probabilidad de ai y notado P (ai ), de tal manera que,
1. Cada pi es no negativo. pi ≥ 0.
Pn
2. La suma de los pi es uno. p1 + p2 + · · · + pn = i=1 pi = 1
La probabilidad P (A) de un evento A se define como la suma de las probabilidades de los

elementos de A.
X
P (A) = P (ak )
ak ∈A
5.3. Espacios finitos equiprobables. En general, la naturaleza de los experimentos alea-

torios lleva a asignar la misma probabilidad a cada elemento del espacio muestral Ω. Un espacio
finito de probabilidad Ω se denomina espacio equiprobable (uniforme) si cada punto muestral
tiene la misma probabilidad.
1
En particular, si Ω tiene n elementos, la probabilidad de cada elemento es . Entonces, si un
n
1 r
evento A tiene r elementos, su probabilidad es r · = . También se escribe como,
n n
Número de casos favorables

P (A) =
Número de casos posibles
6. Técnicas de conteo
6.1. Introducción a los problemas de conteo. Las técnicas de conteo permiten calcular
el total de resultados posibles de los subconjuntos de un espacio muestral Ω de interés, espe-
cialmente en la construcción de funciones de probabilidad de espacios equiprobables.
Las técnicas de conteo analizan las formas de arreglar elementos u objetos de acuerdo con un
patrón especificado. Es decir, tratan de responder tres tipos de preguntas,
1. Determinar si tal tipo de arreglo es posible.

2. Determinar el número de maneras posibles.
3. Establecer un método para encontrar tales arreglos.
Ejemplo: El juego del Sudoku. La palabra proviene de la expresión japonesa Su (número) Doku
(singular, solitario), se juega sobre una red matricial 9 × 9, dividida en nueve cuadrados 3 × 3.
El juego consiste en colocar los números 1, 2, . . . , 9 en las celdas de la red de tal forma que cada
número figura solo una vez por fila y columna y en cada cuadrado 3 × 3, una vez por fila y una
vez por columna. El programador Bertram Felgenhauer y el matemático Frazer Jarvis unieron
en el año 2005 sus habilidades y calcularon que existen
6, 670, 903, 752, 021, 072, 936, 960 = 9! × 722 × 27 × 27, 704, 267, 971 ≈ 6.671 × 1021
maneras diferentes de llenar la red. El hecho de que 27,704,267,971 es un número primo da idea
de la dificultad inherente al cálculo. En general se plantea el problema colocando previamente
algunos números en la red para que el jugador complete el arreglo. En ese caso, no siempre se
sabe si es posible completar la red y en caso de que sea posible, la solución no es necesariamente
fácil de encontrar. Sin embargo el juego del Sudoku se ha incorporado a una gran cantidad de
periódicos y revistas, como un atractivo para la distracción de sus lectores.
Ejemplo: El matemático Leonhard Euler propuso, en 1782 el siguiente problema:
Seis diferentes regimientos tienen, cada uno, seis oficiales de rangos diferentes
(de seis rangos posibles). Determinar si se pueden arreglar en una formación
cuadrada de tal manera que cada fila y columna tenga un oficial de cada rango
y de cada regimiento.
Euler no encontró la solución y conjeturó que no era posible encontrarla2. Fue sólo hasta el año
1900 que el francés Gaston Tarry comprobó que Euler tenía razón. Euler pensaba que no había
solución si 6 se reemplazaba por cualquier entero congruente con 2 módulo 4; por ejemplo,
10, 14, etc. Esta vez, Euler no tenía razón pero su error fue descubierto hasta las década de
1960 cuando E. T. Parker, R. C. Bose y S. Shrikhande utilizaron un computador para construir
un arreglo de orden 22 y luego demostrar que los únicos arreglos imposibles son los de orden
2 (evidente) y orden 6. El patrón estudiado por Euler se conoce actualmente como cuadrado
greco–latino. En el lenguaje actual, la conjetura de Euler, ya probada, es la inexistencia de un
cuadrado greco–latino de orden 6.
2
Or, après toutes les peines qu’on s’est données pour résoudre ce problème, on a été obligé de reconnoître qu’un
tel arrangement est absolument impossible, quoiqu’on ne puisse pas en donner de démostration rigoureuse.
Leonhard Euler (1782)
2 3 9 7 6 2 8 5 3 4 9 1 7
1 5 1 9 8 7 2 4 3 6
4 7 2 8 4 3 7 9 1 6 2 5 8
5 2 9 8 6 5 2 4 7 1 9 3
1 8 7 3 9 2 1 8 5 7 6 4
4 3 7 4 1 6 9 3 5 8 2
6 7 1 2 5 4 3 6 9 8 7 1
7 1 7 6 4 5 8 3 2 9
9 3 2 6 5 9 8 3 7 2 1 6 4 5
Figura 6. Un sudoku difícil y su solución

Lun. Mar. Mrc. Jue. Vie. Sab. Dom.
01, 06, 11 01, 02, 05 02, 03, 06 05, 06, 09 03, 05, 11 05, 07, 13 11, 13, 04
02, 07, 12 03, 04, 07 04, 05, 08 07, 08, 11 04, 06, 12 06, 08, 14 12, 14, 05
03, 08, 13 08, 09, 12 09, 10, 13 12, 13, 01 07, 09, 15 09, 11, 02 15, 02, 08
04, 09, 14 10, 11, 14 11, 12, 15 14, 15, 03 08, 10, 01 10, 12, 03 01, 03, 09
05, 10, 15 13, 15, 06 14, 01, 07 02, 04, 10 13, 14, 02 15, 01, 04 06, 07, 10
Figura 7. Una solución del problema de Kirkman
Ejemplo. El Reverendo Thomas Penyngton Kirkman, matemático aficionado, en 1847 publicó en

el Cambridge and Dublin Mathematics Journal un problema que luego apareció en The Lady’s
and Gentleman’s Diary for the year 1851 con el enunciado,
Cada día de la semana una maestra lleva a 15 jóvenes damas a un recorri-

do. Durante el recorrido las jóvenes son agrupadas en tríos. ¿Puede la maestra
construir los tríos de tal manera que después de los siete recorridos cada par de
jóvenes ha caminado en el mismo trío una y sólo una vez?
Un sencillo razonamiento lleva a que cada joven debe caminar con las catorce restantes, por lo
tanto no deben requerirse más de siete días para arreglar los tríos. No obstante, esto no prueba
que tal arreglo sea posible. El problema puede generalizarse a 6n + 3 jóvenes agrupadas en
2n + 1 tríos en 3n + 1 días sucesivos. El mismo Kirkman y otros matemáticos de comienzos
del siglo 20 llegaron a soluciones parciales, pero hubo que esperar hasta 1971 cuando el mate-
mático indio D. K. Ray-Chaudhuri y su discípulo R. M. Wilson publicaron la solución completa
del problema. El caso n = 0 es trivial. El caso n = 1 sólo tiene una solución. Para el caso n = 2
existen, salvo permutaciones, 7 soluciones.
La tabla (Figura. 7), muestra una de las soluciones, suponiendo que las jóvenes han sido nu-
meradas de 01 a 15. El siguiente diagrama permite ver una forma geométrica obtener las 7
soluciones básicas.

8
NmNZ0Z0Z
7
Z0m0Z0Z0
6
0ZNZ0Z0Z
5
Z0Z0Z0Z0
4
0Z0Z0Z0Z
3
Z0Z0Z0Z0
2
0Z0Z0Z0Z
1
Z0Z0Z0Z0
a b c d e f g h
Figura 8. Las cinco posiciones básicas del caballo en el tablero
6.2. Principio de adición. Si una tarea se puede realizar a través de k etapas excluyentes
y cada fase se puede realizar de ni maneras, entonces la operación global se puede realizar de
n1 + n2 + . . . nk maneras.
En forma equivalente, si {Ai }ki=1 , es una colección de conjuntos tales que Ai ∩ Aj = ∅ cuando
k
Sk X
i ≠ j, entonces A = i=1 es tal que #(A) = #(Ai ). La demostración se puede hacer por
i=1
inducción.
Ejemplo: Un cuadrado de lado 4 se divide en 16 cuadrados iguales de lado 1. Calcular el número
total de cuadrados que se pueden formar con esta división de 16 cuadrados.
Se define la colección A1 , A2 , A3 , A4 de cuadrados de lado 1, 2 3, 4, respectivamente. Se observa
que |A1 | = 1, |A2 | = 4, |A3 | = 9, |A4 | = 16, por el principio de adición, el número buscado es
1+4+9+16=30.
Ejemplo: Si se coloca un caballo en un tablero de ajedrez, calcular el número de movimientos
diferentes que se pueden efectuar. La figura 8. muestra las posibilidades de acuerdo con la
situación del caballo.
El resultado se obtiene multiplicando el número de posiciones de cada clase por el número de
posibles movimientos y sumando, de acuerdo con el principio de adición.
4 × 2 + 8 × 3 + 20 × 4 + 16 × 6 + 16 × 8 = 336.
6.3. Principio de multiplicación. Si una tarea se puede realizar a través de k etapas su-
cesivas y cada etapa es realizable de ni maneras, entonces la operación global es realizable de
n1 × n2 × · · · × nk maneras.
En otras palabras, si {Ai }ki=1 , es una colección de conjuntos y
A = {(x1 , x2 , . . . , xk ) : x1 ∈ A1 , . . . , xk ∈ Ak },
entonces #(A) = #(A1 ) × #(A2 ) × · · · × #(Ak )

Ejemplo: Para ir desde A hasta B hay 5 rutas, para ir desde B hasta C hay 3 rutas. por el principio
de multiplicación, para ir desde A hasta C, pasando por B hay 5 × 3 = 15 rutas distintas.
Ejemplo: Calcular el número de maneras en que se pueden seleccionar un cuadrado blanco y
uno negro en un tablero de ajedrez. Calcular este número si los dos no pueden estar en la
misma fila o columna. Por el principio de la multiplicación se obtiene 32 × 32 = 1024, para el
primer caso y 32 × 24 = 768 para el segundo.
Ejemplo: Calcular el número de maneras diferentes de seleccionar dos piezas de un juego com-
pleto de piezas de dominó (28), de tal forma que se puedan colocar una a continuación de la
otra, siguiendo las reglas del juego. Si se dividen las 28 piezas en dos subconjuntos: las 7 que
tienen valores iguales (00,11,…,66) y las 21 restantes se llega a 7 × 6 + 21 × 12 = 294, que por
simetría se reducen a 147.
3
6.4. Principio de Distribución. Conocido también como Principio de Dirichlet o de las
cajas se puede desarrollar en dos versiones equivalentes:
1. Si se reparten m objetos en n cajas, y m > n, entonces, al menos una caja deberá

contener 2 objetos o más.
2. Si se reparten np + m objetos en n cajas, entonces alguna caja deberá contener al
menos p + 1 objetos.
Ambos principios, que resuelven muchas cuestiones combinatorias, los damos sin demostra-
ción.
Ejemplo: En una clase con 35 alumnos, habrá al menos dos que compartan el mismo número
de día del mes como cumpleaños.
Ejemplo: En cualquier conjunto de n + 1 enteros positivos, cada uno menor o igual a 2n,
existen al menos dos que son uno múltiplo del otro. Para demostrarlo, los n + 1 números se
expresan en la forma 2k q donde q es impar. Como hay sólo n posibles impares q entre 1 y 2n,
entonces al menos dos de los n + 1 números deben tener el mismo valor q, lo que demuestra
la afirmación.
3
Peter Gustav Lejeune Dirichlet (1805–1859)

6.5. Diagramas de árbol. Un diagrama de árbol es una representación gráfica de un ex-
perimento que consta de r pasos, donde cada paso tiene un número finito de maneras de ser
llevado a cabo.
Ejemplo 1: Un médico clasifica a sus pacientes de acuerdo con: su sexo (Masculino o Feme-
nino), tipo de sangre (A, B, AB , O) y en cuanto a la presión sanguínea (Normal, Alta o Baja).
Mediante un diagrama de árbol calcular cuántas clasificaciones distintas pueden tener los pa-
cientes de este médico.
6.5.1. Diagrama de árbol. Ejemplo 1.
Inicio
M F
A B AB O A B AB O
N A B N A B N A B N A B … …
El número de clasificaciones es 3 × 4 × 2 = 24. Basta contar todas las diferentes ramas del árbol
que las representa.
Ejemplo 2: Dos equipos, A y B, juegan la final del torneo. Aquel equipo que gane dos juegos
seguidos o complete un total de tres juegos ganados será el que gane el torneo. Mediante un
diagrama de árbol mostrar los diferentes desarrollos de este torneo.
Inicio
A B
A B A B
A B A B
A B A B
A B A B
Hay un total de 10 resultados diferentes.

Ejemplo 3: Un apostador juega ruleta bajo las siguientes condiciones:
1. Puede jugar cinco veces como máximo

2. Empieza a jugar con un dólar, apuesta cada vez un dólar y puede ganar o perder en
cada juego un dólar
3. Debe retirarse si pierde todo su dinero, si gana tres dólares (completa un total de cuatro
dólares) o si completa los cinco juegos
Mediante un diagrama de árbol, mostrar las diferentes maneras de realizar el juego.

$1
$0 $2
$1 $3
$0 $2 $2 $4
$1 $3 $1 $3
$0 $2 $2 $4 $0 $2 $2 $4
Hay un total de 11 maneras diferentes de realizar el juego.

Ejemplo 4: En un experimento se lanzan dos dados en un máximo de dos ocasiones, si los
dos números coinciden se lanzan nuevamente, en caso contrario el experimento finaliza. Los
posibles resultados son uno o dos pares no ordenados de enteros entre 1 y 6. Las tres ramas
del árbol representan las tres clases de resultados. El número de posibles resultados es la suma
de los productos de las ramas: 62 + 6 × 15 + 15 = 141.
Inicio
15 no dobles 6 dobles
15 no dobles 6 dobles
7. Variaciones, permutaciones y combinaciones
7.1. Arreglos. Se llama arreglo en un conjunto finito Ω a cualquier sucesión finita formada
por elementos de Ω. Al ser el arreglo una sucesión, intervendrá el orden, y se podrán repetir
elementos. Estas dos características distinguen los arreglos de los subconjuntos.
7.2. Variaciones con repetición. Se llaman variaciones con repetición de m elementos

tomados de n en n, (notado V Rm,n ) a todos los arreglos de n elementos que se pueden formar
en un conjunto de m elementos, si se permite la repetición de los mismos. El número total de
variaciones de este tipo viene dado por la fórmula
V Rm,n = mn .
7.3. Variaciones sin repetición. Se llaman variaciones sin repetición de m elementos

tomados de n en n, (notadas Vm,n ) a todos los arreglos de n elementos que se pueden formar
en un conjunto de m elementos, si no se permite la repetición de los mismos.
Las variaciones se pueden considerar como:
1. Formas de elegir, de manera ordenada, n elementos distintos de un conjunto de m

elementos.
2. Ordenamientos totales posibles definidos en todos los subconjuntos de orden n.
El número total de variaciones de este tipo viene dado por la fórmula

m!
Vm,n = m(m − 1)(m − 2)...(m − n + 1) =
(m − n)!
Dos variaciones se pueden distinguir entre sí o por los elementos que contienen o por su orden.
Ejemplo: ¿De cuantas formas distintas pueden asignarse los premios primero, segundo y ter-
cero en una rifa de 10 tickets numerados del 1 al 10? Claramente se trata de una ordenación
sin repetición de 10 objetos en donde se deben extraer 3 de ellos. La respuesta es entonces que
existen 10 × 9 × 8 = 720 distintas asignaciones para los tres primeros lugares en la rifa.
7.4. Permutaciones ordinarias. Se llaman permutaciones ordinarias o sin repetición (Pn )

a las variaciones sin repetición en las que m = n, es decir, que en cada arreglo entran todos
los elementos del conjunto.
Dos permutaciones sobre un conjunto se distinguen sólo por el orden de los elementos. Por
ello se pueden identificar con los distintos órdenes que se pueden establecer en los elementos
de un conjunto.
También se llaman permutaciones a las aplicaciones biyectivas de un conjunto en sí mismo.
El número de permutaciones formadas con un conjunto de n elementos coincide con su facto-
rial:
Pn = n!
Ejemplo: Si se desea conocer el total de formas distintas en que se puede colocar una enciclo-
pedia de 5 volúmenes en un librero, la respuesta es 5! = 5 × 4 × 3 × 2 × 1 = 120. Puesto que
cualquiera de los cinco libros puede ser colocado al principio, quedan cuatro libros por colocar
en la segunda posición, restan entonces tres posibilidades para la tercera posición, etc. Por el
principio de multiplicación la respuesta es el producto de estos números.
Un caso especial es el de las permutaciones circulares, que son las distintas formas de ordenar
n objetos en círculo. Como uno de los objetos se fija para que sirva como referencia, su número
es (n − 1)!
7.5. Permutaciones con repetición. En los distintos órdenes posibles quizás se desee
admitir la repetición de algunos elementos un número determinado de veces. Por ejemplo,
en la palabra CATAPULTA, si quisiéramos ordenar sus letras, deberíamos admitir que la A se
repitiera tres veces y la T dos. Llamaremos permutaciones con repetición a estas ordenaciones.
Para calcular el número de permutaciones de este tipo se divide el factorial del número total de
símbolos, contando sus repeticiones, entre el factorial del número de veces que se repite cada
uno.
En el ejemplo, el número de permutaciones de las letras de la palabra CATAPULTA sería de
9!
= 30240
(3! × 2!)
7.6. Combinaciones. Se llaman combinaciones de m elementos tomados de n en n, (no-
tadas Cm,n ) a todos los subconjuntos de n elementos que se pueden formar en un conjunto de
m elementos.
De su definición se deduce que el orden no interviene para distinguir unas combinaciones de
otras y que n ≤ m.
El número total de combinaciones también se llama coeficiente binomial de m y n. Viene dado
por la fórmula !
m m!
Cm,n = =
n n!(m − n)!
7.7. Combinaciones con repetición. Las combinaciones con repetición CRm,n de m ele-
mentos tomados de n en n se pueden definir en una de las formas:
1. Los distintos arreglos de un conjunto de m elementos si se eligen n elementos que

pueden ser repetidos. Los arreglos se diferencian unos de otros sólo en los elementos
que los forman y no por el orden elegido.
2. Las CRm,n equivalen a un reparto de m objetos en n cajas.
3. Las CRm,n equivalen al conjunto de todas las soluciones enteras no negativas de la
ecuación
x1 + x2 + · · · + xm = n.
La fórmula para calcular CRm,n se puede expresar de varias formas:

! !
m+n−1 m+n−1
CRm,n = Cm+n−1,n = =
n m−1
En efecto, supongamos que se hacen n extracciones de una caja de m objetos con las condicio-
nes de que cada objeto extraído es regresado a la caja (entonces puede ser elegido nuevamente),
y en donde el orden de la muestra no es relevante. Para encontrar una fórmula para el total de
muestras que pueden obtenerse con estas características consideremos el arreglo de m celdas
de la Figura 9, junto con la siguiente interpretación. La primera casilla tiene dos cruces y eso
NN N N N
1 2 3 4 ... m−1 m
Figura 9. Combinaciones con repetición.
indica que el objeto 1 fue seleccionado dos veces, la segunda casilla esta vacía y ello significa
que el objeto 2 no fue seleccionado, etc. El número de cruces en la casilla i indica entonces el
número de veces que el objeto i fue seleccionado. En total debe haber n cruces pues es el total
de extracciones. Deseamos entonces conocer el número de posibles arreglos que pueden obte-
nerse con estas características, y debe ser claro, después de algunos momentos de reflexión,
que éste es el número de muestras de tamaño n, con reemplazo y sin orden, que se pueden
obtener de un conjunto de m elementos diferentes. Consideremos que las dos paredes en los
extremos de este arreglo son fijas, estas paredes se encuentran ligeramente remarcadas. Con-
sideremos además que las posiciones intermedias, cruz o linea vertical, pueden moverse. En
total hay n+(m−1) objetos movibles y cambiar de posición estos objetos produce las distintas
configuraciones posibles que nos interesan. El número total de estos arreglos es, como ya se
dijo, ! !
m+n−1 m+n−1
CRm,n = Cm+n−1,n = =
n m−1
que equivale a colocar dentro de las n + (m − 1) posiciones las n cruces, dejando en los lugares
restantes las paredes movibles.
8. Conteo por recurrencia
Algunos problemas de conteo se pueden resolver mediante modelos de recurrencia, es decir,

planteando una relación de recurrencia y resolviéndola.
Definición 1. Se llama relación de recurrencia para la sucesión de valores a0 , a1 , a2 . . . a una

ecuación que relaciona los términos an con los precedentes ai , i < n, para cada n ≥ n0 .
En general, los siguientes pasos permiten resolver un problema de conteo usando relaciones
de recurrencia.
1. Determinar el término an , solución para el problema de conteo con parámetro n.

Figura 10. Torres de Hanoi. n = 3
2. Formular la relación de recurrencia y las condiciones iniciales.

3. Encontrar el valor que resuelve el problema por medio de la iteración de la relación de
recurrencia o encontrar una fórmula explícita para an y evaluarla en el valor n.
Existen muchas técnicas para resolver ecuaciones de recurrencia que pueden ser aplicadas en
la solución de estos problemas de conteo.
Ejemplo: Las Torres de Hanoi. El juego llamado de las Torres de Hanoi consiste de tres pos-
tes montados en un soporte y n discos de diferentes tamaños. Inicialmente, los discos están
en el primer eje en orden de tamaño decreciente: Las reglas permiten mover un disco de un
eje a otro pero ninguno puede ser colocado sobre uno más pequeño. El juego finaliza cuando
todos los discos han sido colocados en el segundo poste en orden de tamaño decreciente. La
pregunta usual es determinar el número de movimientos necesarios si hay 64 discos. La Figura
10 muestra la solución si n = 3.
Si an es el mínimo de movimientos que resuelven el problema, la transferencia de los n − 1
primeros se efectúa en an−1 movimientos. Se requiere un movimiento para llevar el mayor dis-
co al segundo poste y llevar los n − 1 discos del poste 3 al poste 2 para que queden sobre el
mayor disco requiere an−1 movimientos. Por lo tanto, si hay n discos se necesitan 2an−1 + 1
movimientos. El número es mínimo pues an−1 es mínimo.
Se establece entonces que an = 2an−1 + 1. La condición inicial es a1 = 1. Las sucesivas itera-
ciones dan,
an = 2an−1 + 1 = 22 an−2 + 2 + 1 = · · · = 2n−1 a1 + 2n−2 + · · · + 22 + 2 + 1 = 2n − 1

Si n = 64 se requieren 264 − 1 ≈ 1.844674407 × 1019 movimientos.
Ejemplo: Si se forman secuencias de 4 dígitos decimales, se quiere saber cuántas tienen un
número par de 0s. Supongamos que se tiene una secuencia de n dígitos que contiene un número
par de ceros, entonces esta secuencia se obtuvo de una de dos maneras:
1. Se agregó un dígito diferente de cero a una secuencia de n − 1 dígitos que contiene un

número par de ceros. Esto se puede hacer en 9an−1 formas
2. Se agregó un 0 a un secuencia de n − 1 dígitos con un número impar de ceros. esto se
puede hacer en 10n−1 − an−1 maneras.
Por lo tanto,
an = 9an−1 + (10n−1 − an−1 ) = 8an−1 + 10n−1 .
La condición inicial es a1 = 9. Por consiguiente,
a2 = 8a1 + 10 = 82, a3 = 8a2 + 100 = 756, a4 = 8a3 + 1000 = 7048.
9. Probabilidad condicional
Al realizar un experimento aleatorio, algunas veces es importante observar la manera en que la

ocurrencia de un evento A influye en la ocurrencia de un evento B. Por ejemplo, puede suceder
que si un evento A ocurre entonces B también ocurre o puede suceder que si A ocurre entonces
B no ocurre. Para expresar esta situación en términos de probabilidad se define la probabilidad
condicional del evento A bajo la hipótesis de que el evento B ocurre, es decir, la probabilidad
de que el evento A ocurra bajo la condición de que el evento B ocurre, notada P (A | B) por,
P (A ∩ B)
P (A | B) = ,
P (B)
siempre que P (B) > 0.
La fórmula se puede justificar en el caso de espacios equiprobables, si nB es el número de re-
sultados del espacio muestral Ω asociados con B y nAB es el número asociado con la ocurrencia
simultánea de A y B, al considerar la restricción de resultados a los asociados con B, la proba-
bilidad de A, en este caso, es la probabilidad condicional P (A | B). Aplicando la condición de
espacio equiprobable y si nΩ es el número de elementos de Ω,
nAB nAB /nΩ P (A ∩ B)
P (A | B) = = =
nB nB /nΩ P (B)
Las principales propiedades de la probabilidad condicional son,
1. 0 ≤ P (A | B) ≤ 1
2. Si A y B son mutuamente excluyentes, de modo que A ∩ B = ∅, entonces P (A | B) = 0.
3. Si B ⊂ A, entonces P (A | B) = 1
S
4. Si A1 , A2 , . . . son mutuamente excluyentes y su unión es k Ak , entonces,
X
P (A | B) = P (Ak | B)
k
Esta propiedad se conoce como ley aditiva de la probabilidad condicional.
Ejemplo: Consideremos el experimento de lanzar un dado corriente. El espacio muestral es

Ω = {1, 2, 3, 4, 5, 6}, el cual, por hipótesis, es equiprobable. Sean los eventos A = {2} y B =
{2, 4, 6} “Cae par”. Entonces P (A) = 1/6 mientras que
P ({2} ∩ {2, 4, 6}) P ({2}) 1/6

P (A | B) = = = = 1/3.
P ({2, 4, 6}) P ({2, 4, 6}) 3/6
Se puede ver que conocer la información de la ocurrencia del evento B, ha afectado la probabi-
lidad del evento A, es decir, dada la información que el resultado del dado es un número par,
la probabilidad de obtener “2” es ahora 1/3.
Una consecuencia de la probabilidad condicional es la llamada regla del producto. Si A1 , A2 ,…,An
eventos tales que P (A1 ∩ · · · ∩ An−1 ) > 0, entonces se cumple,
P (A1 ∩ · · · ∩ An ) = P (A1 )P (A2 | A1 )P (A3 | A1 ∩ A2 ) . . . P (An |A1 ∩ · · · ∩ An−1 ).
La demostración se deja como ejercicio. Igualmente, como ejercicio el llamado problema de

la caja de Polya4. Supongamos que en una caja se tienen b bolas blancas y r bolas rojas. Un
experimento aleatorio consiste en seleccionar una bola al azar y devolverla a la caja junto con
c bolas del mismo color. Usar la regla del producto para calcular la probabilidad de obtener
bolas rojas en las tres primeras extracciones. (Sugerencia: Definir los eventos Ai = “Sale una
bola roja en la extracción número i”, i = 1, 2, 3. La probabilidad pedida es P (A1 ∩ A2 ∩ A3 ).)
10. Independencia estadística
Cuando se dice que dos experimentos son estadísticamente independientes (o simplemente

independientes) se está afirmando que el resultado en uno cualquiera de los dos experimentos
no tiene influencia sobre el resultado del otro. Si A1 es un evento que se refiere al primer
experimento y A2 un evento que se refiere al segundo la ocurrencia de A1 no influye en la
probabilidad de la ocurrencia de A2 y recíprocamente. Es en este sentido que los eventos A1 y
A2 se llaman independientes.
Utilizando el concepto de probabilidad condicional, debe cumplirse,
P (A1 ∩ A2 ) P (A1 ∩ A2 )
P (A1 | A2 ) = = P (A1 ), P (A2 | A1 ) = = P (A2 )
P (A2 ) P (A1 )
4
George Pólya (1887 – 1985)

Combinando las expresiones en una única forma, la condición de independencia se escribe,
P (A1 ∩ A2 ) = P (A1 ) · P (A2 )
10.1. La probabilidad total. Al calcular la probabilidad de un evento A con frecuencia

es conveniente hacerlo con la probabilidad condicional pues esta restringe el total de resulta-
dos por considerar. Si B1 , B2 , . . . es un conjunto de eventos mutuamente excluyentes tales que
al realizar el experimento ocurre uno, y sólo uno de ellos, entonces P (A) se puede calcular
mediante la fórmula de la probabilidad total,
X
P (A) = P (A | Bk )P (Bk )
k
S
Como la colección de eventos B1 , B2 , . . . cumple la condición k Bk = Ω y como uno, y sólo uno
de ellos ocurre, entonces
[
A= (A ∩ Bk )
k
por lo tanto,
 
[ X X P (A ∩ Bk )
P (A) = P  (A ∩ Bk ) = P (A ∩ Bk ) = P (Bk )
k k k
P (Bk )
Ejemplo: El problema de la ruina del jugador. Consideremos el juego de cara y sello en el

que el jugador gana $1 si acierta el lado de la moneda que finalmente muestra al caer, en caso
contrario pierde $1. Supongamos que el capital inicial del jugador es $x y que desea jugar
hasta que gane $m y retirarse, en otras palabras, el juego se realiza hasta que el jugador gana
la cantidad previamente determinada $m o hasta que agota todo su capital de $x. Se quiere
calcular la probabilidad de que el jugador se arruine.
La probabilidad depende tanto del capital inicial x como de la ganancia deseada m. Si se nota
p(x) a la probabilidad de arruinarse teniendo un capital inicial de $x, entonces la probabilidad
de arruinarse, suponiendo que ganó el primer juego es p(x + 1) puesto que en ese momento
su capital inicial se convierte en x + 1. de manera similar, la probabilidad de que se arruine,
suponiendo que pierde el primer juego es p(x − 1), ya que ahora su capital inicial es x − 1.
Si B1 es el evento “gana el primer juego” y B2 es el evento “pierde el primer juego”, A el evento
“el jugador se arruina”, entonces
P (A | B1 ) = p(x + 1), P (A | B2 ) = p(x − 1)
Por otra parte, B1 y B2 son mutuamente excluyentes y completan todas las posibilidades del
jugador puesto que ocurre uno, y sólo uno de estos dos eventos. Como ambos eventos tiene la
Figura 11. Thomas Bayes (1702–1761)
misma probabilidad ya que se supone que la moneda no es defectuosa,
1 1
P (B1 ) = , P (B2 ) =
2 2
De la fórmula de la probabilidad total,
P (A) = P (A | B1 )P (B1 ) + P (A | B2 )P (B2 ),
por lo tanto,
1
p(x) = (p(x + 1) + p(x − 1)), 1≤x ≤m−1
2
además,
p(0) = 1, p(m) = 0
La ecuación de recurrencia tiene como solución una ecuación lineal,
p(x) = C1 + C2 x,
en la que los coeficientes dependen de las condiciones iniciales C1 = 1, C1 + C2 m = 0, de esta

manera,
x
p(x) = 1 − , 0≤x≤m
m
10.2. El Teorema de Bayes. En el año 1763, dos años después de la muerte de Thomas
Bayes (1702-1761), se publicó su obra Essay Towards Solving a Problem in the Doctrine of Chan-
ces (Ensayo para la solución de un problema en la teoría del azar) en la que aparece, por vez
primera, la determinación de la probabilidad de las causas a partir de los efectos que han podi-
do ser observados. El cálculo de dichas probabilidades recibe el nombre de teorema de Bayes.

Proposición 10.1 (Teorema de Bayes). Si los eventos A1 , A2 , . . . , Ak forman una partición del
espacio muestral Ω, tal que P (Aj ) > 0, para j = 1, . . . , k y sea B cualquier evento tal que
P (B) > 0. Entonces, para i = 1, . . . , k,
P (Ai )P (B | Ai )
P (Ai | B) = Pk
j=1 P (Aj )P (B | Aj )
El Teorema de Bayes proporciona una forma de calcular la probabilidad condicional de cada

uno de los eventos Ai dado B, a partir de la las probabilidades condicionales de B dado cada
uno de los eventos Ai y la probabilidad incondicional de cada Ai .
Ejemplo: Tres máquinas, A, B y C, producen el 45 %, 30 % y 25 %, respectivamente, del total
de las piezas producidas en una fábrica. Los porcentajes de producción defectuosa de estas
máquinas son del 3 %, 4 % y 5 %.
1. Si seleccionamos una pieza al azar, calcular la probabilidad de que sea defectuosa.

2. Si tomamos, al azar, una pieza y resulta ser defectuosa, calcular la probabilidad de
haber sido producida por la máquina B.
3. ¿Qué máquina tiene la mayor probabilidad de haber producido la citada pieza defec-
tuosa?
Si D es el evento “la pieza es defectuosa” y N el evento “la pieza no es defectuosa”, se calcula la

probabilidad P (D) de que la pieza elegida sea defectuosa se utiliza la fórmula de la probabilidad
total,
P (D) = P (A)P (D | A) + P (B)P (D | B) + P (C)P (D | C)
= 0.45 × 0.03 + 0.30 × 0.04 + 0.25 × 0.05 = 0.038
Para calcular P (B | D), por el teorema de Bayes,
P (B)P (D | B)
P (B | D) =
P (A)P (D | A) + P (B)P (D | B) + P (C)P (D | C)
0.30 × 0.04 12
= = = 0.316
0.45 × 0.03 + 0.30 × 0.04 + 0.25 × 0.05 38
Calculamos P (A | D) y P (C | D), y las comparamos con el valor de P (B | D) ya calculado.

Aplicando el teorema de Bayes, obtenemos:
0.45 × 0.03 135

P (A | D) = = = 0.355
0.45 × 0.03 + 0.30 × 0.04 + 0.25 × 0.05 380
0.25 × 0.05 125
P (C | D) = = = 0.329
0.45 × 0.03 + 0.30 × 0.04 + 0.25 × 0.05 380
La máquina con mayor probabilidad de haber producido la pieza defectuosa es A

11. Ejercicios
11.1. Diagrama de árbol.
1. Un hombre tiene tiempo para jugar ruleta cinco veces a lo sumo. En cada juego gana
o pierde un dólar. El hombre empieza con un dólar y dejará de jugar si antes de la
quinta vez pierde todo su dinero o si gana tres dólares, esto es, si tiene cuatro. Hallar
el número de casos en que la apuesta puede ocurrir. (R: 11 maneras)
2. Los equipos A y B juegan un torneo, el primero en ganar dos juegos seguidos o comple-
tar cuatro juegos ganados es el ganador. Hallar el número de formas en que se puede
desarrollar el torneo. (R: 14 maneras)
3. Un hombre tiene tiempo para jugar ruleta cinco veces. Gana o pierde un dólar en cada
juego. El hombre empieza con dos dólares y dejará de jugar a la quinta vez si pierde
todo su dinero o si gana tres dólares (esto es, completa 5 dólares). Hallar el número de
maneras como puede suceder el juego. (R: 20 maneras)
4. Un punto está en el origen del eje x y puede recorrer una unidad a la izquierda o a la
derecha. Se detiene después de 5 pasos, si avanza a +3 o se retrasa a −2. Construir el
diagrama de árbol para describir todas las trayectorias posibles que puede seguir. (R:
20 maneras)
5. En el siguiente diagrama A, B, . . . , F denotan islas, y las líneas de unión son puentes. Un
hombre empieza en A y camina de isla en isla. Se detiene a descansar cuando no puede
continuar caminando sin tener que cruzar el mismo puente dos veces. Hallar el número
de maneras como puede hacer su recorrido antes de descansar. (R: 11 maneras)
A B C D
E F
6. Considerar el diagrama trazado con nueve puntos A, B, C, R, S, T , X, Y , Z. Un hombre

empieza en X y se le permite moverse horizontal o verticalmente, un paso cada vez. Se
detiene cuando no puede seguir caminando sin pasar por el mismo punto más de una
vez. Hallar el número de maneras como puede hacer su recorrido, si primero recorre
de X a R. (Por simetría el total de maneras es dos veces lo anterior.)
Cuántas de estas maneras recorren los nueve puntos. (R: 10 maneras. 4 maneras)
A B C
R S T
X Y Z
11.2. Variaciones y permutaciones, con y sin repetición.
1. Hallar el número de maneras en que 6 personas pueden deslizarse en un tobogán

(especie de trineo) si uno de tres debe conducirlo. (R: 360)
2. a) Hallar el número de maneras en que cinco personas pueden sentarse en una fila.
b) Cuántas maneras hay si dos de las personas insisten en sentarse una al lado de la
otra
(R:120)
3. Resolver el problema anterior si se sientan alrededor de una mesa circular. (R: 24, 12)
4. a) Hallar el número de palabras de cuatro letras que se pueden formar con las letras
de la palabra CRISTAL.
b) Cuántas de ellas contienen sólo consonantes.
c) Cuántas empiezan y terminan por consonante.
d) Cuántas empiezan por vocal.
e) Cuantas contienen la letra L.
f ) Cuántas empiezan por T y terminan por vocal.
g) Cuántas empiezan por T y también contienen S.
h) Cuántas contienen ambas vocales.
(R: 840, 120, 400, 240, 480, 40, 60, 240)
5. Cuántas señales diferentes se pueden formar con 8 banderas colocadas en línea vertical,
si 4 son rojas, 2 azules y 2 verdes. (R: 420)
6. Hallar el número de permutaciones que se pueden formar con todas las letras de cada
una de las palabras: barra, satélites, proposición, impropio. (R: 30, 45360, 1663200,
5040)
7. a) Hallar el número de maneras en que 4 niños y 4 niñas se pueden sentar en una fila
si los hombres y las mujeres deben quedar alternados.
b) Hallar el número de maneras si se sientan alternadamente y uno de los niños se
sienta siempre junto a una niña determinada.
c) Hallar el número de maneras si se sientan alternadamente pero los dos niños men-
cionados no quedan en sillas adyacentes.
(R: 1152, 504, 648)
8. Resolver el problema anterior si se sientan alrededor de una mesa circular. (R: 144,72,72)
9. Una caja contiene 10 bolas numeradas del 1 al 10. Hallar el número de pruebas orde-
nadas,
a) De tamaño 3 con sustitución.
b) De tamaño 3 sin sustitución.
c) De tamaño 4 con sustitución.
d) De tamaño 5 sin sustitución.
(R: 1000, 720, 10000, 30240)
10. Hallar el número de maneras diferentes en que se pueden colocar en un estante 5 libros
grandes, 4 medianos y 3 pequeños de modo que los libros de igual tamaño estén juntos.
(R: 103680)
11. Considérense todos los enteros positivos de 3 dígitos diferentes. (Observamos que el
0 no puede ser el primer dígito.)
a) Cuántos son mayores que 700
b) Cuantos son impares
c) Cuántos son pares?
d) Cuántos son divisibles por 5.
(R: 216, 320, 328, 136)
12. a) Hallar el número de permutaciones diferentes que se pueden formar con todas las
letras de la palabra CAMARA.
b) Cuántas de ellas principian y terminan por A.
c) Cuántas tienen tres A juntas
d) Cuántas empiezan con A y terminan con M.
(R: 120, 24, 12)
11.3. Combinaciones.
1. Una clase consta de 9 niños y 3 niñas.

a) De cuántas maneras el profesor puede escoger un comité de 4
b) Cuántos comités contarán con una niña por lo menos
c) Cuántos tendrán una niña exactamente
(R: 495, 369, 252)
2. Una señora tiene 11 amigos de confianza.
a) De cuántas maneras puede invitar 5 de ellos a comer.
b) De cuántas maneras si dos son casados y no asisten el uno sin el otro.
c) De cuántas maneras si dos de ellos no la van bien y no asisten juntos.
(R: 462, 210, 378)
3. Hay 10 puntos A, B, . . . en un plano; en una misma línea no hay tres.
a) Cuántas líneas forman los puntos.
b) Cuántas líneas no pasan por A o B.
c) Cuántos triángulos determinan los puntos.
d) Cuántos triángulos de estos se forman con el punto A.
e) Cuántos triángulos contienen el lado AB
(R: 45, 28, 120, 36, 8)
4. Un estudiante tiene que resolver 10 preguntas de 13 en un examen.
a) Cuántas maneras tiene de escoger.
b) Cuantas, si las dos primeras son obligatorias.
c) Cuántas, si una de las dos primeras es obligatoria.
d) Cuántas, si tiene que contestar exactamente 3 de las 5 primeras.
e) Cuántas, si tiene que contestar por lo menos 3 de las 5 primeras.
(R: 286, 165, 110, 80, 276)
5. El alfabeto inglés tiene 26 letras de las cuales 5 son vocales.
a) Cuántas palabras de 5 letras, 3 consonantes diferentes y 2 vocales diferentes, se
pueden formar.
b) Cuántas de éstas contienen la letra b.
c) Cuántas contienen la b y la c.
d) Cuántas empiezan por b y contienen c.
e) Cuántas empiezan por b y terminan por c.
f ) Cuántas contienen las letras a y b.
g) Cuántas empiezan por a y contienen b.
h) Cuántas empiezan por b y contienen a.
i) Cuántas empiezan por a y terminan por b.
j) Cuántas contienen las letras a, b y c.
(R: 1596000, 228000, 22800, 4560, 1140, 91200, 18240, 18240, 4560, 9120)
11.4. Espacios muestrales y eventos.
1. Sean A y B eventos Hallar la expresión y usar el diagrama de Venn para el evento en

que,
a) Sucede A o no B.
b) Ni A ni B suceden.
2. Sean A, B y C eventos. Hallar la expresión y usar el diagrama de Venn para el evento
en que,
a) Sucede exactamente uno de los tres eventos.
b) Suceden por lo menos dos de los eventos.
c) Ninguno de los eventos sucede.
d) Sucede A o B, pero no C.
3. Se lanzan una moneda de un céntimo, una de diez céntimos y un dado.
a) Escribir el espacio muestral S apropiado.
b) Expresar explícitamente los eventos siguientes: A = {Aparecen dos caras y un nú-
mero primo}, B = {Aparece un 2}, C = {Aparece exactamente una cara y un número
primo}.
c) Expresar explícitamente los eventos: A y B suceden; sucede solamente B, sucede B
o C.
4. Cuáles de las siguientes funciones definen un espacio de probabilidad de Ω = {a1 , a2 , a3 }.

a) P (a1 ) = l/4, P (a2 ) = 1/3, P (a3 ) = 1/2
b) P (a1 ) = 2/3, P (a2 ) = −1/3, P (a3 ) = 2/3
c) P (a1 ) = 1/6, P (a2 ) = 1/3, P (a3 ) = 1/3
d) P (a1 ) = 0, P (a2 ) = 1/3, P (a3 ) = 2/3
5. Sea P una función de probabilidad de Ω = {al , a2 , a3 }. Hallar P (a1 ) si,
a) P (a2 ) = 1/3, P (a3 ) = 1/4
b) P (a1 ) = 2P (a2 ), P (a3 ) = 1/4
c) P ({a2 , a3 }) = 2P (a1 )
d) P (a3 ) = 2P (a2 ), P (a2 ) = 3P (a1 )
6. Se carga una moneda de manera que la posibilidad de salir cara sea tres veces la de
salir sello. Hallar P(Cara) y P(Sello).
7. Tres estudiantes A, B y C intervienen en una prueba de natación. A y B tienen la misma
probabilidad de ganar y el doble de la de C. Hallar la probabilidad de que gane B o C.
8. Se carga un dado de manera que los números pares tienen el doble de posibilidad de
salir que los impares. Hallar la probabilidad de que,
a) Aparezca un número par.
b) Aparezca un número primo.
c) Aparezca un numero impar.
d) Aparezca un número primo impar.
11.6. Espacios finitos equiprobables.
1. Una clase está formada por 5 estudiantes de primero, 4 de segundo, 8 de penúltimo

y 3 de último año. Se escoge un estudiante al azar para representar la clase. Hallar la
probabilidad de que el estudiante sea,
a) De segundo.
b) De último año.
c) De penúltimo o de último año.
2. Se selecciona una carta al azar entre 50 cartas numeradas de 1 a 50. Hallar la probabi-
lidad de que el número de la carta sea,
a) Divisible por 5.
b) Primo.
c) Termine en dos.
3. De 10 estudiantes de una clase, 3 son zurdos. Si se escogen dos estudiantes al azar,
cuál es la probabilidad de que,
a) Los dos son zurdos.
b) Ninguno es zurdo.
c) Por lo menos uno es zurdo.
4. Tres tornillos y tres tuercas están en una caja. Si se escogen dos piezas al azar, hallar
la probabilidad de sacar un tornillo y una tuerca.
5. Diez estudiantes, A, B, …están en una clase. Si se escoge un comité de 3, al azar, hallar
la probabilidad de que,
a) A pertenezca al comité.
b) B pertenezca al comité.
c) A Y B pertenezcan al comité.
d) A o B pertenezcan al comité.
6. Una clase consta de 6 niñas y 10 niños. Si se escoge al azar un comité de 3, hallar la
probabilidad de,
a) Seleccionar tres niños.
b) Seleccionar exactamente 2 niños.
c) Seleccionar por lo menos un niño.
d) Seleccionar exactamente 2 niñas.
7. Se lanza un par de dados corrientes. Hallar la probabilidad de que la suma de los dos
números sea mayor que 4.
8. De 120 estudiantes, 60 estudian francés, 50 estudian español, y 20 estudian francés y
español. Si se escoge un estudiante al azar, hallar la probabilidad de que el estudiante,
a) Estudie francés y español.
b) No estudie francés ni español.
9. Tres niños y 3 niñas se sientan en fila. Hallar la probabilidad de que,
a) Las tres niñas se sienten juntas.
b) Los niños y las niñas se sienten alternados.
11.7. Probabilidad condicional. Independencia estadística.
1. Demostrar que si P (A | B) > P (A), entonces P (B | A) > P (B).

2. Demostrar que si P (A) = P (B) = 2/3, entonces P (A | B) ≥ 1/2.
3. Si A, B, C son eventos, demostrar que,
P (A ∩ B ∩ C) = P (A)P (B | A)P (C | A ∩ B)
y generalizar para el caso de n eventos.

4. Verificar la igualdad,
P (A) = P (A | B) + P (A | B 0 )
en los casos: A = ∅, B = ∅, B = Ω, B = A0 .
5. Demostrar que si A y B son independientes entonces sus complementos A0 y B 0 también
son independientes.
6. Demostrar que los eventos A y B son independientes si P (B | A) = P (B | A0 ).
7. Una caja contiene b1 bolas blancas y n1 bolas negras. Otra caja contiene b2 bolas blan-
cas y n2 bolas negras. De cada caja se extrae, al azar, una bola. De entre las dos, al azar,
se escoge una. Calcular la probabilidad de que la bola escogida sea de color blanco.
8. Se extraen, al azar, dos bolas de una caja que contiene n bolas numeradas de 1 hasta
n. Si la primera bola extraída es la numerada 1 se coloca aparte, en caso contrario se
devuelve a la caja. Calcular la probabilidad de que la segunda bola sea la numerada 2.
9. Una caja contiene b bolas blancas, n bolas negras y r bolas rojas. Calcular la probabi-
lidad de que antes de extraer una bola negra se extraiga una blanca, en los casos,
a) En cada extracción la bola se regresa a la caja.
b) En cada extracción la bola no se devuelve a la caja.
11.8. Fórmula de Bayes.
1. En una bolsa tenemos tres dados iguales salvo por el color de sus caras. El dado D1
tiene cuatro caras blancas y dos rojas, el dado D2 tiene tres blancas y tres rojas y el
dado D3 tiene una cara blanca y cinco rojas. Es extraído un dado al azar y lanzado al
aire. Sabiendo que la cara vuelta hacia arriba ha sido blanca, ¿cuál es la probabilidad
de que el dado elegido haya sido el D1? ¿y que haya sido elegido el D2?.
2. En el jardinero del señor Rodríguez no se puede confiar. La probabilidad de que olvide
regar el rosal durante la ausencia del señor Rodríguez es 2/3. El rosal está en estado
inseguro: si se le riega tiene igual probabilidad de progresar o de secarse, pero sola-
mente un 0.25 de probabilidad de progresar si no se le riega. Después de su regreso, el
señor Rodríguez se encuentra que su rosal está seco. ¿Cuál es la probabilidad de que
el jardinero no lo haya regado?.
3. Dos máquinas A y B han producido 100 y 200 piezas. Se sabe que A produce 5 % de
piezas defectuosas y B un 6 %. Se selecciona una pieza y se pide:
a) Probabilidad de que sea defectuosa.
b) Sabiendo que es defectuosa probabilidad que haya sido fabricada por la máquina
A.
4. Una compañía de seguros de automóviles clasifica a los conductores en tres clases:
A, alto riesgo, B, riesgo medio, y C bajo riesgo. La clase A constituye el 30 % de los
conductores que suscriben un seguro con la compañía; la probabilidad de que uno de
esos conductores sufra un accidente en un año es 0.1. Los datos correspondientes para
la clase B son 50 % y 0.03 y para la clase C son 20 % y 0.01.
a) Un determinado cliente seleccionado entre los asegurados, que probabilidad tiene
de que sufra un accidente en el primer año.
b) Si seleccionamos un cliente accidentado el primer año. ¿Cuál es la probabilidad de
que este cliente esté en cada una de las clases A, B, C.
5. Cuatro máquinas A, B, C, D producen respectivamente el 40 % , el 30 %, el 20 %, y el
10 % del número total de productos de un laboratorio farmacéutico. Estas máquinas
producen artículos defectuosos en los siguientes porcentajes: 5 %, 4 %, 2 %, 1 % respec-
tivamente. Seleccionando un artículo al azar se pide.
a) Probabilidad de que haya sido seleccionado un artículo defectuoso.
b) Suponiendo que el artículo sea defectuoso, ¿cuál es la probabilidad que no haya
sido producido por la máquina A?.
6. Una empresa dedicada a la fabricación de automóviles, desea lanzar al mercado un
nuevo modelo. Al estudiar la posible situación económica que existirá se contemplan
tres únicas alternativas existencia de inflación, estabilidad o depresión. Se estima que:
a) dichas alternativas son igualmente probables y b) la probabilidad de que se lance

el nuevo modelo es de 0.7 si existe inflación, 0.4 si existe estabilidad y de 0.1 si la
situación es de depresión.
a) Determinar la probabilidad de que el modelo salga al mercado.
b) Suponiendo que ha salido al mercado, ¿cuál es la probabilidad de que se haya lan-
zado existiendo depresión
7. Una persona tiene dos negocios en funcionamiento A y B. El primer negocio puede
producir mayor beneficio pero en el 25 % de los balances arroja pérdidas, mientras que
en el segundo donde la perspectiva de beneficio es menor arroja pérdidas sólo en el 5 %
de los casos. Se supone que el conjunto de operaciones es análogo en ambos negocios.
Si analizando el resultado económico de una de las operaciones, arrojase pérdidas.
¿Cuál es la probabilidad de que dicha operación correspondiese al B.?
8. Un banco ha estimado por experiencias anteriores que la probabilidad de que una per-
sona falle en los pagos de un préstamo personal es de 0.3. También ha estimado que el
40 % de los préstamos no pagados a tiempo se han solicitado para financiar viajes de
vacaciones y el 60 % de los préstamos pagados a tiempo se han solicitado para viajes
de vacaciones. Se pide calcular la probabilidad de que un préstamo que se haga para
financiar un viaje de vacaciones no sea pagado a tiempo.
9. Una entidad bancaria partiendo de la información que posee sobre sus cuentas co-
rrientes, referentes a los errores cometidos en los cheques extendidos contra ellas, ha
llegado a los siguientes resultados. De 850 cuentas con fondos ha habido 25 cheques
con algún error. El 98 % de los clientes tienen fondos, de 50 cuentas sin fondos se han
encontrado 45 cheques con errores. Obtener las probabilidades:
a) Un cheque tiene errores.
b) Un cheque con errores, se refiere a una cuenta sin fondos.
10. Se sabe que el 12 % de los automóviles utilizan una determinada marca de repuestos.
También se sabe que si utilizamos una encuesta, sólo el 80 % de los propietarios que
utilizan la marca lo reconocerán y que hay un 2 % de los que no la utilizan que manifes-
tarán lo contrario que aquellos. ¿Cuál es la probabilidad de que elegido un propietario
al azar, mienta al hacerle dicha pregunta?.
11. Una caja A contiene 5 bolas negras y 2 rojas. Otra caja B contiene 3 bolas negras y 2
rojas. Se traslada una bola de la caja A a la caja B y a continuación se extrae una bola
de la caja B. Establecer:
a) La probabilidad de que la bola extraída de B sea roja.

b) Si efectivamente la bola extraída de B es roja, determinar la probabilidad de que la
bola trasladada de A a B fuese una bola negra.
12. Una fábrica dispone de tres máquinas A, B, C que fabrican piezas mecánicas de un tipo
determinado, A atiende al 25 % de la producción, la B al 35 %, y la C al 40 %. El 5 % de
las piezas de A son defectuosas así como el 4 % de B y el 2 % de C. Extraída una pieza
al azar es defectuosa. Calcular la probabilidad de que haya sido fabricada por A.
13. En un laboratorio se preparan tres vacunas contra la misma enfermedad. La proba-
bilidad de obtener en el médico cada una de ellas es P (v1 ) = 1/6, P (v2 ) = 1/3,
P (v3 ) = 1/2. La probabilidad de inmunidad de cada una de ellas es: 0.90 para v1 ,
0.94 para v2 y 0.58 para v3 . Calcular:
a) La probabilidad de que un individuo esté inmunizado y no sabemos que vacuna ha
usado.
b) Si no quedó inmunizado, la probabilidad de que haya usado la vacuna 2.
14. En gran cantidad de chequeos médicos un doctor estableció que: el 7 % de los pacientes
creen estar enfermos y lo están verdaderamente, el 3 % de los pacientes creen estar
sanos y están enfermos, el 30 % de los pacientes creen estar sanos y están enfermos,
el 60 % de los pacientes creen estar enfermos y no lo están. En uno de los chequeos un
paciente le dice que cree que está enfermo ¿Qué probabilidad hay de que esté sano?.
Un paciente le dice que cree estar sano ¿qué probabilidad hay de que esté enfermo?
15. Una caja U1 contiene tres bolas blancas y dos rojas. Otra caja U2 contiene cinco bolas
blancas, una amarilla y cuatro rojas. Eligiendo una caja al azar y extrayendo una bola
de la caja elegida ¿cuál es la probabilidad de que la bola blanca sacada pertenezca a la
caja U1 y sea blanca?. ¿Cuál es la probabilidad de que la bola sacada pertenezca a la
caja U2 y sea roja?.
16. En una confitería hay 6 cajas que contienen 14 caramelos de naranja y de limón, una
tiene 8 de naranja y 6 de limón; dos tienen 7 de naranja y 7 de limón y tres cajas tienen
6 de naranja y 8 de limón. Se elige una caja al azar y se extraen tres caramelos, sin
reemplazamiento, de dicha caja. Sabiendo que 2 son de naranja y 1 de limón. ¿cuál es
la probabilidad de que la caja elegida contenga 7 caramelos de naranja y 7 de limón?

Capı́tulo 2
Variables aleatorias discretas
Supongamos que se tiene un experimento aleatorio E, un espacio muestral Ω y una función de

probabilidad P . Una variable aleatoria describe una característica cuantitativa de los resultados
del experimento.
Definición 2. X denota una variable aleatoria (v.a.) si es una función
X: Ω → R
Ejemplo: Se lanza una moneda tres veces. El espacio muestral Ω es el conjunto
Ω = {(x1 , x2 , x3 ) : x1 , x2 , x3 ∈ {c, s}}
Se puede definir una variable aleatoria X : Ω → R que cuantifique los resultados de acuerdo con
el número de caras. Los posibles valores de X son 0,1,2,3.
X es una v.a. discreta si existe un conjunto numerable A = {n0 , n1 , . . . } tal que P (X ∈ A) = 1.
En adelante se usará la siguiente notación para definir subconjuntos del espacio muestral Ω.
(a ≤ X ≤ b) = {w ∈ Ω : a ≤ X(w) ≤ b}
(X = a) = {w ∈ Ω : X(w) = a}
Las expresiones (X ≤ b), (a < X ≤ b), (a ≤ X < b), (a < X < b) se definen de manera similar.
1. Función de densidad y función de distribución
1.1. Función de densidad de probabilidad.
Definición 3. Si X es una variable aleatoria, una función f : R → [0, 1] es una función de

densidad para X si f (x) = P (X = x)
37
1.2. Función de distribución de probabilidad.
Definición 4. Si X es una variable aleatoria, una función F : R → [0, 1] es una función de

distribución para X si F (x) = P (X ≤ x)
2. Media y Varianza
2.1. Media.
Definición 5. Si X es una variable aleatoria, se llama Media, Valor esperado o Esperanza

matemática, al valor notado µ ó E(X) definido por
X
µ = E(X) = x f (x)
f (x)≠0
2.2. Varianza.
Definición 6. Si X es una variable aleatoria, se llama Varianza 1, al valor notado σ 2 ó V (X)

definido por
X
σ 2 = V (X) = (x − µ)2 f (x)
f (x)≠0
Nota: (x − µ)2 f (x) = (x 2 − 2µx + µ 2 )f (x), por lo tanto,

X X X
V (X) = x 2 f (x) − 2µ xf (x) + µ 2 f (x)
f (x)≠0 f (x)≠0 f (x)≠0
X
= x 2 f (x) − 2µ 2 + µ 2
f (x)≠0
X
= x 2 f (x) − µ 2
f (x)≠0
3. Operaciones con variables aleatorias
Definición 7. Si X1 , X2 son variables aleatorias referidas al mismo experimento y a es una

constante,
X1 : Ω → R, X2 : Ω → R
Las operaciones entre variables aleatorias son:

Suma: (X1 + X2 )(w) = X1 (w) + X2 (w)
Producto: (X1 · X2 )(w) = X1 (w) · X2 (w)
Producto por un escalar: (aX)(w) = aX(w)
1
Algunos textos usan el término Variancia

4. Propiedades de la media y la varianza
Si X, X1 , X2 son variables aleatorias referidas a un mismo experimento, a, b son constantes y

g(x) es una función a valor real, la media y la varianza son:
1. E(aX1 + bX2 ) = aE(X1 ) + bE(X2 )

X
2. E(g(X)) = g(x)f (x)
f (x)≠0
3. V (b) = 0
4. V (aX + b) = a2 V (X)
Nota:
V (X1 + X2 ) = E(X1 + X2 )2 − [E(X1 + X2 )]2
= E(X12 + X22 + 2X1 X2 ) − [E(X1 ) + E(X2 )]2
= E(X1 )2 + E(X2 )2 + 2E(X1 X2 )
− [E(X1 )]2 − [E(X2 )]2 − 2E(X1 )E(X2 )
= V (X1 ) + V (X2 ) + 2[E(X1 X2 ) − E(X1 )E(X2 )]
El valor E(X1 X2 ) − E(X1 )E(X2 ) se llama covarianza (varianza conjunta) de las variables aleato-
rias X1 y X2 . Se nota cov(X1 , X2 ), de esta manera,
V (X1 + X2 ) = V (X1 ) + V (X2 ) + 2cov(X1 , X2 )
Ejercicio: Demostrar las propiedades de la covarianza:
1. cov(a, b) = 0, a, b constantes
2. cov(X, X) = V (X)
3. cov(X1 , X2 ) = cov(X2 , X1 )
4. cov(X, a) = 0
5. cov(X1 + a, X2 + b) = cov(X1 , X2 )
6. cov(aX1 , bX2 ) = ab cov(X1 , X2 )
7. cov(X1 + X2 , X3 ) = cov(X1 , X3 ) + cov(X2 , X3 )
Ejemplo: Si se lanza un dado corriente, se produce uno de seis resultados, así el espacio mues-
tral se puede escribir como Ω = {s1 , s2 , s3 , s4 , s5 , s6 }. Se define X : Ω → R por X(sj ) = j.
1 1 1 1 1 1 21 7
E(X) = 1 × +2× +3× +4× +5× +6× = = = 3.5
6 6 6 6 6 6 6 2
2 2
1 1 1 1 1 1 7 91 7 35
V (X) = 12 × + 22 × + 32 × + 42 × + 52 × + 62 × − = − =
6 6 6 6 6 6 2 6 2 12
Ejemplo: Si se lanzan dos dados corrientes, se produce uno de 36 resultados, así el espacio
muestral se puede escribir com Ω = {(i, j) : 1 ≤ i, j ≤ 6}. Se definen X1 (i, j) = i, X2 (i, j) = j,
X = X1 + X2 . Aplicando las propiedades de la media,
7 7 14
E(X) = E(X1 ) + E(X2 ) = + = =7
2 2 2
Se puede calcular E(X) por la definición equivalente X(i, j) = i + j, en este caso,

12
X
E(X) = kP (X = k),
k=2
lo que implica la evaluación de cada una de las probabilidades P (X = k), 2 ≤ k ≤ 12.

Ejemplo: De un lote de 12 artículos se sabe que sólo 3 son defectuosos. Se toma una!muestra
12
aleatoria simple de tres artículos (sin repetición). El espacio muestral Ω tiene = 220
3
elementos. Se define X(w) como el número de artículos defectuosos en la muestra. Entonces
X(w) ∈ {0, 1, 2, 3}.
" ! ! ! !#
1 9 9 3 3
E(X) = 0× +1×3× +2×9× +3×
220 3 2 2 3
1 165 3
= [0 + 108 + 54 + 3] = = = 0.75
220 220 4
3 2
" ! ! ! !# 2
1 2 9 2 9 2 3 2 3 45 3 81
V (X) = 0 × +1 ×3× +2 ×9× +3 × − = − =
220 3 2 2 3 4 44 4 176
5. Variables aleatorias independientes
Definición 8. Dos variables aleatorias X1 , X2 se llaman independientes si para cualquier par

de valores a, b, se cumple,
P ((X1 = a) ∩ P (X2 = b)) = P (X1 = a) · P (X2 = b)
Propiedades de las variables independientes. Si X1 , X2 son independientes entonces,
1. E(X1 · X2 ) = E(X1 ) · E(X2 ).

2. cov(X1 , X2 ) = 0.
3. V (X1 + X2 ) = V (X1 ) + V (X2 ).
Las dos últimas propiedades son consecuencia directa de la primera.
6. Distribuciones especiales
A continuación se exponen las principales variables aleatorias discretas y sus correspondientes

densidades y distribuciones. Para simplificar, de ahora en adelante las variables aleatorias se
llamarán simplemente Distribuciones de probabilidad.
6.1. La distribución de Bernoulli. Un experimento se llama de Bernoulli 2 si produce uno
de dos resultados posibles, es decir, Ω = {s1 , s2 }. La variable aleatoria X, de Bernoulli, se define
por X(s1 ) = 1, X(s2 ) = 0. La función de probabilidad P es, P (s1 ) = p, P (s2 ) = q. Por lo tanto,
0 ≤ p, q ≤ 1 y p + q = 1. La función de densidad f (x) es




 p, x = 1;

f (x) = q, x = 0;



 0, en otro caso.

El cálculo de la media y la varianza es,
µ = E(X) = 0 × P (X = 0) + 1 × P (X = 1)
=0×q+1×p =p
σ 2 = V (X) = 02 × q + 12 × p − p 2 = p − p 2 = p(1 − p) = pq
6.2. La función indicadora. Las funciones indicadoras son generalizaciones de las varia-
bles de Bernoulli que nos permiten construir variables del tipo Bernoulli con cualquier variable
aleatoria o bien usando cualquier evento. Si (Ω, A, P ) es un espacio de probabilidad y A ∈ A,
La función indicadora de A denotada por IA , de Ω en {0, 1}, está definida por,

 1 w∈A

IA (w) =
 0 w 6∈ A

Las siguientes son las principales propiedades de la función indicadora,
1. IA∩B = IA · IB
2. IA0 = 1 − IA
3. IA∪B = IA + IB − IA∩B
2
Por Jacob Bernoulli (1654-1705), hermano de Johann Bernoulli y tío de Daniel Bernoulli.
Figura 1. Jacob Bernoulli (1654–1705)

4. IA∆B = IA + IB (mod 2)
6.3. La distribución binomial. Un experimento se llama binomial si es la repetición, un

número fijo n de veces de un experimento de Bernoulli. En ese caso, el espacio muestral Ω =
{(a1 , a2 , . . . , an ) : ai ∈ {0, 1}, 1 ≤ i ≤ n}. La variable aleatoria X binomial X(a1 , a2 , . . . , an ) es
el número de “1"s en la sucesión.
n
X
Es decir, X(a1 , a2 , . . . , an ) = ak , por lo que una variable aleatoria binomial es la suma de n
k=1
variables de Bernoulli. De la hipótesis de independencia, si en la secuencia hay k “1"s, entonces
P (a1 , a2 , . . . , an ) = p k qn−k . Como la cantidad de secuencias que contienen
! exactamente
! k “1"s
n n
y el resto, n − k, son “0"s es, de acuerdo con las reglas de conteo = , la función
k n−k
f (k) de densidad está definida por,
! !
n k n−k n
f (k) = p q = p k qn−k , 0 ≤ k ≤ n
k n−k
En adelante, debe entenderse que el valor de la función de densidad es cero en los casos no
contemplados en la fórmula. Se puede probar que la función es de densidad puesto que, de
acuerdo con el desarrollo del binomio de Newton,
n
!
X n k n−k
p q = (p + q)n = 1n = 1
k=0
k
Como la variable binomial se puede expresar como la suma de n variables X1 , . . . , Xn , de Ber-

noulli con igual densidad,
n
X
E(X) = E(Xk ) = E(X1 ) + · · · + E(Xn ) = p + p + · · · + p = np
| {z }
k=1
n sumandos
Para calcular el valor de la varianza, de la definición,

n n
!
2 n n!
X X
2
E(X ) = k p k qn−k = k2 p k qn−k
k=0
k k=0
k!(n − k)!
n
X (n − 1)!
= np k p k qn−k , cambiando de variable s = k − 1
k=0
(k − 1)!(n − k)!
n−1
X (n − 1)!
= np (s + 1) p s qn−1−s
s=0
s!(n − 1 − s)!
 
n−1 n−1
X (n − 1)! X (n − 1)!
= np  s p s qn−1−s + p s qn−1−s 
s=0
s!(n − 1 − s)! s=0
s!(n − 1 − s)!
 
n−1 n−1
! !
X n − 1 X n−1
= np  s p s q(n−1)−s + p s q(n−1)−s 
s=0
s s=0
s

Las dos sumatorias corresponden a variables aleatorias binomiales con (n − 1) experimentos,
por lo tanto,
E(X 2 ) = np[(n − 1)p + 1] = np(np − p + 1)
= np(np + q) = (np)2 + npq.
Luego,
V (X) = E(X 2 ) − [E(X)]2 = (np)2 + npq − (np)2 = npq.
Nota: Si m es el valor entre 0 y n para el que la probabilidad binomial es máxima, el cálculo de

m se basa en la condición que debe cumplir un entero k para que se cumpla P (X = k − 1) ≤
P (X = k). Si tal condición se cumple,
!
n k n−k
p q
P (X = k) k
1≤ = !
P (X = k − 1) n
p k−1 qn−k−1
k−1
n−k+1 p
≤ ·
k 1−p
despejando el valor de k en la desigualdad,
k(1 − p) ≤ (n − k + 1)p
k − kp ≤ np − kp + p
k ≤ np + p
Por lo tanto, m es el mayor entero menor o igual a np + p.
0.4 b
p = 0.3 p = 0.5 p = 0.9

0.3 b
b
b
b b
0.2 b
b
b
b b
0.1
b
b b b
b b bb
b b b b
1 1 2 3 4 5 6 7 8
01
Figura 2. Densidades binomiales para n = 8, p = 0.3, 0.5, 0.9.

Ejemplo: Se lanza una moneda n veces. Comparar las probabilidades condicionales,
1. P (X = k − 1 | X ∈ {k, k − 1})
2. P (X = k | X ∈ {k, k − 1})
De acuerdo con la fórmula de la probabilidad condicional,
P (X = k − 1)
P (X = k − 1 | X ∈ {k, k − 1}) =
P (X ∈ {k, k − 1})
P (X = k − 1)
=
P (X = k) + P (X = k − 1)
!
n
p k−1 qn−k+1
k−1
= ! !
n k−1 n−k+1 n k n−k
p q + p q
k−1 k
!
n
q
k−1
= ! !
n n
q +p
k−1 k
kq
=
p(n + 1) − k(p − q)
De la misma manera, se encuentra que,
!
n
p
k
P (X = k | X ∈ {k, k − 1}) = ! !
n n
q +p
k−1 k
p(n − k + 1)
=
p(n + 1) − k(p − q)
Como tienen el mismo denominador, se puede deducir que
P (X = k | X ∈ {k, k − 1}) ≤ P (X = k − 1 | X ∈ {k, k − 1}) si k ≥ np + p.
Ejemplo: Un hombre realiza 8 disparos hacia un objetivo. Los disparos son independientes y
la probabilidad de acertar es 0.7. Si X es el número de aciertos, calcular las probabilidades,
!
8
1. P (X = 4) = (0.7)4 (0.3)4 ≈ 0.1361366999
4
2. P (X = 4 | X ≥ 2).
P (X = 4) P (X = 4)
P (X = 4 | X ≥ 2) = =
P (X ≥ 2) 1 − P (X < 2)
P (X = 4)
=
1 − P (X = 0) − P (X = 1)
!
8
(0.7)4 (0.3)4
4
= ! !
8 8 8
1− (0.3) − (0.7)(0.3)7
0 1
39690
= ≈ 0.1363125882
291169
3. Si ya acertó los dos primeros disparos, calcular la probabilidad de acertar 4 de las 8

oportunidades. Por independencia, el valor de esta probabilidad es,
!
6
(0.7)2 (0.3)4 = 0.059535
2
Ejemplo: En este juego yo lanzo un dado y tú lanzas otro dado. Tú ganas si el número de tu
dado es estrictamente mayor que el mío. Si jugamos cinco veces, calcular la probabilidad de que
tú ganes al menos cuatro de los juegos. Si X es el número de juegos que tú ganas, la variable
aleatoria es binomial con n = 5, para determinar p se observa que de los 36 casos posibles al
lanzar dos dados, en 15 de ellos tú ganas. La probabilidad es,
21 4 21 5
! !
5 15 5
P (X ≥ 4) = P (X = 4) + P (X = 5) = + = 0.100469393
4 36 36 5 36
Ejemplo: La distribución binomial puede utilizarse como parte de la solución de problemas

de probabilidades. Si se supone que los dos equipos que van a la Serie Mundial tienen iguales
capacidades, la probabilidad de que cada uno gane es 1/2. El campeón de la serie se decide
cuando uno de ellos alcanza su cuarta victoria. El número de juegos varía entonces entre 4 y
7. Si X es la variable aleatoria que cuenta el número de juegos hasta que alguno de los dos es
campeón, a continuación se presenta un análisis de las diferentes probabilidades.
1. X = 4. Se da cuando uno de los equipos gana 4 de 4 ocasiones.

! !
4 4 4 2 1
P (X = 4) = (1/2) + (1/2)4 = = = 0.125
4 4 16 8
2. X = 5. Se da cuando uno de los equipos gana 3 de los 4 primeros y luego gana el quinto.
" ! # " ! #
4 4 8 1
P (X = 5) = (1/2)4 (1/2) + (1/2)4 (1/2) = = = 0.25
3 3 32 4

3. X = 6. Se da cuando uno de los equipos gana exactamente 3 de los 5 primeros y luego
gana el sexto.
" ! # " ! #
5 5 5 5 20 5
P (X = 6) = (1/2) (1/2) + (1/2) (1/2) = = = 0.3125
3 3 64 16
4. X = 7. Se da cuando uno de los equipos gana exactamente 3 de los 6 primeros y luego
gana el séptimo.
" ! # " ! #
6 6 40 5
P (X = 7) = (1/2)6 (1/2) + (1/2)6 (1/2) = = = 0.3125
3 3 128 16
Si se calcula la suma de probabilidades,
0.1250 + 0.2500 + 0.3125 + 0.3125 = 1.
El valor esperado del número de juegos es,
E(X) = 4(0.1250)+5(0.2500)+6(0.3125)+7(0.3125) = 0.5000+1.2500+1.8750+2.1875 = 5.8125
6.4. La distribución geométrica. Si se repite un experimento de Bernoulli hasta obtener

“1", la variable aleatoria X que cuenta el número de experimentos realizados hasta obtener el
“1" se llama geométrica. El espacio muestral son todas las secuencias finitas cuyos primeros
elementos son todos “0" y el último es “1".
Ω = {1, 01, 001, 0001, 00001, . . . }.
Una secuencia de k elementos debe ser 00 . . . 0} |{z}

| {z 1 . por lo tanto P ( 00 1 ) = qk−1 p por la
. . . 0} |{z}
| {z
k−1 ceros 1 k−1 ceros 1
independencia. Esta fórmula también incluye la secuencia 1, pues X(1) = 1 y P (1) = p = q1−1 p.
La función de densidad es
f (k) = p.qk−1 , k = 1, 2, 3, . . .
Para calcular la media,

∞
X ∞
X
k−1
µ= kpq =p kqk−1
k=1 k=1
∞
X 1
Como qk = , derivando e intercambiando la derivada y la serie,
k=0
1−q
∞ ∞
!
X
k−1
X
k−1 d 1 1
kq = kq = = .
k=0 k=1
dq 1−q (1 − q)2
1 1 1
Entonces µ = p · =p· 2 = .
(1 − q)2 p p
Para calcular la varianza,
∞
!2
2
X
2 k−1 1 q
σ = V (X) = k pq − =
k=1
p p2

6.5. La distribución hipergeométrica. Si se tiene un conjunto de N objetos, de los cuales
M son “Tipo–1", los restantes N − M son “Tipo–0" y se seleccionan, aleatoriamente,
! n objetos.
N
El número total de estas muestras es, de acuerdo con las técnicas de conteo, . La variable
n
aleatoria X que cuenta el número de “Tipo–1"s en la selección se llama distribución hipergeo-
métrica.
La función de densidad es,
! !
M N −M
k n−k
P (X = k) = f (k) = ! , máx{0, M + n − N} ≤ k ≤ mı́n{n, M}
N
n
Si se definen las variables indicadoras X1 , . . . , Xn por,


 1, El elemento i de la muestra es Tipo–1

Xi =
 0,

en otro caso
El número de elementos Tipo–1 en la muestra es
n
X
X= Xi
i=1
Cada elemento de la muestra tiene la misma probabilidad de ser Tipo–1, por lo tanto
M
P (Xi = 1) = , i = 1, 2, . . . , n
N
de las propiedades de la media,
nM
E(X) = n E(Xi ) = .
N
Para calcular la varianza tenemos,

 2 
n
 X  
E X2 =E  Xi 
i=1
 
n 2 X n X n
X 

=E 
 Xi + X X
i j

i=1 i=1 j=1 
i≠j
Por otra parte, el valor esperado de cada Xi2 es,
M
E Xi2 = , i = 1, 2, . . . , n.
N
Si ahora consideramos el caso n = k = 2, entonces
! !
M N −M
2 0 M(M − 1)
P (X = 2) = P (Xi = 1, Xj = 1) = ! = , i, j = 1, . . . , n, i ≠ j.
N N(N − 1)
2
Por lo tanto,
M(M − 1)
E(Xi Xj ) = ,
N(N − 1)
como hay n(n − 1) de estos sumandos en la expresión para E X 2 , reemplazando E(Xi ) y

E(Xi2 ),
nM n(n − 1)M(M − 1)
E(X 2 ) = + ,
N N(N − 1)
para el cálculo de la varianza se aplica V (X) = E(X 2 ) − (E(X))2 .
En definitiva, la media y la varianza son,
M N −n M M

µ =n· , σ2 = n· 1−
N N −1 N N
Ejemplo: Un lote de 100 artículos se inspecciona tomando 5 de ellos, al azar, y probándolos.
Si los 5 artículos pasan la prueba el lote es aceptado. Encontrar la función de densidad de
probabilidad del número de artículos defectuosos en una muestra de 5 si hay 20 defectuosos
en el lote de 100.
El experimento se adapta a la distribución hipergeométrica con n = 5, N = 100, M = 20
(defectuosos) y N − M = 80 no defectuosos.
Por lo tanto, la función de densidad para este experimento es,
! !
20 80
k 5−k
P (X = k) = f (k) = ! , 0≤k≤5
100
5
La tabla de probabilidades es la siguiente,
k 0 1 2 3 4 5
f (k) 0.31930944 0.420144 0.20734379 0.04784857 0.00514826 0.00020593
Ejemplo: Supongamos que el tamaño N de una población es desconocido, por ejemplo la po-
blación de peces en un lago. Para estimar N sin hacer un conteo exhaustivo (censo) se utiliza el
llamado método de captura–recaptura. Se capturan M ejemplares, se marcan de manera que se
distingan del resto y se liberan. Transcurrido un tiempo que garantice la mezcla entre marcados
y no marcados, se extrae una muestra de tamaño n y se anota el número X de ejemplares mar-
cados. Este método fue introducido por Laplace3 en 1786 para estimar la población de Francia
3
Pierre-Simon Laplace (1749–1827)

0.4
n = 25 n = 50
0.3 b
b b
b b
0.2 b
b b
0.1
b
b b
b b b
b b b b
1 1 2 3 4 5 6 7 8
01
Figura 3. Distribución hipergeométrica. N = 100, M = 10, n = 25, 50.
y es ahora empleado por biólogos y otros profesionales para estimar poblaciones animales. En
este modelo, los ejemplares marcados son Tipo–0 y los no marcados son Tipo–1, por lo que el
número k de ejemplares recapturados que estén marcados tiene una distribución hipergeomé-
trica. Analizando la magnitud de las probabilidades y suponiendo que la muestra obtenida es
la de más alta probabilidad (principio de máxima verosimilitud) se obtiene un estimado para
N por,
Mn

N≈ ,
X
donde [z] es el mayor entero menor o igual a z.
6.6. La distribución de Pascal o Binomial negativa. Si se fija el valor n y se repite un

experimento de Bernoulli hasta obtener n veces el “1", la variable aleatoria X que cuenta el
número de experimentos realizados hasta obtener el último “1" se llama de Pascal o Binomial
negativa. El espacio muestral son todas las secuencias finitas cuyos primeros elementos contie-
nen n − 1 veces el “1" y el último es también “1". Como el número de experimentos es siempre
mayor o igual que n, se pueden escribir como n + k, donde k ≥ 0 es un entero. De esta manera
se simplifica la definición de la función de densidad como,
!
n+k−1 n k
P (X = k) = f (k) = p q , k = 0, 1, 2, . . . , n = 1, 2, 3, . . .
n−1
De la misma manera como una variable aleatoria binomial, de parámetros n y p, se puede ver
como la suma de n variables aleatorias de Bernoulli de parámetro p, la distribución binomial
negativa se puede ver como la suma de n variables geométricas, cada una de parámetro p. De
esta forma,  
n n
X X 1 n
E(X) = E  Xi  = E(Xi ) = n × =
i=1 i=1
p p

Como los experimentos son independientes, entonces la varianza se puede calcular como
n
X q nq
V (X) = V (Xi ) = n × 2
= 2.
i=1
p p
En resumen, media y la varianza son,

n nq
µ= , σ2 =
p p2
Ejemplo: Se lanza una moneda varias veces.
1. Calcular la probabilidad de que en el lanzamiento 12 se completen 10 caras. La distri-

bución es del tipo binomial negativa, con p = 0.5, n + k = 12, n = 10 y k = 2. De la
fórmula, !
11
P (X = 2) = 0.510 0.52 = 0.013427734
9
2. Si en el lanzamiento 12 se han completado 10 caras, qué se puede decir de la moneda.
Si la moneda estuviera balanceada, la probabilidad de tener 2 sellos, o menos, en 10
lanzamientos es P (X = 0) + P (X = 1) + P (X = 2) = 0.0192871, con una probabilidad
tan baja de que esto ocurra hay indicios de que para esta moneda las probabilidades
de cara y sello no son iguales.
Ejemplo: Un gran lote de artículos es recibido para inspección. Para ahorrar tiempo y recursos
se adopta un método de examen que consiste en observar hasta 30 de ellos, si antes de com-
pletar los 30 exámenes aparecen 3 defectuosos el lote se rechaza, de lo contrario se continua
el examen hasta completar 30. Calcular la probabilidad de rechazar el lote si este contiene un
15 % de defectuosos.
En este caso, el modelo de distribución para el número de artículos defectuosos es binomial
negativo. Los parámetros son p = 0.15, n + k = 30, n = 3 y k ≤ 27. La probabilidad es,
27
!
X 3+k−1
P (X ≤ 27) = 0.153 0.85k = 0.8485993926
k=0
2
Por lo tanto, con este método, la probabilidad de rechazar un gran lote que contenga 15 % de
defectuosos es de aproximadamente 85 %.
6.7. La distribución de Poisson. Esta distribución también se llama de los eventos poco
probables. Si se sitúa una secuencia de experimentos independientes de Bernoulli realizados,
4
aleatoriamente, en el tiempo o en el espacio, la variable aleatoria X llamada de Poisson cuenta
el número de ocurrencias del resultado “1" durante un intervalo de tiempo específico o en
4
Por Siméon-Denis Poisson (1781-1840). En 1837 publicó Recherches sur la probabilité des jugements en matiere
criminelle et en matiere civil, précédés des régles générales du calcul des probabilités, un trabajo importante en la
teoría de la probabilidad donde aparece esta distribución, la cual describe la probabilidad de que un evento aleatorio

Figura 4. Siméon-Denis Poisson (1781–1840)
una región específica. Los “1"s se deben producir de manera independiente, la probabilidad
de obtenerlo es pequeña pero proporcional al intervalo de tiempo o al tamaño del espacio. Es
decir, se puede considerar que se producen a una tasa aproximadamente constante λ, bien sea
en el tiempo o en el espacio.
Si se tiene una sucesión de distribuciones binomiales tales que la n-sima distribución tiene
parámetro de probabilidad pn y cuando n → ∞ entonces pn → 0 y λn = npn → λ se cumple,
!
n k n−k λk
lı́m pn qn = e−λ , k = 0, 1, 2, . . .
n→∞ k k!
La función de densidad es,
λk −λ
P (X = k) = f (k) = e , k = 0, 1, 2, 3, . . . , λ>0
k!
En efecto, si consideramos que para n grande se puede reemplazar λ = np, para k fijo,
k
n! λ λ n−k

lı́m P (X = k) = 1−
n→∞ k!(n − k)! n n
n(n − 1) . . . (n − k − 1) λk λ n λ −k

= lı́m 1 − 1 −
n→∞ nk k! n n
!
λk λ k −λ
e
=(1) (e−λ )(1) =
k! k!
La media y la varianza son iguales,
∞ ∞
X λk X λk−1
µ = e−λ k = λe−λ k = λe−λ eλ = λ
k=0
k! k=0
k!
∞
X λk
σ2 = k2 e−λ − λ2 = λ2 + λ − λ2 = λ
k=0
k!
Ejemplo: Los cambios que se producen en el material genético (hereditario) de las células vi-
ocurra en un tiempo o intervalo de espacio bajo las condiciones que la probabilidad sea muy pequeña, pero el número
de intentos sea tan grande que el evento ocurra algunas veces.

vas se denominan mutaciones, éstas pueden ser espontáneas o inducidas por agentes externos
(contaminación, radiación, etc.). Si las mutaciones ocurren en las células reproductivas (game-
tos) entonces los descendientes heredan los genes mutantes. En los seres humanos la tasa a
la que ocurren las mutaciones espontáneas es de cerca de 4 por cada cien mil gametos. En la
bacteria E. coli, una variedad mutante es resistente al antibiótico Estrepotmicina. En un experi-
mento con N = 150 cápsulas de Petri, fueron introducidas un millon de bacterias en cada una.
Se encontró que 98 no tenían colonias resistentes, 40 contenían 1, 8 contenían 2, 3 contenían
3 y 1 contenía 4.
El promedio λ de mutantes por cada millon de células (bacterias) es,
40 × 1 + 8 × 2 + 3 × 3 + 1 × 4
λ= = 0.46
150
Bajo la hipótesis de Poisson, el número esperado nk de cápsulas que contienen k mutantes es
(0.46)k
nk = N P (X = k) = 150 × e−0.46 .
k!
La siguiente tabla contiene los valores que predice la distribución de Poisson y los valores
experimentales Nk , en ellos se observa un nivel de concordancia que puede ser comprobado
con las técnicas estadísticas adecuadas.
k 0 1 2 3 4
nk 94.69254682 43.55857153 10.01847145 1.536165622 0.1766590465
Nk 98 40 8 3 1
7. Funciones generadoras
Una función generadora asociada a una variable aleatoria X es el valor esperado de ciertas
transformaciones g(X) de la variable. En general, se requieren tres propiedades de tales fun-
ciones,
1. La función generadora debe identificar completamente a la distribución.

2. La función generadora de una suma de variables independientes debe ser el producto
de las generadoras individuales.
3. Los momentos µk de la variable deben ser obtenidos de las derivadas de la función
generadora.
La segunda propiedad trata de simplificar el problema que presenta el cálculo de la distribución

de una suma de variables independientes el cual tiene una formulación matemática mucho más
complicada.
7.1. La función generadora de momentos.
Definición 9. Si X es una variable aleatoria, se llama función generadora de momentos, notada

m(t) a la función definida por,

m(t) = E etX
Como etX ≥ 0 es una variable aleatoria no negativa, entonces, dado t, m(t) existe, bien sea
como un número real o como +∞. Las propiedades básicas de la función m(t), suponiendo
que está definida en un entorno J = (−t0 , t0 ), con t0 > 0, son,
1. m(t) describe completamente la distribución de X.

2. m(t) tiene derivadas de cualquier orden en J y además

m(n) (t) = E X n etX para todo t ∈ J.
Si la variable aleatoria X toma valores en el conjunto N de los números naturales, entonces

X
m(t) = ent P (X = n)
n∈N
7.2. Propiedades de la función generadora de momentos. Las siguientes son las propie-
dades de la función generadora de momentos.
Si X1 , X2 tienen funciones generadoras de momentos m1 (t), m2 (t) respectivamente, entonces,
1. Si X2 (t) = aX1 + b con a, b, constantes, m2 (t) = ebt m1 (at).

2. Si X1 , X2 son independientes y Y = X1 + X2 tiene función generadora m(t), entonces,
m(t) = m1 (t)m2 (t).
3. Si µk = E(X k ) es el momento de orden k, entonces µk = m(k) (0)
Ejemplo: Para la distribución de Bernoulli, X sólo toma los valores 0,1.
m(t) = e0×t P (X = 0) + e1×t P (X = 1) = q + pet
Ejemplo: Para la distribución binomial de parámetros n y p, como es la suma de n variables

independientes de Bernoulli, entonces
m(t) = (q + pet ) × (q + pet ) × · · · × (q + pet ) = (q + pet )n

| {z }
n factores
las derivadas de esta m(t) son
m0 (t) =npet (q + pet )n−1
m00 (t) =et (n2 p 2 et + npq)(q + pet )n−2

Por lo tanto
µ = µ1 = m0 (0) = np(p + q)n−1 = np,
por otra parte
µ2 = E(X 2 ) = m00 (0) = (n2 p 2 + npq)(p + q)n−1 = n2 p 2 + npq,
de esta manera,
σ 2 = E(X 2 ) − [E(X)]2 = n2 p 2 + npq − n2 p 2 = npq.
7.3. La función generadora de probabilidad.
Definición 10. Si X es una variable aleatoria cuyos valores pertenecen al conjunto {0, 1, 2, . . . },
se llama función generadora de probabilidad a la función notada g(t), definida por
g(t) = E(t X )
7.4. Propiedades de la función generadora de probabilidad. Si f (x) es la función de

densidad de probabilidad de X, es decir, f (k) = P (X = k), k = 0, 1, 2, . . . , las siguientes son las
propiedades básicas de la función generadora g(t),
∞
X
1. g(t) = f (k)t k .
k=0
2. Como la función g(t) es una serie de potencias de t cuyo radio de convergencia es r y
g(1) = 1, entonces r ≥ 1.
g (n) (0)
3. f (k) = .
n!
1 + g(−1)
4. P (X ∈ {2, 4, 6, 8, . . . }) =
2
5. Si r > 1 entonces g (k) (1) = E[(X)k ], donde (X)k = X(X −1) . . . (X −k+1), estos valores
se llaman momentos factoriales.
6. V (X) = g 00 (1) + g 0 (1) − [g 0 (1)]2 .
7. Si X1 , X2 son variables aleatorias independientes con funciones generadoras de proba-
bilidad g1 (t) y g2 (t) respectivamente, la función generadora g(t) de X = X1 + X2 es
g(t) = g1 (t)g2 (t).
La función generadora de probabilidad determina de manera única a la distribución en el si-

guiente sentido. Si X y Y tienen la misma distribución de probabilidad, entonces, naturalmente,
gX (t) = gY (t), para valores de t donde esta esperanza exista. Inversamente, si X, Y son tales
que gX (t), gY (t) existen y coinciden en algún intervalo no vacío alrededor de cero, entonces X
y Y tienen la misma distribución.
En la siguiente tabla se muestran ejemplos de funciones generadoras de probabilidad para
algunas distribuciones discretas.
Distribución Función generadora de probabilidad
Uniforme{x1 , . . . , xn } g(t) = (t x1 + · · · + t xn )/n
Bernoulli(p) g(t) = 1 − p + pt
Binomial(n, p) g(t) = (1 − p + pt)n
Geométrica(p) g(t) = p/[1 − t(1 − p)]
Poisson(λ) g(t) = e−λ(1−t)
Pascal(n, p) g(t) = (p/[1 − t(1 − p)])n
8. Ejercicios
1. Sea n un entero positivo y f la función definida por


2k
, k = 1, 2, . . . , n;



f (k) = n(n + 1)


Demostrar que f (k) es una función de densidad discreta y calcular su media.

2. Si X tiene media µX = 1 y Y tiene media µY = 3, calcular la media de 2X + 5Y .
3. Suponga que se distribuyen n bolas, al azar, en r cajas. Sea Xi = 1 si la caja i está vacía
y Xi = 0 en caso contrario.
a) Calcule E(Xi ).
b) Para i ≠ j, calcular E(Xi · Xj ).
c) Si Sr es el número de cajas vacías, entonces Sr = X1 + · · · + Xr . Utilizar el resultado
del inciso a) para calcular E(Sr ).
d) Utilice los resultados de a) y b) para calcular V (Sr ).
4. Sean X1 , X2 y X3 variables aleatorias independientes con varianzas positivas finitas σ1 ,
σ2 y σ3 respectivamente. Calcular la covarianza entre X1 − X2 y X2 + X3 .
5. Suponga que se repite n veces un experimento que tiene r resultados posibles {1, 2..., r },
los cuales ocurren con probabilidades p1 , . . . , pr . Si X es el número de veces que ocurre
el primer resultado y Y es el número de veces que ocurre el segundo. Demostrar que
cov(X, Y ) = −np1 p2
efectuando los siguientes pasos. Sea Ii = 1 si el i-ésimo ensayo dio el primer resultado,
Ii = 0 en caso contrario. De manera similar, sea Ji = 1 si el i-ésimo ensayo dio el segundo
resultado, y Ji = 0 en caso contrario. Entonces X = I1 + · · · + In y Y = J1 + · · · + Jn .
Ahora demuestre lo siguiente:
a) E(Ii Ji ) = 0
b) Si i ≠ j, E(Ii Jj ) = p1 p2
Pn P
n P
c) E(XY ) = E i=1 Ii Ji +E i=1 j≠i Ii Jj = n(n − 1)p1 p2
d) cov(X, Y ) = −np1 p2
6. Si X es una variable aleatoria binomial con parámetros n = 4 y P (X = 1) = p. Calcular
E[sen(π X/2)].
7. Suponga que X tiene densidad de Poisson con parámetro λ. Calcular la media de (1 +
X)−1 .
8. Un fabricante de automóviles vende, en el mismo día, a concesionarios, cinco vehículos
idénticos. Sabiendo que la probabilidad de que este tipo de vehículos estén funcionando
correctamente dos años después es 0.80. Calcular la probabilidad de que:
a) Tres automóviles estén fuera de servicio dos años más tarde.
b) A lo sumo dos automóviles estén fuera de servicio.
9. Si la probabilidad de que un cierto experimento tenga éxito es 0.4, y X es el número de
éxitos que se obtienen en 15 realizaciones independientes del experimento, calcular la
probabilidad P (6 ≤ X ≤ 9).
10. Una moneda con probabilidad de cara 0.6 se lanza nueve veces. Calcular la probabilidad
de obtener un número par de caras.
11. Tres hombres A, B y C disparan a un blanco. A dispara tres veces y la probabilidad de que
dé en el blanco en un disparo concreto es 1/8. B dispara cinco veces y la probabilidad de
que dé en el blanco en un disparo concreto es 1/4. C dispara dos veces y la probabilidad
de que dé en el blanco en un disparo concreto es 1/2.
a) Calcular el número esperado de disparos que darán en el blanco.
b) Calcular la varianza del número de disparos que darán en el blanco.
12. Un cierto sistema electrónico contiene diez componentes. Si la probabilidad de que un
componente individual falle es 0.2 y los componentes fallan independientemente unos
de otros. Dado que al menos uno de los componentes ha fallado, calcular la probabili-
dad (condicional) de que fallen al menos dos de los componentes.
13. Un Ingeniero en Transporte está estudiando la calificación de las personas al presentar
los exámenes para obtener la licencia de conducir de 3er grado. Según su experiencia, ha
determinado que el 5 % de las personas que presentan el examen son aplazadas, lo que
él considera que es muy poco, por lo que exigirá un mayor puntaje para la aprobación
de este examen. Si en un día se presentan 15 personas al examen:
a) Calcular la probabilidad de que no haya aplazados en el examen.
b) Si aplazan menos de 3 personas el examen deberá repetirse. Calcular la probabilidad
de que el examen se repita.

14. Para decidir acerca de un proyecto de remodelación en la ciudad, una empresa decide
seleccionar al azar 30 unidades habitacionales del sector. Si el 40 % o más están en mal
estado se procederá a la remodelación; en caso contrario esta remodelación no se hará.
a) ¿Cuál es la probabilidad que se haga la remodelación si sólo el 35 % de las viviendas
de este sector están en mal estado?.
b) ¿Cuál es la probabilidad que no se haga la remodelación si el 50 % de las viviendas
del sector están en mal estado?.
15. En una población de 10.000 individuos, existen 1.000 que poseen una característica
determinada (mayores de 60 años). Se toma una muestra de 20 de ellos, con reemplazo.
a) Calcular la probabilidad de que en esta muestra aparezcan al menos 5 individuos
mayores de 60 años.
b) Si se continua con el mismo esquema de muestreo, ¿cuál es la probabilidad de que
sean necesarios 26 muestreos para encontrar 6 muestras que contengan menos de
5 individuos con más de 60 años?
16. Se seleccionan al azar sin reemplazamiento n objetos de una caja que contiene T de
ellos, de los cuales A son tipo 1 y el resto, T −A, son tipo 2. Si X es el número de objetos
tipo 1 que se obtienen, calcular el tamaño muestral n para el cual V (X) es máxima.
17. Si X1 y X2 son variables aleatorias independientes tales que X1 tiene una distribución
binomial con parámetros n1 y p y X2 tiene una distribución binomial con parámetros n2
y p, donde p es la misma para X1 y X2 . Para cualquier valor fijo de k, (k = 1, 2, . . . , n1 +
n2 ), calcular la distribución condicional de X1 dado que X1 + X2 = k.
18. Se sabe que una caja de jeringas (12 unidades) contiene 3 defectuosas. Suponga que
una enfermera, antes de usarlas, escoge 3 al azar y las analiza. Si en las analizadas se
encuentran 2 o más defectuosas, la caja completa se desecha.
a) Calcular la probabilidad de usar la caja.
b) Si el muestreo se hace con sustitución, calcular la probabilidad de hallar 2 jeringas
defectuosas.
19. En un gran lote que contiene T artículos manufacturados, el 30 % de los artículos son
defectuosos y el 70 % son no defectuosos. Se seleccionan al azar, sin reemplazo, diez
artículos del lote. Calcular
a) La expresión exacta para la probabilidad de que no se obtendrá más de un artículo
defectuoso.
b) La expresión aproximada para esta probabilidad basada en la distribución binomial.

20. Si el número de defectos en un rollo de tela fabricado con un cierto proceso tiene una
distribución de Poisson con media 0.4 y se inspecciona una muestra aleatoria de cinco
rollos de tela, calcular es la probabilidad de que el número total de defectos en los
cinco rollos sea al menos 6.
21. En un cierto libro hay, en promedio, λ errores por página. Calcular la probabilidad de
que no haya errores en una página concreta.
22. Un libro de n páginas contiene, en promedio, λ errores por página. Calcular la proba-
bilidad de que al menos haya m páginas que contengan más de k errores.
23. Un cierto tipo de cinta magnética contiene, en promedio, 3 defectos por cada 1000 me-
tros. Calcular la probabilidad de que una cinta de 1200 metros de longitud no contenga
defectos.
24. En una cierta tienda se atienden 15 clientes por hora. Calcular la probabilidad de que
se atiendan más de 20 clientes en un periodo de 2 horas.
25. Una línea aérea vende 200 boletos para un vuelo de un avión que tiene únicamente 198
asientos porque, en promedio, el 1 % de los clientes no aparecen en el momento de la
salida. Calcular la probabilidad de que todos los que acuden a la hora de salida de este
vuelo tendrán un asiento.
26. Dos jugadores A y B están tratando de lanzar una pelota a través de un aro. La probabi-
lidad de que el jugador A tenga éxito en cualquier lanzamiento es p y realiza sucesivos
lanzamientos hasta obtener r éxitos. La probabilidad de que el jugador B tenga éxito
en cualquier lanzamiento es mp, donde m es un entero (m = 2, 3, . . . ) tal que mp < 1
y realiza sucesivos lanzamientos hasta obtener mr éxitos.
a) ¿Para cuál jugador es menor el número esperado de lanzamientos?
b) ¿Para cuál jugador es menor la varianza del número de lanzamientos?
27. Si las variables aleatorias X1 , . . . , Xk son independientes y cada Xi tiene una distribución
binomial negativa con parámetros ri y p, (i = 1, . . . , k). Demostrar que la suma X1 +
· · · + Xk tiene una distribución binomial negativa con parámetros r = r1 + · · · + rk y
p.
28. Si X tiene una distribución geométrica con parámetro p. Calcular la probabilidad de
que el valor de X sea uno de los enteros pares 0, 2, 4, . . . .
29. Si X tiene una distribución geométrica con parámetro p, demostrar que para cualquier
entero no negativo k, P (X ≥ k) = qk .
30. En un lote de 50 impresoras hay 2 defectuosas. Un inspector examina 5 impresoras que
se seleccionan al azar y sin reemplazo.

a) Hallar la probabilidad de que 1 de las 5 impresoras extraídas resulte defectuosa.
b) Hallar la probabilidad de que al menos 1 de las 5 impresoras resulte defectuosa.
c) ¿Cuántas impresoras deben examinarse para que la probabilidad de encontrar al
menos 1 impresora defectuosa sea mayor que 1/2?
31. Un corredor de propiedades sabe que la oportunidad de vender una casa es mayor
mientras más contactos realice con clientes potenciales. Si la probabilidad de que una
persona compre una casa después de la visita, es constante e igual a 0.4; y si el conjunto
de visitas constituye un conjunto de ensayos independientes.
a) ¿Cuántos compradores potenciales debe visitar el corredor para que la probabilidad
de vender por lo menos una casa sea de 0.784?
b) ¿Cuál es la probabilidad de vender a lo más tres casas, si se decide a visitar el
número de compradores potenciales señalados en a)?
c) Suponga ahora que el corredor visita a 5 compradores potenciales, ¿cuántas casas
esperaría vender?
32. Al pintar hojas de metal con cierto tipo de pintura ocurren pequeños defectos que se
distribuyen aleatoriamente en la superficie con un promedio de 2,5 defectos por cada
100cm2.
a) Calcular la probabilidad que haya 0 defectos en una hoja de 4 cm. por 8 cm.
b) De 100 de tales hojas, ¿en cuántas se espera 2 o más defectos?.
c) Se seleccionan hojas hasta que aparece una con 2 defectos.
1) ¿Cuál es la probabilidad que el número de hojas seleccionadas sea 3?.
2) ¿Cuál es el número esperado de hojas que se deben seleccionar?.
33. La cantidad de accidentes automovilísticos registrados diariamente en una cierta ciu-
dad, en una muestra de 100 días consecutivos, es la siguiente:
Cantidad de accidentes 0 1 2 3 4 5 6
Número de días 19 26 26 15 9 4 1
Asumiendo que el número de accidentes tiene una distribución de Poisson, determinar:

a) Probabilidad de tener a lo más 2 accidentes en un día.
b) Número esperado de días para que se produzca algún accidente.
34. Una fuente de partículas es observada durante 7 intervalos de 10 segundos de duración
cada uno y se cuenta el número de partículas emitidas durante cada período. Si se
supone que el número de partículas emitidas durante cada período observado tiene
una distribución de Poisson, donde las partículas son emitidas a razón de 0.5 partículas
por segundo.
a) Determinar el valor promedio de partículas emitidas por intervalo.
b) Calcular la probabilidad de que en un intervalo sean emitidas 4 o más partículas.
c) Calcular la probabilidad de que al menos en 5 de los 7 intervalos de tiempo sean
emitidas menos de 4 partículas.
35. Una variable aleatoria X tiene la distribución discreta uniforme
1
f (k) = , k = 1, 2, . . . , n
n
a) Demostrar que la función generadora de momentos es
et (1 − ent )
m(t) =
n(1 − et )
b) Utilice m(t) para calcular la media y la varianza.
36. Una variable aleatoria X tiene distribución de Poisson
λk −λ
f (k) = e , k = 0, 1, 2, . . .
k!
t −1)
m(t) = eλ(e

37. Si X tiene distribución geométrica,
f (k) = pqk−1 = p(1 − p)k−1 , k = 1, 2, . . .

pet
m(t) =
1 − qet

Capı́tulo 3
Variables aleatorias continuas
1. Definición de variables aleatorias continuas
Si se tiene un experimento aleatorio E cuyo espacio muestral es S, y P es su función de pro-

babilidad, una función X con valores reales definida sobre S se llama variable aleatoria. Es
decir,
X : S -→ R
asigna un número real X(s) a cada posible resultado s ∈ S.

De acuerdo con la naturaleza del conjunto S, las variables aleatorias se pueden clasificar como
discretas o continuas. X es una variable aleatoria discreta si existe un conjunto numerable
A = {n0 , n1 , . . . } tal que P (X ∈ A) = 1. En otro caso, es decir, si el conjunto de valores que
puede tomar la variable aleatoria X es de tipo continuo, entonces se llama continua. En la
siguiente sección se dará una definición más precisa de este concepto.
Ejemplo: Supongamos que se escoge un punto del plano XY de acuerdo con un procedimiento
aleatorio. El espacio muestral S está formado por los puntos de la forma s = (x, y). Podemos
considerar las variables aleatorias X, Y , Z que asignan a cada punto s su coordenada x, su
coordenada y y su distancia z al origen, respectivamente. Las definiciones algebraicas son
q
X(s) = x, Y (s) = y, Z(s) = x 2 + y 2 .
Los valores producidos por cada una de estas variables aleatorias son de naturaleza continua.
X(s), Y (s) ∈ (−∞, ∞), Z(s) ∈ [0, ∞).
1.1. Función de densidad y función de distribución. Se dice que una variable aleatoria
X tiene una distribución continua si existe una función no negativa f (x), definida en todo el
61
conjunto R de los reales tal que si A es un intervalo, entonces
Z
P (X ∈ A) = f (x) dx
A
La función f (x) de llama función de densidad de probabilidad de X.
1.2. Propiedades de la función de densidad. Si X es una variable aleatoria de distribución

continua entonces P (X = x) = 0 si x es un valor particular. Por esta razón, una función de
densidad se puede redefinir en un número finito de puntos de un intervalo sin alterar el valor
de la integral sobre dicho intervalo, es decir, sin modificar las probabilidades referidas a la
variable X. En este sentido la función de densidad asociada a una variable X no es única; de
aquí que, preferiblemente, se utilizan funciones de densidad continuas.
El conjunto {x ∈ R : f (x) ≠ 0} se llama soporte de la función de densidad. En general, algunas
de las propiedades de las funciones de densidad están relacionadas con dicho conjunto.
Las propiedades que debe satisfacer una función de densidad f (x) son,
1. No negativa, es decir, f (x) ≥ 0.

2. Consistente con la probabilidad de S, es decir,
Z∞
f (x) dx = 1
−∞
Ejemplos:
1. Consideremos la función f (x) definida por



 0 , x≤0
f (x) = 1

 , x>0
(1 + x)2
cuyo soporte es el intervalo (0, ∞), también notada como
1
f (x) = , x>0
(1 + x)2
simplificando que f (x) = 0 donde no se cumple x > 0. Su primera y segunda derivadas
f 0 (x), f "(x) y su gráfica (Fig. 1) son:
−2 6
f 0 (x) = 3, x > 0; f "(x) = , x>0
(x + 1) (x + 1)4
En este caso, f (x) cumple las propiedades de densidad pues
Z∞ Za
1 a
f (x) = ≥ 0, f (x) dx = lı́m f (x) dx = lı́m =1
(1 + x)2 0 a→∞ 0 a→∞ a + 1
2. Consideremos la función g(x) definida por

2

 √

3
, 0<x<1
g(x) = 3 x
0 , en otro caso



1.0
0.8
1
0.6 y=
(1 + x)2
0.4
0.2
0
0 0.5 1.0 1.5 2.0
Figura 1. Gráfica. Ejemplo 1.
cuyo soporte es el intervalo (0, 1) y notada, de acuerdo con la convención anterior,

como
2
g(x) =
1 , 0 < x < 1
3x 3
su primera y segunda derivadas g 0 (x), g"(x) y su gráfica (Fig. 2) son:
2
2 y= 3
√
3 x
Figura 2. Gráfica. Ejemplo 2.
−2 8
g 0 (x) = 4 , 0 < x < 1; g"(x) = 7 , 0<x<1
9x 3 27x 3
En este caso, g(x) cumple las propiedades pues
2
√ ≥ 0,
g(x) =
33 x
Z1 Z1
2 2 2
√
3
dx = lı́m √
3
dx = lı́m+ 1 − a 3 = 1
0 3 x a→0 +
a 3 x a→0

1.3. Función de distribución. La función de distribución F (x) de una variable aleatoria
X es una función F : R → [0, 1] definida por:
F (x) = P (X ≤ x), −∞ < x < ∞
Esta definición es común a las variables aleatorias discretas y continuas.
1.4. Propiedades de las distribuciones. Las siguientes son las propiedades más impor-
tantes de la función de distribución F (x) de una variable aleatoria X.
1. La distribución F (x) es monótona creciente, es decir, si x1 < x2 entonces F (x1 ) ≤

F (x2 ).
2. El límite de la distribución en −∞ es,
lı́m F (x) = 0
x→−∞
3. El límite de la distribución en +∞ es,
lı́m F (x) = 1
x→+∞
4. La función de distribución es continua por la derecha,
F (x + ) = lı́m+ F (y) = F (x)

y→x
1.5. Cálculo de probabilidades con F (x). Para el cálculo de probabilidades con F (x) se
utilizan las siguientes propiedades:
1. P (X > x) = 1 − F (x).
2. P (x1 < X ≤ x2 ) = F (x2 ) − F (x1 ).
3. P (X < x) = F (x − ).
4. P (X = x) = F (x + ) − F (x − )
Nota: En general las funciones de distribución son continuas, es decir, F (x + ) = F (x − ),
Z xtomar P (X = x) = 0.
por lo tanto se puede
5. F (x) = P (X ≤ x) = f (t) dt
−∞
0 dF (x)
6. F (x) = = f (x)
dx
2. Funciones de una variable aleatoria
Si una variable aleatoria X tiene una función de distribución continua F (x) y se define una
variable aleatoria Y como una función de X, es decir, Y = h(X), la función de distribución
G(y) de Y se puede obtener mediante la ecuación:
Z
G(y) = P (Y ≤ y) = P (h(X) ≤ y) = f (x) dx.
{x:h(x)≤y}

Si la distribución de la variable aleatoria Y tiene distribución continua, su función de densidad
se puede calcular a partir de:
dG(y)
g(y) = .
dy
En general, no existe un método para el cálculo de la nueva función de distribución, o de
densidad, sin embargo, si la función h(X) es estrictamente monótona, creciente o decreciente,
entonces Y varía en un intervalo (α, β) mientras X varía en un intervalo (a, b) (Fig. 3).
6 6
β y = h(x) β y = h(x)
α α
( ) - ( ) -
a b a b
Decreciente Creciente
Figura 3. Caso h(x) estrictamente monótona.
Si X es una variable aleatoria cuya función de densidad es f (x) y además P (a < X < b) = 1,
entonces si Y = h(X) y h(x) es continua y estrictamente creciente, o estrictamente decreciente
de tal forma que x ∈ (a, b) si y sólo si y ∈ (α, β) y X = h−1 (Y ), la función de densidad g(y)
se calcula mediante:

dh−1 (y)
−1

 f (h (y)) , α < y < β,


dy
g(y) =



0 en otro caso.


Ejemplo: Una fuente puntual emite rayos que alcanzan un objetivo. Si estos rayos se emiten
totalmente al azar, se puede considerar que el ángulo que forman con respecto al punto de
emisión está modelado por una variable aleatoria X que produce valores en [−π /2, π 2] cuya
densidad, en este rango, es f (x) = 1/π .
π π
α=− α=
2 2
z
α=0

El ángulo de incidencia α, del rayo sobre el objetivo define la variable aleatoria Y = g(X) =
tan(X). En este caso existe la función inversa g −1 (Y ) = arctan(Y ). De acuerdo con la fórmula

dg −1 (y)
−1
fY (y) = fX (g (y)) .

dy
reemplazando,
dg −1 (y) 1
=

1 + y2

dy
se obtiene, !
1 1 1
−1
fY (y) = fX (g (y)) = .

1 + y2 π 1 + y2
3. Esperanza de una variable aleatoria
Si una variable aleatoria X tiene una distribución continua cuya función de densidad es f (x),
entonces la Esperanza de X, notada E(X) (µ, µX ) se define por:
Z∞
E(X) = xf (x) dx
−∞
La condición matemática para la existencia de E(X) es la convergencia absoluta de la integral

que la define, es decir, E(X) existe, si y sólo si, existe la integral
Z∞
|x|f (x) dx.
−∞
Aunque hay semejanza entre la esperanza de una variable aleatoria y el concepto físico de
centro de gravedad, una función de densidad f (x) no necesariamente tiene una esperanza.
Supongamos que una variable aleatoria X tiene una función de densidad f (x) definida por:
1
f (x) = , −∞ < x < ∞
π (1 + x 2 )
Esta distribución se conoce como Distribución de Cauchy o como Distribución de Lorentz. Una
de sus aplicaciones se da en la prueba de programas de computación en los que algunos datos
extremos pueden activar reacciones adversas. La anterior densidad es el caso especial f (x; 0, 1)
de la distribución de Cauchy generalizada,
1
f (x; x0 , γ) = 2
x−x0
πγ 1 + γ
" #
1 γ
=
π (x − x0 )2 + γ 2
La función de densidad es simétrica y E(X) debería ser 0, pero la integral planteada para de-
terminar si existe E(X) es:
Z∞ Z∞
2 x
|x|f (x) dx = dx = ∞
−∞ π 0 1 + x2
Sin embargo, si existen a y b con −∞ < a < b < ∞, tales que P (a ≤ X ≤ b) = 1, entonces se
asegura la existencia de E(X).
0.15
0.10
x
0.05 y=
π(1 + x2 )
-3 -2 -1 1 2
-0.05
-0.10
-0.15
Figura 4. Cálculo de E(X).
3.1. Esperanza de una función. Si X es una variable aleatoria con función de densidad
f (x), entonces la esperanza (media, valor esperado) de una función Y = h(X) se puede evaluar
sin encontrar la función de densidad g(y) de Y . El valor E(h(X)) se calcula por:
Z∞ Z∞
E(h(X)) = h(x)f (x) dx = yg(y) dy
−∞ −∞
La esperanza E(h(X)) existe, si y sólo si, se cumple

Z∞
|h(x)|f (x) dx < ∞
−∞
3.2. Propiedades de la esperanza. Las principales propiedades de la esperanza son:
1. Si Y = aX + b con a y b constantes, entonces
E(Y ) = aE(X) + b
2. Si a es una constante tal que P (X ≥ a) = 1, entonces E(X) ≥ a.

3. Si b es una constante tal que P (X ≤ b) = 1, entonces E(X) ≤ b.
4. Si X1 , X2 , . . . , Xn son variables aleatorias con esperanzas E(X1 ), . . . , E(Xn ), entonces
E(X1 + X2 + . . . , Xn ) = E(X1 ) + E(X2 ) + · · · + E(Xn )
De las anteriores propiedades se deduce que si a y b son tales que P (a ≤ X ≤ b) = 1, entonces

a ≤ E(X) ≤ b.
3.3. Varianza, desviación típica y propiedades. Si X es una variable aleatoria con media
µ = E(X), la varianza de X, notada V (X), (Var(X), σ 2 , σX2 ) se define como sigue:
Var(x) = E((X − µ)2 )
Como la varianza es la media de una variable aleatoria no negativa, entonces Var(X) ≥ 0. Las
propiedades más importantes de la varianza son:
1. Var(X) = 0 si, y sólo si, existe una constante c tal que P (X = c) = 1.

2. Si a y b son constantes,
Var(aX + b) = a2 Var(X)
3. Var(X) = E(X 2 ) − (E(X))2
3.4. Función generadora de momentos. Si X es una variable aleatoria, se define para cada
número real t,
mX (t) = E(etX )
La función mX (t) se llama función generadora de momentos de X. Se puede demostrar que las
(n)
derivadas mX (t) de esta función satisfacen la relación:
n n
d d

(n) tX tX
mX (0) = E(e ) =E e
dt n t=0 dt n t=0
= E((X n etX )t=0 ) = E(X n )
La desigualdad de Tchebychev. Supongamos que se tiene una función de distribución

F (x), y que esta función de distribución tiene asociada una función de densidad f (x) (aunque
no es estrictamente necesaria esta condición), es decir, la ley de probabilidad es continua con
función de densidad f (x).
La desigualdad de Tchebychev establece que si tenemos una ley de probabilidad con media
finita µ y varianza finita σ 2 , entonces
1
F (µ + hσ ) − F (µ − hσ ) ≥ 1 −
h2
Los resultados de esta desigualdad son muy importantes, y muestran con gran claridad el papel
que juega la desviación estándar σ . En efecto, supongamos que tenemos una variable aleatoria
X con media y varianza finita, entonces la desigualdad es equivalente a
1
P (|X − µ| ≤ hσ ) ≥ 1 −
h2
Si se reemplaza h = 2, esta expresión indica que hay una probabilidad superior al 75 % de que
un valor observado de X caiga dentro de dos desviaciones estándar de la media. De manera
análoga, con probabilidad superior a 15/16 = 0.9375 un valor observado de X caerá dentro de
cuatro desviaciones estándar de la media, para esto basta hacer h = 4.
4. Las funciones Gamma y Beta
La función Gamma, ahora notada Γ , fue introducida por el matemático suizo Leonhard Euler
(1707–1783) con el propósito de generalizar el factorial a valores no enteros. Más tarde, debido
a su importancia, fue estudiada por matemáticos tan eminentes como Adrien-Marie Legendre
(1752–1833), Carl Friedrich Gauss (1777–1855), Christoph Gudermann (1798–1852), Joseph
Liouville (1809–1882), Karl Weierstrass (1815-1897) y Charles Hermite (1822–1901), entre otros.
La función gamma se utiliza no sólo en probabilidad sino en areas tales como series asintóticas,
Figura 5. Leonhard Euler (1707–1783)
integrales definidas, series hipergeométricas, teoría de números, etc.
4.1. La definición como integral. En 1730, Euler propuso la definición de Γ (x), para x > 0,
como la integral (integral de Euler de segunda especie),
Z1
Γ (x) = (− log(t))x−1 dt.
0
Sin embargo, ahora es utilizada efectuando uno de los cambios de variable, u = − log(t) ó
u2 = − log(t), con lo cual se obtienen las identidades,
Z∞ Z∞
2
Γ (x) = t x−1 e−t dt = 2 t 2x−1 e−t dt.
0 0
La notación Γ (x) se debe a Legendre (1809). Las derivadas se pueden obtener derivando bajo
el signo de integral,
Z∞
Γ 0 (x) = t x−1 e−t log(t) dt
0
Z∞
Γ (n) (x) = t x−1 e−t logn (t) dt
0

4.2. La ecuación funcional. Si se toma x = 1 se obtiene,
Z∞
Γ (1) = e−t dt = 1,
0
si x > 0, la integración por partes produce,

Z∞ ∞ Z∞
x −t x −t
Γ (x + 1) = t e dt = −t e + x t x−1 e−t dt = xΓ (x).
0 0 0
La relación Γ (x + 1) = xΓ (x) se denomina ecuación funcional de Γ (x). Esta tiene como conse-
cuencia que si n es un entero, entonces Γ (n + 1) = n!. Se puede demostrar que Γ (x) es la única
función tal que log(f (x)) es convexa y satisface las propiedades: f (1) = 1 y f (x + 1) = xf (x).
4.3. La función Beta. La función Beta de Euler (integral de Euler de primera especie), es
una función de dos variables, x, y > 0 notada B(x, y), definida por
Z1
B(x, y) = t x−1 (1 − t)y−1 dt.
0
Su principal propiedad la relaciona con la función Gamma mediante,

Γ (x) Γ (y)
B(x, y) = .
Γ (x + y)
Tal como la función Gamma está relacionada con los factoriales, la función Beta está relacionada
con los coeficientes binomiales por la igualdad,
!
n 1
= .
k (n + 1)B(n − k + 1, k + 1)
Para el cálculo de las derivadas se utiliza la ecuación,
!
∂ Γ 0 (x) Γ 0 (x + y)
B(x, y) = B(x, y) − = B(x, y)(ψ(x) − ψ(x + y)).
∂x Γ (x) Γ (x + y)

5. Principales distribuciones continuas
Este tema presenta las distribuciones de probabilidad más importantes y sus propiedades bá-
sicas. La notación utilizada se resume en la siguiente tabla:
Zb
Densidad de probabilidad f (x) P (a ≤ X ≤ b) = f (x)dx
a
Zx
Distribución de probabilidad F (x) = P (X ≤ x) = f (t)dt
−∞
Media µ = E(X)
Varianza σ 2 = E((X − µ)2 )
Sesgo β1 = E((X − µ)3 )/σ 3
Curtosis β2 = E((X − µ)4 )/σ 4
Función generadora m(t) = E(etX )

5.1. Distribución uniforme.
1
Densidad de probabilidad f (x) = , a≤x≤b
b−a
x−a
Distribución de probabilidad F (x) = , a≤x≤b
b−a
a+b
Media µ=
2
(b − a)2
Varianza σ2 =
12
Sesgo β1 = 0
Curtosis β2 = 9/5
ebt − eat
Función generadora m(t) =
(b − a)t
6
1 f (x)
b−a
-
a b x
Figura 6. Distribución uniforme en [a, b]

5.2. Distribución exponencial.
1 −x/β
Densidad de probabilidad f (x) = λe−λx = e , x ≥ 0, λ > 0, β > 0
β
Distribución de probabilidad F (x) = 1 − e−λx
Media µ = 1/λ = β
Varianza σ 2 = 1/λ2 = β2
Sesgo β1 = 2
Curtosis β2 = 9
λ
Función generadora m(t) =
λ−t
f (x)
2
λ=2
1.5
1 λ=1
0.5 λ = 0.5
x
0.5 1 1.5 2 2.5 3
Figura 7. Distribución exponencial.

5.3. Distribución Gamma.
x α−1 e−x/β
Densidad de probabilidad f (x) = , x ≥ 0, α > 0, β > 0
βα Γ (α)
Zx
Distribución de probabilidad F (x) = P (X ≤ x) = f (x)dx
−∞
Media µ = αβ
Varianza σ 2 = αβ2
√
Sesgo β1 = 2/ α
2

Curtosis β2 = 3 1 +
α
Función generadora m(t) = (1 − βt)α
f (x)
0.5
0.4
0.3 α = 1, β = 2
0.2
α = 2, β = 2
0.1
α = 4, β = 2 x
2 4 6 8 10 12
Figura 8. Distribución Gamma.

5.4. Distribución Beta.
Γ (α + β) α−1
Densidad de probabilidad f (x) = x (1 − x)β−1 , 0 ≤ x ≤ 1, α, β > 0
Γ (α)Γ (β)
Zx
−∞
α
Media µ=
α+β
αβ
Varianza σ2 =
(α + β)2 (α + β + 1)
p
2(β − α) α + β + 1
Sesgo β1 = p
αβ(α + β + 2)
3(α + β + 1)[2(α + β)2 + αβ(α + β − 6)]
Curtosis β2 =
αβ(α + β + 2)(α + β + 3)
Función generadora m(t) = 1 F1 (α; β; t)
α = 2, β = 4 α = 4, β = 2
2
1.5
0.5
0.2 0.4 0.6 0.8 1
Figura 9. Distribución Beta (α > 1, β > 1).
1.75
1.5 α = 0.2, β = 0.6

1.25
0.75 α = 0.5, β = 0.5

0.5
0.25 α = 0.2, β = 1
0.2 0.4 0.6 0.8 1
Figura 10. Distribución Beta (α, β < 1, (α − 1)(β − 1) < 0).

5.5. Distribución χ 2 (Chi-cuadrado).
e−x/2 x (n/2)−1
Densidad de probabilidad f (x) = , x ≥ 0, n ∈ {0, 1, 2, 3, . . . }
2n/2 Γ (n/2)
Zx
−∞
Media µ=n
Varianza σ 2 = 2n
p
Sesgo β1 = 2 2/n
12
Curtosis β2 = 3 +
n
Función generadora m(t) = (1 − 2t)−n/2 , t < 1/2
f (x)
0.15
0.1 n=4
0.05
n = 10 n = 20
x
10 20 30 40
Figura 11. Distribución χ 2 (Chi–cuadrado).

5.6. Distribución Weibull.
α α−1 (−x/β)α
Densidad de probabilidad f (x) = x e
βα
α
Distribución de probabilidad F (x) = 1 − e−(x/β)
1

Media µ = βΓ 1 +
α
2 1

Varianza σ 2 = β2 Γ 1 + − Γ2 1 +
α α
1 1 2 3

2Γ 3 1 + − 3Γ 1 + Γ 1+ +Γ 1+
α α α α
Sesgo β1 = 3/2
2 1

Γ 1+ − Γ2 1 +
α α
Curtosis β2 =

1 1 2 1 3 4
−3Γ 4 1 + α + 6Γ 2 1 + α Γ 1 + α − 4Γ 1 + α Γ 1 + α +Γ 1+ α
h i2
2 1
Γ 1+ α − Γ2 1 + α
Función generadora m(t) = No existe
f (x)
1.5
1.25 α = 0.5
1 α=3
0.75
0.5
0.25 α=1
x
0.5 1 1.5 2 2.5 3
Figura 12. Distribución Weibull (β = 1).

5.7. Distribución normal.
1 2 2
Densidad de probabilidad f (x) = √ e−(x−µ) /2σ , σ > 0
σ 2π
Zx
−∞
Media µ=µ
Varianza σ2 = σ2
Sesgo β1 = 0
Curtosis β2 = 3
!
σ 2t2
Función generadora m(t) = exp µt +
2
1.00 y
(x − µ)2 0.75 σ = 0.5

1 −
f (x) = √ e 2σ 2
σ 2π 0.50
σ=1
0.25
x
−2 −1 0 1 2
Figura 13. Distribución normal estándar (µ = 0, σ = 1, σ = 0.5).

5.8. Distribución t de Student.
!−(n+1)/2
1 Γ ((n + 1)/2) x2
Densidad de probabilidad f (x) = √ 1+ , n ∈ {0, 1, 2, 3, . . . }
nπ Γ (n/2) n
Zx
−∞
Media µ=0
n
Varianza σ2 = , n≥3
n−2
Sesgo β1 = 0, n≥4
6
Curtosis β2 = 3 + , n≥5
n−4
Función generadora m(t) = No existe
f (x)
0.4 n = 30
0.3
0.2
0.1
n=4
x
-4 -2 2 4
Figura 14. Distribución t de Student (n = 4, n = 30).

6. El sistema de distribuciones de Pearson
De acuerdo con las características ya anotadas acerca de las distribuciones especiales, en gene-
ral, las distribuciones de probabilidad conforman familias caracterizadas por sus parámetros
de localización (media: µ) y escala (varianza: σ 2 ). Así, dada una serie de observaciones, una
familia de distribuciones se puede hacer coincidir, con el grado de coincidencia deseado, con
la media observada (primer momento) y la varianza (segundo momento). Sin embargo, en el
comienzo del desarrollo de la teoría estadística, no existían métodos para construir distribu-
ciones de probabilidad que se ajustaran, con el grado de exactitud deseado, al sesgo (tercer
momento estandarizado: β1 ) y curtosis (cuarto momento estandarizado: β2 ) de las observacio-
nes obtenidas.
En su artículo de 1895, Contributions to the Mathematical Theory of Evolution. II. Skew Variation
Figura 15. Karl Pearson (1857 – 1936)
in Homogeneous Material, el matemático y estadístico Karl Pearson (Marzo 27, 1857 – Abril 27,
1936), considerado como el fundador de la Estadística Matemática, identificó cuatro tipos de
distribuciones (notadas I a IV) además de la distribución normal (originalmente conocida como
tipo V). La clasificación se hizo de acuerdo con el tipo de soporte: intervalo acotado, intervalo
semi infinito y la recta real. En un segundo artículo de 1901, Mathematical contributions to the
theory of evolution, X: Supplement to a memoir on skew variation, redefinió la distribución tipo
V (ahora conocida como gamma–inversa) e introdujo la distribución tipo VI, estos dos primeros
artículos cubren los cinco principales tipos de distribución. Finalmente, en un tercer artículo
escrito en 1916, Mathematical contributions to the theory of evolution, XIX: Second supplement
to a memoir on skew variation introdujo otros tipos y casos especiales (VII a XII).
Pearson definió los momentos de orden k, de una variable aleatoria X como,
µk0 = E(X k ), k = 0, 1, 2, 3, . . . µk = E(X − µ10 )k , k = 2, 3, . . .

y los coeficientes β1 = µ32 /µ23 , β2 = µ4 /µ22 , β3 = µ3 µ5 /µ24 .
La distribución normal la obtiene a partir de la binomial simétrica (p = 1/2),
1 n
!
n
f (k) =
k 2
al calcular la pendiente relativa de la curva de frecuencias,

1
f (k + 1) − f (k) k− 2 − 12 n
S= 1 = .
2 [f (k + 1) + f (k)] (n + 1)/4
de donde deduce que la distribución continua correspondiente satisface la ecuación diferencial,
d ln f (x) x − 12 n
= −
dx n/4
La solución es la distribución normal con media n/2 y varianza n/4.

Luego, Pearson analiza la distribuciones sesgadas a partir de la binomial sesgada (p ≠ 1/2) y la
distribución hipergeométrica. Para esta última demuestra que, de acuerdo con su aproximación
a la binomial de parámetros n y p = M/N,
!
n (Np)k (Nq)n−k
f (k) =
k Nn
en cuyo caso la pendiente relativa es
1
S = − y/(β1 + β2 y + β3 y 2 ), y = (x + − µ),
2
donde µ, β1 , β2 y β3 son constantes que dependen de los parámetros de la función de den-

sidad de la hipergeométrica. por lo tanto, al igual que el caso anterior, la densidad continua
correspondiente satisface la ecuación diferencial,
d ln f (x) x−α
= −
dx β1 + β2 x + β3 x 2
La solución depende del signo de β22 − 4β1 β3 y Pearson discute en gran detalle las diferentes
distribuciones y las clasifica en diversos tipos. El actuario Sir William Palin Elderton (1877-
1962), publicó en 1907 el resumen más utilizado de los resultados obtenidos por Pearson. Si
notamos f (x) como f , el sistema de Pearson basado en la ecuación diferencial
d ln f (x) x+a
= ,
dx b0 + b1 x + b2 x 2
se llega a la ecuación,
x r (b0 + b1 x + b2 x 2 )f 0 = x r (x + a)f
que, luego de integrar, se convierte en,
−b0 µr0 −1 − (r − 1)b1 µr0 − (r + 2)b2 µr0 +1 = µr0 +1 + aµr0 , r = 0, 1, 2, . . .

bajo la hipótesis de que x r (b0 + b1 x + b2 x 2 )f se anula en los extremos del soporte de f . Por lo
tanto, existe una correspondencia uno a uno entre a, b0 , b1 , b2 y los primeros cuatro momentos,
por lo tanto, f se determina de manera unívoca mediante los primeros cuatro momentos.
La solución depende de las raíces de la ecuación
b0 + b1 x + b2 x 2 = 0
es decir, depende de b12 /4b0 b2 , que, expresada en términos de los primeros cuatro momentos,
es
β1 (β2 + 3)2
κ=
4(2β2 − 3β1 − 6)(4β2 − 3β1 )
Pearson distingue inicialmente tres tipos, de acuerdo con las condiciones κ < 0, 0 < κ < 1 y
κ > 1. En el primer caso las raíces son reales y de signo diferente, en el segundo son complejas y
en el tercero son reales de igual signo. Los tipos correspondientes se conocen, respectivamente
como Tipo I, Tipo IV y Tipo VI. Además de los tipos principales, se construyeron los llamados
tipos de transición para κ = 0 y κ = 1 entre los que se encuentran la distribución normal y la
distribución Gamma.
Los diferentes tipos se pueden resumir, en forma simplificada, como
Tipo I
x m1 x m2

f (x) = k 1 + 1− , −a1 < x < a2 , m1 , m2 > −1
a1 a2
Un caso particular es la distribución beta de la primera clase.
Tipo II
!m
x2
f (x) = k 1 − 2 , −a < x < a, m > −1
a
Es una versión del tipo I. Un caso particular es la distribución uniforme.
Tipo III
x µa −µx

f (x) = k 1 + e , −a < x < ∞, µ, a > 0
a
Tiene como casos particulares la distribución gamma y la distribución chi-cuadrado
(χ 2 ).
Tipo IV
!−m
x2
f (x) = k 1 + 2 e−µ arctan(x/a) , −∞ < x < ∞, a, µ > 0.
a
Tipo V
f (x) = kx −q e−a/x , 0 < x < ∞, a > 0, q > 1
Se puede reducir, por una transformación, a una tipo III.

Tipo VI
f (x) = kx −q1 (x − a)q2 , a < x < ∞, q1 < 1, q2 > −1, q1 > q2 − 1
Tiene como casos particulares la distribución beta de segunda clase y la distribución

F de Fisher.
Tipo VII !−m
x2 1
f (x) = k 1 + 2 , −∞ < x < ∞, m >
a 2
Un caso particular es la distribución t de Student.
Tipo VIII
x −m

f (x) = k 1 + , −a < x ≤ 0, m > 1
a
Tipo IX
x m

f (x) = k 1 + , −a < x ≤ 0, m > −1
a
Tipo X
f (x) = ke−(x−m)/σ , m ≤ x < ∞, σ > 0
Una distribución exponencial.

Tipo XI
f (x) = kx −m , b ≤ x < ∞, m > 1
Un caso particular es la distribución de Pareto.

Tipo XII
x !m
1+ a1
f (x) = x , −a1 < x < a2 , |m| < 1
1− a2
Una versión del tipo I.
Las distribuciones más importantes para las aplicaciones son los tipos I, III, VI y VII.
De acuerdo con el valor κ criterio, las clasificaciones son:
κ = −∞ Tipo III
κ<0 Tipo I
Curva Normal si β2 = 3.
κ=0 Tipo II si β2 < 3.
Tipo VII si β2 > 3.
0<κ<1 Tipo IV
κ=1 Tipo V
κ>1 Tipo VI
κ=∞ Tipo III

7. Ejercicios generales
1. Si una variable aleatoria X tiene una función de densidad f (x) definida por:
 4 (1 − x 3 ) , 0 < x < 1,


f (x) = 3
0 en otro caso.


Calcular las siguientes probabilidades:
P (X < 1/2) P (1/4 < X < 3/4) P (X > 1/3)
 1 (9 − x 2 ) −3 ≤ x ≤ 3


f (x) = 36
0 en otro caso


Calcular las siguientes probabilidades:
P (X < 0) P (−1 ≤ X ≤ 1) P (X > 2)

 cx 2 1 ≤ x ≤ 2

f (x) =
 0

en otro caso
a) Calcular el valor de la constante c.

b) Calcular el valor P (X > 3/2).
 1x 0 < x < 4


f (x) = 8
 0

en otro caso
a) Calcular el valor t para el que P (X ≤ t) = 1/4.

b) Calcular el valor t para el que P (X ≥ t) = 1/2.

 ce−2x x > 0

f (x) =
0 en otro caso


a) Calcular el valor de la constante c.

b) Calcular el valor P (1 < X < 2).
6. Demostrar que no existe un valor c que convierta en función de densidad a la función
f (x) definida por:
c


 , x>0
f (x) = 1 + x
0 en otro caso



7. Si se escoge, completamente al azar, un número real X del intervalo [2, 10]
a) Encontrar la función de densidad f (x) y calcular el valor P (a ≤ X ≤ b) si [a, b] ⊂
[2, 10].
b) Calcular P (X > 5), P (5 < X < 7) y P (X 2 − 12X + 35 > 0).
8. Si se escoge, de manera aleatoria, un número real X del intervalo [2, 10] con una den-
sidad f (x) de la forma
f (x) = Cx, C constante
a) Calcular C.
b) Calcular P (a ≤ X ≤ b) si [a, b] ⊂ [2, 10].
c) Calcular P (X > 5), P (X < 7) y P (X 2 − 12X + 35 > 0).
d) Rehacer los cálculos anteriores si ahora f (x) = C/x.
9. Se lanza un dardo a un blanco circular de radio 10 cm. Si siempre se da en el blanco pero
el sitio de impacto se puede considerar seleccionado completamente al azar, calcular
la probabilidad de que el impacto se produzca,
a) A menos de 2 cm. del centro.
b) A menos de 2 cm. del borde.
c) en el primer cuadrante del blanco.
d) En el primer cuadrante y a menos de 2cm. del borde.
10. Suponga que una bombilla nueva dura t horas, con t aleatorio y función de densidad,
f (t) = λe−λt .
El valor λ se llama tasa de falla de la bombilla.

a) Si λ = 0.01, calcular la probabilidad de que una bombilla dure al menos T horas.
Esta probabilidad se denomina confiabilidad de la bombilla.
b) Calcular el valor T cuya confiabilidad es 1/2.
11. Un bombardero lleva tres bombas para destruir una carretera. Si la bomba cae a menos
de 40 metros de la carretera, la explosión afecta la vía y el tránsito se interrumpe. Un
dispositivo tipo láser envía la bomba una distancia X de la carretera cuya densidad
f (x) es:
100 + x

; −100 < x < 0



 10000



f (x) =


 100 − x ;



0 ≤ x < 100

10000
Si se utilizan las tres bombas, calcular la probabilidad de que la carretera resulte inu-
tilizada.
Si otra opción es llevar ocho bombas más livianas cuya efectividad está limitada a sólo
15 metros de la carretera, decidir si esta opción es mejor que la anterior.
12. Una variable aleatoria X tiene densidad f (x) = x/2 en el rango 0 < x < 2. Se toma una
muestra de tamaño 2. Calcular la probabilidad de que ambos valores sean mayores que
1. Si la muestra es de orden 3, calcular la probabilidad de que al menos 2 de los valores
sean mayores que 1.
13. Calcular la función generadora de momentos de la variable aleatoria X si su función de
densidad es f (x) = a e−ax , x > 0, y utilizarla para calcular la media y la varianza de
X.
14. Si X es una variable aleatoria cuya distribución es F (x) = x 3 , 0 ≤ x ≤ 1. Calcular (a)
P (X ≥ 1/2), (b) f (x). (c) E(X).
15. Para determinar el grado de inteligencia se mide el tiempo que tarda un ratón en re-
correr un laberinto para encontrar la comida (estímulo). El tiempo (en segundos) que
emplea un ratón es una variable aleatoria X con una función de densidad f (x) = b/x 2 ,
x ≥ b, donde b es el tiempo mínimo necesario para recorrer el laberinto.
(a) Demostrar que f (x) es una función de densidad. (b) Calcular F (x). (c) Si c > 0,
calcular P (X > b + c).
16. Una variable aleatoria X tiene densidad f (x) = 2x en 0 < x < 1, calcular las probabi-
lidades:
P (X < 1/2), P (1/4 < X < 1/2), P (X > 3/4), P (X > 3/4 | X > 1/2).
17. Si X es una variable aleatoria cuya densidad es f (x) = c/x 4 en el rango x > 1, calcular
los valores: c, µX y σX2 .
18. Si X tiene densidad f (x) = cx(1 − x) en 0 < x < 1, calcular los valores: c, P (X ≤ 1/2),
P (X ≤ 1/3), P (1/3 < X < 1/2), µX y σX2 .
19. Si X tiene densidad f (x) = cx 2 (1 − x)2 en 0 < x < 1, calcular los valores: c, µX y σX2 .
20. Si X es una variable aleatoria cuya densidad es
1
f (x) = , −∞ < x < ∞
2(1 + |x|)2
Graficar f (x), calcular P (−1 < X < 2), P (|X| > 1) y decidir si µX existe.
21. Definir una densidad utilizando f (x) = x(2 − x) en el rango 0 < x < 2. Calcular
P (a < X < b) en los casos: 0 < a < b < 2 y a < 0 < b < 2.
22. Si f (x) = 4x 3 cuando 0 < x < 1, comprobar que f (x) es una densidad y calcular el
valor a tal que P (X ≥ a) = P (X ≤ a). Calcular el valor b tal que P (X > b) = 0.05.
23. Una variable aleatoria X tiene densidad f (x) = (1/2)e−|x| en −∞ < x < ∞. Calcular el
valor x0 para el que F (x0 ) = 0.9.
24. La vida, en horas, de un componente eléctrico es una variable aleatoria cuya densidad
es f (x) = 100/x 2 en el rango x > 100. Calcular la probabilidad de que tres de estos
componentes sean reemplazados en las primeras 150 horas de funcionamiento.
25. Una máquina produce tornillos cuyos diámetros obedecen la distribución
f (x) = K(x − 0.24)2 (x − 0.26)2
en el rango 0.24 < x < 0.26. K es el valor necesario para que la integral de f (x) sobre
el rango sea 1. Los tornillos se descartan si sus diámetros se desvían de 0.25 en más
de 0.008. Calcular el porcentaje de producción que se descarta.
26. Un remoto surtidor de gasolina sólo puede ser atendido una vez por semana. Su volu-
men semanal de ventas, en miles de litros, es una variable aleatoria X cuya densidad
es f (x) = 5(1 − x)4 , en el rango 0 < x < 1. Cuál debe ser la capacidad mínima de al-
macenamiento si se quiere un 99 por ciento de seguridad de que en cualquier semana
no se agotarán las existencias.
27. Si la densidad de X es f (x) = (1 + x)/2 en el rango −1 < x < 1, calcular la densidad
de Y = X 2 .
28. Si X tiene densidad f (x) en el rango x > 0 y a > 0, calcular la densidad de Y = aX 2 +b.
29. Suponga que el radio X de un círculo es una variable aleatoria cuya densidad es f (x) =
(1/8)(3x + 1) en el rango 0 < x < 2. Si Y es el área del círculo, determinar su densidad
g(y).
30. Si X es una variable aleatoria cuya densidad es f (x) = 2e−2x en el rango x > 0,
determinar h(x) para que variable aleatoria Y = h(X) tenga una densidad constante
g(y) = 1/5 en [0, 5].
31. La función generadora de momentos mX (t) de X es mX (t) = (1/4)(3et + e−t ). Calcular
µX y σX2 .
32. Si mX (t) es la función generadora de momentos de la variable aleatoria X y se defi-
ne Y = aX + b, con a, b constantes, demostrar que mY (t) = ebt mX (at). Si X tiene
densidad f (x) = e−x , x > 0, encontrar mY (t) si Y = 3 − 2X.

8. Ejercicios sobre las distribuciones principales
1. La variación en la profundidad de un río de un día al otro, medida (en pies) en un sitio

específico, es una variable aleatoria X con la siguiente función de densidad:
f (x) = k, −2 ≤ x ≤ 2.
Determinar el valor de k y obtener la función de distribución para X.

2. El tiempo de viaje (ida y vuelta) de los camiones que transportan el concreto hacia una
obra de construcción en una carretera, está distribuido uniformemente en un intervalo
de 50 a 70 minutos. Calcular la probabilidad de que la duración del viaje sea mayor a
65 minutos si se sabe que la duración del viaje es mayor a 55 minutos.
3. Por experiencia, el señor Arenas sabe que el precio más bajo de una obra en construc-
ción puede considerarse como una variable aleatoria que tiene densidad uniforme
3 2C
f (x) = ; < x < 2C,
4C 3
donde C es su propia estimación del costo de la obra. Calcular el porcentaje que debe
agregar el señor Arenas a su costo estimado cuando presente ofertas a fin de maximizar
el valor esperado de su utilidad.
4. La cantidad de tiempo que un reloj funciona sin necesidad de ser ajustado es una
variable aleatoria que tiene una distribución exponencial con β = 50 días. Calcular las
probabilidades
a) El reloj debe ser ajustado en menos de 20 días.
b) El reloj no debe ser ajustado en 60 días, por lo menos.
5. Cierto sistema contiene tres componentes que funcionan independientemente unos
de otros y que están conectados en serie, de forma que el sistema falla tan pronto
como uno de los componentes falla. El tiempo de vida del primer componente, medido
en horas, tiene una distribución exponencial con parámetro λ = 0.001; el tiempo de
vida del segundo componente tiene una distribución exponencial con parámetro λ =
0.003 y el tiempo de vida del tercer componente tiene una distribución exponencial
con parámetro λ = 0.006. Determinar la probabilidad de que el sistema no falle antes
de las 100 horas.
6. Suponga que una variable aleatoria X tiene densidad y distribución f (x) y F (x), res-
pectivamente; además P (X > 0) = 1. Se define una función h como sigue:
f (x)
h(x) =
1 − F (x)
La función h se denomina tasa de fallas ó función de riesgo de X. Demostrar que si X
tiene una distribución exponencial, entonces la tasa de fallas h(x) es constante para
x > 0.
Nota: Si X significa tiempo de duración, el valor h(x) se puede interpretar como la
probabilidad de fallar un intervalo pequeño después de x, dado que la duración ha
sido x.
7. Suponga que cinco estudiantes van a realizar un examen independientemente unos de
otros y que el número de minutos que cualquier estudiante necesita para terminar el
examen tiene una distribución exponencial con media 80. Suponga que el examen co-
mienza a las nueve de la mañana. Calcular la probabilidad de que al menos uno de los
estudiantes termine antes de las diez menos veinte de la mañana.
Si el primer estudiante termina el examen a las nueve y veinticinco de la mañana, cal-
cular la probabilidad de que al menos otro estudiante termine antes de las diez de la
mañana.
Calcular la probabilidad de que ningún par de estudiantes termine el examen con una
diferencia de más de diez minutos uno del otro.
8. El tiempo, en horas, que tarda un gerente en entrevistar a un aspirante para un trabajo,
tiene una distribución exponencial con β = 1/2. Los aspirantes están programados en
intervalos de 15 minutos, empezando a las 8:00 a.m., y los aspirantes llegan exacta-
mente a tiempo. Si un aspirante citado para las 8:15 a.m. llega a la oficina del gerente,
calcular la probabilidad de que tenga que esperar para poder ver al gerente.
9. En cierta ciudad, el consumo diario de energía eléctrica (en megavatios) puede conside-
rarse como una variable aleatoria que tiene distribución Gamma con α = 3, β = 2. Si la
planta de energía de esa ciudad tiene una capacidad diaria de 12 megavatios, calcular
la probabilidad de que en día cualquiera el suministro de energía sea insuficiente.
10. Demostrar que si α > 1, la función de densidad Gamma tiene un máximo relativo en
x = β(α − 1).
11. Un distribuidor mayorista de gasolina dispone de tanques de almacenamiento que con-
tienen una cantidad fija y se llenan cada lunes. La proporción de esta reserva que se
vende se puede representar por una distribución beta con α = 4 y β = 2. Calcular
la probabilidad de que el mayorista venda al menos 90 % de su reserva durante una
semana dada.

12. La humedad relativa X, medida en cierto lugar, tiene una función de densidad de pro-
babilidad dada por:
f (x) = kx 3 (1 − x)2 , 0 ≤ y ≤ 1.
Calcular el valor de k que hace de f (x) una función de densidad.

13. El porcentaje de impurezas por unidad de producción en cierto producto químico es
una variable aleatoria X que tiene una función de densidad
f (x) = 12x 2 (1 − x), 0 ≤ x ≤ 1.
Una unidad de producción con más de 40 % de impurezas no se puede vender. Calcular

la probabilidad de que una unidad de producción seleccionada al azar no se pueda
vender porque hay demasiadas impurezas.
14. Verificar que la distribución beta se reduce a una distribución uniforme si α = β = 1.
15. La proporción de unidades defectuosas embarcadas por un vendedor puede conside-
rarse como una variable aleatoria de distribución beta con α = 1 y β = 4.
a) Calcular el porcentaje promedio de unidades defectuosas en un embarque cual-
quiera.
b) Calcular la probabilidad de que un embarque cualquiera contenga más del 25 % de
unidades defectuosas.
16. El tiempo requerido para presentar un examen de aprovechamiento tiene una distribu-
ción normal con una media de 70 minutos y una desviación estándar de 12 minutos.
Calcular el tiempo de duración del examen si se quiere que hay suficiente tiempo para
que termine el 90 % de los estudiantes.
17. Una fábrica utiliza 3000 focos que tienen una duración aleatoria con distribución nor-
mal de media 500 horas y desviación estándar de 50 horas. Para minimizar el número
de focos que se funden durante las horas de trabajo, se decide reemplazarlos luego de
cierto tiempo de operación. Calcular la frecuencia con la que deben reemplazarse los
focos si no se desea que se fundan más del 1 % de ellos entre los períodos de reemplazo.
18. Si una variable aleatoria Z tiene distribución normal estándar, calcular las probabilida-
des:
P (Z < 1.5) P (Z > 2.16)
P (Z < −1.2) P (Z > −1.75)

19. Si una variable aleatoria Z tiene distribución normal estándar, calcular las probabilida-
des:
P (0 ≤ Z ≤ 2.7) P (−1.35 ≤ Z ≤ −0.35)
P (1.22 ≤ Z ≤ 2.43) P (−1.70 ≤ Z ≤ 1.35)

20. Si una variable aleatoria Z tiene distribución normal estandarizada, calcular, en cada
caso, el valor de z que cumple:
P (Z ≤ z) = 0.9911 P (Z ≤ z) = 0.0217
P (Z ≥ z) = 0.6443 P (−z ≤ Z ≤ z) = 0.9298
21. Si una variable aleatoria X tiene distribución normal con media µ = 62.4, calcular el
valor de σ si se sabe que P (X ≥ 79.2) = 0.20.
22. Si una variable aleatoria X tiene distribución normal con desviación estándar σ = 10 y
se sabe que P (X ≤ 82.5) = 0.8212, calcular la probabilidad P (X ≥ 58.3).
23. Si X tiene una distribución Weibull con α = 0.2 y β = 100 horas. Determinar la media
y la varianza de de X.
24. Si X tiene una distribución Weibull con α = 0.2 y β = 100 horas. Determinar la proba-
bilidades P (X < 10000 y P (X > 5000).
25. Si el tiempo de vida de un rodamiento sigue una distribución Weibull con parámetros
α = 2 y β = 10000 horas,
a) Calcular la probabilidad de que la vida de un rodamiento supere las 8000 horas.
b) Calcular el tiempo promedio de vida de un rodamiento hasta fallar.
c) Si un mecanismo usa 10 de estos rodamientos y las fallas ocurren en forma inde-
pendiente, calcular la probabilidad de que todos los 10 rodamientos superen las
8000 horas de uso.
26. La vida (en horas) de un CPU se modela por una distribución Weibull con parámetros
α = 3 y β = 900 horas.
a) Calcular el tiempo medio vida de tales CPU.
b) Calcular la varianza de la vida del CPU.
c) Calcular la probabilidad de que el CPU falle antes de 500 horas de uso.
27. Un disco magnético sellado se usa en un medio expuesto a contaminación. La vida útil
de este disco tiene una distribución Weibull con α = 0.5 y una media de 600 horas.
a) Calcular la probabilidad de que el disco dura más de 500 horas.
b) Calcular la probabilidad de que el disco falla antes de 400 horas.
28. La vida de una bomba neumática sigue una distribución Weibull con parámetros α = 2
y β = 700 horas.
a) Determinar la vida media de la bomba.
b) Determinar la varianza de la vida de la bomba.
c) Calcular la probabilidad de que la bombe supere su vida media.
29. La vida (en horas) de un tomógrafo se modela por una distribución Weibull con pará-
metros α = 2 y β = 500 horas.
a) Determinar la vida media del tomógrafo.
b) Determinar la varianza de la vida del tomógrafo.
c) Calcular la probabilidad de que el tomógrafo falle antes de 250 horas.
30. Si X es una variable aleatoria Weibull con α = 1 y β = 100, con qué tipo de distribución
coincide y cuál es su media.
31. Si a, b0 , b1 , b2 son constantes reales, las soluciones fX (x) de la ecuación diferencial
d fX (x) (x − a)fX (x)

=
dx b0 + b1 x + b2 x 2
que son distribuciones de probabilidad, se denominan distribuciones de de Pearson.

Demostrar que si µk = E(X − E(X))k , entonces,
a)
−µ3 (µ4 + 3µ22 )
a=
A
b)
−µ2 (4µ2 µ4 − 3µ32 )
b0 =
A
c)
−µ3 (µ4 + 3µ22 )
b1 =
A
d)
−(2µ2 µ4 − 3µ32 − 6µ23 )
b2 =
A
donde A = 10µ4 µ2 − 18µ22 − 12µ32 .
32. Demostrar que las distribuciones normal, gamma y beta son distribuciones de Pearson.
Respuestas. Ejercicios generales.
1. P (X < 1/2) = 31/48, P (1/4 < X < 3/4) = 9/16, P (X > 1/3) = 136/243.
2. P (X < 0) = 1/2, P (−1 ≤ X ≤ 1) = 13/27, P (X > 2) = 2/27.
3. c = 3/7, P (X > 3/2) = 37/56.
√
4. (a) t = 2, (b) t = 2 2.
5. c = 2, P (1 < X < 2) = e−4 (e2 − 1) ≈ 0.1170196443.
Rb
6. lı́mb→∞ 0 c/(1 + x) dx = lı́mb→∞ c(ln b + 1) no existe.
7. f (x) = 1/8, P (a ≤ X ≤ b) = (b − a)/8, P (X > 5) = 5/8, P (5 < X < 7) = 1/4,
P (X 2 − 12X + 35 > 0) = P ((X − 5)(X − 7) > 0) = 3/4.
8. c = 1/48, P (X > 5) = 25/32, P (X < 7) = 15/32, P (a ≤ X ≤ b) = (b2 − a2 )/96,
P (X 2 − 12X + 35 > 0) = P ((X − 5)(X − 7) > 0) = 3/4.
c = 1/ ln(5), ln(7/2)/ ln(5) ≈ 0.77838534,
− ln(7/10)/ ln(5) ≈ 0.2216146, − ln(7/25)/ ln(5) ≈ 0.790938.
9. (a) 1/25, (b) 9/25, (c) 1/4 (d) 9/100.
10. e−T /100 , T = 100 ln(2) ≈ 69.31471805
11. 16/25, 1 − (9/25)3 = 14896/15625 ≈ 0.953344, 1 − (289/400)8 ≈ 0.9257489137.
12. 1/16, 5/32.
13. a/(a − t), µ = 1/a, σ 2 = 1/a2 .
14. (a) P (X ≥ 1/2) = 1 − F (1/2) = 7/8, (b) f (x) = 3x 2 , (c) E(X) = 3/4.
15. F (x) = b((1/b) − (1/x)), P (X > b + c) = c/(b + c)
16. P (X < 1/2) = 1/4, P (X > 3/4) = 7/16, P (1/4 < X < 1/2) = 3/16,
P (X > 3/4 | X > 1/2) = 7/12.
17. c = 3, µ = 3/2, σ 2 = 3/4.
18. c = 6, P (X ≤ 1/2) = 1/2, P (X ≤ 1/3) = 7/27, P (1/3 < X < 1/2) = 13/54, µ = 1/2,
σ 2 = 1/20.
19. c = 30, µ = 1/2, σ 2 = 1/28.
20. P (−1 < X < 2) = 7/12, P (|X| > 1) = 1/2, No existe.
21. f (x) = kx(2 − x), k = 3/4, P (a < X < b) = (1/4)(a − b)(a2 + b2 + ab − 3a − 3b), 0 <
a < b < 2, P (a < X < b) = (1/4)b2 (3 − b), a < 0 < b < 2.
22. a = 23/4 /2 ≈ 0.8408964152, b = 95001/4 /10 ≈ 0.9872585449.
23. x0 = ln(5) ≈ 1.609437912.
24. (1/3)3 = 1/27.
25. K = 9375 × 106 = 9375000000, 1 − 6143/6250 = 107/250 ≈ 0.01712.
26. Capacidad =0.6018928294 (601.89 litros)
p √
27. G(y) = √ y, g(y) = 1/(2 y), 0 < y < 1.
Z (y−b)/a
28. g(y) = f (x) dx, y > b
0 √ √ √ √ √
2 π +3 y y π +3 y
29. G(y) = , g(y) = √ .
16 π 16 π y
−1 + eX 1 + eX

30. h(X) =
e2 X

Capı́tulo 4
Variables aleatorias bidimensionales
1. Funciones de densidad y de distribución
1.1. La función de densidad. Dos variables aleatorias X1 , X2 están distribuidas de manera

conjunta si existe una función f no negativa f (x1 , x2 ) ≥ 0, para −∞ < x1 , x2 < ∞ tal que si E
es un evento
ZZ
P (E) = P ((X1 , X2 ) ∈ E) = f (x1 , x2 )dx2 dx1
E
la función de dos variables, f (x1 , x2 ) se llama función de densidad conjunta para las variables
aleatorias X1 , X2 . La función de densidad cumple las propiedades:
f (x1 , x2 ) ≥ 0, −∞ < x1 < ∞, −∞ < x2 < ∞
Z∞ Z∞
f (x1 , x2 )dx1 dx2 = 1
−∞ −∞
Ejemplo: Suponga que la función de densidad de X1 y X2 es


cx12 x2 , x12 ≤ x2 ≤ 1


f (x1 , x2 ) =

0
 en otro caso
Se requiere calcular el valor de la constante c y la probabilidad P (X1 ≥ X2 ). En la Figura 1. se

puede observar la región S donde f (x1 , x2 ) > 0.
Para calcular el valor de la constante c se plantea la integral doble
Z∞ Z∞ ZZ
f (x1 , x2 )dx1 dx2 = f (x1 , x2 )dx1 dx2
−∞ −∞ S
Z1 Z1
4
= cx12 x2 dx1 dx2 = c
−1 x2 21
95
x2
2 x2 = x21
(−1, 1) 1 (1, 1)
-3 -2 -1 1 2 x1
Figura 1. Región S donde f (x1 , x2 ) > 0.
Por lo tanto, el valor de c debe ser 21/4. Para calcular la probabilidad P (X1 ≥ X2 ) se determina
la región S0 ⊂ S en donde se cumple x1 ≥ x2 (Figura 2)
Z 1 Z x2
21 2 3
ZZ
P (X1 ≥ X2 ) = f (x1 , x2 )dx1 dx2 = x1 x2 dx1 dx2 =
S0 0 x12 4 20
x2
x2 = x21
2
x1 = x2
(−1, 1) 1 (1, 1)
S0
-3 -2 -1 1 2 x1
Figura 2. S0 = {(x1 , x2 ) ∈ S : x1 ≥ x2 }.
1.2. La función de distribución. La función acumulativa o de distribución conjunta para

X1 , X2 se define como Z x1 Z x2
F (x1 , x2 ) = f (x1 , x2 )dx2 dx1 .
−∞ −∞
Si se conoce la distribución F (x1 , x2 ), la densidad de probabilidad se puede conocer mediante
∂2
f (x1 , x2 ) = F (x1 , x2 ).
∂x1 ∂x2
El símbolo ∂ indica derivada parcial.
1.3. Esperanza. Si g(X1 , X2 ) es una función de las variables aleatorias continuas X1 , X2 ,

la esperanza se define por
Z∞ Z∞
E(g(X1 , X2 )) = g(x1 , x2 )f (x1 , x2 )dx2 dx1 .
−∞ −∞
1.4. Densidades marginales. Si X1 , X2 son variables aleatorias continuas con función de

densidad conjunta f (x1 , x2 ), las densidades marginales g(x1 ), g(x2 ), de X1 , X2 son, respecti-
vamente,
Z∞ Z∞
g(x1 ) = f (x1 , x2 )dx2 , g(x2 ) = f (x1 , x2 )dx1
−∞ −∞
Las densidades marginales se definen mediante la función de densidad conjunta, pero las den-
sidades marginales no caracterizan la densidad conjunta.
Ejemplo: Las funciones de densidad conjunta g(x, y) = x + y y h(x, y) = (x + 12 )(y + 12 )
definidas en 0 ≤ x ≤ 1, 0 ≤ y ≤ 1, tienen las mismas densidades marginales
Z1 !y=1
y2 1
gx (x) = g(x, y)dy = xy + =x+

0 2 2 y=0
Z1 !y=1
1 y2 y 1

hx (x) = h(x, y)dy = x+ + =x+

0 2 2 2
y=0
2
Por simetría, gy (y) tiene la misma forma de gx (x), igualmente hy (y) y hx (x) son similares.
2. Densidades condicionales
Si X1 , X2 son variables aleatorias con densidad conjunta f (x1 , x2 ) y densidades marginales

g(x1 ) y g(x2 ), las densidades de (X1 | X2 = x2 ), (X2 | X1 = x1 ) son, respectivamente
f (x1 , x2 )
f (x1 | x2 ) =
g(x2 )
f (x1 , x2 )
f (x2 | x1 ) =
g(x1 )
siempre y cuando el denominador sea diferente de cero. Las funciones de densidad f (x1 | x2 )
y f (x2 | x1 ) se denominan densidades condicionales.
Ejemplo: Si dos variables aleatorias X, Y tienen función de densidad conjunta
f (x, y) = k(x − y)2 , 0 ≤ y ≤ x ≤ 6,
al calcular las densidades marginales y condicionales se obtienen los siguientes resultados:

kx 3 k(6 − y)3
fX (x) = , fY (y) = ,
3 3
3(x − y)2 3(x − y)2
f (y | x) = , f (x | y) = .
x3 (6 − y)3

2.1. Independencia. Si X1 , X2 son variables aleatorias con distribución conjunta f (x1 , x2 )
y densidades marginales g(x1 ) y g(x2 ), entonces se llaman independientes si y sólo si se
cumple:
f (x1 , x2 ) = g(x1 ) g(x2 )
De la definición de esperanza, se puede deducir que si X1 , X2 son independientes
E(X1 X2 ) = E(X1 )E(X2 ).
Si dos variables aleatorias no cumplen con la propiedad de independencia se llaman depen-

dientes.
2.2. El coeficiente de correlación. Si X1 , X2 son variables aleatorias, con µ1 = E(X1 ),

µ2 = E(X2 ), se llama covarianza de X1 y X2 al valor σ12 definido por
σ12 = E[(X1 − µ1 )(X2 − µ2 )]
El valor σ12 también se puede expresar como
σ12 = E(X1 .X2 ) − E(X1 )E(X2 )
por lo tanto, cuando X1 , X2 son independientes σ12 = 0. Sin embargo, existen pares de variables
X1 , X2 , dependientes tales que σ12 = 0.
Si σ1 y σ2 son las desviaciones estándar de X1 y X2 entonces existe un valor ρ12 que cumple
σ12 = ρ12 σ1 σ2
tal valor ρ12 = σ12 /(σ1 σ2 ) se llama coeficiente de correlación de X1 y X2 . Además, cumple la
desigualdad |ρ12 | ≤ 1
2.3. Funciones de dos variables aleatorias. Si X, Y son variables aleatorias, se puede

definir una nueva variable aleatoria Z por una función h(X, Y ). De esta nueva variable aleatoria
se precisa obtener su función de densidad g(z) y su distribución G(z), así como los valores
asociados E(Z), V (Z).
Para resolver el problema planteado se utiliza una propiedad más general cuyo enunciado es,
Proposición 2.1. Sean X, Y son variables aleatorias continuas con densidad de probabilidad
conjunta f (x, y) y Z1 = h1 (X, Y ), Z2 = h2 (X, Y ) tales que definen una transformación uno
a uno entre los puntos (x, y) y (z1 , z2 ) de tal forma que las ecuaciones z1 = h1 (x, y), z2 =
h2 (x, y) pueden resolverse de manera única para x, y en términos de z1 , z2 , por ejemplo, con
x = g1 (z1 , z2 ), y = g2 (z1 , z2 ). Entonces la función de densidad conjunta de (Z1 , Z2 ) es:
g(z1 , z2 ) = f (g1 (z1 , z2 ), g2 (z1 , z2 ))|J|

siendo |J| el valor absoluto del determinante 2 × 2, (Jacobiano)

∂x/∂z1 ∂x/∂z2
J=

∂y/∂z ∂y/∂z

1 2
Este resultado es útil si se quiere encontrar la densidad de una variable aleatoria Z = h1 (X, Y )
donde X, Y son variables aleatorias continuas con densidad conjunta f (x, y). Simplemente
se define otra función, por ejemplo, W = h2 (X, Y ), manteniendo una correspondencia uno a
uno entre los puntos (x, y) y (z, w) se obtiene la densidad conjunta g(z, w). La densidad de
probabilidad de Z es la densidad marginal hZ (z), en ese caso, la densidad de probabilidad g(z)
de Z = h1 (X, Y ) es,
Z∞
g(z) = gZ (z) = g(z, w) dw
−∞
Ejemplo: Si X, Y son variables aleatorias con función de densidad conjunta f (x, y) y se define
Z = X + Y , entonces, tomando, por ejemplo, W = X − Y que conserva la correspondencia uno
a uno por medio de la solución X = (Z + W )/2, Y = (Z − W )/2, se obtiene
 
 1/2 1/2 
J=  , |J| = | − 1/4 − 1/4| = 1/2
1/2 −1/2
al aplicar la proposición, la densidad conjunta de (Z, W ) es,
1 z+w z−w

g(z, w) = f ,
2 2 2
por lo tanto, la densidad de probabilidad de Z se puede expresar como,

Z∞
1 z+w z−w

g(z) = gZ (z) = f , dw
−∞ 2 2 2
2.4. Valor esperado condicional e iterado. Si X, Y son variables aleatorias cuya densidad
conjunta es f (x, y), la determinación de la densidad condicional fX|y de la variable aleatoria
(X | Y ) permite calcular el valor esperado E(X | Y ).
Definición 11. Dadas X, Y , variables aleatorias, el valor esperado condicional E(X | Y ) es


X
 xfX|Y (x|y) X discreta




E(X | Y ) = Zx

 ∞
xfX|Y (x|y)dx X continua



−∞
Una propiedad general que incluye a la variable aleatoria (X | Y ) como caso particular es,
Proposición 2.2 (Ley del valor esperado iterado.). Si X, Y son variables aleatorias con densidad
conjunta f (x, y), entonces
E[g(X, Y )] = EY {E[g(X, Y ) | Y ]}
Demostración:
Por definición, si X, Y son continuas,
ZZ
E[g(X, Y )] = g(x, y)f (x, y) dy dx
ZZ
= g(x, y)fX|Y fY (y) dy dx
Z Z
= g(x, y)fX|Y (x|y)dx fY (y) dy
Z
= E[g(X, Y )|y]fY (y) dy
=E{E[g(X, Y ) | Y ]}
Como caso particular importante tenemos g(X, Y ) = X. Si X, Y son discretas, la demostración

es análoga, reemplazando las integrales por sumas.
Ejemplo: Supongamos que sobre el intervalo [0, L] se van a marcar dos puntos, completamente
al azar, es decir, las variables aleatorias que definen las dos divisiones deben ser uniformes. Si
Y es el primer punto. fY (y) = 1/L, si X es el segundo punto, entonces, dado que Y = y, la
densidad condicional es fX|Y (x|y) = 1/y en [0, y]. Como E[X | Y = y] = y/2, entonces si se
define g(X, Y ) = Y /2, de acuerdo con la propiedad ya demostrada,
E[X] = E[E[X | Y ]] = E[Y /2] = E[Y ]/2 = L/4
2.5. Ejemplo. Supongamos que X, Y son variables aleatorias cuya función de densidad es
f (x, y) = 2, x ≥ 0, y ≥ 0, x + y ≤ 1.
La siguiente serie de cálculos ilustra la forma de aplicación de la ley del valor esperado iterado.
Z∞
fY (y) = f (x, y)dx
−∞
Z 1−y
= 2 dx = 2(1 − y), 0 ≤ y ≤ 1
0
f (x, y) 1
fX|Y (x|y) = = , 0≤x ≤1−y
fY (y) 1−y
1−y
E[X | Y = y] = , 0≤y ≤1
2
1−Y
E[X | Y ] =
2
1 − E[Y ]
E[X] =E[E[X | Y ]] =
2
Como por simetría, E[X] = E[Y ], entonces,
1 − E[X]
E[X] = , E[X] = 1/3
2
Existe también una propiedad que relaciona la varianza V (X) de X con la varianza de (X | Y ),
el enunciado es,
Proposición 2.3 (Ley de las varianzas condicionales). Si X, Y son variables aleatorias,
V (X) = E[V [X | Y ]] + V [E[X | Y ]].
Ejemplo: En el caso de la división del intervalo [0, L], ya se calculó E[X], ahora se calculará
V (X). Se conoce que E[X | Y ] = Y /2, como Y tiene densidad uniforme en [0, L],
σY2 L2
V [E[X | Y ]] = V [Y /2] = = .
4 48
Por otra parte, dada Y , la variable X tiene densidad uniforme en [0, Y ], es decir,
Y2
V [X | Y ] =
12
y como Y es uniforme en [0, L],

" # ZL
Y2 1 1 2 L2
E[V [X | Y ]] = E = y dy = .
12 12 0 L 36
Aplicando la ley de las varianzas condicionales,
L2 L2 7L2
σX2 = E[V [X | Y ]] + V [E[X | Y ]] = + =
36 48 144
3. Ejercicios
1. Si las variables aleatorias X, Y tienen una densidad conjunta f (x, y) definida por

 cy 2 , 0 ≤ x ≤ 2, 0 ≤ y ≤ 1,

f (x, y) =
 0,

en otro caso.
Calcular:
a) El valor de la constante c.
b) Las probabilidades: P (X + Y > 2), P (Y < 1/2), P (X ≤ 1), P (X = 3Y ).

 c(x 2 + y), 0 ≤ y ≤ 1 − x 2 ,

f (x, y) =
0, en otro caso.


Calcular:
b) Las probabilidades: P (0 ≤ X ≤ 1/2), P (Y ≤ X + 1), P (Y ≥ 3X 2 ).
3. Si X, Y son variables aleatorias con función de densidad f (x, y) definida por

 c, 0 < |y| < x < 1,

f (x, y) =

Calcular:
b) Las densidades marginales fX (x), fY (y) y las medias E(X), E(Y ).
4. Si X, Y son variables aleatorias con función de densidad f (x, y) definida por

 6e−2x−3y , x > 0, y > 0,

f (x, y) =
0, en otro caso.


Calcular:
a) La probabilidad P (X ≤ x, Y ≤ y).
b) Las densidades marginales fX (x), fY (y).

 c(x 2 + 4xy), 0 < x < 1, 0 < y < 1,

f (x, y) =
0, en otro caso.


Calcular:
b) Las probabilidades: P (X ≤ a); 0 < a < 1, P (Y ≤ b); 0 < b < 1.

6. Si X y Y tienen la función de densidad de probabilidad conjunta dada por

Kxy, 0 ≤ x ≤ 1; 0 ≤ y ≤ 1


f (x, y) =

0,
 en otro caso
a) Obtener el valor de K que hace que esta sea una función de densidad de probabili-
dad.
b) Obtener las funciones de densidad marginales para X y Y .
c) Calcular P (X ≤ 1/2 | Y ≥ 3/4).
d) Calcular P (X ≤ 3/4 | Y = 1/2).
7. Sean X y Y las proporciones de tiempo, en un día de trabajo, que los empleados I y II,
respectivamente, ocupan realmente en hacer sus tareas asignadas. El comportamiento
de las frecuencias relativas conjuntas de X y Y se representa por el modelo de la función
de densidad 
x + y, 0 ≤ x ≤ 1; 0 ≤ y ≤ 1


f (x, y) =

0,
 en otro caso
a) Calcular P (X < 1/2, Y > 1/4).

b) Calcular P (X + Y ≤ 1).
c) Obtener las funciones de densidad marginales para X y Y .
d) Calcular P (X ≥ 1/2 | Y ≥ 1/2).
8. Demostrar que si X, Y tienen distribución conjunta F (x, y), entonces,
P (a ≤ X ≤ b, c ≤ Y ≤ d) = [F (b, d) − F (a, d)] − [F (b, c) − F (a, c)]
9. Si las variables aleatorias X, Y tienen una distribución conjunta F (x, y) definida por
1
F (x, y) = xy(x 2 + y); 0 ≤ x ≤ 3, 0 ≤ y ≤ 4.
156
Calcular:
a) La probabilidad P (1 ≤ X ≤ 2, 1 ≤ Y ≤ 2).
b) La función de densidad f (x, y).
10. Si la densidad conjunta de dos variables aleatorias X, Y es:
3
f (x, y) = (4 − 2x − y), x > 0, y > 0, 2x + y < 4.
16
Calcular:
a) La densidad condicional f (y | x) de Y dado X = x.
1

b) La probabilidad P Y > 2 | X = .
4
11. Si X y Y tienen distribución conjunta

 3 y 2 , 0 ≤ x ≤ 2, 0 ≤ y ≤ 1


2
f (x, y) =

0
 en otro caso
a) Calcular las densidades marginales de X y Y .

b) Determinar si X, Y son independientes.
c) Determinar si los eventos {X < 1} y {Y ≥ 1/2} son independientes.
12. Si X y Y tienen distribución conjunta
15 2
f (x, y) = x , 0 ≤ y ≤ 1 − x2
4
a) Calcular las densidades marginales de X y Y .

b) Determinar si X, Y son independientes.
13. Suponga que dos personas tienen una cita para verse entre las 5 y las 6 de la tarde en
un sitio y se ponen de acuerdo en que ninguna esperará a la otra más de 10 minutos.
Si llegan independientemente en tiempos aleatorios entre las cinco y las 6 de la tarde,
calcular la probabilidad de que se vean.
14. Se selecciona al azar un punto (X, Y ) del círculo S definido por
S = {(x, y) : (x − 1)2 + (y + 2)2 ≤ 9}
a) Determinar la densidad condicional de Y dado X = x.

b) Calcular P (Y > 0 | X = 2)
15. En un sistema electrónico operan conjuntamente dos componentes de dos tipos dife-
rentes. Sean X y Y la duración aleatoria, en cientos de horas, de los componentes I y II,
respectivamente, La función de densidad conjunta está dada por

1
 xe−(x+y)/2 , x > 0; y > 0


f (x, y) = 8

0,

en otro caso
a) Calcular P (X > 1, Y > 1).

b) Calcular la probabilidad de que un componente del tipo II tenga una duración de
más de 200 horas.
16. Si X, Y tienen densidad conjunta f (x, y) = c en −6 < x < 6, −6 < y < 6. Calcular
E[Y | X].
17. En cada uno de los siguientes casos, calcular E[Y | X] y E[X | Y ], conociendo la función
de densidad f (x, y).
a) f (x, y) = x + y, 0 < x < 1, 0 < y < 1.
b) f (x, y) = 2(x + y), 0 < x < y < 1.
c) f (x, y) = 6x 2 y, 0 < x < 1, 0 < y < 1.
d) f (x, y) = 15x 2 y, 0 < x < y < 1.
18. Se lanzan dos dados corrientes y se anotan los resultados (X1 , X2 ). Se definen Y =
X1 + X2 la suma de los dados y U = mı́n{X1 , X2 } el mínimo valor. Calcular los valores
esperados,
a) E[Y | X1 ], E[U | X1 ], E[X2 | X1 ].
b) E[Y | U].
4. Distribuciones de funciones de variables aleatorias
Es muy frecuente que la variable de entrada a un sistema sea transformada, después de su

análisis, en una nueva variable Y , como por ejemplo en la conversión de una señal analógica en
otra digital. En consecuencia es necesario estudiar el tipo de transformaciones pueden consi-
derarse variables aleatorias y calcular sus distribuciones. Dada una variable aleatoria X y una
función g : R → R, entonces la función de distribución de la nueva variable aleatoria Y = g(X)
viene dada por
F (y) = P (Y ≤ y) = P [g(X) ≤ y] = P (X ∈ g −1 (−∞, y]).
Si X es una variable aleatoria discreta que toma los valores xi con probabilidades pi , la nueva
variable Y = g(X) es también discreta con función de probabilidad:
X
pj = P (Y = yj ) = P (g(X) = yj ) = P (xi tal que g(xi ) = yj ).
i
Los resultados más importantes acerca de la transformación de variables aleatorias ya han sido
enunciados,
1. Si la variable aleatoria X es continua con función de densidad fX y la función g es

continua y monótona, con inversa g −1 , la función de densidad de la variable Y = g(X)
puede calcularse como

dg −1 (y)
−1
fY (y) = fX (g (y)) .

dy
2. Si la función g no tiene una única inversa, sino que posee un número finito de inversas,
gi−1 (y), la función de densidad de la nueva variable Y = g(X) se obtiene mediante la
expresión
n dg −1 (y)

i
X
fY (y) = fX (gi−1 (y)) .

i=1
dy

5. Generación de variables aleatorias continuas
Algunos de los problemas prácticos comprenden, entre otros, el estudio de las formas de pro-
ducción para incrementar su rendimiento, el cálculo del número óptimo de piezas de repuesto
para almacenar, la cantidad de camas y servicios que debe poseer un hospital en una comunidad
específica. En estos problemas a veces se requiere la selección adecuada entre varias soluciones
alternativas. Una de las técnicas que se utiliza es la simulación, esta técnica se ocupa de realizar
experimentos con un modelo de cierto sistema. El modelo es una representación del sistema,
generalmente de tipo matemático, casi siempre la técnica de simulación se utiliza cuando el
análisis del modelo exige un nivel de refinamiento que no está al alcance del analista o cuando
el sistema es tan complejo que la descripción mediante un modelo matemático está fuera de
toda consideración.
La interpretación de los resultados obtenidos está basada en los métodos estadísticos, por lo
que es importante el conocimiento de las densidades o distribuciones de probabilidad. Utili-
zando como base la distribución uniforme en el intervalo [0, 1] se pueden generar, mediante
las transformaciones adecuadas otras densidades conocidas, tal hecho se utiliza para la simu-
lación pues la generación o simulación de la densidad uniforme es suficiente para construir
otros procesos aleatorios con otras funciones de densidad.
5.1. Generalidades. Si se puede formular, en forma exacta o aproximada, el comporta-

miento de una variable aleatoria X a través de su función de distribución FX (x) y se tiene
r = FX (x), donde r es una variable aleatoria uniforme tal que 0 < r < 1, entonces la descrip-
ción de X en función de r debe hacerse por una relación del tipo
x = φ(r ).
En general, es difícil encontrar tal relación y en algunas ocasiones es necesario recurrir a fór-
mulas de aproximación. En lo que sigue se analizan la distribuciones más importantes en la
estadística.
5.2. La distribución exponencial. La función de densidad y la función de distribución de

una variable aleatoria exponencial, con parámetro λ, son
Zx
fX (x) = λe−λx , 0 < x < ∞, FX (x) = λe−λt dt = 1 − e−λx
0
Si se puede encontrar una relación r = FX (x), se puede despejar de la ecuación,
−1
e−λx = 1 − r , x= ln(1 − r )
λ
Para generar valores que simulen una distribución exponencial se escoge un número aleatorio
r entre 0 y 1 y se calcula x. En la siguiente tabla de ejemplo, tomando λ = 0.25 los números
aleatorios r se generaron con la hoja de cálculo Excel, los x con la fórmula.
No. r x
1 0.262906 0.529907
2 0.781943 2.645717
3 0.295906 0.609478
4 0.291471 0.598569
5 0.991433 8.268620
6 0.891496 3.858215
7 0.838061 3.162597
8 0.777424 2.610088
9 0.497758 1.196348
10 0.055259 0.098749
11 0.933402 4.706163
12 0.961160 5.642870
13 0.536851 1.337118
14 0.439325 1.005154
15 0.919537 4.377608
16 0.989020 7.837635
17 0.783811 2.660666
18 0.981566 6.937525
19 0.569256 1.463122
20 0.374849 0.816061
5.3. La distribución Gamma. Si una variable aleatoria X tiene una distribución Gamma de
parámetros λ y K, en donde K es un entero positivo, las funciones de densidad y distribución
son,
K−1
λK X (λx)m
fX (x) = x K−1 e−λx , 0 < x < ∞, FX (x) = 1 − e−λx
(K − 1)! m=0
m!
En este caso, es difícil resolver la ecuación y despejar x en función de r . Para resolver la

dificultad se utiliza la propiedad de que la densidad Gamma se puede expresar como la suma de
K variables exponenciales, cada una con parámetro λ. La generación de la variable tipo Gamma
se expresa entonces como
 
K
−1  Y
x= ln (1 − ri )
λ i=1
Cada uno de los valores ri se empleó para generar una variable exponencial de parámetro λ.
5.4. La distribución normal. Si una variable aleatoria X tiene distribución normal con
media µ y varianza σ 2 , la función de distribución es,
Zx
1 2 2
FX (x) = √ e−(t−µ) /2σ dt.
−∞ σ 2π
La integral no se puede evaluar de manera analítica, pero se puede obtener una buena aproxi-
mación numérica, basada en la integral de la distribución normal estándar Z (µ = 0, σ = 1).
Para utilizar los resultados numéricos de la normal estándar se define la transformación z =
(t − µ)σ , de esta forma se obtiene
Z (x−µ)/σ
1 2
FX (x) = √ e−z /2 dz
−∞ 2π
La equivalencia entre las dos integrales conduce a la identidad de probabilidades,
x−µ

P (X ≤ x) = P Z ≤
σ
El problema es ahora encontrar el valor y tal que

Zy
1 2
√ e−z /2 dz = FX (x) = r
−∞ 2π
Aunque el análisis de la solución está fuera del alcance de estas notas, a continuación se enuncia
el resultado de x = φ(r ),
!
r − 0.5 2.515517 + 0.802853v + 0.010328v 2
x=µ+ σ v−
|r − 0.5| 1 + 1.432788v + 0.189269v 2 + 0.001308v 3
en donde
q
v = −2 ln 0.5(1 − |1 − 2r |)
Si el número de valores aleatorios entre 0 y 1 es grande, digamos N, la fórmula se puede reducir,

por aplicación del teorema del límite central, a la expresión,
 
N
X

 ri − N/2 

 i=1 
x =µ+σ  p 

 N/12  
 
5.5. La distribución χ 2 (Chi-cuadrada). Si una variable aleatoria tiene una distribución

χ 2 con n grados de libertad, entonces se puede expresar como la suma de los cuadrados de
n variables aleatorias normales estándar. Si zi es el valor generado de una variable normal
estándar y x es el valor generado de una variable aleatoria χ 2 con n grados de libertad,
n
X
x= zi2
i=1

5.6. La distribución F . La distribución F se puede describir como el cociente de dos dis-
tribuciones X, Y con distribución χ 2 con n y m grados de libertad, respectivamente,
X/n
F=
Y /m
Como,a su vez, cada variable aleatoria χ 2 es la suma de cuadrados de distribuciones normales

estándar, si x es un valor generado de una variable aleatoria F ,
n
X
m zi2
i=1
x= n+m
X
n zi2
i=n+1
donde cada zi tiene una distribución normal de media µ = 0 y varianza σ 2 = 1.
5.7. La distribución t. Si T es una variable aleatoria cuya distribución es t con n grados

de libertad, entonces puede expresarse como el cociente de una variable normal estándar y la
raíz cuadrada de una variable aleatoria Y con distribución χ 2 y n grados de libertad,
Z
T = p
Y /n
Si t es un valor generado por una variable aleatoria de distribución t con n grados de libertad,
√
nz1
t= u
v
n+1
uX 2
t zi
i=2
donde cada zi proviene de una distribución normal estándar.

Ejemplo: Supongamos que un proceso tiene dos alternativas, A y B, la probabilidad de que
tome la alternativa A es p y las funciones de densidad del tiempo gastado en cada ruta son de
tipo exponencial con parámetros λ1 y λ2 respectivamente, las fórmulas para la simulación de
las duraciones son

1
ln(1 − r ), A

−





 λ 1
x=


1



− ln(1 − r ), B


λ2
La simulación del fenómeno completo se obtiene generando dos números aleatorios r1 y r2 ,

el primero para determinar la alternativa y el segundo para generar el tiempo gastado en esa
alternativa, si x es el tiempo gastado, la fórmula de simulación es,

1
ln(1 − r2 ), r1 < p


−
λ

1




x=


1



− ln(1 − r2 ), r1 > p


λ2
6. Suma de variables independientes
Si X, Y son variables independientes con funciones de densidad fX (x), fY (y), respectivamente,

se requiere encontrar la función de densidad fZ (z) de la variable Z = X +Y . Para ello utilizamos
la definición de convolución de dos funciones.
Definición 12. Si f (x), g(y) están definidas para todo número real, la convolución de f y g,
notada f ∗ g es la función definida por
Z∞
(f ∗ g)(z) = f (z − y)g(y) dy
−∞
Z∞
= g(z − x)f (x) dx
−∞
A continuación se enuncia, sin demostración, la forma de calcular fz (z), conociendo las den-
sidades marginales fX (x), fY (y).
Proposición 6.1. Si X, Y son variables independientes con funciones de densidad fX (x), fY (y),
respectivamente, entonces la suma Z = X +Y es una variable aleatoria cuya función de densidad
fZ es la convolución de fX y fY .
Ejemplos. Para una mejor comprensión de este resultado se plantean varios ejemplos de
aplicación.
Suma de variables uniformes. Si X, Y tiene distribución uniforme en [0, 1] entonces fX (x) =
fY (x) = 1, si 0 ≤ x ≤ 1, la función de densidad de la suma es
Z∞
fZ (z) = fX (z − y)fY (y) dy.
−∞
Como fY (y) = 1 sólo en [0, 1], la integral se reduce a

Z1
fZ (z) = fX (z − y) dy.
0
El integrando es 0 a menos que 0 ≤ z−y ≤ 1, es decir, despejando y, a menos que z−1 ≤ y ≤ z,

por otra parte, como 0 ≤ z ≤ 2, la solución de la desigualdad depende de 0 ≤ z ≤ 1 y 1 ≤ z ≤ 2,
0.5
0
0 0.5 1.0 1.5 2.0
Figura 3. Distribución triangular
las integrales planteadas son

Zz
fz (z) = dy = z, 0≤z≤1
0
Z1
fZ (z) = dy = 2 − z, 1≤z≤2
z−1
De acuerdo con estos resultados, finalmente se tiene,





 z, 0≤z≤1

fz (z) = 2 − z, 1<z≤2



 0,

en otro caso
Esta densidad es de la llamada distribución triangular, debido a la forma de su gráfica.

Suma de variables exponenciales. Si se generan dos valores aleatorios en el intervalo [0, ∞)
de una variable aleatoria exponencial de parámetro λ. Si X, Y tienen distribución exponencial
con parámetro λ y Z = X + Y entonces
fX (x) = fY (x) = λe−λx , x≥0
por lo tanto, si z > 0,

Z∞
fZ (z) = fX (z − y)fY (y) dy
−∞
Zz
= λe−λ(z−y) λe−λy dy
0
Zz
= λ2 e−λz dy
0
=λ2 ze−λz
Esta distribución es de tipo Erlang. La Figura 3 muestra la densidad fZ (z) en el caso λ = 1.

0.25
0
0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0
Figura 4. Distribución de Erlang
7. Aplicaciones de la Proposición 2.1
7.1. Distribución del producto de variables aleatorias. Si X, Y son variables aleatorias

cuya distribución conjunta es f (x, y) y se define Z = X · Y , se puede aplicar la proposición 2.1
para encontrar la densidad fZ (z). En efecto, si se define la variable aleatoria W = X, entonces
se pueden despejar, de manera única, X = W , Y = Z/W , de esta forma, la matriz jacobiana J
de la transformación (x, y) → (z, w) es,
 
 0 1 −1
= 1

J= , |J| =

1/w −z/w 2 w |w|
en ese caso, por la fórmula de la proposición 2.1
z 1

g(z, w) =f w,
w |w|
Z∞
z 1

g(z) = fZ (z) = f w, dw
−∞ w |w|
7.2. Distribución del cociente de variables aleatorias. Si ahora X, Y son variables aleato-
rias cuya distribución conjunta es f (x, y) y se define Z = X/Y , se puede aplicar la proposición
2.1 para encontrar la densidad fZ (z). En efecto, si se define la variable aleatoria W = X, enton-
ces se pueden despejar, de manera única, X = W , Y = W /Z, de esta forma, la matriz jacobiana
J de la transformación (x, y) → (z, w) es,
 
0 1  w |w|

J= , |J| =
z2 = z2

−w/z2 1/z

en ese caso, por la fórmula de la proposición 2.1
w |w|

g(z, w) =f w,
z z2
Z∞
w |w|

g(z) = fZ (z) = f w, dw.
−∞ z z2
8. Estadísticos de orden
Si X1 , X2 , . . . , Xn son resultados de n variables aleatorias que tienen la misma función de den-

sidad f (x) y por lo tanto la misma función de distribución F (x), entonces tales resultados
se pueden ordenar como X(1) , X(2) , . . . , X(n) . Se requiere calcular la función de densidad de las
variables X(k) , 1 ≤ k ≤ n.
Si f(k) es la función de densidad de X(k) , y dx es un intervalo infinitesimal que contiene a x
entonces f(k) dx es la probabilidad de que el valor X(k) esté en el intervalo dx, es decir,
f(k) dx =P (X(k) ∈ dx)
=P (Uno de los Xj ∈ dx, Exactamente k − 1 son < x)

!
n−1
=nf (x) dx (F (x))k−1 (1 − F (x))n−k
k−1
Ejemplo: Si X tiene distribución uniforme en [0, 1], entonces f (x) = 1, F (x) = x, por lo
tanto, !
n − 1 k−1
f(k) (x) = n x (1 − x)n−k , 0<x<1
k−1
La densidad anterior es tipo Beta con parámetros α = k, β = n − k + 1. De las propiedades de
la distribución Beta se obtiene que
k
E X(k) =
n+1
así, por ejemplo si se divide un intervalo en cinco partes, seleccionando 4 puntos al azar (uni-
formemente) sobre el intervalo, el valor esperado de la distancia entre X(k) y el extremo inferior
del intervalo es k/(n + 1), o lo que es lo mismo, se espera que la selección de estos puntos
divida al intervalo en partes iguales.
9. Ejercicios
1. Si X, Y son variables aleatorias independientes con funciones de densidad fX (x),

fY (x), respectivamente, demostrar que la función de densidad fZ (z) de la suma Z =
X + Y es la convolución de las funciones fX (x), fY (x).
Sugerencia: Calcular FZ (z) = P (X + Y ≤ z) integrando en la región adecuada y aplicar
la propiedad fZ (z) = FZ0 (z).
2. En cada uno de los casos, X, Y son variables aleatorias con funciones de densidad
fX (x), fY (y), respectivamente. Encontrar la función de densidad fZ (z) de la variable
aleatoria Z = X + Y .
1
a) fX (x) = fY (x) = , −1 ≤ x ≤ 1
2

2−z
0<z<2



4

fZ (z) =
 z + 2
−2 < z ≤ 0



4
1
b) fX (x) = fY (x) = , 3≤x≤5
2

10 − z
8 < z < 10



4

fZ (z) =
z − 6


 6<z≤8
4
1 1
c) fX (x) = , −1 ≤ x ≤ 1, fY (x) = , 3≤x≤5
2 2

6−z
4<z<6



4

fZ (z) =
 z − 2
2<z≤4



4
d) Qué se puede decir, en cada caso, de E = {z : fZ (z) > 0}.
3. Si, de nuevo, Z = X + Y , encontrar fZ si,
1
a) fX (x) = fY (x) = (x − 3), 3 < x < 5
2

 1 −z3 + 18z2 − 102z + 184

2<z<4


24
fZ (z) =
 1 z z2 − 18z + 54


24 0<z≤2
1 x
b) fX (x) = , 0 < x < 2, fY (x) = , 0<x<2
2 2
 2
z
0<z≤2



8

fZ (z) =

1
 4z − z2


8 2<z<4
c) Qué se puede decir, en cada caso, de E = {z : fZ (z) > 0}.

4. Si X, Y son independientes y Z = X + Y , encontrar fZ (z) si,
a) fX (x) = λe−λx , x > 0, fY (x) = µe−µx , x > 0

e−zλ−zµ ezλ − ezµ λµ
fZ (z) = z>0
λ−µ

b) fX (x) = λe−λx , x > 0, fY (x) = 1, 0 < x < 1

e−zλ −1 + eλ z>1



fz (z) =

e−zλ −1 + ezλ

 0<z≤1
5. Si, de nuevo, Z = X + Y , encontrar fZ si,

1 2 2 1 2 2
fX (x) = √ e−(x−µ1 ) /2σ1 , fY (x) = √ e−(x−µ2 ) /2σ2
2π σ1 2π σ2
6. Si R 2 = X 2 + Y 2 , encontrar fR2 , fR si
1
fX (x) = fY (x) = , −1 < x < 1
2
7. Si X1 , X2 , . . . , Xn son n variables independientes, cada una de las cuales tiene distri-
bución exponencial con media µ, se define M = mı́n{X1 , . . . , Xn }. Demostrar que la
densidad de M es exponencial con media µ/n. Sugerencia: Utilice las funciones de
distribución.
8. En un proceso industrial trozos de material se dividen en dos partes y cada parte es una
fracción del trozo original. La fracción es una cantidad aleatoria distribuida de manera
uniforme en [0, 1]. Luego de dos divisiones se obtiene una fracción del trozo original
Z2 = X1 · X2 , donde cada Xj tiene distribución uniforme en [0, 1]. Demostrar que la
densidad de esta variable Z es,
f (z) = − log(z)
Nota: En el caso general, con n variables X1 , X2 , . . . , Xn distribuidas de manera uniforme

en [0, 1], la fracción Zn obtenida luego de n divisiones tiene función de densidad fn (z)
dada por,
1 n−1
fn (z) = (− log(z))
(n − 1)!
9. Si X, Y son variables aleatorias independientes, cada una con distribución exponencial
con parámetro λ, demostrar que Z = X − Y tiene función de densidad,
1 −λ|z|
fZ (z) = λe
2
Z∞
fZ (z) = fX (z + y)fY (y) dy
−∞

Capı́tulo 5
Teoremas límites
1. Modos de convergencia de variables aleatorias
1.1. Convergencia puntual. Si X1 , X2 , . . . es una sucesión infinita de variables aleatorias,

al evaluar cada una de estas variables en un elemento ω se obtiene la sucesión numérica
X1 (ω), X2 (ω), . . . , si esta sucesión converge a un cierto número real denotado por X(ω) para
todos y cada uno de los elementos del espacio muestral Ω entonces se dice que la sucesión
de variables aleatorias converge puntualmente, y su límite es la función X : Ω → R definida
por X(ω) = lı́mn→∞ Xn (ω). Se puede demostrar que la función límite X también una variable
aleatoria.
1.2. Convergencia casi segura. En algunas situaciones la convergencia puntual es una

condición muy fuerte pues se pide la convergencia de la sucesión evaluada en todos y cada uno
de los elementos del espacio muestral. Se puede ser menos estricto y pedir, por ejemplo, que la
convergencia se verifique en todo el espacio excepto en un subconjunto de probabilidad cero.
Definición 13. La sucesión de variables aleatorias X1 , X2 , . . . converge casi seguramente (casi

siempre) a la variable X, si
P {ω ∈ Ω : lı́m Xn (ω) = X(ω)} = 1

n→∞
Es decir, en la convergencia casi segura se permite que para algunos valores de ω, la sucesión
numérica X1 (ω), X2 (ω), . . . pueda no converger, sin embargo, el subconjunto de en donde esto
suceda debe tener probabilidad cero.
1.3. Convergencia en probabilidad. Un tipo de convergencia menos restrictiva que la

convergencia casi segura es la convergencia en probabilidad la cual se define a continuación.
117
Definición 14. La sucesión de variables aleatorias X1 , X2 , . . . converge en probabilidad a X, si
para cada > 0,
lı́m P {ω ∈ Ω : |Xn (ω) − X(ω)| > } = 0.
n→∞
1.4. Convergencia en media. En este tipo de convergencia se usa la esperanza para de-
terminar la cercanía entre dos variables aleatorias.
Definición 15. La sucesión de variables aleatorias integrables X1 , X2 , . . . converge en media a

la variable aleatoria integrable X si
lı́m E|Xn − X| = 0.
n→∞
A partir de la definición de convergencia en media se puede demostrar la convergencia de la

sucesión de medias. Si se da la convergencia en media Xn → X, entonces también es cierto que
E(Xn ) → E(X).
1.5. Convergencia en distribución. Este es el tipo de convergencia menos restrictiva. En

contextos más generales se le llama también convergencia débil.
Definición 16. La sucesión de variables aleatorias X1 , X2 , . . . converge en distribución a X, si

para todo punto x en donde la función FX (x) es continua, se cumple que
lı́m FXn (x) = FX (x).

n→∞
2. Desigualdades básicas
Proposición 2.1 (Desigualdad de Markov). Si X es una variable aleatoria no negativa (X ≥ 0),

tal que E(X) existe, entonces
E(X)
P (X ≥ ) ≤

Demostración:
Z Z∞
E(X) = xf (x)dx + xf (x)dx
0
Z∞
≥ xf (x)dx

Z∞
≥ f (x)dx

= P (X ≥ )
Esta proposición establece que la probabilidad de que X exceda un valor positivo está aco-
tada superiormente por el cociente de la media entre . Otras versiones equivalentes de esta
desigualdad son, por ejemplo,
1. P (|X| ≥ ) ≤ E(|X|)/
2. P (|X| ≥ ) ≤ E(|X|)n /n donde n ∈ N
La siguiente desigualdad se utiliza en la demostración de la llamada “ley débil de los grandes

números”.
Proposición 2.2 (Desigualdad de Tchebychev). Si X es una variable aleatoria de media µ y

varianza σ 2 , entonces, dado > 0,
σ2
P (|X − µ| ≥ ) ≤
2
Demostración:
σ2 = E((X − µ)2 )
Z Z
= (x − µ)2 f (x)dx + (x − µ)2 f (x)dx
|X−µ|≥ |X−µ|<
Z
≥ (x − µ)2 f (x)dx
|X−µ|≥
Z
≥ 2 f (x)dx
|X−µ|≥
= 2 P (|X − µ| ≥ )
Esta desigualdad demuestra que la probabilidad de que X difiera de su media en mas de está
acotada superiormente por el cociente de la varianza entre 2 . Este resultado se conoce tam-
bién como desigualdad de Tchebychev-Bienaymé. Existen otras versiones de esta desigualdad
equivalentes a la demostrada, por ejemplo,
1. P (|X − µ| ≥ σ ) ≤ 1/2
2. P (|X − µ| < σ ) ≥ 1 − 1/2
3. P (|X − µ| < ) ≥ 1 − σ 2 /2
La siguiente desigualdad es una versión más de general de la desigualdad de Tchebychev.
Proposición 2.3 (Desigualdad de Tchebychev extendida). Si X es una variable aleatoria y g ≥ 0

es decreciente y tal que g(X) tiene esperanza finita, entonces, dado > 0,
E[g(X)]
P (X ≥ ) ≤
g()

Demostración:
Z Z
E[g(X)] = g(x)f (x)dx + g(x)f (x)dx
X≥ X<
Z
≥ g(x)f (x)dx
X≥
Z
≥ g()f (x)dx
X≥
= g()P (X ≥ )
Reemplazando una función g adecuada en la desigualdad anterior se pueden obtener tanto la

desigualdad de Tchebychev como la desigualdad de Markov.
Proposición 2.4 (Desigualdad de Kolmogorov). Si X1 , X2 ,…,Xn son variables independientes

con media cero y E(X 2 ) finita, entonces, dado > 0,
n
1 X
P (máx{|X1 + · · · + Xk |} ≥ ) ≤ Var(Xk )
k 2 k=1
Demostración: Para cada k = 1, . . . , n, se define Sk = X1 + · · · + Xk , la esperanza de Sk es cero.

Por otra parte, las variables Sk y Sn − Sk son independientes, por lo tanto, E(Sn (Sn − Sk )) = 0.
Si ahora se definen los eventos mutuamente excluyentes,
k−1
\
Ak = (|Sk| ≥ ) (|Si | < ),
i=1
n
[
si k = 1, A1 = (|S1 | ≥ ). El evento de interés puede escribirse como A = Ak . Por lo tanto
k=1
n
X
E(Sn2 ) ≥ E(Sn2 )A = E(Sn2 )Ak
k=1
n
X
= E (Sk + (Sn − Sk ))2Ak
k=1
n
X
= E (Sk2 + 2Sk (Sn − Sk ) + (Sn − Sk )2 )Ak
k=1
n
X n
X Z
≥ E(Sk2 )Ak ≥ 2
f (x)dx
Ak
k=1 k=1
n
X
≥ 2 P (Ak )
k=1
= 2 P (A)
Pn
El resultado se obtiene al comprobar que E(Sn2 ) = Var(Sn ) = k=1 Var(Xk ). Si se toma n = 1 la
desigualdad de Tchebychev se deduce de la desigualdad de Kolmogorov.
3. La ley de los grandes números
Este resultado establece que, bajo ciertas condiciones, el promedio de variables aleatorias con-
verge a una constante cuando el número de sumandos tiende a infinito.
Existen dos versiones de esta afirmación, la primera, basada en el concepto de convergencia
en probabilidad se conoce como ley débil y la segunda, basada en el concepto de convergencia
casi segura se llama ley fuerte. La ley fuerte implica entonces la ley débil.
Propiedad 1 (Ley débil de los grandes números). Si X1 , X2 , . . . son variables independientes

idénticamente distribuidas con media µ y varianza finita σ 2 , entonces se da la convergencia en
probabilidad,
n
1 X
Xi → µ
n i=1
Demostración: Si se define Sn = (X1 + X2 + · · · + Xn )/n, entonces E(Sn ) = µ y Var(Sn ) = σ 2 /n,

suponiendo que Var(X) = σ 2 < ∞. Aplicando la desigualdad de Tchebychev a la variable Sn ,
dado > 0 se cumple P (|Sn − µ|) ≥ ≤ σ 2 /n2 , si se toma el límite cuando n tiende a infinito
se obtiene el resultado.
Ejemplo: Consideremos un experimento aleatorio cualquiera y sea A un evento. Se efectúan
realizaciones independientes del experimento y se observa en cada ensayo la ocurrencia o no
ocurrencia del evento A. Sea Xk la variable que toma el valor uno si en el k−ésimo ensayo
ocurre A, y cero en caso contrario. Entonces las variables X1 , X2 , . . . son independientes cada
una con distribución de Bernoulli de parámetro p, en donde p es la probabilidad desconocida
del evento A. Por lo tanto E(Xk ) = p y Var(Xk ) = p(1 − p). La ley débil de los grandes números
asegura que la fracción de ensayos en los que se observa el evento A converge, en probabilidad,
a la constante desconocida p cuando el número de ensayos crece indefinidamente. Esta es la
definición “frecuentista” de la probabilidad.
Propiedad 2 (Ley fuerte de los grandes números). Sean X1 , X2 , . . . independientes e idéntica-

mente distribuidas con media µ. Entonces se da la convergencia casi segura
n
1 X
Xi → µ.
n i=1
Demostración: (Suponiendo cuarto momento finito). Dada la idéntica distribución de los ele-
mentos de la sucesión, cualquier elemento de ésta se denota simplemente por X. Supongamos
que E|X − µ|2 = σ 2 y como E(X − µ) = 0, entonces por independencia,
n
X
E| (Xi − µ) |4 = nE|X − µ|4 + 3n(n − 1)σ 4 .
i=1

Pn
Por la desigualdad de Tchebychev aplicada a la variable | i=1 (Xi − µ)| y la función g(x) = x 4
se obtiene que para > 0,
  4
n n
X X
4

P 
(Xi − µ) > n
 ≤ E
(Xi − µ) /(n)

i=1 i=1
= (nE|X − µ|4 + 3n(n − 1)σ 4 )/(n)4 .
1 Pn P∞
Sea el evento An = (| n i=1 Xi − µ| > ). Entonces n=1 P (An ) < ∞. Por el lema de Borel–
Cantelli la probabilidad de que ocurra una infinidad de eventos An es cero, es decir, con proba-
bilidad uno, sólo un número finito de estos eventos ocurre. Por lo tanto con probabilidad uno,
existe un número natural n a partir del cual ningún evento An se verifica. Es decir,
 
1 n
X

P lı́m
 Xi − µ ≤  = 1.

n→∞ n
i=1

Como esta afirmación es válida para cualquier > 0, entonces se cumple

 
n
1 X
P  lı́m Xi = µ  = 1.
n→∞ n
i=1
4. Teorema del límite central
Este resultado es de amplio uso en estadística y otras ramas de aplicación de la probabilidad.

Existen muchas versiones y generalizaciones de este teorema pero nos limitaremos a enunciar
una versión simple y corta. Un caso particular de este resultado lleva el nombre de A. de Moivre
y de P. S. Laplace.
Propiedad 3 (Teorema de De Moivre-Laplace). Sea X1 , X2 , . . . una sucesión de variables alea-

torias independientes tal que cada una de ellas tiene distribución Bernoulli con parámetro p ∈
(0, 1). Dados a, b números reales a < b,
! Zb
X1 + X2 + · · · + Xn − np 1 2 /2
lı́m P a< p <b = √ e−x dx
n→∞ np(1 − p) 2π a
p
Este resultado establece que la variable aleatoria (X1 + · · · + Xn − np)/ np(1 − p) converge en
distribución a una variable aleatoria normal estándar. La demostración está fuera del alcance
de estas notas. Este teorema fue descubierto por A. de Moivre alrededor de 1733 en el caso
cuando las variables aleatorias tienen distribución Bernoulli con p = 1/2. Años después P. S.
Laplace demostró su validez para valores arbitrarios de p. El teorema de de Moivre-Laplace es
una caso particular del siguiente resultado fundamental.
Propiedad 4 (Teorema del límite central). Sea X1 , X2 , . . . una sucesión de variables aleato-
rias independientes e idénticamente distribuidas tales que para cada natural n, E(Xn ) = µ y
Var(Xn ) = σ 2 < ∞. Entonces
X1 + · · · + Xn − nµ
√ → N(0, 1).
σ n
La convergencia es en distribución y N(0, 1) es la distribución normal estándar.
La demostración de este teorema se omite en estas notas se omite pues utiliza conceptos de
funciones de variable compleja.
Este teorema fue demostrado rigurosamente por A. M. Lyapunov alrededor de 1901. Es de notar
que no hay ninguna hipótesis adicional sobre la distribución de las variables de la sucesión, es
decir, éstas pueden tener cualquier distribución, sólo requiriendo la existencia de la media y la
varianza.
5. Ejercicios
1. Demuestre la desigualdad de Tchebychev (primera versión) usando la desigualdad de

Markov aplicada a la variable aleatoria no negativa |X − µ|.
2. Use la desigualdad de Tchebychev para demostrar que si X es una variable aleatoria
tal que E(X) = a y Var(X) = 0, entonces X es constante casi seguramente, es decir,
P (X = a) = 1.
3. Sea X con media µ y varianza σ 2 . Use la desigualdad de Tchebychev para estimar la
probabilidad de que X tome valores entre µ−σ y µ+σ para cualquier > 0 constante.
4. Sea X discreta con función de probabilidad

1/18 x = −1, 1,






f (x) = 16/18 x = 0,





0

otro caso.
Demuestre que el valor exacto de la probabilidad P (|X − µ| ≥ 3σ ) coincide con la es-

timación dada por la desigualdad de Tchebychev. Este resultado demuestra que, sin
hipótesis adicionales, la cota superior dada por la desigualdad de Tchebychev es ópti-
ma.
5. Se lanza una moneda equilibrada 2n veces. Calcule la probabilidad de que ambos lados
caigan el mismo número de veces. ¿Qué le sucede a esta probabilidad cuando n tiende
a infinito? ¿Contradice esto la ley de los grandes números?
6. Use el teorema del límite central para estimar la probabilidad de obtener mas de 520
caras en 1000 lanzamientos de una moneda corriente.
7. Sean X1 , X2 , . . . independientes con distribución Poisson(λ) con λ = 1. Use el teorema
del límite central para demostrar que
n
1 X nk 1
lı́m =
n→∞ en k! 2
k=0
8. La probabilidad de ocurrencia de un evento en un ensayo es de 0.3. ¿Cuál es la proba-

bilidad de que la frecuencia relativa de este evento en 100 ensayos se encuentre entre
0.2 y 0.5?

Bibliografía
[1] De Groot Morris H., Probabilidad y estadística, Addison-Wesley Iberoamericana, 1998.

[2] W. Feller, An Introduction to Probability Theory and Its Applications, second edition,
John Wiley and Sons, New York, NY, 1971.
[3] Hoel Paul G., Port Sidney C., and Stone Charles J., Introduction to Probability Theory,
Houghton Mifflin Company, 1971.
[4] R. V. Hogg and A. T. Craig. Introduction of Mathematical Statistics. Prentice Hall, 1995.
[5] Meyer Paul., Probabilidad y aplicaciones estadísticas, Fondo Educativo Interamericano,
1973.
125

Probabilidad Prof Vc3adctor Bernal P

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Probabilidad Prof Vc3adctor Bernal P

Cargado por

Copyright:

Formatos disponibles

Universidad Centroccidental

Decanato de Ciencias y Tecnología.

Prof. Víctor Bernal P.

Capítulo 1. Introducción a la probabilidad 1

Capítulo 2. Variables aleatorias discretas 37

Capítulo 3. Variables aleatorias continuas 61

Capítulo 4. Variables aleatorias bidimensionales 95

Capítulo 5. Teoremas límites 117

Prof. Victor Bernal 2010 – 2011 Resumen. Pág. vii de 125.

1. Aspectos históricos de la probabilidad

La rama de la matemática conocida como Teoría de la Probabilidad tiene su origen en el estudio

Figura 1. Girolamo Cardano (1501-1576)

Prof. Victor Bernal 2010 – 2011 Resumen. Pág. 3 de 125.

Figura 3. Christian Huygens (1629-1695). Johan de Witt (1625-1672)

probabilidades, teniendo en cuenta la falta de información estadística no pudo resolver situa-

1. Capaz de ser probado, demostrado, probable.

1. Un juego de dados con reglas muy complicadas.

1. La aparición u ocurrencia de eventos; la manera en que las cosas se pueden presentar.

Prof. Victor Bernal 2010 – 2011 Resumen. Pág. 5 de 125.

3.1. Conjuntos y operaciones.

2. La propiedad que caracteriza a los elementos de un conjunto se llama relación de per-

3. Se dice que el conjunto A es subconjunto del conjunto B, notado A ⊂ B, si todo ele-

3.2. Operaciones entre conjuntos. Si A y B son conjuntos,

1. La unión de A y B, notada A ∪ B, se define por,

2. La intersección de A y B, notada A ∩ B, se define por,

3. La diferencia de A y B, notada A \ B, se define por,

4. El complemento de A, notado A0 , se define por,

3.4. Conjunto potencia. Partición. Si A es un conjunto, se llama conjunto potencia de A,

Se debe notar que, ∅ ∈ P(A) y A ∈ P(A).

1. Son disjuntos dos a dos. Si B, C ∈ P entonces B ∩ C = ∅.

La definición se puede extender a varios factores A1 , . . . , An .

3.6. La estructura de σ −álgebra. En lo que sigue se adoptará la siguiente notación:

Una clase no vacía A de subconjuntos de U, se denomina σ −álgebra de conjuntos si:

3.7. Conjuntos finitos. Conjuntos infinitos numerables. Conjuntos no numerables.

3. Un conjunto A es infinito no numerable si no es finito ni infinito numerable.

4. Experimento aleatorio. Espacio muestral. Evento

4.1. Experimento aleatorio. El concepto de experimento aleatorio es la base de la teoría

1. Es posible repetirlo en forma indefinida sin cambiar esencialmente las condiciones.

Prof. Victor Bernal 2010 – 2011 Resumen. Pág. 8 de 125.

4.3. Evento. Un evento A (respecto a un espacio muestral particular Ω asociado a un

5. El concepto axiomático de probabilidad

En el segundo congreso internacional de matemáticas, celebrado en la ciudad de Paris en el

4. El sistema (Ω, A, P ) se llama Espacio de probabilidad. Si el espacio muestral Ω es finito

5.1. Propiedades de la función de probabilidad. Si Ω es el espacio muestral y A, B, C son

Figura 5. Andrey Nikolaevich Kolmogorov (1903–1987)

Prof. Victor Bernal 2010 – 2011 Resumen. Pág. 10 de 125.

La probabilidad P (A) de un evento A se define como la suma de las probabilidades de los

5.3. Espacios finitos equiprobables. En general, la naturaleza de los experimentos alea-

Número de casos favorables

1. Determinar si tal tipo de arreglo es posible.

Figura 6. Un sudoku difícil y su solución

Prof. Victor Bernal 2010 – 2011 Resumen. Pág. 12 de 125.

Figura 7. Una solución del problema de Kirkman

Ejemplo. El Reverendo Thomas Penyngton Kirkman, matemático aficionado, en 1847 publicó en

Cada día de la semana una maestra lleva a 15 jóvenes damas a un recorri-

Prof. Victor Bernal 2010 – 2011 Resumen. Pág. 13 de 125.

Figura 8. Las cinco posiciones básicas del caballo en el tablero

entonces #(A) = #(A1 ) × #(A2 ) × · · · × #(Ak )

1. Si se reparten m objetos en n cajas, y m > n, entonces, al menos una caja deberá

Prof. Victor Bernal 2010 – 2011 Resumen. Pág. 15 de 125.

Hay un total de 10 resultados diferentes.

1. Puede jugar cinco veces como máximo