Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Lisandro Alvarado
Departamento de Matemáticas
Probabilidad
iii
6. Técnicas de conteo 11
6.1. Introducción a los problemas de conteo 11
6.2. Principio de adición 14
6.3. Principio de multiplicación 14
6.4. Principio de Distribución 15
6.5. Diagramas de árbol 16
6.5.1. Diagrama de árbol. Ejemplo 1 16
6.5.2. Diagrama de árbol. Ejemplo 2 16
6.5.3. Diagrama de árbol. Ejemplo 3 17
6.5.4. Diagrama de árbol. Ejemplo 4 17
7. Variaciones, permutaciones y combinaciones 17
7.1. Arreglos 17
7.2. Variaciones con repetición 17
7.3. Variaciones sin repetición 18
7.4. Permutaciones ordinarias 18
7.5. Permutaciones con repetición 19
7.6. Combinaciones 19
7.7. Combinaciones con repetición 19
8. Conteo por recurrencia 20
9. Probabilidad condicional 22
10. Independencia estadística 23
10.1. La probabilidad total 24
10.2. El Teorema de Bayes 25
11. Ejercicios 27
11.1. Diagrama de árbol 27
11.2. Variaciones y permutaciones, con y sin repetición 28
11.3. Combinaciones 29
11.4. Espacios muestrales y eventos 30
11.6. Espacios finitos equiprobables 32
11.7. Probabilidad condicional. Independencia estadística 33
11.8. Fórmula de Bayes 33
desarrollo de la probabilidad puesto que fue publicado sólo hasta 1663 y además recibió poca
atención. El estudio sistemático, con base matemática, del concepto de probabilidad se remon-
ta a mediados del siglo 17 y evoluciona durante los siglos 18 y 19 al intervenir no solamente
en la ciencia sino en otras áreas del conocimiento. En algunos casos, la probabilidad aporta
más conocimiento que otras ramas de la ciencia puesto que sus métodos de análisis aparecen
1
Figura 2. Blas Pascal (1623-1662) Pierre de Fermat (1601-1665)
en diversas aplicaciones. Los conceptos de chance, fortuna y suerte son tan antiguos como los
primeros juegos de dados. La humanidad había especulado durante muchos siglos acerca de
las probabilidades para resolver aspectos tales como la legalidad de la evidencia, esquemas de
seguridad para viajes de comercio y análisis de los juegos de azar, pero es sólo hasta mediados
del siglo 17 que estas especulaciones conducen al establecimiento de principios matemáticos.
La presencia de riesgos era reconocida con mucha anterioridad a la aparición de la teoría mate-
mática, los Babilonios tenían métodos para calcular seguros marítimos, los Romanos utilizaban
la anualidad, consistente en proporcionar una suma de dinero a cambio de pagos regulares en
un tiempo relativamente largo, contemplando la posibilidad de que la persona receptora del
dinero muriera antes de completar la totalidad de los pagos, por otra parte, los juegos de azar
han existido desde tiempos inmemoriales. Sin embargo, como ya se dijo, fue sólo hasta el siglo
17 que se trató de comprender estos conceptos desde el punto de vista matemático.
Los orígenes del interés en la matemática de la probabilidad en el siglo 17 han generado arduas
discusiones acerca de su contribución a la astronomía, las artes, el juego y los seguros. Esta
discusión se hace difícil puesto que no se necesitaron descubrimientos en el área matemática
que marcaran el inicio de esta disciplina. Tampoco fue necesaria una teoría del azar puesto
que hasta el siglo 18 se tenia como creencia que todo lo que sucedía en el universo estaba
estrictamente determinado y por lo tanto el azar era sólo aparente, producto de la ignorancia
humana y como los sucesos sin causa determinada eran inexistentes, no se podia pensar en
nada que sucediera completamente al azar.
Tradicionalmente, se considera como origen de la teoría moderna de probabilidad al intercam-
bio de correspondencia en julio y octubre de 1654 entre los matemáticos franceses Blas Pascal
Prof. Victor Bernal 2010 – 2011 Resumen. Pág. 2 de 125.
(1623-1662) y Pierre de Fermat (1601-1665). Las primeras cartas fueron escritas en torno al
siguiente problema: Dos jugadores A y B escogen, cada uno de ellos, un número del 1 al 6,
distinto uno del otro, apuestan cada uno 32 monedas de oro a que el número escogido por uno
de ellos aparece en tres ocasiones antes que el número del contrario al lanzar sucesivamente
un dado. Cuando A tiene 2 aciertos y B tiene un acierto el juego se interrumpe y no puede
continuar. Se preguntaba cómo deberían repartirse, de manera justa, las 64 monedas entre los
dos jugadores.
Pascal dividió la solución en dos partes. Si importar el resultado final A debería obtener al me-
nos la mitad (32 monedas). Por lo tanto, la incertidumbre se tenía sobre la otra mitad y A tenía
un 50 % de posibilidades de ganarla, por lo que la distribución justa sería que A recibiera 48
monedas (las 32 seguras y la mitad de las 32 no seguras) y B recibiría 16 monedas.
Para resguardar la tradición de legalidad y justicia el énfasis de Pascal estuvo en la esperanza
y la igualdad de los dos jugadores, el punto central no fue el cálculo de probabilidades sino la
certeza de la ganancia y la igualdad de oportunidades.
El francés Antoine Gombaud (1607-1684), conocido como Chevalier de Méré quien también
sostuvo correspondencia con Pascal sobre el problema anterior, llamado problema del juego
interrumpido, calculó que podía apostar a obtener al menos un doble 6 en 24 lanzamientos de
dos dados, sin embargo cuando comenzó a perder propuso a Pascal el analizar tal problema.
Pascal determinó que debería esperar perder el 51 % de las veces. Este nuevo problema hizo
que Pascal comenzara a estudiar otros similares. La relativamente breve discusión de tales pro-
blemas, plasmada en la correspondencia con Pierre de Fermat se considera como la base de la
teoría matemática de la probabilidad.
Las cartas sólo se publicaron en 1679 por lo que el crédito al primer libro sobre probabilidad
se atribuye a los matemáticos holandeses Christian Huygens (1629-1695), quien conocía los
argumentos Pascal–Fermat, y Johann de Witt (1625-1672). Al igual que en la correspondencia
de Pascal estos trabajos se concentraron en la matemática de la esperanza. El libro de Huygens
Van Rekeningh in Spelen van Geluck (1657) (Razonamientos sobre el juego de dados) contie-
ne el primer estudio publicado sobre esperanza matemática y una serie de análisis acerca de
las diferentes esperanzas en varios juegos de dados. Para Huygens, un juego justo es aquel
en el que los dos jugadores tienen la misma esperanza, de manera que el juego no se vuelva
desventajoso para ninguno de los que apuestan y toman el riesgo de pérdida originado por su
participación. La visión moderna de la probabilidad define como juego justo aquel en donde
las probabilidades de los jugadores son iguales y por lo tanto sus esperanzas.
De Witt, en una serie de cartas escritas en 1671 extendió la probabilidad matemática a otros
2.1. Probabilidad. [Derivada de: probable ] La propiedad que una afirmación o evento
tiene de acuerdo con evidencia presente de ser probable, tener apariencia de verdad o tener la
posibilidad de realización.
2.2. Probable. [ Del Latin probabilis. Que puede ser probado, de probare ensayar, probar,
aprobar, ser aceptable, de probus bueno, correcto.]
2.3. Aleatorio. [Del latin: aleatorius, de aleator jugador de dados, de alea dados.]
Que depende del lanzamiento de dados, por lo tanto dependiente de contingencias o incerti-
dumbre.
2.4. Azar. [ Un tipo de juego de dados. De acuerdo con Guillermo de Tiro (cronista de las
Cruzadas1) el juego toma su nombre del castillo Asart (o Hasart) en Palestina. El nombre árabe
de este castillo parece haber sido Ain Zarba. Otra hipótesis lo relaciona con la palabra árabe
para dados: az-zahr]
2.5. Chance. [Del antiguo Latin: cadentia cayendo, del Latin cadere caer ]
1
Las cruzadas fueron una serie de campañas militares comúnmente hechas a petición del Papado, y que tuvieron
lugar entre los siglos XI y XIII, contra los turcos selyúcidas y sarracenos (llamados así los musulmanes) para la
reconquista de Tierra Santa.
1. Conjunto: Lista o colección bien definida de objetos. Cada uno de los objetos se llama
elemento.
A ⊂ B a (x ∈ A ⇒ x ∈ B)
4. Dos conjuntos A y B son iguales, notado A = B, si cada uno es subconjunto del otro.
A = B a (x ∈ A a x ∈ B)
A ∪ B = {x : x ∈ A ∨ x ∈ B}
A ∩ B = {x : x ∈ A ∧ x ∈ B}
A \ B = {x : x ∈ A ∧ x 6∈ B}
A0 = {x : x ∈ U ∧ x 6∈ A}
3.3. Leyes del álgebra de los conjuntos. Si A, B, C, son conjuntos, se cumplen las siguien-
tes leyes:
Prof. Victor Bernal 2010 – 2011 Resumen. Pág. 6 de 125.
Figura 4. Augustus de Morgan (1806 – 1871). John Venn (1834 – 1923).
A ∪ A= A A∩A=A
(A ∪ B) ∪ C = A ∪ (B ∪ C) (A ∩ B) ∩ C = A ∩ (B ∩ C)
A∪B =B∪A A∩B =B∩A
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
A∪∅=A A∩U=A
A∪U=U A∩∅=∅
0
A∪A =U A ∩ A0 = ∅
(A0 )0 = A U0 = ∅, ∅0 = U
(A ∪ B)0 = A0 ∩ B 0 (A ∩ B)0 = A0 ∪ B 0
P(A) = {B : B ⊂ A}
3.5. Producto Cartesiano. Conjuntos con índices. Si A y B son conjuntos, se llama pro-
ducto cartesiano de A y B, notado A × B, al conjunto definido por,
A × B = {(a, b) : a ∈ A, b ∈ B}
∞
[ ∞
\
Ai = A1 ∪ A2 ∪ A3 . . . , = A1 ∩ A2 ∩ A3 ∩ . . .
i=1 i=1
1. Si B ∈ A entonces B 0 ∈ A.
S∞
2. Si A1 , A2 ,… son elementos de A entonces i=1 Ai es un elemento de A
1. Un conjunto A es finito si sus elementos pueden ser ordenados como una sucesión en
la que el conjunto de índices I es de la forma I = {1, . . . , n}.
A = {a1 , . . . , an }
2. Un conjunto A es infinito numerable si sus elementos pueden ser ordenados como una
sucesión en la que I = {1, 2, . . . }.
A = {a1 , a2 , a3 , . . . }
A0 = Ω \ A
1. Si A ∈ A, entonces 0 ≤ P (A) ≤ 1.
2. P (Ω) = 1.
3. Si A1 , A2 , . . . , An son elementos de A, disjuntos dos a dos, entonces
n
[ Xn
P Ai =
P (Ai )
i=1 i=1
1. P (∅) = 0
2. P (A0 ) = 1 − P (A)
3. Si A ⊂ B, P (A) ≤ P (B).
4. P (A \ B) = P (A) − P (A ∩ B)
5. P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
6. P (A ∪ B ∪ C) = P (A) + P (B) + P (C)
−P (A ∩ B) − P (A ∩ C) − P (B ∩ C)
+P (A ∩ B ∩ C)
1. Cada pi es no negativo. pi ≥ 0.
Pn
2. La suma de los pi es uno. p1 + p2 + · · · + pn = i=1 pi = 1
6. Técnicas de conteo
6.1. Introducción a los problemas de conteo. Las técnicas de conteo permiten calcular
el total de resultados posibles de los subconjuntos de un espacio muestral Ω de interés, espe-
cialmente en la construcción de funciones de probabilidad de espacios equiprobables.
Las técnicas de conteo analizan las formas de arreglar elementos u objetos de acuerdo con un
patrón especificado. Es decir, tratan de responder tres tipos de preguntas,
Ejemplo: El juego del Sudoku. La palabra proviene de la expresión japonesa Su (número) Doku
(singular, solitario), se juega sobre una red matricial 9 × 9, dividida en nueve cuadrados 3 × 3.
El juego consiste en colocar los números 1, 2, . . . , 9 en las celdas de la red de tal forma que cada
número figura solo una vez por fila y columna y en cada cuadrado 3 × 3, una vez por fila y una
vez por columna. El programador Bertram Felgenhauer y el matemático Frazer Jarvis unieron
en el año 2005 sus habilidades y calcularon que existen
6, 670, 903, 752, 021, 072, 936, 960 = 9! × 722 × 27 × 27, 704, 267, 971 ≈ 6.671 × 1021
Prof. Victor Bernal 2010 – 2011 Resumen. Pág. 11 de 125.
maneras diferentes de llenar la red. El hecho de que 27,704,267,971 es un número primo da idea
de la dificultad inherente al cálculo. En general se plantea el problema colocando previamente
algunos números en la red para que el jugador complete el arreglo. En ese caso, no siempre se
sabe si es posible completar la red y en caso de que sea posible, la solución no es necesariamente
fácil de encontrar. Sin embargo el juego del Sudoku se ha incorporado a una gran cantidad de
periódicos y revistas, como un atractivo para la distracción de sus lectores.
Ejemplo: El matemático Leonhard Euler propuso, en 1782 el siguiente problema:
Seis diferentes regimientos tienen, cada uno, seis oficiales de rangos diferentes
(de seis rangos posibles). Determinar si se pueden arreglar en una formación
cuadrada de tal manera que cada fila y columna tenga un oficial de cada rango
y de cada regimiento.
Euler no encontró la solución y conjeturó que no era posible encontrarla2. Fue sólo hasta el año
1900 que el francés Gaston Tarry comprobó que Euler tenía razón. Euler pensaba que no había
solución si 6 se reemplazaba por cualquier entero congruente con 2 módulo 4; por ejemplo,
10, 14, etc. Esta vez, Euler no tenía razón pero su error fue descubierto hasta las década de
1960 cuando E. T. Parker, R. C. Bose y S. Shrikhande utilizaron un computador para construir
un arreglo de orden 22 y luego demostrar que los únicos arreglos imposibles son los de orden
2 (evidente) y orden 6. El patrón estudiado por Euler se conoce actualmente como cuadrado
greco–latino. En el lenguaje actual, la conjetura de Euler, ya probada, es la inexistencia de un
cuadrado greco–latino de orden 6.
2
Or, après toutes les peines qu’on s’est données pour résoudre ce problème, on a été obligé de reconnoître qu’un
tel arrangement est absolument impossible, quoiqu’on ne puisse pas en donner de démostration rigoureuse.
Leonhard Euler (1782)
2 3 9 7 6 2 8 5 3 4 9 1 7
1 5 1 9 8 7 2 4 3 6
4 7 2 8 4 3 7 9 1 6 2 5 8
5 2 9 8 6 5 2 4 7 1 9 3
1 8 7 3 9 2 1 8 5 7 6 4
4 3 7 4 1 6 9 3 5 8 2
6 7 1 2 5 4 3 6 9 8 7 1
7 1 7 6 4 5 8 3 2 9
9 3 2 6 5 9 8 3 7 2 1 6 4 5
Un sencillo razonamiento lleva a que cada joven debe caminar con las catorce restantes, por lo
tanto no deben requerirse más de siete días para arreglar los tríos. No obstante, esto no prueba
que tal arreglo sea posible. El problema puede generalizarse a 6n + 3 jóvenes agrupadas en
2n + 1 tríos en 3n + 1 días sucesivos. El mismo Kirkman y otros matemáticos de comienzos
del siglo 20 llegaron a soluciones parciales, pero hubo que esperar hasta 1971 cuando el mate-
mático indio D. K. Ray-Chaudhuri y su discípulo R. M. Wilson publicaron la solución completa
del problema. El caso n = 0 es trivial. El caso n = 1 sólo tiene una solución. Para el caso n = 2
existen, salvo permutaciones, 7 soluciones.
La tabla (Figura. 7), muestra una de las soluciones, suponiendo que las jóvenes han sido nu-
meradas de 01 a 15. El siguiente diagrama permite ver una forma geométrica obtener las 7
soluciones básicas.
6.2. Principio de adición. Si una tarea se puede realizar a través de k etapas excluyentes
y cada fase se puede realizar de ni maneras, entonces la operación global se puede realizar de
n1 + n2 + . . . nk maneras.
En forma equivalente, si {Ai }ki=1 , es una colección de conjuntos tales que Ai ∩ Aj = ∅ cuando
k
Sk X
i ≠ j, entonces A = i=1 es tal que #(A) = #(Ai ). La demostración se puede hacer por
i=1
inducción.
Ejemplo: Un cuadrado de lado 4 se divide en 16 cuadrados iguales de lado 1. Calcular el número
total de cuadrados que se pueden formar con esta división de 16 cuadrados.
Se define la colección A1 , A2 , A3 , A4 de cuadrados de lado 1, 2 3, 4, respectivamente. Se observa
que |A1 | = 1, |A2 | = 4, |A3 | = 9, |A4 | = 16, por el principio de adición, el número buscado es
1+4+9+16=30.
Ejemplo: Si se coloca un caballo en un tablero de ajedrez, calcular el número de movimientos
diferentes que se pueden efectuar. La figura 8. muestra las posibilidades de acuerdo con la
situación del caballo.
El resultado se obtiene multiplicando el número de posiciones de cada clase por el número de
posibles movimientos y sumando, de acuerdo con el principio de adición.
4 × 2 + 8 × 3 + 20 × 4 + 16 × 6 + 16 × 8 = 336.
6.3. Principio de multiplicación. Si una tarea se puede realizar a través de k etapas su-
cesivas y cada etapa es realizable de ni maneras, entonces la operación global es realizable de
Prof. Victor Bernal 2010 – 2011 Resumen. Pág. 14 de 125.
n1 × n2 × · · · × nk maneras.
En otras palabras, si {Ai }ki=1 , es una colección de conjuntos y
A = {(x1 , x2 , . . . , xk ) : x1 ∈ A1 , . . . , xk ∈ Ak },
3
6.4. Principio de Distribución. Conocido también como Principio de Dirichlet o de las
cajas se puede desarrollar en dos versiones equivalentes:
Ambos principios, que resuelven muchas cuestiones combinatorias, los damos sin demostra-
ción.
Ejemplo: En una clase con 35 alumnos, habrá al menos dos que compartan el mismo número
de día del mes como cumpleaños.
Ejemplo: En cualquier conjunto de n + 1 enteros positivos, cada uno menor o igual a 2n,
existen al menos dos que son uno múltiplo del otro. Para demostrarlo, los n + 1 números se
expresan en la forma 2k q donde q es impar. Como hay sólo n posibles impares q entre 1 y 2n,
entonces al menos dos de los n + 1 números deben tener el mismo valor q, lo que demuestra
la afirmación.
3
Peter Gustav Lejeune Dirichlet (1805–1859)
Inicio
M F
A B AB O A B AB O
N A B N A B N A B N A B … …
El número de clasificaciones es 3 × 4 × 2 = 24. Basta contar todas las diferentes ramas del árbol
que las representa.
Ejemplo 2: Dos equipos, A y B, juegan la final del torneo. Aquel equipo que gane dos juegos
seguidos o complete un total de tres juegos ganados será el que gane el torneo. Mediante un
diagrama de árbol mostrar los diferentes desarrollos de este torneo.
6.5.2. Diagrama de árbol. Ejemplo 2.
Inicio
A B
A B A B
A B A B
A B A B
A B A B
$0 $2
$1 $3
$0 $2 $2 $4
$1 $3 $1 $3
$0 $2 $2 $4 $0 $2 $2 $4
15 no dobles 6 dobles
15 no dobles 6 dobles
7.1. Arreglos. Se llama arreglo en un conjunto finito Ω a cualquier sucesión finita formada
por elementos de Ω. Al ser el arreglo una sucesión, intervendrá el orden, y se podrán repetir
elementos. Estas dos características distinguen los arreglos de los subconjuntos.
V Rm,n = mn .
Ejemplo: Si se desea conocer el total de formas distintas en que se puede colocar una enciclo-
pedia de 5 volúmenes en un librero, la respuesta es 5! = 5 × 4 × 3 × 2 × 1 = 120. Puesto que
cualquiera de los cinco libros puede ser colocado al principio, quedan cuatro libros por colocar
en la segunda posición, restan entonces tres posibilidades para la tercera posición, etc. Por el
principio de multiplicación la respuesta es el producto de estos números.
Un caso especial es el de las permutaciones circulares, que son las distintas formas de ordenar
Prof. Victor Bernal 2010 – 2011 Resumen. Pág. 18 de 125.
n objetos en círculo. Como uno de los objetos se fija para que sirva como referencia, su número
es (n − 1)!
7.5. Permutaciones con repetición. En los distintos órdenes posibles quizás se desee
admitir la repetición de algunos elementos un número determinado de veces. Por ejemplo,
en la palabra CATAPULTA, si quisiéramos ordenar sus letras, deberíamos admitir que la A se
repitiera tres veces y la T dos. Llamaremos permutaciones con repetición a estas ordenaciones.
Para calcular el número de permutaciones de este tipo se divide el factorial del número total de
símbolos, contando sus repeticiones, entre el factorial del número de veces que se repite cada
uno.
En el ejemplo, el número de permutaciones de las letras de la palabra CATAPULTA sería de
9!
= 30240
(3! × 2!)
7.6. Combinaciones. Se llaman combinaciones de m elementos tomados de n en n, (no-
tadas Cm,n ) a todos los subconjuntos de n elementos que se pueden formar en un conjunto de
m elementos.
De su definición se deduce que el orden no interviene para distinguir unas combinaciones de
otras y que n ≤ m.
El número total de combinaciones también se llama coeficiente binomial de m y n. Viene dado
por la fórmula !
m m!
Cm,n = =
n n!(m − n)!
7.7. Combinaciones con repetición. Las combinaciones con repetición CRm,n de m ele-
mentos tomados de n en n se pueden definir en una de las formas:
NN N N N
1 2 3 4 ... m−1 m
indica que el objeto 1 fue seleccionado dos veces, la segunda casilla esta vacía y ello significa
que el objeto 2 no fue seleccionado, etc. El número de cruces en la casilla i indica entonces el
número de veces que el objeto i fue seleccionado. En total debe haber n cruces pues es el total
de extracciones. Deseamos entonces conocer el número de posibles arreglos que pueden obte-
nerse con estas características, y debe ser claro, después de algunos momentos de reflexión,
que éste es el número de muestras de tamaño n, con reemplazo y sin orden, que se pueden
obtener de un conjunto de m elementos diferentes. Consideremos que las dos paredes en los
extremos de este arreglo son fijas, estas paredes se encuentran ligeramente remarcadas. Con-
sideremos además que las posiciones intermedias, cruz o linea vertical, pueden moverse. En
total hay n+(m−1) objetos movibles y cambiar de posición estos objetos produce las distintas
configuraciones posibles que nos interesan. El número total de estos arreglos es, como ya se
dijo, ! !
m+n−1 m+n−1
CRm,n = Cm+n−1,n = =
n m−1
que equivale a colocar dentro de las n + (m − 1) posiciones las n cruces, dejando en los lugares
restantes las paredes movibles.
En general, los siguientes pasos permiten resolver un problema de conteo usando relaciones
de recurrencia.
Existen muchas técnicas para resolver ecuaciones de recurrencia que pueden ser aplicadas en
la solución de estos problemas de conteo.
Ejemplo: Las Torres de Hanoi. El juego llamado de las Torres de Hanoi consiste de tres pos-
tes montados en un soporte y n discos de diferentes tamaños. Inicialmente, los discos están
en el primer eje en orden de tamaño decreciente: Las reglas permiten mover un disco de un
eje a otro pero ninguno puede ser colocado sobre uno más pequeño. El juego finaliza cuando
todos los discos han sido colocados en el segundo poste en orden de tamaño decreciente. La
pregunta usual es determinar el número de movimientos necesarios si hay 64 discos. La Figura
10 muestra la solución si n = 3.
Si an es el mínimo de movimientos que resuelven el problema, la transferencia de los n − 1
primeros se efectúa en an−1 movimientos. Se requiere un movimiento para llevar el mayor dis-
co al segundo poste y llevar los n − 1 discos del poste 3 al poste 2 para que queden sobre el
mayor disco requiere an−1 movimientos. Por lo tanto, si hay n discos se necesitan 2an−1 + 1
movimientos. El número es mínimo pues an−1 es mínimo.
Se establece entonces que an = 2an−1 + 1. La condición inicial es a1 = 1. Las sucesivas itera-
ciones dan,
Por lo tanto,
an = 9an−1 + (10n−1 − an−1 ) = 8an−1 + 10n−1 .
9. Probabilidad condicional
1. 0 ≤ P (A | B) ≤ 1
2. Si A y B son mutuamente excluyentes, de modo que A ∩ B = ∅, entonces P (A | B) = 0.
3. Si B ⊂ A, entonces P (A | B) = 1
Prof. Victor Bernal 2010 – 2011 Resumen. Pág. 22 de 125.
S
4. Si A1 , A2 , . . . son mutuamente excluyentes y su unión es k Ak , entonces,
X
P (A | B) = P (Ak | B)
k
Se puede ver que conocer la información de la ocurrencia del evento B, ha afectado la probabi-
lidad del evento A, es decir, dada la información que el resultado del dado es un número par,
la probabilidad de obtener “2” es ahora 1/3.
Una consecuencia de la probabilidad condicional es la llamada regla del producto. Si A1 , A2 ,…,An
eventos tales que P (A1 ∩ · · · ∩ An−1 ) > 0, entonces se cumple,
P (A1 ∩ A2 ) P (A1 ∩ A2 )
P (A1 | A2 ) = = P (A1 ), P (A2 | A1 ) = = P (A2 )
P (A2 ) P (A1 )
4
George Pólya (1887 – 1985)
X
P (A) = P (A | Bk )P (Bk )
k
S
Como la colección de eventos B1 , B2 , . . . cumple la condición k Bk = Ω y como uno, y sólo uno
de ellos ocurre, entonces
[
A= (A ∩ Bk )
k
por lo tanto,
[ X X P (A ∩ Bk )
P (A) = P (A ∩ Bk ) = P (A ∩ Bk ) = P (Bk )
k k k
P (Bk )
Por otra parte, B1 y B2 son mutuamente excluyentes y completan todas las posibilidades del
jugador puesto que ocurre uno, y sólo uno de estos dos eventos. Como ambos eventos tiene la
Prof. Victor Bernal 2010 – 2011 Resumen. Pág. 24 de 125.
Figura 11. Thomas Bayes (1702–1761)
1 1
P (B1 ) = , P (B2 ) =
2 2
por lo tanto,
1
p(x) = (p(x + 1) + p(x − 1)), 1≤x ≤m−1
2
además,
p(0) = 1, p(m) = 0
p(x) = C1 + C2 x,
10.2. El Teorema de Bayes. En el año 1763, dos años después de la muerte de Thomas
Bayes (1702-1761), se publicó su obra Essay Towards Solving a Problem in the Doctrine of Chan-
ces (Ensayo para la solución de un problema en la teoría del azar) en la que aparece, por vez
primera, la determinación de la probabilidad de las causas a partir de los efectos que han podi-
do ser observados. El cálculo de dichas probabilidades recibe el nombre de teorema de Bayes.
P (Ai )P (B | Ai )
P (Ai | B) = Pk
j=1 P (Aj )P (B | Aj )
P (B)P (D | B)
P (B | D) =
P (A)P (D | A) + P (B)P (D | B) + P (C)P (D | C)
0.30 × 0.04 12
= = = 0.316
0.45 × 0.03 + 0.30 × 0.04 + 0.25 × 0.05 38
1. Un hombre tiene tiempo para jugar ruleta cinco veces a lo sumo. En cada juego gana
o pierde un dólar. El hombre empieza con un dólar y dejará de jugar si antes de la
quinta vez pierde todo su dinero o si gana tres dólares, esto es, si tiene cuatro. Hallar
el número de casos en que la apuesta puede ocurrir. (R: 11 maneras)
2. Los equipos A y B juegan un torneo, el primero en ganar dos juegos seguidos o comple-
tar cuatro juegos ganados es el ganador. Hallar el número de formas en que se puede
desarrollar el torneo. (R: 14 maneras)
3. Un hombre tiene tiempo para jugar ruleta cinco veces. Gana o pierde un dólar en cada
juego. El hombre empieza con dos dólares y dejará de jugar a la quinta vez si pierde
todo su dinero o si gana tres dólares (esto es, completa 5 dólares). Hallar el número de
maneras como puede suceder el juego. (R: 20 maneras)
4. Un punto está en el origen del eje x y puede recorrer una unidad a la izquierda o a la
derecha. Se detiene después de 5 pasos, si avanza a +3 o se retrasa a −2. Construir el
diagrama de árbol para describir todas las trayectorias posibles que puede seguir. (R:
20 maneras)
5. En el siguiente diagrama A, B, . . . , F denotan islas, y las líneas de unión son puentes. Un
hombre empieza en A y camina de isla en isla. Se detiene a descansar cuando no puede
continuar caminando sin tener que cruzar el mismo puente dos veces. Hallar el número
de maneras como puede hacer su recorrido antes de descansar. (R: 11 maneras)
A B C D
E F
A B C
R S T
X Y Z
11.3. Combinaciones.
P (A ∩ B ∩ C) = P (A)P (B | A)P (C | A ∩ B)
P (A) = P (A | B) + P (A | B 0 )
en los casos: A = ∅, B = ∅, B = Ω, B = A0 .
5. Demostrar que si A y B son independientes entonces sus complementos A0 y B 0 también
son independientes.
6. Demostrar que los eventos A y B son independientes si P (B | A) = P (B | A0 ).
7. Una caja contiene b1 bolas blancas y n1 bolas negras. Otra caja contiene b2 bolas blan-
cas y n2 bolas negras. De cada caja se extrae, al azar, una bola. De entre las dos, al azar,
se escoge una. Calcular la probabilidad de que la bola escogida sea de color blanco.
8. Se extraen, al azar, dos bolas de una caja que contiene n bolas numeradas de 1 hasta
n. Si la primera bola extraída es la numerada 1 se coloca aparte, en caso contrario se
devuelve a la caja. Calcular la probabilidad de que la segunda bola sea la numerada 2.
9. Una caja contiene b bolas blancas, n bolas negras y r bolas rojas. Calcular la probabi-
lidad de que antes de extraer una bola negra se extraiga una blanca, en los casos,
a) En cada extracción la bola se regresa a la caja.
b) En cada extracción la bola no se devuelve a la caja.
1. En una bolsa tenemos tres dados iguales salvo por el color de sus caras. El dado D1
tiene cuatro caras blancas y dos rojas, el dado D2 tiene tres blancas y tres rojas y el
Prof. Victor Bernal 2010 – 2011 Resumen. Pág. 33 de 125.
dado D3 tiene una cara blanca y cinco rojas. Es extraído un dado al azar y lanzado al
aire. Sabiendo que la cara vuelta hacia arriba ha sido blanca, ¿cuál es la probabilidad
de que el dado elegido haya sido el D1? ¿y que haya sido elegido el D2?.
2. En el jardinero del señor Rodríguez no se puede confiar. La probabilidad de que olvide
regar el rosal durante la ausencia del señor Rodríguez es 2/3. El rosal está en estado
inseguro: si se le riega tiene igual probabilidad de progresar o de secarse, pero sola-
mente un 0.25 de probabilidad de progresar si no se le riega. Después de su regreso, el
señor Rodríguez se encuentra que su rosal está seco. ¿Cuál es la probabilidad de que
el jardinero no lo haya regado?.
3. Dos máquinas A y B han producido 100 y 200 piezas. Se sabe que A produce 5 % de
piezas defectuosas y B un 6 %. Se selecciona una pieza y se pide:
a) Probabilidad de que sea defectuosa.
b) Sabiendo que es defectuosa probabilidad que haya sido fabricada por la máquina
A.
4. Una compañía de seguros de automóviles clasifica a los conductores en tres clases:
A, alto riesgo, B, riesgo medio, y C bajo riesgo. La clase A constituye el 30 % de los
conductores que suscriben un seguro con la compañía; la probabilidad de que uno de
esos conductores sufra un accidente en un año es 0.1. Los datos correspondientes para
la clase B son 50 % y 0.03 y para la clase C son 20 % y 0.01.
a) Un determinado cliente seleccionado entre los asegurados, que probabilidad tiene
de que sufra un accidente en el primer año.
b) Si seleccionamos un cliente accidentado el primer año. ¿Cuál es la probabilidad de
que este cliente esté en cada una de las clases A, B, C.
5. Cuatro máquinas A, B, C, D producen respectivamente el 40 % , el 30 %, el 20 %, y el
10 % del número total de productos de un laboratorio farmacéutico. Estas máquinas
producen artículos defectuosos en los siguientes porcentajes: 5 %, 4 %, 2 %, 1 % respec-
tivamente. Seleccionando un artículo al azar se pide.
a) Probabilidad de que haya sido seleccionado un artículo defectuoso.
b) Suponiendo que el artículo sea defectuoso, ¿cuál es la probabilidad que no haya
sido producido por la máquina A?.
6. Una empresa dedicada a la fabricación de automóviles, desea lanzar al mercado un
nuevo modelo. Al estudiar la posible situación económica que existirá se contemplan
tres únicas alternativas existencia de inflación, estabilidad o depresión. Se estima que:
a) dichas alternativas son igualmente probables y b) la probabilidad de que se lance
X: Ω → R
Se puede definir una variable aleatoria X : Ω → R que cuantifique los resultados de acuerdo con
el número de caras. Los posibles valores de X son 0,1,2,3.
X es una v.a. discreta si existe un conjunto numerable A = {n0 , n1 , . . . } tal que P (X ∈ A) = 1.
En adelante se usará la siguiente notación para definir subconjuntos del espacio muestral Ω.
(a ≤ X ≤ b) = {w ∈ Ω : a ≤ X(w) ≤ b}
(X = a) = {w ∈ Ω : X(w) = a}
Las expresiones (X ≤ b), (a < X ≤ b), (a ≤ X < b), (a < X < b) se definen de manera similar.
37
1.2. Función de distribución de probabilidad.
2. Media y Varianza
2.1. Media.
2.2. Varianza.
1
Algunos textos usan el término Variancia
Nota:
El valor E(X1 X2 ) − E(X1 )E(X2 ) se llama covarianza (varianza conjunta) de las variables aleato-
rias X1 y X2 . Se nota cov(X1 , X2 ), de esta manera,
1. cov(a, b) = 0, a, b constantes
2. cov(X, X) = V (X)
3. cov(X1 , X2 ) = cov(X2 , X1 )
4. cov(X, a) = 0
5. cov(X1 + a, X2 + b) = cov(X1 , X2 )
6. cov(aX1 , bX2 ) = ab cov(X1 , X2 )
7. cov(X1 + X2 , X3 ) = cov(X1 , X3 ) + cov(X2 , X3 )
Ejemplo: Si se lanza un dado corriente, se produce uno de seis resultados, así el espacio mues-
tral se puede escribir como Ω = {s1 , s2 , s3 , s4 , s5 , s6 }. Se define X : Ω → R por X(sj ) = j.
1 1 1 1 1 1 21 7
E(X) = 1 × +2× +3× +4× +5× +6× = = = 3.5
6 6 6 6 6 6 6 2
2 2
1 1 1 1 1 1 7 91 7 35
V (X) = 12 × + 22 × + 32 × + 42 × + 52 × + 62 × − = − =
6 6 6 6 6 6 2 6 2 12
Prof. Victor Bernal 2010 – 2011 Resumen. Pág. 39 de 125.
Ejemplo: Si se lanzan dos dados corrientes, se produce uno de 36 resultados, así el espacio
muestral se puede escribir com Ω = {(i, j) : 1 ≤ i, j ≤ 6}. Se definen X1 (i, j) = i, X2 (i, j) = j,
X = X1 + X2 . Aplicando las propiedades de la media,
7 7 14
E(X) = E(X1 ) + E(X2 ) = + = =7
2 2 2
6. Distribuciones especiales
µ = E(X) = 0 × P (X = 0) + 1 × P (X = 1)
=0×q+1×p =p
σ 2 = V (X) = 02 × q + 12 × p − p 2 = p − p 2 = p(1 − p) = pq
6.2. La función indicadora. Las funciones indicadoras son generalizaciones de las varia-
bles de Bernoulli que nos permiten construir variables del tipo Bernoulli con cualquier variable
aleatoria o bien usando cualquier evento. Si (Ω, A, P ) es un espacio de probabilidad y A ∈ A,
La función indicadora de A denotada por IA , de Ω en {0, 1}, está definida por,
1 w∈A
IA (w) =
0 w 6∈ A
1. IA∩B = IA · IB
2. IA0 = 1 − IA
3. IA∪B = IA + IB − IA∩B
2
Por Jacob Bernoulli (1654-1705), hermano de Johann Bernoulli y tío de Daniel Bernoulli.
En adelante, debe entenderse que el valor de la función de densidad es cero en los casos no
contemplados en la fórmula. Se puede probar que la función es de densidad puesto que, de
acuerdo con el desarrollo del binomio de Newton,
n
!
X n k n−k
p q = (p + q)n = 1n = 1
k=0
k
Luego,
V (X) = E(X 2 ) − [E(X)]2 = (np)2 + npq − (np)2 = npq.
k(1 − p) ≤ (n − k + 1)p
k − kp ≤ np − kp + p
k ≤ np + p
0.4 b
b b
0.2 b
b
b
b b
0.1
b
b b b
b b bb
b b b b
1 1 2 3 4 5 6 7 8
01
1. P (X = k − 1 | X ∈ {k, k − 1})
2. P (X = k | X ∈ {k, k − 1})
P (X = k − 1)
P (X = k − 1 | X ∈ {k, k − 1}) =
P (X ∈ {k, k − 1})
P (X = k − 1)
=
P (X = k) + P (X = k − 1)
!
n
p k−1 qn−k+1
k−1
= ! !
n k−1 n−k+1 n k n−k
p q + p q
k−1 k
!
n
q
k−1
= ! !
n n
q +p
k−1 k
kq
=
p(n + 1) − k(p − q)
!
n
p
k
P (X = k | X ∈ {k, k − 1}) = ! !
n n
q +p
k−1 k
p(n − k + 1)
=
p(n + 1) − k(p − q)
Ejemplo: Un hombre realiza 8 disparos hacia un objetivo. Los disparos son independientes y
la probabilidad de acertar es 0.7. Si X es el número de aciertos, calcular las probabilidades,
!
8
1. P (X = 4) = (0.7)4 (0.3)4 ≈ 0.1361366999
4
Prof. Victor Bernal 2010 – 2011 Resumen. Pág. 44 de 125.
2. P (X = 4 | X ≥ 2).
P (X = 4) P (X = 4)
P (X = 4 | X ≥ 2) = =
P (X ≥ 2) 1 − P (X < 2)
P (X = 4)
=
1 − P (X = 0) − P (X = 1)
!
8
(0.7)4 (0.3)4
4
= ! !
8 8 8
1− (0.3) − (0.7)(0.3)7
0 1
39690
= ≈ 0.1363125882
291169
Ejemplo: En este juego yo lanzo un dado y tú lanzas otro dado. Tú ganas si el número de tu
dado es estrictamente mayor que el mío. Si jugamos cinco veces, calcular la probabilidad de que
tú ganes al menos cuatro de los juegos. Si X es el número de juegos que tú ganas, la variable
aleatoria es binomial con n = 5, para determinar p se observa que de los 36 casos posibles al
lanzar dos dados, en 15 de ellos tú ganas. La probabilidad es,
21 4 21 5
! !
5 15 5
P (X ≥ 4) = P (X = 4) + P (X = 5) = + = 0.100469393
4 36 36 5 36
2. X = 5. Se da cuando uno de los equipos gana 3 de los 4 primeros y luego gana el quinto.
" ! # " ! #
4 4 8 1
P (X = 5) = (1/2)4 (1/2) + (1/2)4 (1/2) = = = 0.25
3 3 32 4
1 1 1
Entonces µ = p · =p· 2 = .
(1 − q)2 p p
Para calcular la varianza,
∞
!2
2
X
2 k−1 1 q
σ = V (X) = k pq − =
k=1
p p2
n
X
X= Xi
i=1
Cada elemento de la muestra tiene la misma probabilidad de ser Tipo–1, por lo tanto
M
P (Xi = 1) = , i = 1, 2, . . . , n
N
nM
E(X) = n E(Xi ) = .
N
n 2 X n X n
X
=E
Xi + X X
i j
i=1 i=1 j=1
i≠j
M
E Xi2 = , i = 1, 2, . . . , n.
N
Prof. Victor Bernal 2010 – 2011 Resumen. Pág. 47 de 125.
Si ahora consideramos el caso n = k = 2, entonces
! !
M N −M
2 0 M(M − 1)
P (X = 2) = P (Xi = 1, Xj = 1) = ! = , i, j = 1, . . . , n, i ≠ j.
N N(N − 1)
2
Por lo tanto,
M(M − 1)
E(Xi Xj ) = ,
N(N − 1)
como hay n(n − 1) de estos sumandos en la expresión para E X 2 , reemplazando E(Xi ) y
E(Xi2 ),
nM n(n − 1)M(M − 1)
E(X 2 ) = + ,
N N(N − 1)
para el cálculo de la varianza se aplica V (X) = E(X 2 ) − (E(X))2 .
En definitiva, la media y la varianza son,
M N −n M M
µ =n· , σ2 = n· 1−
N N −1 N N
Ejemplo: Un lote de 100 artículos se inspecciona tomando 5 de ellos, al azar, y probándolos.
Si los 5 artículos pasan la prueba el lote es aceptado. Encontrar la función de densidad de
probabilidad del número de artículos defectuosos en una muestra de 5 si hay 20 defectuosos
en el lote de 100.
El experimento se adapta a la distribución hipergeométrica con n = 5, N = 100, M = 20
(defectuosos) y N − M = 80 no defectuosos.
Por lo tanto, la función de densidad para este experimento es,
! !
20 80
k 5−k
P (X = k) = f (k) = ! , 0≤k≤5
100
5
La tabla de probabilidades es la siguiente,
k 0 1 2 3 4 5
f (k) 0.31930944 0.420144 0.20734379 0.04784857 0.00514826 0.00020593
Ejemplo: Supongamos que el tamaño N de una población es desconocido, por ejemplo la po-
blación de peces en un lago. Para estimar N sin hacer un conteo exhaustivo (censo) se utiliza el
llamado método de captura–recaptura. Se capturan M ejemplares, se marcan de manera que se
distingan del resto y se liberan. Transcurrido un tiempo que garantice la mezcla entre marcados
y no marcados, se extrae una muestra de tamaño n y se anota el número X de ejemplares mar-
cados. Este método fue introducido por Laplace3 en 1786 para estimar la población de Francia
3
Pierre-Simon Laplace (1749–1827)
n = 25 n = 50
0.3 b
b b
b b
0.2 b
b b
0.1
b
b b
b b b
b b b b
1 1 2 3 4 5 6 7 8
01
y es ahora empleado por biólogos y otros profesionales para estimar poblaciones animales. En
este modelo, los ejemplares marcados son Tipo–0 y los no marcados son Tipo–1, por lo que el
número k de ejemplares recapturados que estén marcados tiene una distribución hipergeomé-
trica. Analizando la magnitud de las probabilidades y suponiendo que la muestra obtenida es
la de más alta probabilidad (principio de máxima verosimilitud) se obtiene un estimado para
N por,
Mn
N≈ ,
X
donde [z] es el mayor entero menor o igual a z.
Ejemplo: Un gran lote de artículos es recibido para inspección. Para ahorrar tiempo y recursos
se adopta un método de examen que consiste en observar hasta 30 de ellos, si antes de com-
pletar los 30 exámenes aparecen 3 defectuosos el lote se rechaza, de lo contrario se continua
el examen hasta completar 30. Calcular la probabilidad de rechazar el lote si este contiene un
15 % de defectuosos.
En este caso, el modelo de distribución para el número de artículos defectuosos es binomial
negativo. Los parámetros son p = 0.15, n + k = 30, n = 3 y k ≤ 27. La probabilidad es,
27
!
X 3+k−1
P (X ≤ 27) = 0.153 0.85k = 0.8485993926
k=0
2
Por lo tanto, con este método, la probabilidad de rechazar un gran lote que contenga 15 % de
defectuosos es de aproximadamente 85 %.
6.7. La distribución de Poisson. Esta distribución también se llama de los eventos poco
probables. Si se sitúa una secuencia de experimentos independientes de Bernoulli realizados,
4
aleatoriamente, en el tiempo o en el espacio, la variable aleatoria X llamada de Poisson cuenta
el número de ocurrencias del resultado “1" durante un intervalo de tiempo específico o en
4
Por Siméon-Denis Poisson (1781-1840). En 1837 publicó Recherches sur la probabilité des jugements en matiere
criminelle et en matiere civil, précédés des régles générales du calcul des probabilités, un trabajo importante en la
teoría de la probabilidad donde aparece esta distribución, la cual describe la probabilidad de que un evento aleatorio
una región específica. Los “1"s se deben producir de manera independiente, la probabilidad
de obtenerlo es pequeña pero proporcional al intervalo de tiempo o al tamaño del espacio. Es
decir, se puede considerar que se producen a una tasa aproximadamente constante λ, bien sea
en el tiempo o en el espacio.
Si se tiene una sucesión de distribuciones binomiales tales que la n-sima distribución tiene
parámetro de probabilidad pn y cuando n → ∞ entonces pn → 0 y λn = npn → λ se cumple,
!
n k n−k λk
lı́m pn qn = e−λ , k = 0, 1, 2, . . .
n→∞ k k!
La función de densidad es,
λk −λ
P (X = k) = f (k) = e , k = 0, 1, 2, 3, . . . , λ>0
k!
En efecto, si consideramos que para n grande se puede reemplazar λ = np, para k fijo,
k
n! λ λ n−k
lı́m P (X = k) = 1−
n→∞ k!(n − k)! n n
n(n − 1) . . . (n − k − 1) λk λ n λ −k
= lı́m 1 − 1 −
n→∞ nk k! n n
!
λk λ k −λ
e
=(1) (e−λ )(1) =
k! k!
La media y la varianza son iguales,
∞ ∞
X λk X λk−1
µ = e−λ k = λe−λ k = λe−λ eλ = λ
k=0
k! k=0
k!
∞
X λk
σ2 = k2 e−λ − λ2 = λ2 + λ − λ2 = λ
k=0
k!
Ejemplo: Los cambios que se producen en el material genético (hereditario) de las células vi-
ocurra en un tiempo o intervalo de espacio bajo las condiciones que la probabilidad sea muy pequeña, pero el número
de intentos sea tan grande que el evento ocurra algunas veces.
40 × 1 + 8 × 2 + 3 × 3 + 1 × 4
λ= = 0.46
150
(0.46)k
nk = N P (X = k) = 150 × e−0.46 .
k!
La siguiente tabla contiene los valores que predice la distribución de Poisson y los valores
experimentales Nk , en ellos se observa un nivel de concordancia que puede ser comprobado
con las técnicas estadísticas adecuadas.
k 0 1 2 3 4
nk 94.69254682 43.55857153 10.01847145 1.536165622 0.1766590465
Nk 98 40 8 3 1
7. Funciones generadoras
Una función generadora asociada a una variable aleatoria X es el valor esperado de ciertas
transformaciones g(X) de la variable. En general, se requieren tres propiedades de tales fun-
ciones,
Como etX ≥ 0 es una variable aleatoria no negativa, entonces, dado t, m(t) existe, bien sea
como un número real o como +∞. Las propiedades básicas de la función m(t), suponiendo
que está definida en un entorno J = (−t0 , t0 ), con t0 > 0, son,
7.2. Propiedades de la función generadora de momentos. Las siguientes son las propie-
dades de la función generadora de momentos.
Si X1 , X2 tienen funciones generadoras de momentos m1 (t), m2 (t) respectivamente, entonces,
de esta manera,
σ 2 = E(X 2 ) − [E(X)]2 = n2 p 2 + npq − n2 p 2 = npq.
Definición 10. Si X es una variable aleatoria cuyos valores pertenecen al conjunto {0, 1, 2, . . . },
se llama función generadora de probabilidad a la función notada g(t), definida por
g(t) = E(t X )
8. Ejercicios
cov(X, Y ) = −np1 p2
efectuando los siguientes pasos. Sea Ii = 1 si el i-ésimo ensayo dio el primer resultado,
Ii = 0 en caso contrario. De manera similar, sea Ji = 1 si el i-ésimo ensayo dio el segundo
resultado, y Ji = 0 en caso contrario. Entonces X = I1 + · · · + In y Y = J1 + · · · + Jn .
Ahora demuestre lo siguiente:
a) E(Ii Ji ) = 0
b) Si i ≠ j, E(Ii Jj ) = p1 p2
Prof. Victor Bernal 2010 – 2011 Resumen. Pág. 55 de 125.
Pn P
n P
c) E(XY ) = E i=1 Ii Ji +E i=1 j≠i Ii Jj = n(n − 1)p1 p2
d) cov(X, Y ) = −np1 p2
6. Si X es una variable aleatoria binomial con parámetros n = 4 y P (X = 1) = p. Calcular
E[sen(π X/2)].
7. Suponga que X tiene densidad de Poisson con parámetro λ. Calcular la media de (1 +
X)−1 .
8. Un fabricante de automóviles vende, en el mismo día, a concesionarios, cinco vehículos
idénticos. Sabiendo que la probabilidad de que este tipo de vehículos estén funcionando
correctamente dos años después es 0.80. Calcular la probabilidad de que:
a) Tres automóviles estén fuera de servicio dos años más tarde.
b) A lo sumo dos automóviles estén fuera de servicio.
9. Si la probabilidad de que un cierto experimento tenga éxito es 0.4, y X es el número de
éxitos que se obtienen en 15 realizaciones independientes del experimento, calcular la
probabilidad P (6 ≤ X ≤ 9).
10. Una moneda con probabilidad de cara 0.6 se lanza nueve veces. Calcular la probabilidad
de obtener un número par de caras.
11. Tres hombres A, B y C disparan a un blanco. A dispara tres veces y la probabilidad de que
dé en el blanco en un disparo concreto es 1/8. B dispara cinco veces y la probabilidad de
que dé en el blanco en un disparo concreto es 1/4. C dispara dos veces y la probabilidad
de que dé en el blanco en un disparo concreto es 1/2.
a) Calcular el número esperado de disparos que darán en el blanco.
b) Calcular la varianza del número de disparos que darán en el blanco.
12. Un cierto sistema electrónico contiene diez componentes. Si la probabilidad de que un
componente individual falle es 0.2 y los componentes fallan independientemente unos
de otros. Dado que al menos uno de los componentes ha fallado, calcular la probabili-
dad (condicional) de que fallen al menos dos de los componentes.
13. Un Ingeniero en Transporte está estudiando la calificación de las personas al presentar
los exámenes para obtener la licencia de conducir de 3er grado. Según su experiencia, ha
determinado que el 5 % de las personas que presentan el examen son aplazadas, lo que
él considera que es muy poco, por lo que exigirá un mayor puntaje para la aprobación
de este examen. Si en un día se presentan 15 personas al examen:
a) Calcular la probabilidad de que no haya aplazados en el examen.
b) Si aplazan menos de 3 personas el examen deberá repetirse. Calcular la probabilidad
de que el examen se repita.
Cantidad de accidentes 0 1 2 3 4 5 6
Número de días 19 26 26 15 9 4 1
X : S -→ R
Los valores producidos por cada una de estas variables aleatorias son de naturaleza continua.
1.1. Función de densidad y función de distribución. Se dice que una variable aleatoria
X tiene una distribución continua si existe una función no negativa f (x), definida en todo el
61
conjunto R de los reales tal que si A es un intervalo, entonces
Z
P (X ∈ A) = f (x) dx
A
Ejemplos:
0.8
1
0.6 y=
(1 + x)2
0.4
0.2
0
0 0.5 1.0 1.5 2.0
2
2 y= 3
√
3 x
−2 8
g 0 (x) = 4 , 0 < x < 1; g"(x) = 7 , 0<x<1
9x 3 27x 3
En este caso, g(x) cumple las propiedades pues
2
√ ≥ 0,
g(x) =
33 x
Z1 Z1
2 2 2
√
3
dx = lı́m √
3
dx = lı́m+ 1 − a 3 = 1
0 3 x a→0 +
a 3 x a→0
1.4. Propiedades de las distribuciones. Las siguientes son las propiedades más impor-
tantes de la función de distribución F (x) de una variable aleatoria X.
lı́m F (x) = 0
x→−∞
lı́m F (x) = 1
x→+∞
1.5. Cálculo de probabilidades con F (x). Para el cálculo de probabilidades con F (x) se
utilizan las siguientes propiedades:
1. P (X > x) = 1 − F (x).
2. P (x1 < X ≤ x2 ) = F (x2 ) − F (x1 ).
3. P (X < x) = F (x − ).
4. P (X = x) = F (x + ) − F (x − )
Nota: En general las funciones de distribución son continuas, es decir, F (x + ) = F (x − ),
Z xtomar P (X = x) = 0.
por lo tanto se puede
5. F (x) = P (X ≤ x) = f (t) dt
−∞
0 dF (x)
6. F (x) = = f (x)
dx
Si una variable aleatoria X tiene una función de distribución continua F (x) y se define una
variable aleatoria Y como una función de X, es decir, Y = h(X), la función de distribución
G(y) de Y se puede obtener mediante la ecuación:
Z
G(y) = P (Y ≤ y) = P (h(X) ≤ y) = f (x) dx.
{x:h(x)≤y}
6 6
β y = h(x) β y = h(x)
α α
( ) - ( ) -
a b a b
Decreciente Creciente
Si X es una variable aleatoria cuya función de densidad es f (x) y además P (a < X < b) = 1,
entonces si Y = h(X) y h(x) es continua y estrictamente creciente, o estrictamente decreciente
de tal forma que x ∈ (a, b) si y sólo si y ∈ (α, β) y X = h−1 (Y ), la función de densidad g(y)
se calcula mediante:
dh−1 (y)
−1
f (h (y)) , α < y < β,
dy
g(y) =
0 en otro caso.
Ejemplo: Una fuente puntual emite rayos que alcanzan un objetivo. Si estos rayos se emiten
totalmente al azar, se puede considerar que el ángulo que forman con respecto al punto de
emisión está modelado por una variable aleatoria X que produce valores en [−π /2, π 2] cuya
densidad, en este rango, es f (x) = 1/π .
π π
α=− α=
2 2
z
α=0
reemplazando,
dg −1 (y) 1
=
1 + y2
dy
se obtiene, !
1 1 1
−1
fY (y) = fX (g (y)) = .
1 + y2 π 1 + y2
Si una variable aleatoria X tiene una distribución continua cuya función de densidad es f (x),
entonces la Esperanza de X, notada E(X) (µ, µX ) se define por:
Z∞
E(X) = xf (x) dx
−∞
Aunque hay semejanza entre la esperanza de una variable aleatoria y el concepto físico de
centro de gravedad, una función de densidad f (x) no necesariamente tiene una esperanza.
Supongamos que una variable aleatoria X tiene una función de densidad f (x) definida por:
1
f (x) = , −∞ < x < ∞
π (1 + x 2 )
Esta distribución se conoce como Distribución de Cauchy o como Distribución de Lorentz. Una
de sus aplicaciones se da en la prueba de programas de computación en los que algunos datos
extremos pueden activar reacciones adversas. La anterior densidad es el caso especial f (x; 0, 1)
de la distribución de Cauchy generalizada,
1
f (x; x0 , γ) = 2
x−x0
πγ 1 + γ
" #
1 γ
=
π (x − x0 )2 + γ 2
La función de densidad es simétrica y E(X) debería ser 0, pero la integral planteada para de-
terminar si existe E(X) es:
Z∞ Z∞
2 x
|x|f (x) dx = dx = ∞
−∞ π 0 1 + x2
Prof. Victor Bernal 2010 – 2011 Resumen. Pág. 66 de 125.
Sin embargo, si existen a y b con −∞ < a < b < ∞, tales que P (a ≤ X ≤ b) = 1, entonces se
asegura la existencia de E(X).
0.15
0.10
x
0.05 y=
π(1 + x2 )
-3 -2 -1 1 2
-0.05
-0.10
-0.15
3.1. Esperanza de una función. Si X es una variable aleatoria con función de densidad
f (x), entonces la esperanza (media, valor esperado) de una función Y = h(X) se puede evaluar
sin encontrar la función de densidad g(y) de Y . El valor E(h(X)) se calcula por:
Z∞ Z∞
E(h(X)) = h(x)f (x) dx = yg(y) dy
−∞ −∞
E(Y ) = aE(X) + b
Como la varianza es la media de una variable aleatoria no negativa, entonces Var(X) ≥ 0. Las
propiedades más importantes de la varianza son:
Var(aX + b) = a2 Var(X)
3.4. Función generadora de momentos. Si X es una variable aleatoria, se define para cada
número real t,
mX (t) = E(etX )
La función mX (t) se llama función generadora de momentos de X. Se puede demostrar que las
(n)
derivadas mX (t) de esta función satisfacen la relación:
n n
d d
(n) tX tX
mX (0) = E(e ) =E e
dt n t=0 dt n t=0
1
F (µ + hσ ) − F (µ − hσ ) ≥ 1 −
h2
Los resultados de esta desigualdad son muy importantes, y muestran con gran claridad el papel
que juega la desviación estándar σ . En efecto, supongamos que tenemos una variable aleatoria
X con media y varianza finita, entonces la desigualdad es equivalente a
1
P (|X − µ| ≤ hσ ) ≥ 1 −
h2
Si se reemplaza h = 2, esta expresión indica que hay una probabilidad superior al 75 % de que
un valor observado de X caiga dentro de dos desviaciones estándar de la media. De manera
Prof. Victor Bernal 2010 – 2011 Resumen. Pág. 68 de 125.
análoga, con probabilidad superior a 15/16 = 0.9375 un valor observado de X caerá dentro de
cuatro desviaciones estándar de la media, para esto basta hacer h = 4.
La función Gamma, ahora notada Γ , fue introducida por el matemático suizo Leonhard Euler
(1707–1783) con el propósito de generalizar el factorial a valores no enteros. Más tarde, debido
a su importancia, fue estudiada por matemáticos tan eminentes como Adrien-Marie Legendre
(1752–1833), Carl Friedrich Gauss (1777–1855), Christoph Gudermann (1798–1852), Joseph
Liouville (1809–1882), Karl Weierstrass (1815-1897) y Charles Hermite (1822–1901), entre otros.
La función gamma se utiliza no sólo en probabilidad sino en areas tales como series asintóticas,
4.1. La definición como integral. En 1730, Euler propuso la definición de Γ (x), para x > 0,
como la integral (integral de Euler de segunda especie),
Z1
Γ (x) = (− log(t))x−1 dt.
0
Sin embargo, ahora es utilizada efectuando uno de los cambios de variable, u = − log(t) ó
u2 = − log(t), con lo cual se obtienen las identidades,
Z∞ Z∞
2
Γ (x) = t x−1 e−t dt = 2 t 2x−1 e−t dt.
0 0
La notación Γ (x) se debe a Legendre (1809). Las derivadas se pueden obtener derivando bajo
el signo de integral,
Z∞
Γ 0 (x) = t x−1 e−t log(t) dt
0
Z∞
Γ (n) (x) = t x−1 e−t logn (t) dt
0
La relación Γ (x + 1) = xΓ (x) se denomina ecuación funcional de Γ (x). Esta tiene como conse-
cuencia que si n es un entero, entonces Γ (n + 1) = n!. Se puede demostrar que Γ (x) es la única
función tal que log(f (x)) es convexa y satisface las propiedades: f (1) = 1 y f (x + 1) = xf (x).
4.3. La función Beta. La función Beta de Euler (integral de Euler de primera especie), es
una función de dos variables, x, y > 0 notada B(x, y), definida por
Z1
B(x, y) = t x−1 (1 − t)y−1 dt.
0
Este tema presenta las distribuciones de probabilidad más importantes y sus propiedades bá-
sicas. La notación utilizada se resume en la siguiente tabla:
Zb
Densidad de probabilidad f (x) P (a ≤ X ≤ b) = f (x)dx
a
Zx
Distribución de probabilidad F (x) = P (X ≤ x) = f (t)dt
−∞
Media µ = E(X)
1
Densidad de probabilidad f (x) = , a≤x≤b
b−a
x−a
Distribución de probabilidad F (x) = , a≤x≤b
b−a
a+b
Media µ=
2
(b − a)2
Varianza σ2 =
12
Sesgo β1 = 0
Curtosis β2 = 9/5
ebt − eat
Función generadora m(t) =
(b − a)t
6
1 f (x)
b−a
-
a b x
1 −x/β
Densidad de probabilidad f (x) = λe−λx = e , x ≥ 0, λ > 0, β > 0
β
Distribución de probabilidad F (x) = 1 − e−λx
Media µ = 1/λ = β
Varianza σ 2 = 1/λ2 = β2
Sesgo β1 = 2
Curtosis β2 = 9
λ
Función generadora m(t) =
λ−t
f (x)
2
λ=2
1.5
1 λ=1
0.5 λ = 0.5
x
0.5 1 1.5 2 2.5 3
x α−1 e−x/β
Densidad de probabilidad f (x) = , x ≥ 0, α > 0, β > 0
βα Γ (α)
Zx
Distribución de probabilidad F (x) = P (X ≤ x) = f (x)dx
−∞
Media µ = αβ
Varianza σ 2 = αβ2
√
Sesgo β1 = 2/ α
2
Curtosis β2 = 3 1 +
α
Función generadora m(t) = (1 − βt)α
f (x)
0.5
0.4
0.3 α = 1, β = 2
0.2
α = 2, β = 2
0.1
α = 4, β = 2 x
2 4 6 8 10 12
Γ (α + β) α−1
Densidad de probabilidad f (x) = x (1 − x)β−1 , 0 ≤ x ≤ 1, α, β > 0
Γ (α)Γ (β)
Zx
Distribución de probabilidad F (x) = P (X ≤ x) = f (x)dx
−∞
α
Media µ=
α+β
αβ
Varianza σ2 =
(α + β)2 (α + β + 1)
p
2(β − α) α + β + 1
Sesgo β1 = p
αβ(α + β + 2)
3(α + β + 1)[2(α + β)2 + αβ(α + β − 6)]
Curtosis β2 =
αβ(α + β + 2)(α + β + 3)
Función generadora m(t) = 1 F1 (α; β; t)
α = 2, β = 4 α = 4, β = 2
2
1.5
0.5
1.75
0.25 α = 0.2, β = 1
0.2 0.4 0.6 0.8 1
e−x/2 x (n/2)−1
Densidad de probabilidad f (x) = , x ≥ 0, n ∈ {0, 1, 2, 3, . . . }
2n/2 Γ (n/2)
Zx
Distribución de probabilidad F (x) = P (X ≤ x) = f (x)dx
−∞
Media µ=n
Varianza σ 2 = 2n
p
Sesgo β1 = 2 2/n
12
Curtosis β2 = 3 +
n
Función generadora m(t) = (1 − 2t)−n/2 , t < 1/2
f (x)
0.15
0.1 n=4
0.05
n = 10 n = 20
x
10 20 30 40
α α−1 (−x/β)α
Densidad de probabilidad f (x) = x e
βα
α
Distribución de probabilidad F (x) = 1 − e−(x/β)
1
Media µ = βΓ 1 +
α
2 1
Varianza σ 2 = β2 Γ 1 + − Γ2 1 +
α α
1 1 2 3
2Γ 3 1 + − 3Γ 1 + Γ 1+ +Γ 1+
α α α α
Sesgo β1 = 3/2
2 1
Γ 1+ − Γ2 1 +
α α
Curtosis β2 =
1 1 2 1 3 4
−3Γ 4 1 + α + 6Γ 2 1 + α Γ 1 + α − 4Γ 1 + α Γ 1 + α +Γ 1+ α
h i2
2 1
Γ 1+ α − Γ2 1 + α
f (x)
1.5
1.25 α = 0.5
1 α=3
0.75
0.5
0.25 α=1
x
0.5 1 1.5 2 2.5 3
1 2 2
Densidad de probabilidad f (x) = √ e−(x−µ) /2σ , σ > 0
σ 2π
Zx
Distribución de probabilidad F (x) = P (X ≤ x) = f (x)dx
−∞
Media µ=µ
Varianza σ2 = σ2
Sesgo β1 = 0
Curtosis β2 = 3
!
σ 2t2
Función generadora m(t) = exp µt +
2
1.00 y
−2 −1 0 1 2
!−(n+1)/2
1 Γ ((n + 1)/2) x2
Densidad de probabilidad f (x) = √ 1+ , n ∈ {0, 1, 2, 3, . . . }
nπ Γ (n/2) n
Zx
Distribución de probabilidad F (x) = P (X ≤ x) = f (x)dx
−∞
Media µ=0
n
Varianza σ2 = , n≥3
n−2
Sesgo β1 = 0, n≥4
6
Curtosis β2 = 3 + , n≥5
n−4
Función generadora m(t) = No existe
f (x)
0.4 n = 30
0.3
0.2
0.1
n=4
x
-4 -2 2 4
De acuerdo con las características ya anotadas acerca de las distribuciones especiales, en gene-
ral, las distribuciones de probabilidad conforman familias caracterizadas por sus parámetros
de localización (media: µ) y escala (varianza: σ 2 ). Así, dada una serie de observaciones, una
familia de distribuciones se puede hacer coincidir, con el grado de coincidencia deseado, con
la media observada (primer momento) y la varianza (segundo momento). Sin embargo, en el
comienzo del desarrollo de la teoría estadística, no existían métodos para construir distribu-
ciones de probabilidad que se ajustaran, con el grado de exactitud deseado, al sesgo (tercer
momento estandarizado: β1 ) y curtosis (cuarto momento estandarizado: β2 ) de las observacio-
nes obtenidas.
En su artículo de 1895, Contributions to the Mathematical Theory of Evolution. II. Skew Variation
in Homogeneous Material, el matemático y estadístico Karl Pearson (Marzo 27, 1857 – Abril 27,
1936), considerado como el fundador de la Estadística Matemática, identificó cuatro tipos de
distribuciones (notadas I a IV) además de la distribución normal (originalmente conocida como
tipo V). La clasificación se hizo de acuerdo con el tipo de soporte: intervalo acotado, intervalo
semi infinito y la recta real. En un segundo artículo de 1901, Mathematical contributions to the
theory of evolution, X: Supplement to a memoir on skew variation, redefinió la distribución tipo
V (ahora conocida como gamma–inversa) e introdujo la distribución tipo VI, estos dos primeros
artículos cubren los cinco principales tipos de distribución. Finalmente, en un tercer artículo
escrito en 1916, Mathematical contributions to the theory of evolution, XIX: Second supplement
to a memoir on skew variation introdujo otros tipos y casos especiales (VII a XII).
Pearson definió los momentos de orden k, de una variable aleatoria X como,
1 n
!
n
f (k) =
k 2
d ln f (x) x − 12 n
= −
dx n/4
1
S = − y/(β1 + β2 y + β3 y 2 ), y = (x + − µ),
2
d ln f (x) x−α
= −
dx β1 + β2 x + β3 x 2
La solución depende del signo de β22 − 4β1 β3 y Pearson discute en gran detalle las diferentes
distribuciones y las clasifica en diversos tipos. El actuario Sir William Palin Elderton (1877-
1962), publicó en 1907 el resumen más utilizado de los resultados obtenidos por Pearson. Si
notamos f (x) como f , el sistema de Pearson basado en la ecuación diferencial
d ln f (x) x+a
= ,
dx b0 + b1 x + b2 x 2
se llega a la ecuación,
x r (b0 + b1 x + b2 x 2 )f 0 = x r (x + a)f
b0 + b1 x + b2 x 2 = 0
es decir, depende de b12 /4b0 b2 , que, expresada en términos de los primeros cuatro momentos,
es
β1 (β2 + 3)2
κ=
4(2β2 − 3β1 − 6)(4β2 − 3β1 )
Pearson distingue inicialmente tres tipos, de acuerdo con las condiciones κ < 0, 0 < κ < 1 y
κ > 1. En el primer caso las raíces son reales y de signo diferente, en el segundo son complejas y
en el tercero son reales de igual signo. Los tipos correspondientes se conocen, respectivamente
como Tipo I, Tipo IV y Tipo VI. Además de los tipos principales, se construyeron los llamados
tipos de transición para κ = 0 y κ = 1 entre los que se encuentran la distribución normal y la
distribución Gamma.
Los diferentes tipos se pueden resumir, en forma simplificada, como
Tipo I
x m1 x m2
f (x) = k 1 + 1− , −a1 < x < a2 , m1 , m2 > −1
a1 a2
Un caso particular es la distribución beta de la primera clase.
Tipo II
!m
x2
f (x) = k 1 − 2 , −a < x < a, m > −1
a
Es una versión del tipo I. Un caso particular es la distribución uniforme.
Tipo III
x µa −µx
f (x) = k 1 + e , −a < x < ∞, µ, a > 0
a
Tiene como casos particulares la distribución gamma y la distribución chi-cuadrado
(χ 2 ).
Tipo IV
!−m
x2
f (x) = k 1 + 2 e−µ arctan(x/a) , −∞ < x < ∞, a, µ > 0.
a
Tipo V
Las distribuciones más importantes para las aplicaciones son los tipos I, III, VI y VII.
De acuerdo con el valor κ criterio, las clasificaciones son:
κ = −∞ Tipo III
κ<0 Tipo I
Curva Normal si β2 = 3.
κ=0 Tipo II si β2 < 3.
Tipo VII si β2 > 3.
0<κ<1 Tipo IV
κ=1 Tipo V
κ>1 Tipo VI
κ=∞ Tipo III
1. Si una variable aleatoria X tiene una función de densidad f (x) definida por:
4 (1 − x 3 ) , 0 < x < 1,
f (x) = 3
0 en otro caso.
2. Si una variable aleatoria X tiene una función de densidad f (x) definida por:
1 (9 − x 2 ) −3 ≤ x ≤ 3
f (x) = 36
0 en otro caso
3. Si una variable aleatoria X tiene una función de densidad f (x) definida por:
cx 2 1 ≤ x ≤ 2
f (x) =
0
en otro caso
1x 0 < x < 4
f (x) = 8
0
en otro caso
a) Calcular C.
b) Calcular P (a ≤ X ≤ b) si [a, b] ⊂ [2, 10].
c) Calcular P (X > 5), P (X < 7) y P (X 2 − 12X + 35 > 0).
d) Rehacer los cálculos anteriores si ahora f (x) = C/x.
9. Se lanza un dardo a un blanco circular de radio 10 cm. Si siempre se da en el blanco pero
el sitio de impacto se puede considerar seleccionado completamente al azar, calcular
la probabilidad de que el impacto se produzca,
a) A menos de 2 cm. del centro.
b) A menos de 2 cm. del borde.
c) en el primer cuadrante del blanco.
d) En el primer cuadrante y a menos de 2cm. del borde.
10. Suponga que una bombilla nueva dura t horas, con t aleatorio y función de densidad,
f (t) = λe−λt .
P (X < 1/2), P (1/4 < X < 1/2), P (X > 3/4), P (X > 3/4 | X > 1/2).
17. Si X es una variable aleatoria cuya densidad es f (x) = c/x 4 en el rango x > 1, calcular
los valores: c, µX y σX2 .
18. Si X tiene densidad f (x) = cx(1 − x) en 0 < x < 1, calcular los valores: c, P (X ≤ 1/2),
P (X ≤ 1/3), P (1/3 < X < 1/2), µX y σX2 .
19. Si X tiene densidad f (x) = cx 2 (1 − x)2 en 0 < x < 1, calcular los valores: c, µX y σX2 .
20. Si X es una variable aleatoria cuya densidad es
1
f (x) = , −∞ < x < ∞
2(1 + |x|)2
Graficar f (x), calcular P (−1 < X < 2), P (|X| > 1) y decidir si µX existe.
21. Definir una densidad utilizando f (x) = x(2 − x) en el rango 0 < x < 2. Calcular
P (a < X < b) en los casos: 0 < a < b < 2 y a < 0 < b < 2.
Prof. Victor Bernal 2010 – 2011 Resumen. Pág. 86 de 125.
22. Si f (x) = 4x 3 cuando 0 < x < 1, comprobar que f (x) es una densidad y calcular el
valor a tal que P (X ≥ a) = P (X ≤ a). Calcular el valor b tal que P (X > b) = 0.05.
23. Una variable aleatoria X tiene densidad f (x) = (1/2)e−|x| en −∞ < x < ∞. Calcular el
valor x0 para el que F (x0 ) = 0.9.
24. La vida, en horas, de un componente eléctrico es una variable aleatoria cuya densidad
es f (x) = 100/x 2 en el rango x > 100. Calcular la probabilidad de que tres de estos
componentes sean reemplazados en las primeras 150 horas de funcionamiento.
25. Una máquina produce tornillos cuyos diámetros obedecen la distribución
en el rango 0.24 < x < 0.26. K es el valor necesario para que la integral de f (x) sobre
el rango sea 1. Los tornillos se descartan si sus diámetros se desvían de 0.25 en más
de 0.008. Calcular el porcentaje de producción que se descarta.
26. Un remoto surtidor de gasolina sólo puede ser atendido una vez por semana. Su volu-
men semanal de ventas, en miles de litros, es una variable aleatoria X cuya densidad
es f (x) = 5(1 − x)4 , en el rango 0 < x < 1. Cuál debe ser la capacidad mínima de al-
macenamiento si se quiere un 99 por ciento de seguridad de que en cualquier semana
no se agotarán las existencias.
27. Si la densidad de X es f (x) = (1 + x)/2 en el rango −1 < x < 1, calcular la densidad
de Y = X 2 .
28. Si X tiene densidad f (x) en el rango x > 0 y a > 0, calcular la densidad de Y = aX 2 +b.
29. Suponga que el radio X de un círculo es una variable aleatoria cuya densidad es f (x) =
(1/8)(3x + 1) en el rango 0 < x < 2. Si Y es el área del círculo, determinar su densidad
g(y).
30. Si X es una variable aleatoria cuya densidad es f (x) = 2e−2x en el rango x > 0,
determinar h(x) para que variable aleatoria Y = h(X) tenga una densidad constante
g(y) = 1/5 en [0, 5].
31. La función generadora de momentos mX (t) de X es mX (t) = (1/4)(3et + e−t ). Calcular
µX y σX2 .
32. Si mX (t) es la función generadora de momentos de la variable aleatoria X y se defi-
ne Y = aX + b, con a, b constantes, demostrar que mY (t) = ebt mX (at). Si X tiene
densidad f (x) = e−x , x > 0, encontrar mY (t) si Y = 3 − 2X.
f (x) = k, −2 ≤ x ≤ 2.
3 2C
f (x) = ; < x < 2C,
4C 3
donde C es su propia estimación del costo de la obra. Calcular el porcentaje que debe
agregar el señor Arenas a su costo estimado cuando presente ofertas a fin de maximizar
el valor esperado de su utilidad.
4. La cantidad de tiempo que un reloj funciona sin necesidad de ser ajustado es una
variable aleatoria que tiene una distribución exponencial con β = 50 días. Calcular las
probabilidades
a) El reloj debe ser ajustado en menos de 20 días.
b) El reloj no debe ser ajustado en 60 días, por lo menos.
5. Cierto sistema contiene tres componentes que funcionan independientemente unos
de otros y que están conectados en serie, de forma que el sistema falla tan pronto
como uno de los componentes falla. El tiempo de vida del primer componente, medido
en horas, tiene una distribución exponencial con parámetro λ = 0.001; el tiempo de
vida del segundo componente tiene una distribución exponencial con parámetro λ =
0.003 y el tiempo de vida del tercer componente tiene una distribución exponencial
con parámetro λ = 0.006. Determinar la probabilidad de que el sistema no falle antes
de las 100 horas.
6. Suponga que una variable aleatoria X tiene densidad y distribución f (x) y F (x), res-
pectivamente; además P (X > 0) = 1. Se define una función h como sigue:
f (x)
h(x) =
1 − F (x)
Prof. Victor Bernal 2010 – 2011 Resumen. Pág. 88 de 125.
La función h se denomina tasa de fallas ó función de riesgo de X. Demostrar que si X
tiene una distribución exponencial, entonces la tasa de fallas h(x) es constante para
x > 0.
Nota: Si X significa tiempo de duración, el valor h(x) se puede interpretar como la
probabilidad de fallar un intervalo pequeño después de x, dado que la duración ha
sido x.
7. Suponga que cinco estudiantes van a realizar un examen independientemente unos de
otros y que el número de minutos que cualquier estudiante necesita para terminar el
examen tiene una distribución exponencial con media 80. Suponga que el examen co-
mienza a las nueve de la mañana. Calcular la probabilidad de que al menos uno de los
estudiantes termine antes de las diez menos veinte de la mañana.
Si el primer estudiante termina el examen a las nueve y veinticinco de la mañana, cal-
cular la probabilidad de que al menos otro estudiante termine antes de las diez de la
mañana.
Calcular la probabilidad de que ningún par de estudiantes termine el examen con una
diferencia de más de diez minutos uno del otro.
8. El tiempo, en horas, que tarda un gerente en entrevistar a un aspirante para un trabajo,
tiene una distribución exponencial con β = 1/2. Los aspirantes están programados en
intervalos de 15 minutos, empezando a las 8:00 a.m., y los aspirantes llegan exacta-
mente a tiempo. Si un aspirante citado para las 8:15 a.m. llega a la oficina del gerente,
calcular la probabilidad de que tenga que esperar para poder ver al gerente.
9. En cierta ciudad, el consumo diario de energía eléctrica (en megavatios) puede conside-
rarse como una variable aleatoria que tiene distribución Gamma con α = 3, β = 2. Si la
planta de energía de esa ciudad tiene una capacidad diaria de 12 megavatios, calcular
la probabilidad de que en día cualquiera el suministro de energía sea insuficiente.
10. Demostrar que si α > 1, la función de densidad Gamma tiene un máximo relativo en
x = β(α − 1).
11. Un distribuidor mayorista de gasolina dispone de tanques de almacenamiento que con-
tienen una cantidad fija y se llenan cada lunes. La proporción de esta reserva que se
vende se puede representar por una distribución beta con α = 4 y β = 2. Calcular
la probabilidad de que el mayorista venda al menos 90 % de su reserva durante una
semana dada.
f (x) = kx 3 (1 − x)2 , 0 ≤ y ≤ 1.
P (Z ≤ z) = 0.9911 P (Z ≤ z) = 0.0217
21. Si una variable aleatoria X tiene distribución normal con media µ = 62.4, calcular el
valor de σ si se sabe que P (X ≥ 79.2) = 0.20.
22. Si una variable aleatoria X tiene distribución normal con desviación estándar σ = 10 y
se sabe que P (X ≤ 82.5) = 0.8212, calcular la probabilidad P (X ≥ 58.3).
23. Si X tiene una distribución Weibull con α = 0.2 y β = 100 horas. Determinar la media
y la varianza de de X.
24. Si X tiene una distribución Weibull con α = 0.2 y β = 100 horas. Determinar la proba-
bilidades P (X < 10000 y P (X > 5000).
25. Si el tiempo de vida de un rodamiento sigue una distribución Weibull con parámetros
α = 2 y β = 10000 horas,
a) Calcular la probabilidad de que la vida de un rodamiento supere las 8000 horas.
b) Calcular el tiempo promedio de vida de un rodamiento hasta fallar.
c) Si un mecanismo usa 10 de estos rodamientos y las fallas ocurren en forma inde-
pendiente, calcular la probabilidad de que todos los 10 rodamientos superen las
8000 horas de uso.
26. La vida (en horas) de un CPU se modela por una distribución Weibull con parámetros
α = 3 y β = 900 horas.
a) Calcular el tiempo medio vida de tales CPU.
b) Calcular la varianza de la vida del CPU.
c) Calcular la probabilidad de que el CPU falle antes de 500 horas de uso.
27. Un disco magnético sellado se usa en un medio expuesto a contaminación. La vida útil
de este disco tiene una distribución Weibull con α = 0.5 y una media de 600 horas.
a) Calcular la probabilidad de que el disco dura más de 500 horas.
b) Calcular la probabilidad de que el disco falla antes de 400 horas.
28. La vida de una bomba neumática sigue una distribución Weibull con parámetros α = 2
y β = 700 horas.
Prof. Victor Bernal 2010 – 2011 Resumen. Pág. 91 de 125.
a) Determinar la vida media de la bomba.
b) Determinar la varianza de la vida de la bomba.
c) Calcular la probabilidad de que la bombe supere su vida media.
29. La vida (en horas) de un tomógrafo se modela por una distribución Weibull con pará-
metros α = 2 y β = 500 horas.
a) Determinar la vida media del tomógrafo.
b) Determinar la varianza de la vida del tomógrafo.
c) Calcular la probabilidad de que el tomógrafo falle antes de 250 horas.
30. Si X es una variable aleatoria Weibull con α = 1 y β = 100, con qué tipo de distribución
coincide y cuál es su media.
31. Si a, b0 , b1 , b2 son constantes reales, las soluciones fX (x) de la ecuación diferencial
1. P (X < 1/2) = 31/48, P (1/4 < X < 3/4) = 9/16, P (X > 1/3) = 136/243.
2. P (X < 0) = 1/2, P (−1 ≤ X ≤ 1) = 13/27, P (X > 2) = 2/27.
3. c = 3/7, P (X > 3/2) = 37/56.
√
4. (a) t = 2, (b) t = 2 2.
5. c = 2, P (1 < X < 2) = e−4 (e2 − 1) ≈ 0.1170196443.
Rb
6. lı́mb→∞ 0 c/(1 + x) dx = lı́mb→∞ c(ln b + 1) no existe.
Prof. Victor Bernal 2010 – 2011 Resumen. Pág. 92 de 125.
7. f (x) = 1/8, P (a ≤ X ≤ b) = (b − a)/8, P (X > 5) = 5/8, P (5 < X < 7) = 1/4,
P (X 2 − 12X + 35 > 0) = P ((X − 5)(X − 7) > 0) = 3/4.
8. c = 1/48, P (X > 5) = 25/32, P (X < 7) = 15/32, P (a ≤ X ≤ b) = (b2 − a2 )/96,
P (X 2 − 12X + 35 > 0) = P ((X − 5)(X − 7) > 0) = 3/4.
c = 1/ ln(5), ln(7/2)/ ln(5) ≈ 0.77838534,
− ln(7/10)/ ln(5) ≈ 0.2216146, − ln(7/25)/ ln(5) ≈ 0.790938.
9. (a) 1/25, (b) 9/25, (c) 1/4 (d) 9/100.
10. e−T /100 , T = 100 ln(2) ≈ 69.31471805
11. 16/25, 1 − (9/25)3 = 14896/15625 ≈ 0.953344, 1 − (289/400)8 ≈ 0.9257489137.
12. 1/16, 5/32.
13. a/(a − t), µ = 1/a, σ 2 = 1/a2 .
14. (a) P (X ≥ 1/2) = 1 − F (1/2) = 7/8, (b) f (x) = 3x 2 , (c) E(X) = 3/4.
15. F (x) = b((1/b) − (1/x)), P (X > b + c) = c/(b + c)
16. P (X < 1/2) = 1/4, P (X > 3/4) = 7/16, P (1/4 < X < 1/2) = 3/16,
P (X > 3/4 | X > 1/2) = 7/12.
17. c = 3, µ = 3/2, σ 2 = 3/4.
18. c = 6, P (X ≤ 1/2) = 1/2, P (X ≤ 1/3) = 7/27, P (1/3 < X < 1/2) = 13/54, µ = 1/2,
σ 2 = 1/20.
19. c = 30, µ = 1/2, σ 2 = 1/28.
20. P (−1 < X < 2) = 7/12, P (|X| > 1) = 1/2, No existe.
21. f (x) = kx(2 − x), k = 3/4, P (a < X < b) = (1/4)(a − b)(a2 + b2 + ab − 3a − 3b), 0 <
a < b < 2, P (a < X < b) = (1/4)b2 (3 − b), a < 0 < b < 2.
22. a = 23/4 /2 ≈ 0.8408964152, b = 95001/4 /10 ≈ 0.9872585449.
23. x0 = ln(5) ≈ 1.609437912.
24. (1/3)3 = 1/27.
25. K = 9375 × 106 = 9375000000, 1 − 6143/6250 = 107/250 ≈ 0.01712.
26. Capacidad =0.6018928294 (601.89 litros)
p √
27. G(y) = √ y, g(y) = 1/(2 y), 0 < y < 1.
Z (y−b)/a
28. g(y) = f (x) dx, y > b
0 √ √ √ √ √
2 π +3 y y π +3 y
29. G(y) = , g(y) = √ .
16 π 16 π y
−1 + eX 1 + eX
30. h(X) =
e2 X
la función de dos variables, f (x1 , x2 ) se llama función de densidad conjunta para las variables
aleatorias X1 , X2 . La función de densidad cumple las propiedades:
Z∞ Z∞
f (x1 , x2 )dx1 dx2 = 1
−∞ −∞
2 x2 = x21
(−1, 1) 1 (1, 1)
-3 -2 -1 1 2 x1
Por lo tanto, el valor de c debe ser 21/4. Para calcular la probabilidad P (X1 ≥ X2 ) se determina
la región S0 ⊂ S en donde se cumple x1 ≥ x2 (Figura 2)
Z 1 Z x2
21 2 3
ZZ
P (X1 ≥ X2 ) = f (x1 , x2 )dx1 dx2 = x1 x2 dx1 dx2 =
S0 0 x12 4 20
x2
x2 = x21
2
x1 = x2
(−1, 1) 1 (1, 1)
S0
-3 -2 -1 1 2 x1
Figura 2. S0 = {(x1 , x2 ) ∈ S : x1 ≥ x2 }.
Por simetría, gy (y) tiene la misma forma de gx (x), igualmente hy (y) y hx (x) son similares.
2. Densidades condicionales
por lo tanto, cuando X1 , X2 son independientes σ12 = 0. Sin embargo, existen pares de variables
X1 , X2 , dependientes tales que σ12 = 0.
Si σ1 y σ2 son las desviaciones estándar de X1 y X2 entonces existe un valor ρ12 que cumple
σ12 = ρ12 σ1 σ2
tal valor ρ12 = σ12 /(σ1 σ2 ) se llama coeficiente de correlación de X1 y X2 . Además, cumple la
desigualdad |ρ12 | ≤ 1
Proposición 2.1. Sean X, Y son variables aleatorias continuas con densidad de probabilidad
conjunta f (x, y) y Z1 = h1 (X, Y ), Z2 = h2 (X, Y ) tales que definen una transformación uno
a uno entre los puntos (x, y) y (z1 , z2 ) de tal forma que las ecuaciones z1 = h1 (x, y), z2 =
h2 (x, y) pueden resolverse de manera única para x, y en términos de z1 , z2 , por ejemplo, con
x = g1 (z1 , z2 ), y = g2 (z1 , z2 ). Entonces la función de densidad conjunta de (Z1 , Z2 ) es:
Este resultado es útil si se quiere encontrar la densidad de una variable aleatoria Z = h1 (X, Y )
donde X, Y son variables aleatorias continuas con densidad conjunta f (x, y). Simplemente
se define otra función, por ejemplo, W = h2 (X, Y ), manteniendo una correspondencia uno a
uno entre los puntos (x, y) y (z, w) se obtiene la densidad conjunta g(z, w). La densidad de
probabilidad de Z es la densidad marginal hZ (z), en ese caso, la densidad de probabilidad g(z)
de Z = h1 (X, Y ) es,
Z∞
g(z) = gZ (z) = g(z, w) dw
−∞
Ejemplo: Si X, Y son variables aleatorias con función de densidad conjunta f (x, y) y se define
Z = X + Y , entonces, tomando, por ejemplo, W = X − Y que conserva la correspondencia uno
a uno por medio de la solución X = (Z + W )/2, Y = (Z − W )/2, se obtiene
1/2 1/2
J= , |J| = | − 1/4 − 1/4| = 1/2
1/2 −1/2
1 z+w z−w
g(z, w) = f ,
2 2 2
2.4. Valor esperado condicional e iterado. Si X, Y son variables aleatorias cuya densidad
conjunta es f (x, y), la determinación de la densidad condicional fX|y de la variable aleatoria
(X | Y ) permite calcular el valor esperado E(X | Y ).
Una propiedad general que incluye a la variable aleatoria (X | Y ) como caso particular es,
Prof. Victor Bernal 2010 – 2011 Resumen. Pág. 99 de 125.
Proposición 2.2 (Ley del valor esperado iterado.). Si X, Y son variables aleatorias con densidad
conjunta f (x, y), entonces
E[g(X, Y )] = EY {E[g(X, Y ) | Y ]}
Demostración:
Por definición, si X, Y son continuas,
ZZ
E[g(X, Y )] = g(x, y)f (x, y) dy dx
ZZ
= g(x, y)fX|Y fY (y) dy dx
Z Z
= g(x, y)fX|Y (x|y)dx fY (y) dy
Z
= E[g(X, Y )|y]fY (y) dy
=E{E[g(X, Y ) | Y ]}
2.5. Ejemplo. Supongamos que X, Y son variables aleatorias cuya función de densidad es
f (x, y) = 2, x ≥ 0, y ≥ 0, x + y ≤ 1.
Prof. Victor Bernal 2010 – 2011 Resumen. Pág. 100 de 125.
La siguiente serie de cálculos ilustra la forma de aplicación de la ley del valor esperado iterado.
Z∞
fY (y) = f (x, y)dx
−∞
Z 1−y
= 2 dx = 2(1 − y), 0 ≤ y ≤ 1
0
f (x, y) 1
fX|Y (x|y) = = , 0≤x ≤1−y
fY (y) 1−y
1−y
E[X | Y = y] = , 0≤y ≤1
2
1−Y
E[X | Y ] =
2
1 − E[Y ]
E[X] =E[E[X | Y ]] =
2
1 − E[X]
E[X] = , E[X] = 1/3
2
Existe también una propiedad que relaciona la varianza V (X) de X con la varianza de (X | Y ),
el enunciado es,
Ejemplo: En el caso de la división del intervalo [0, L], ya se calculó E[X], ahora se calculará
V (X). Se conoce que E[X | Y ] = Y /2, como Y tiene densidad uniforme en [0, L],
σY2 L2
V [E[X | Y ]] = V [Y /2] = = .
4 48
Por otra parte, dada Y , la variable X tiene densidad uniforme en [0, Y ], es decir,
Y2
V [X | Y ] =
12
L2 L2 7L2
σX2 = E[V [X | Y ]] + V [E[X | Y ]] = + =
36 48 144
Prof. Victor Bernal 2010 – 2011 Resumen. Pág. 101 de 125.
3. Ejercicios
1. Si las variables aleatorias X, Y tienen una densidad conjunta f (x, y) definida por
cy 2 , 0 ≤ x ≤ 2, 0 ≤ y ≤ 1,
f (x, y) =
0,
en otro caso.
Calcular:
a) El valor de la constante c.
b) Las probabilidades: P (X + Y > 2), P (Y < 1/2), P (X ≤ 1), P (X = 3Y ).
2. Si las variables aleatorias X, Y tienen una densidad conjunta f (x, y) definida por
c(x 2 + y), 0 ≤ y ≤ 1 − x 2 ,
f (x, y) =
0, en otro caso.
Calcular:
a) El valor de la constante c.
b) Las probabilidades: P (0 ≤ X ≤ 1/2), P (Y ≤ X + 1), P (Y ≥ 3X 2 ).
3. Si X, Y son variables aleatorias con función de densidad f (x, y) definida por
c, 0 < |y| < x < 1,
f (x, y) =
0, en otro caso.
Calcular:
a) El valor de la constante c.
b) Las densidades marginales fX (x), fY (y) y las medias E(X), E(Y ).
4. Si X, Y son variables aleatorias con función de densidad f (x, y) definida por
6e−2x−3y , x > 0, y > 0,
f (x, y) =
0, en otro caso.
Calcular:
a) La probabilidad P (X ≤ x, Y ≤ y).
b) Las densidades marginales fX (x), fY (y).
5. Si las variables aleatorias X, Y tienen una densidad conjunta f (x, y) definida por
c(x 2 + 4xy), 0 < x < 1, 0 < y < 1,
f (x, y) =
0, en otro caso.
Calcular:
a) El valor de la constante c.
b) Las probabilidades: P (X ≤ a); 0 < a < 1, P (Y ≤ b); 0 < b < 1.
a) Obtener el valor de K que hace que esta sea una función de densidad de probabili-
dad.
b) Obtener las funciones de densidad marginales para X y Y .
c) Calcular P (X ≤ 1/2 | Y ≥ 3/4).
d) Calcular P (X ≤ 3/4 | Y = 1/2).
7. Sean X y Y las proporciones de tiempo, en un día de trabajo, que los empleados I y II,
respectivamente, ocupan realmente en hacer sus tareas asignadas. El comportamiento
de las frecuencias relativas conjuntas de X y Y se representa por el modelo de la función
de densidad
x + y, 0 ≤ x ≤ 1; 0 ≤ y ≤ 1
f (x, y) =
0,
en otro caso
9. Si las variables aleatorias X, Y tienen una distribución conjunta F (x, y) definida por
1
F (x, y) = xy(x 2 + y); 0 ≤ x ≤ 3, 0 ≤ y ≤ 4.
156
Calcular:
a) La probabilidad P (1 ≤ X ≤ 2, 1 ≤ Y ≤ 2).
b) La función de densidad f (x, y).
10. Si la densidad conjunta de dos variables aleatorias X, Y es:
3
f (x, y) = (4 − 2x − y), x > 0, y > 0, 2x + y < 4.
16
Calcular:
a) La densidad condicional f (y | x) de Y dado X = x.
1
b) La probabilidad P Y > 2 | X = .
4
Prof. Victor Bernal 2010 – 2011 Resumen. Pág. 103 de 125.
11. Si X y Y tienen distribución conjunta
3 y 2 , 0 ≤ x ≤ 2, 0 ≤ y ≤ 1
2
f (x, y) =
0
en otro caso
15 2
f (x, y) = x , 0 ≤ y ≤ 1 − x2
4
Si X es una variable aleatoria discreta que toma los valores xi con probabilidades pi , la nueva
variable Y = g(X) es también discreta con función de probabilidad:
X
pj = P (Y = yj ) = P (g(X) = yj ) = P (xi tal que g(xi ) = yj ).
i
Los resultados más importantes acerca de la transformación de variables aleatorias ya han sido
enunciados,
2. Si la función g no tiene una única inversa, sino que posee un número finito de inversas,
gi−1 (y), la función de densidad de la nueva variable Y = g(X) se obtiene mediante la
expresión
n dg −1 (y)
i
X
fY (y) = fX (gi−1 (y)) .
i=1
dy
Algunos de los problemas prácticos comprenden, entre otros, el estudio de las formas de pro-
ducción para incrementar su rendimiento, el cálculo del número óptimo de piezas de repuesto
para almacenar, la cantidad de camas y servicios que debe poseer un hospital en una comunidad
específica. En estos problemas a veces se requiere la selección adecuada entre varias soluciones
alternativas. Una de las técnicas que se utiliza es la simulación, esta técnica se ocupa de realizar
experimentos con un modelo de cierto sistema. El modelo es una representación del sistema,
generalmente de tipo matemático, casi siempre la técnica de simulación se utiliza cuando el
análisis del modelo exige un nivel de refinamiento que no está al alcance del analista o cuando
el sistema es tan complejo que la descripción mediante un modelo matemático está fuera de
toda consideración.
La interpretación de los resultados obtenidos está basada en los métodos estadísticos, por lo
que es importante el conocimiento de las densidades o distribuciones de probabilidad. Utili-
zando como base la distribución uniforme en el intervalo [0, 1] se pueden generar, mediante
las transformaciones adecuadas otras densidades conocidas, tal hecho se utiliza para la simu-
lación pues la generación o simulación de la densidad uniforme es suficiente para construir
otros procesos aleatorios con otras funciones de densidad.
x = φ(r ).
En general, es difícil encontrar tal relación y en algunas ocasiones es necesario recurrir a fór-
mulas de aproximación. En lo que sigue se analizan la distribuciones más importantes en la
estadística.
−1
e−λx = 1 − r , x= ln(1 − r )
λ
Prof. Victor Bernal 2010 – 2011 Resumen. Pág. 106 de 125.
Para generar valores que simulen una distribución exponencial se escoge un número aleatorio
r entre 0 y 1 y se calcula x. En la siguiente tabla de ejemplo, tomando λ = 0.25 los números
aleatorios r se generaron con la hoja de cálculo Excel, los x con la fórmula.
No. r x
1 0.262906 0.529907
2 0.781943 2.645717
3 0.295906 0.609478
4 0.291471 0.598569
5 0.991433 8.268620
6 0.891496 3.858215
7 0.838061 3.162597
8 0.777424 2.610088
9 0.497758 1.196348
10 0.055259 0.098749
11 0.933402 4.706163
12 0.961160 5.642870
13 0.536851 1.337118
14 0.439325 1.005154
15 0.919537 4.377608
16 0.989020 7.837635
17 0.783811 2.660666
18 0.981566 6.937525
19 0.569256 1.463122
20 0.374849 0.816061
5.3. La distribución Gamma. Si una variable aleatoria X tiene una distribución Gamma de
parámetros λ y K, en donde K es un entero positivo, las funciones de densidad y distribución
son,
K−1
λK X (λx)m
fX (x) = x K−1 e−λx , 0 < x < ∞, FX (x) = 1 − e−λx
(K − 1)! m=0
m!
Cada uno de los valores ri se empleó para generar una variable exponencial de parámetro λ.
5.4. La distribución normal. Si una variable aleatoria X tiene distribución normal con
media µ y varianza σ 2 , la función de distribución es,
Zx
1 2 2
FX (x) = √ e−(t−µ) /2σ dt.
−∞ σ 2π
Prof. Victor Bernal 2010 – 2011 Resumen. Pág. 107 de 125.
La integral no se puede evaluar de manera analítica, pero se puede obtener una buena aproxi-
mación numérica, basada en la integral de la distribución normal estándar Z (µ = 0, σ = 1).
Para utilizar los resultados numéricos de la normal estándar se define la transformación z =
(t − µ)σ , de esta forma se obtiene
Z (x−µ)/σ
1 2
FX (x) = √ e−z /2 dz
−∞ 2π
x−µ
P (X ≤ x) = P Z ≤
σ
Aunque el análisis de la solución está fuera del alcance de estas notas, a continuación se enuncia
el resultado de x = φ(r ),
!
r − 0.5 2.515517 + 0.802853v + 0.010328v 2
x=µ+ σ v−
|r − 0.5| 1 + 1.432788v + 0.189269v 2 + 0.001308v 3
en donde
q
v = −2 ln 0.5(1 − |1 − 2r |)
n
X
x= zi2
i=1
X/n
F=
Y /m
n
X
m zi2
i=1
x= n+m
X
n zi2
i=n+1
Z
T = p
Y /n
Si t es un valor generado por una variable aleatoria de distribución t con n grados de libertad,
√
nz1
t= u
v
n+1
uX 2
t zi
i=2
Definición 12. Si f (x), g(y) están definidas para todo número real, la convolución de f y g,
notada f ∗ g es la función definida por
Z∞
(f ∗ g)(z) = f (z − y)g(y) dy
−∞
Z∞
= g(z − x)f (x) dx
−∞
A continuación se enuncia, sin demostración, la forma de calcular fz (z), conociendo las den-
sidades marginales fX (x), fY (y).
Proposición 6.1. Si X, Y son variables independientes con funciones de densidad fX (x), fY (y),
respectivamente, entonces la suma Z = X +Y es una variable aleatoria cuya función de densidad
fZ es la convolución de fX y fY .
Ejemplos. Para una mejor comprensión de este resultado se plantean varios ejemplos de
aplicación.
Suma de variables uniformes. Si X, Y tiene distribución uniforme en [0, 1] entonces fX (x) =
fY (x) = 1, si 0 ≤ x ≤ 1, la función de densidad de la suma es
Z∞
fZ (z) = fX (z − y)fY (y) dy.
−∞
0
0 0.5 1.0 1.5 2.0
=λ2 ze−λz
0
0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0
z 1
g(z, w) =f w,
w |w|
Z∞
z 1
g(z) = fZ (z) = f w, dw
−∞ w |w|
7.2. Distribución del cociente de variables aleatorias. Si ahora X, Y son variables aleato-
rias cuya distribución conjunta es f (x, y) y se define Z = X/Y , se puede aplicar la proposición
2.1 para encontrar la densidad fZ (z). En efecto, si se define la variable aleatoria W = X, enton-
ces se pueden despejar, de manera única, X = W , Y = W /Z, de esta forma, la matriz jacobiana
J de la transformación (x, y) → (z, w) es,
0 1 w |w|
J= , |J| =
z2 = z2
−w/z2 1/z
8. Estadísticos de orden
Ejemplo: Si X tiene distribución uniforme en [0, 1], entonces f (x) = 1, F (x) = x, por lo
tanto, !
n − 1 k−1
f(k) (x) = n x (1 − x)n−k , 0<x<1
k−1
La densidad anterior es tipo Beta con parámetros α = k, β = n − k + 1. De las propiedades de
la distribución Beta se obtiene que
k
E X(k) =
n+1
así, por ejemplo si se divide un intervalo en cinco partes, seleccionando 4 puntos al azar (uni-
formemente) sobre el intervalo, el valor esperado de la distancia entre X(k) y el extremo inferior
del intervalo es k/(n + 1), o lo que es lo mismo, se espera que la selección de estos puntos
divida al intervalo en partes iguales.
9. Ejercicios
1 x
b) fX (x) = , 0 < x < 2, fY (x) = , 0<x<2
2 2
2
z
0<z≤2
8
fZ (z) =
1
4z − z2
8 2<z<4
f (z) = − log(z)
Es decir, en la convergencia casi segura se permite que para algunos valores de ω, la sucesión
numérica X1 (ω), X2 (ω), . . . pueda no converger, sin embargo, el subconjunto de en donde esto
suceda debe tener probabilidad cero.
1.4. Convergencia en media. En este tipo de convergencia se usa la esperanza para de-
terminar la cercanía entre dos variables aleatorias.
lı́m E|Xn − X| = 0.
n→∞
2. Desigualdades básicas
Demostración:
Z Z∞
E(X) = xf (x)dx + xf (x)dx
0
Z∞
≥ xf (x)dx
Z∞
≥ f (x)dx
= P (X ≥ )
Esta proposición establece que la probabilidad de que X exceda un valor positivo está aco-
tada superiormente por el cociente de la media entre . Otras versiones equivalentes de esta
desigualdad son, por ejemplo,
Prof. Victor Bernal 2010 – 2011 Resumen. Pág. 118 de 125.
1. P (|X| ≥ ) ≤ E(|X|)/
2. P (|X| ≥ ) ≤ E(|X|)n /n donde n ∈ N
σ2
P (|X − µ| ≥ ) ≤
2
Demostración:
σ2 = E((X − µ)2 )
Z Z
= (x − µ)2 f (x)dx + (x − µ)2 f (x)dx
|X−µ|≥ |X−µ|<
Z
≥ (x − µ)2 f (x)dx
|X−µ|≥
Z
≥ 2 f (x)dx
|X−µ|≥
= 2 P (|X − µ| ≥ )
Esta desigualdad demuestra que la probabilidad de que X difiera de su media en mas de está
acotada superiormente por el cociente de la varianza entre 2 . Este resultado se conoce tam-
bién como desigualdad de Tchebychev-Bienaymé. Existen otras versiones de esta desigualdad
equivalentes a la demostrada, por ejemplo,
1. P (|X − µ| ≥ σ ) ≤ 1/2
2. P (|X − µ| < σ ) ≥ 1 − 1/2
3. P (|X − µ| < ) ≥ 1 − σ 2 /2
E[g(X)]
P (X ≥ ) ≤
g()
= g()P (X ≥ )
n
[
si k = 1, A1 = (|S1 | ≥ ). El evento de interés puede escribirse como A = Ak . Por lo tanto
k=1
n
X
E(Sn2 ) ≥ E(Sn2 )A = E(Sn2 )Ak
k=1
n
X
= E (Sk + (Sn − Sk ))2Ak
k=1
n
X
= E (Sk2 + 2Sk (Sn − Sk ) + (Sn − Sk )2 )Ak
k=1
n
X n
X Z
≥ E(Sk2 )Ak ≥ 2
f (x)dx
Ak
k=1 k=1
n
X
≥ 2 P (Ak )
k=1
= 2 P (A)
Pn
El resultado se obtiene al comprobar que E(Sn2 ) = Var(Sn ) = k=1 Var(Xk ). Si se toma n = 1 la
desigualdad de Tchebychev se deduce de la desigualdad de Kolmogorov.
Prof. Victor Bernal 2010 – 2011 Resumen. Pág. 120 de 125.
3. La ley de los grandes números
Este resultado establece que, bajo ciertas condiciones, el promedio de variables aleatorias con-
verge a una constante cuando el número de sumandos tiende a infinito.
Existen dos versiones de esta afirmación, la primera, basada en el concepto de convergencia
en probabilidad se conoce como ley débil y la segunda, basada en el concepto de convergencia
casi segura se llama ley fuerte. La ley fuerte implica entonces la ley débil.
Demostración: (Suponiendo cuarto momento finito). Dada la idéntica distribución de los ele-
mentos de la sucesión, cualquier elemento de ésta se denota simplemente por X. Supongamos
que E|X − µ|2 = σ 2 y como E(X − µ) = 0, entonces por independencia,
n
X
E| (Xi − µ) |4 = nE|X − µ|4 + 3n(n − 1)σ 4 .
i=1
1 Pn P∞
Sea el evento An = (| n i=1 Xi − µ| > ). Entonces n=1 P (An ) < ∞. Por el lema de Borel–
Cantelli la probabilidad de que ocurra una infinidad de eventos An es cero, es decir, con proba-
bilidad uno, sólo un número finito de estos eventos ocurre. Por lo tanto con probabilidad uno,
existe un número natural n a partir del cual ningún evento An se verifica. Es decir,
1 n
X
P lı́m
Xi − µ ≤ = 1.
n→∞ n
i=1
p
Este resultado establece que la variable aleatoria (X1 + · · · + Xn − np)/ np(1 − p) converge en
distribución a una variable aleatoria normal estándar. La demostración está fuera del alcance
de estas notas. Este teorema fue descubierto por A. de Moivre alrededor de 1733 en el caso
cuando las variables aleatorias tienen distribución Bernoulli con p = 1/2. Años después P. S.
Laplace demostró su validez para valores arbitrarios de p. El teorema de de Moivre-Laplace es
una caso particular del siguiente resultado fundamental.
Prof. Victor Bernal 2010 – 2011 Resumen. Pág. 122 de 125.
Propiedad 4 (Teorema del límite central). Sea X1 , X2 , . . . una sucesión de variables aleato-
rias independientes e idénticamente distribuidas tales que para cada natural n, E(Xn ) = µ y
Var(Xn ) = σ 2 < ∞. Entonces
X1 + · · · + Xn − nµ
√ → N(0, 1).
σ n
La demostración de este teorema se omite en estas notas se omite pues utiliza conceptos de
funciones de variable compleja.
Este teorema fue demostrado rigurosamente por A. M. Lyapunov alrededor de 1901. Es de notar
que no hay ninguna hipótesis adicional sobre la distribución de las variables de la sucesión, es
decir, éstas pueden tener cualquier distribución, sólo requiriendo la existencia de la media y la
varianza.
5. Ejercicios
125