Está en la página 1de 112

Breve Introducción a la Probabilidad - Clavijo

UNA BREVE
INTRODUCCION A
LA PROBABILIDAD
(Guía de Clase)

JAIRO ALFONSO CLAVIJO MÉNDEZ

Universidad del Tolima. 2022

1
Breve Introducción a la Probabilidad - Clavijo

(Unidad Introductoria Opcional)


ELEMENTOS DE TEORIA DE CONJUNTOS

La teoría de conjuntos, una invención de Georg Cantor, es considerada como la base


de la matemática formal moderna. Surge a raíz de las reflexiones hechas sobre la
naturaleza del infinito, uno de los conceptos más usados y difíciles de explicar en la
matemática y que ya había despertado inquietudes desde la antigüedad (Zenón de
Helea, 450 A.C). La noción de conjunto ya había sido esbozada por Bolzano (1847) quién
defendió la idea del infinito, un concepto difícil de aceptar para la época. Bolzano fue
quién mostró algunas propiedades de los conjuntos numéricos infinitos que no tienen
otros conjuntos, como el hecho de poderse poner en correspondencia biunívoca con
una parte suya. Fue sin embargo Cantor quién construyó una teoría axiomática basada
en la lógica matemática, quién sentó los fundamentos de esta teoría, considerada hoy
en día como un pilar de la matemática moderna. Un artículo suyo (Journal für die reine
und angewandte Mathematik), marcó el inicio de una corriente conjuntista, qué
durante mucho tiempo –principalmente con los trabajos de Bourbakí- se constituyó en
la razón última de la matemática.

La recién nacida teoría de conjuntos tuvo enormes tropiezos, principalmente después


del surgimiento de algunas paradojas, como las de Russell, Burali-Forti y Richard, que
hicieron temblar el edificio recién construido. Esto es conocido como “la crisis de los
fundamentos” que -como toda crisis- estimuló el pensamiento y la creatividad en el
mundo matemático, logrando un desarrollo absolutamente impresionante de la
matemática como “la Ciencia” por antonomasia del pensamiento humano.

En 1908 Ernst Zermelo introdujeron un sistema axiomático revisado por Adolf Fräenkel
en 1921, el cual eliminó la aparición de paradojas. Esta nueva teoría con algunos

2
Breve Introducción a la Probabilidad - Clavijo

elementos nuevos, conocida como teoría de conjuntos ZFS, es la que hoy en día se
estudia en las carreras de matemáticas.

En la teoría de conjuntos se consideran los siguientes insumos:


Símbolos lógicos: , , , , , , 
Recordar Elementos básicos de lógica como la negación (en particular la negación de
los cuantificadores) y los valores de verdad de la implicación.

Nociones indefinidas (primitivas): “Clase” . (Algo así como colección de cosas).”

Relaciones de pertenencia entre elemento y clase: ,  (En realidad


sobra  )

Axiomas. Son las propiedades elementales que esperamos tengan las nociones
indefinidas.

Todos los objetos de la teoría se llaman clases. Algunas de ellas se llaman conjuntos,
los conjuntos son clases pero no toda clase es un conjunto.

Si x, A son clases, x A se lee: “ x pertenece a A ”. x  A es la


negación de la afirmación anterior y, por tanto, significa “ x no pertenece a A ”. Si
x es una clase y existe una clase A tal que x  A , diremos que x es “un
alemento” de A.

Convención: letras minúsculas a, b, c, , x, y siempre representarán


elementos mientras que las letras mayúsculas pueden representar elementos o clases.
De acuerdo con esto:

DEF 1: A= B si y solo si ( x  A  x  B)  ( x  B  x  A)

AX1 (Extensión): Si ( x = y )  ( x  A)  y  A

3
Breve Introducción a la Probabilidad - Clavijo

DEF 2: Si A, B son clases, A  B significa que todo elemento de A es

elemento de B (En este caso decimos que A es una subclase de B y leemos:


A está contenido en B)
NOTA: A  B significa ( A  B)  ( A  B)

TEOREMA 1: Dadas A, B, C clases, se cumple:

1. A = A
2. ( A = B )  ( B = A)
3. ( A = B )  ( B = C )  ( A = C )
4. ( A  B )  ( B  A)  ( A = B )
5. ( A  B )  ( B  C )  ( A  C )

AX2 (Construcción de clases): Sea ( x) una propiedad sobre x que se


puede expresar en términos de los símbolos lógicos, de la relación de pertenencia, de
variables a, b, c, , x, y, , A, B, y de paréntesis. Existe entonces una

clase C , formada por todos los elementos x que satisfacen ( x) . Esta clase

se designa C =  x ( x)

Usando el axioma AX2 se pueden construir nuevas clases a partir de otras ya dadas. En
particular, son importantes las siguientes:

Dadas las clases A, B :

A  B =  x  A, , x  B llamada "la unión" de A con B


A  B =  x  A, , x  B llamada "intersección" de A y B

4
Breve Introducción a la Probabilidad - Clavijo

Las dos clases siguientes son muy importantes y juegan un papel primordial en la teoría
de los conjuntos como en la teoría de la probabilidad:

1. U =  x x = x llamada clase universal o clase referencial. Su existencia

está garantizada por el axioma AX2 y la propiedad ( x) : x = x .


2.  =  x x  x llamada clase vacía. Es la clase que no tiene elementos. Su

existencia se garantiza también por el axioma AX2 y la propiedad ( x) : x  x .

Las dos clases anteriores son únicas (la demostración de este hecho no es elemental
y será omitida).

DEF 3: Dada una clase A definimos el complemento de A , como la clase

Ac =  x x  A

TEOREMA 2: Para toda clase A se cumple:


1.   A. (Dm/: sean P :" x   ", Q :" x  A" . Entonces P  Q pues P es
falsa)
2. A  U . (Dm/: evidente)

ALGEBRA DE CLASES

En esta parte presentaremos algunas reglas que permiten operar con clases.

TEOREMA 3: Dadas A, B, C clases cualesquiera, se cumple:

5
Breve Introducción a la Probabilidad - Clavijo

1. A  ( A  B)
2. B  ( A  B)
3. ( A  B)  A
4. ( A  B)  B

TEOREMA 4: Para A, B clases cualesquiera, se cumple:

1. A  B si y solo si ( A  B) = B
2. A  B si y solo si ( A  B) = A

TEOREMA 5: (Ley de absorción): Para A, B clases cualesquiera, se cumple:

1. A  ( A  B ) = A
2. A  ( A  B ) = A

TEOREMA 6: Para toda clase A se cumple ( A ) = A


c c

TEOREMA 7: (Leyes de DeMorgan) Para A, B clases cualesquiera, se cumple:

1. ( A  B)c = Ac  B c
2. ( A  B)c = Ac  B c

TEOREMA 8: Para A, B, C , clases cualesquiera, se cumple:

6
Breve Introducción a la Probabilidad - Clavijo

1. A  B = B  A
2. A  B = B  A
3. A  A = A
4. A  A = A
5. ( A  B)  C = A  ( B  C )
6. ( A  B)  C = A  ( B  C )
7. A  ( B  C ) = ( A  B)  ( A  C )
8. A  ( B  C ) = ( A  B)  ( A  C )

TEOREMA 9: Para toda clase A se cumple:

1. A   = A
2. A   = 
3. A  U = U
4. A  U = A
5. U c = 
6.  c = U
7. A  Ac = U
8. A  Ac = 

Ejercicio: Pruebe que A  ( Ac  B) = ( A  B)

DEF 4: Se define la diferencia A− B como A − B = A  Bc . Es decir que


A − B =  x x  A, , x  B

Ejercicio: Muestre que A − B = Bc − Ac

La siguiente operación, muchas veces denominada diferencia simétrica de las clases


A y B tiene propiedades muy interesantes, similares a las de la adición entre números.
Por esta razón la notaremos con el signo “+”, aunque en varios libros se denote mediante
“Δ”:

7
Breve Introducción a la Probabilidad - Clavijo

DEF 5: A + B = ( A − B)  ( B − A)

TEOREMA 10: Se cumple lo siguiente:

1. A + B = B + A
2. A + ( B + C ) = ( A + B ) + C
3. A  ( B + C ) = ( A  B ) + ( A  C )
4. A + A = 
5. A +  = A
6. ( A + B ) =  , si y solamente si A = B
7. Si (A  B ) =  , entonces, (A =  )  ( B =  )
8. (A  B c ) =  , si y solamente si, A  B

8
Breve Introducción a la Probabilidad - Clavijo

EJERCICIOS 1

9
Breve Introducción a la Probabilidad - Clavijo

10
Breve Introducción a la Probabilidad - Clavijo

II

Análisis combinatorio y Técnicas de Conteo

En el estudio de la probabilidad son importantes los “experimentos estadísticos”


entendiendo como tales cualquier acción que produzca resultados que sean
fácilmente observables. Por ejemplo: lanzar una moneda al aire, produce dos
posibles resultados que llamamos “Cara” y “Sello”. El experimento de lanzar un dado
produce seis posibles resultados que identificamos como 1, 2, 3, 4, 5, 6. Contestar
una pregunta de un examen donde esa pregunta tiene 5 alternativas de respuesta,
produce 5 posibles resultados que solemos identificar como a, b, c, d, e.

Los ejemplos vistos anteriormente son muy sencillos y muy fácilmente sabemos
cuántos posibles resultados hay. Sin embargo, en Estadística aparecen con
frecuencia experimentos para los cuales ya no es fácil calcular el número de
resultados posibles. Un ejemplo muy frecuente ocurre cuando de un conjunto de N
elementos (una población), queremos seleccionar un subconjunto de n elementos
(n < N). Supóngase, por ejemplo, que del conjunto de 190 estudiantes de
matemáticas queremos seleccionar un conjunto de 20 estudiantes. ¿Cuántas
posibles respuestas tiene este experimento? Es decir, ¿cuántas posibles listas de 20
estudiantes podemos formar?

Las técnicas de conteo son, como su nombre lo indica, técnicas que nos ayudan a
dar respuesta a preguntas como la que acabamos de formular.

Todas las técnicas de conteo se basan en el siguiente principio conocido como

11
Breve Introducción a la Probabilidad - Clavijo

Principio básico del conteo:


Supóngase que dos experimentos tienen m y n posibles resultados
respectivamente. Entonces al realizar los dos experimentos conjuntamente habrá
mn posibles resultados.

Por ejemplo, si el experimento consiste en lanzar un dado y una moneda habrá 12


posibles resultados, que son los siguientes:

(1,C) (2,C) (3,C) (4,C) (5,C) (6,C)


(1,S) (2,S) (3,S) (4,S) (5,S) (6,S)

El experimento puede verse de la manera siguiente usando un diagrama de árbol:

El principio anterior puede generalizarse como es obvio:

“Si se tienen k experimentos y cada uno de ellos tiene ni resultados


respectivamente para i = 1, 2, …, k, entonces el experimento conjunto tiene
n1n2…nk resultados”

12
Breve Introducción a la Probabilidad - Clavijo

Este principio puede demostrarse así (esquema de la demostración): para k = 2


equivale a mostrar que hay n1n2 pares ordenados donde la primera componente es
un resultado del primer experimento y la segunda un resultado del segundo
experimento. Esto es evidente. Luego, por inducción, se supone válido para k-1 y
se prueba para k

PERMUTACIONES

Una permutación de n elementos es un arreglo de todos los n elementos. Por


ejemplo, para los 5 dígitos, 1, 2, 3, 4 y 5, las siguientes son permutaciones: 23514,
43251, 21534, 52341.

Cuántas permutaciones de n elementos existen?


El primer elemento puede ser escogido de n formas diferentes. Una vez escogido
éste, el segundo se escoge de n-1 formas diferentes. Así sucesivamente hasta que
solamente quede un elemento, el cual no tiene sino una sola posibilidad de
selección. Luego, aplicando el principio de conteo, se concluye que hay n(n-1)(n-
2)…2.1 = n! permutaciones diferentes.

Por ejemplo, en el caso de los 5 dígitos 1, 2, 3, 4, y 5 habrá 5! = 120 permutaciones


diferentes.

EJEMPLO: supóngase que Juan tiene 4 libros de matemáticas, 3 libros de física, 5 de


literatura y 6 de historia. ¿De cuantas formas diferentes puede acomodar estos 18
libros en un estante lineal si quiere que los libros del mismo tema estén juntos?
R/: Los libros de cada tema pueden disponerse de 4!, 3!, 5! y 6! Formas diferentes.
Pero al tratarse de 4 temas, éstos pueden ser dispuestos de 4! formas diferentes, así
que en total, habrá 4!(4!x3!x5!x6!) = 298598400 formas diferentes de disponer los
libros.

EJEMPLO (Caso de muestreo con reemplazamiento). Supongamos que extraemos


sucesivamente n objetos de un conjunto con N objetos, digamos B = {b1, b2, …, bN}
y que las extracciones se hacen de modo que una vez extraído y anotado el objeto
es devuelto al conjunto B. Esto produce una muestra ordenada ( bi,1, bi,2,…, bi,n ).
Puesto que cada elección puede hacerse de entre N elementos, al aplicar el principio
de conteo, habrá en total NxNx…xN = Nn muestras diferentes.

13
Breve Introducción a la Probabilidad - Clavijo

EJEMPLO (Caso de muestreo sin reemplazamiento). Consideremos el mismo


problema anterior pero ahora, después de haber seleccionado y anotado cada
elemento, éste es removido del conjunto B. Se obtiene igual que antes una muestra
ordenada ( bi,1, bi,2,…, bi,n ) pero esta vez el primer elemento fue escogido entre N
posibles, el segundo entre N-1, el tercer entre N-2, etc. El último entre N-n+1.
Aplicando el principio de conteo, habrá N(N-1)(N-2)…(N-n+1) muestras posibles.

Nótese que este número equivale a

( N − n)( N − n − 1) 2 1 N!
N ( N − 1)( N − 2 ) ( N − n + 1) =
( N − n)( N − n − 1) 2 1 ( N − n) !

Pero en estas muestras estamos considerando el orden en que aparecen los


elementos seleccionados. Es decir, dos muestras con los mismos elementos pero en
otro orden son diferentes. Por otra parte, si se tomase n = N, el número posible de
muestras sería igual a N!.

El problema anterior es completamente equivalente a disponer aleatoriamente n


bolas en N celdas (n  N), de modo que en cada celda haya a lo más una bola. La
primera bola puede ser dispuesta de N formas diferentes. La segunda de N-1, la
tercera de N-2 y así sucesivamente.

COMBINACIONES

Con frecuencia estamos interesados en determinar el número de grupos de n


elementos que pueden ser formados seleccionando dichos elementos de un
conjunto de N elementos. Por ejemplo, si se tiene un conjunto de 15 personas y se
quiere formar una comisión de 4 de ellas, ¿cuántas posibles comisiones se pueden
formar?

Es claro que la primera persona se puede seleccionar entre 15 , la segunda entre 14,
la tercera entre 13 y la cuarta entre 12. Luego habrá 15x14x13x12 = 32760 formas
de formar la comisión, cuando el orden en que se seleccionan es importante. Sin
embargo cada grupo de 4 individuos, digamos A,B, C, y D se contará 24 veces ya que

14
Breve Introducción a la Probabilidad - Clavijo

es lo mismo ABCD que ACDB o BCAD, etc. Estos grupos están en orden diferente
pero representan la misma comisión. Se concluye entonces que el número total de
grupos que pueden ser formados es: (15x14x13x12)/(4x3x2x1) = 1365.

En general, si se toman grupos de n elementos de un conjunto con N elementos,


se podrán formar, tantas muestras, en las que el orden de los elementos no es
importante, como indica la siguiente expresión:

N ( N − 1) ( N − n + 1) N! N
= Valor notado como  
n! ( N − n)!n ! n

EJEMPLO: A un curso asisten 9 mujeres y 7 hombres. Se quiere nombrar una


comisión de 3 mujeres y 2 hombres. ¿Cuántas posibles comisiones se pueden
formar?
9 9! 504
Solución: las mujeres se pueden escoger de   = = = 84 formas
 3  6! 3! 6
7 7!
diferentes, los hombres de   = = 21 maneras. Aplicando ahora el principio
 2  5! 2!
de conteo se podrán formar 84  21 = 1764 comisiones diferentes.

Consideremos ahora el siguiente problema: un conjunto de n objetos se va a


dividir en r grupos diferentes con tamaños n1 , n2 , , nr respectivamente,
r
donde n
i =1
i = n . ¿De cuántas maneras puede hacerse esta división?

n
Obsérvese que el primer grupo puede ser escogido de   formas. Una vez
 n1 
 n − n1 
escogido el primer grupo, el segundo se puede escoger de   maneras. El
 2 
n
 n − n1 − n2 
tercer grupo de   maneras, y así sucesivamente. De aquí, aplicando el
 n 3 
principio de conteo, se tendrán

15
Breve Introducción a la Probabilidad - Clavijo

 n  n − n1   n − n1 − n2   n − n1 − n2 − − nr −1 
     
 n1  n2   n3   nr 

formas diferentes.

Esta última expresión equivale a:

n! (n − 1)! (n − n1 − n2 − − nr −1 )! n!
   =
(n − n1 )!n1 ! ( n − n1 − n2 )!n2 ! 0! nr ! n1 ! n2 ! nr !
 n 
Con frecuencia se usa la notación   para denotar la fórmula
 n1 , n2 , , nr 
anterior.

EJEMPLO: Los 12 vigilantes de un edificio deben repartirse de la siguiente manera:


3 deben vigilar las puertas de acceso al edificio, 5 deben vigilar los 5 pisos del edificio
(uno por piso) y los otros 4 deben vigilar las zonas de parqueo. De cuantas maneras
pueden repartirse estas labores?

 12  12!
Solución:  = = 27720 formas distintas
 3, 5, 4  3! 5! 4!

EJEMPLO: 10 jóvenes basquetbolistas van a ser divididos en dos equipos de 5


jugadores cada uno. El equipo A juega en un torneo local mientras que el equipo B
va para otra ciudad. De cuantas maneras pueden ser escogidos los jugadores de los
equipos?
 10  10!
Solución:  = = 252 posibles divisiones
 5, 5  5! 5!

16
Breve Introducción a la Probabilidad - Clavijo

EJERCICIOS 2

Ejercicio 1
Un experimento consiste en lanzar dos dados corrientes.
a. ¿Cuántos resultados tiene este experimento?
b. Denote por ¿ ( x, y ) cada resultado del experimento. En cuántos de estos
resultados se cumple x+ y es divisible por 3?
c. Considere A = ( x, y) x  y . ¿Cuáles son los elementos de este conjunto?

 
d. Considere B = ( x, y ) x + y es múltiplo de 3 . Calcule:

a. Bc
b. A  B
c. A  B
d. A − B
e. Ac  B c
Ejercicio 2
En un país las placas de los automóviles están formadas por dos letras simples y
5 dígitos del 0 al 9.
a. ¿Cuántas placas existen en total?
b. La misma pregunta anterior si se pide que ni las letras ni los números puedan
repetirse
c. ¿Cuántas placas comienzan por la letra A
d. ¿En cuántas placas los dos últimos dígitos forman un número divisible por 3?

Ejercicio 3
a
Se forma una fracción tomando como valor del numerador un número
b
seleccionado aleatoriamente del conjunto A = {2, 4, 6, 8, 10, 12} y tomando
como denominador un número de A diferente al anterior.
a. ¿Cuántas posibles fracciones se pueden formar?
b. ¿Cuántas de las fracciones que se puedan construir resultan mayores que la
unidad?

17
Breve Introducción a la Probabilidad - Clavijo

Ejercicio 4
El juego del Baloto consiste en elegir 5 números x1 , x2 , x3 , x4 , x5 sin
repetición del conjunto A = {1, 2, 3, , 43} y un número y del

conjunto B = {1, 2, ,16} para formar con ellos una séxtupla


( x1 , x2 , x3 , x4 , x5 , y ) . Gana el baloto quienes hayan conformado la quíntupla
formada por los xi en cualquier orden y además haya acertado con el valor
de y . ¿Cuántos posibles ganadores habrá para el premio mayor del Baloto?

Ejercicio 5
De cuántas maneras 3 franceses, 4 alemanes, 2 rusos y 4 japoneses se pueden
sentar en fila en una banca rectilínea,
a. Si no importa el orden como se sienten
b. Si los de la misma nacionalidad deben quedar juntos
c. Si los extremos de la fila están ocupados por rusos
d. ¿Si el en el extremo izquierdo de la fila está el ruso Dimitrov y en el derecho
el ruso Alexandrov y los demás de cualquier manera?
e. ¿Si el en el extremo izquierdo de la fila está el ruso Dimitrov y en el derecho
el ruso Alexandrov y los demás por nacionalidades?
f. Si el extremo izquierdo está ocupado por un ruso y el derecho por un francés.
Considere todas las posibilidades

Ejercicio 6
Juan tiene tantos libros como se indica en cada caso y desea ordenarlos en su biblioteca
que consta de un solo estante lineal donde caben todos los libros. ¿Cuántos arreglos
diferentes pueden hacerse atendiendo a los siguientes criterios?

a. Si los libros se ponen en cualquier orden en el estante


b. Si los libros se ponen de modo que los de la misma asignatura estén juntos
c. Si los libros se acomodan de modo que los de la misma asignatura estén juntos pero
además las asignaturas están en orden alfabético de izquierda a derecha
d. Si los libros de idiomas (inglés y portugués) se ponen uno al principio y el otro al final.
e. Si los dos de idiomas están en los extremos pero al comienzo está el de inglés y al final
el de portugués.

Información sobre los libros:

18
Breve Introducción a la Probabilidad - Clavijo

Caso 1 Caso 2 Caso 3 Caso 4 Caso 5

6 física 3 química 6 música 5 geografía 4 música

4 biología 4 historia 4 literatura 3 botánica 3 artes

5 geometría 5 biología 4 historia 6 economía 4 economía

2 Idiomas 4 astronomía 3 botánica 3 literatura 4 biología

2 idiomas 2 idiomas 2 idiomas 2 idiomas

Ejercicio 7

A un curso asisten estudiantes de agronomía, agroindustria y veterinaria, así:

De agronomía 3 hombres 4 mujeres. De agroindustria, 2 hombres 4 mujeres y de


veterinaria 4 hombres 4 mujeres.

De cuántas maneras pueden disponerse estos 21 estudiantes en un arreglo circular


dentro del salón de clase

a. Si se sientan de cualquier manera


b. Si todas las mujeres están juntas formando un solo grupo
c. Si las mujeres de cada carrera forman grupos igual que los hombres de cada carrera
y se sientan de modo que estos grupos queden intercalados
d. Responder las mismas preguntas anteriores si los estudiantes se disponen en una
fila lineal de 21 sillas.

1. Con los estudiantes del ejercicio anterior se quiere formar una comisión de 4
personas -dos hombres y dos mujeres-. De cuántas maneras se puede escoger la
comisión si
a. No importa de qué carrera es cada estudiante de la comisión
b. Se quiere que las mujeres sean de carreras diferentes
c. Se quiere que las mujeres sean de carreras diferentes y los hombres de la carrera
que no esté representada por mujeres

19
Breve Introducción a la Probabilidad - Clavijo

Ejercicio 8

10 personas llegan a sentarse en un banco pero solo hay 4 sitios disponibles. De cuántas
maneras podrían sentarse?

Ejercicio 9

Se van a dar tres premios a los estudiantes de una clase de 10 alumnos. De cuántas
maneras puede hacerse

a. Si un estudiante no puede recibir más de un premio y éstos son diferentes (es decir,
hay orden en los premios: primer premio, segundo tercero)
b. Si los premios son los mismos (por ejemplo tres ejemplares de la misma novela)

Ejercicio 10

5 hombres y 6 mujeres deben colocarse en fila de modo que las mujeres ocupen
los lugares pares. De cuántas formas puede armarse la fila?

Ejercicio 11

Cuántas claves de 4 dígitos para tarjeta bancaria pueden formarse con las cifras 0,
1, 2, …, 9
a. Si se admiten repeticiones en las cifras de la clave
b. Si no se admiten repeticiones

20
Breve Introducción a la Probabilidad - Clavijo

III

CONJUNTO MUESTRAL Y EVENTOS

Dado un experimento, el conjunto Ω formado por los diferentes resultados del


experimento, se denomina espacio o conjunto muestral. Por ejemplo, al lanzar una
moneda, se tiene Ω = {C, S}. Al lanzar un dado, con seis posibles resultados, se tiene
Ω = {1, 2, 3, 4, 5, 6}. A veces el número de resultados podría ser infinito, como por
ejemplo, cuando aleatoriamente, se selecciona una persona de una lista y medimos
su peso en Kg. El resultado del experimento es el número de Kg que pese la persona
elegida. Este valor corresponde a una variable continua que puede variar en un
intervalo, por ejemplo de 20 Kg a 140 Kg (o quizás más dependiendo de ciertas
circunstancias como la edad, la raza, el sexo, etc). En este caso se tendrá
Ω = { x x , , 20  x  120 }. Es decir, el conjunto muestral puede ser finito o
infinito, discreto o continuo.

Hay otros casos en los cuales el conjunto muestral es de naturaleza no numérica,


por ejemplo, si se toma un fruto del café y se decide si ya está maduro, si está
“pintón” o si aún está en la etapa primera de maduración. Caso en el cual Ω = {biche,
pintón, maduro}. Esto ocurre en situaciones particulares en las que el resultado se
expresa mediante una cualidad o un concepto que no se mide numéricamente. Otro
ejemplo es el estado de salud de un enfermo respecto a un estado anterior. Puede
ser, por ejemplo: igual, peor o mejor. Es decir Ω = {peor, igual, mejor}.

Los resultados del experimento, es decir, los elementos de Ω, pueden ser


manipulados mediante operaciones como las que vimos en la teoría de conjuntos
para formar con ellos subconjuntos más complejos que, con frecuencia, son
importantes en el estudio de la probabilidad.
21
Breve Introducción a la Probabilidad - Clavijo

En general para nuestro estudio va a ser muy importante el conjunto de partes de


Ω, denotado como () o como 2 , formado por todos los subconjuntos de Ω,
esto es: () = { A A  } . Los elementos de () se denominan los eventos
(determinados por el experimento).

Es frecuente usar el símbolo  en vez de () , para denotar el conjunto de todos


los eventos asociado a un experimento. Esto tiene su razón de ser y mayor
importancia cuando se estudia la teoría de las probabilidades desde el punto más
general propuesto por Kolmogorov en el que  va a denotar una  − álgebra. Por
ahora no estamos utilizando esta teoría general así que mientras no se diga lo
contrario  será igual a () .

Los eventos pueden ser operados siguiendo las operaciones de la teoría de


conjuntos, con lo cual se forman nuevos eventos, como A  B, A  B, A etc
c

Aunque en la práctica basta considerar como eventos todos los subconjuntos del
conjunto muestral Ω, y seguramente no tendremos problemas de consistencia, no
sobra recalcar que en teoría debemos exigir ciertas propiedades básicas o axiomas
a los eventos. Tales propiedades pueden resumirse en lo siguiente:

1. Ω es un evento
2. Si A es un evento entonces Ac es un evento.
3. Si A, B son eventos entonces A  B es un evento

A partir de estas propiedades se pueden derivar otros tipos de eventos como se ve a


continuación:

a.  es un evento, pues es el complemento de Ω.


b. Si A, B son eventos entonces A  B es un evento ya que A  B = ( Ac  Bc )c
c. Si A, B son eventos entonces A − B es un evento ya que A − B = A  Bc
d. Si A, B son eventos entonces A+ B es un evento ya que
A + B = ( A  B) − ( A  B)

22
Breve Introducción a la Probabilidad - Clavijo

e. La propiedad 3. puede ser generalizada para cualquier familia finita de eventos


k
( Ai )ik=1 . En este caso se cumple Ai es un evento.
i =1
k
f. De igual manera la propiedad b. se generaliza como Ai es un evento.
i =1

CONCEPTO DE PROBABILIDAD

La teoría de la probabilidad debe ser capaz de asignar un valor de probabilidad a


cualquier evento simple (elementos de Ω) como a cualquier evento compuesto
(formado por otros eventos, mediante operaciones de conjuntos)

En esencia, la probabilidad es una medida que asignamos a cada evento de un


conjunto muestral y que generalmente se interpreta como una medida de la
certidumbre de ocurrencia del evento.

Existen diversas formas de asignar probabilidades a los eventos simples, es decir, a


los resultados de un experimento. Muchas veces se asignan arbitrariamente como
cuando decimos que cada resultado del lanzamiento de una moneda tiene
probabilidad 0.5, es decir, P(C) = P(S) = 0.5. O cuando asignamos a cada cara de un
dado el valor de probabilidad de un sexto. Es decir, que si el experimento tiene n
posibles resultados entonces asignamos a cada resultado un valor de probabilidad
1
de . Esta forma de asignación puede ser más general, simplemente, de manera
n
arbitraria, asignamos a cada conjunto unitario { xi } de Ω una probabilidad pi ,
donde los pi son valores que satisfacen 0  pi  1 y p
i
i =1

Evidentemente este forma de asignar probabilidad no tiene sentido cuando Ω es


infinito como ocurre en el caso del peso de las personas mencionado antes. Una
segunda forma de asignar probabilidad consiste en repetir el experimento un cierto
número m de veces y observar el número x de veces ocurre el evento de interés

23
Breve Introducción a la Probabilidad - Clavijo

x
dentro de los m resultados. En este caso asignamos como probabilidad del
m
evento de interés. Esta segunda forma de asignar probabilidades es muy usada y
equivale a la concepción frecuentista de Laplace.

Por último puede haber otras formas más sofisticadas de asignar probabilidades
como pueden ser métodos de simulación que se hacen correr bajo determinadas
circunstancias. Por ejemplo, se podría simular el lanzamiento de una moneda n
veces contando el número de Caras que hay en los n lanzamientos, lo que nos dará
un valor de probabilidad para el evento “Cara”, como en el caso anterior, por
x
P(Cara) = n . Generalmente esto se repite muchas veces con un número n
n
x 
lanzamientos, cada vez más grande y definimos P (Cara) = lim  n  . Esta
n →
 n
última forma de asignar probabilidades es muy usada cuando se toman “muestras”
de una población y se cuenta el número de veces que aparece un evento. Es lo que
se menciona en el párrafo siguiente.

En la vida real una de las maneras más utilizadas para definir probabilidades es
mediante el concepto de frecuencia. Simplemente se observa cuántas veces ocurre
un fenómeno frente al número de veces que ha podido ocurrir. El cociente entre el
número de veces que realmente ha ocurrido y el número de veces que pudo haber
ocurrido es un número entre 0 y 1 que se toma como el valor de probabilidad del
evento que se estudia. Así, por ejemplo, si se lleva un historial de cuántas veces ha
llovido en la cuenca de un rio y cuántas de esas veces el rio ha inundado campos
cercanos a su paso, se tiene un valor de la probabilidad de que el rio inunde los
terrenos aledaños a su cauce. Igualmente si una empresa produce un determinado
artículo, una forma de determinar la probabilidad de que se fabriquen artículos
defectuosos es tomar una muestra de n
artículos, examinarlos y contar el número
x de artículos defectuosos en la muestra, el cociente x corresponde al valor de
n
dicha probabilidad. Naturalmente cuantas más veces se haga lo anterior y se
perfeccione el valor de probabilidad tanto más confiables serán los valores
calculados de probabilidad.

Cuando los eventos simples (elementos de Ω) tienen definida una probabilidad,


estos valores se utilizan para calcular probabilidades de subconjuntos (eventos) más
complejos de Ω. De acuerdo con las siguientes definiciones y axiomas
24
Breve Introducción a la Probabilidad - Clavijo

Inicialmente todo subconjunto de Ω se denomina un evento. Por ejemplo, en el


experimento del lanzamiento de una moneda, Ω = {C,S} y, por tanto, el conjunto de
eventos es  = { , {c}, {S}, } . Es decir, hay cuatro eventos posibles.

Si Ω tiene n elementos entonces ζ, el conjunto de eventos, tendrá 2n


elementos, es decir, que habrá 2n eventos posibles. En general la probabilidad de
un evento finito cualquiera, A , está dada por  P({x}) .
xA

Algunos ejemplos, para aclarar las cosas dichas anteriormente, son los siguientes:

EJEMPLO: Experimento: lanzamiento de un dado. En este caso Ω tiene 6 elementos

y () tiene 26 = 64 elementos. Es decir, hay 64 eventos posibles. Podríamos


fijar arbitrariamente el valor de probabilidad para cada uno de los eventos simples
como lo indica la tabla siguiente:

Evento Probabilidad

{1} 1/6
{2} 1/6
{3} 1/4
{4} 1/12
{5} 1/6
{6} 1/6

De acuerdo con lo anterior para los siguientes eventos se tiene:

1 1 1 1
Evento: A = {2, 3, 4} P( A) = + + =
6 4 12 2
1 1 1 1 3
Evento: B = {2, 3, 5, 6} P( B) = + + + =
6 4 6 6 4

EJEMPLO: ¿Cuál es la probabilidad de que al seleccionar de una baraja de Poker dos


cartas aleatoriamente, resulten dos ases? (para los que no saben: una baraja de
Poker, también conocida como baraja francesa, consta de 4 conjuntos de cartas,
llamados palos, cada uno con 13 cartas: los corazones, los rombos, los tréboles y las
picas. La primera carta de cada palo (con una sola figura) se llama un AS. A veces se

25
Breve Introducción a la Probabilidad - Clavijo

consideran dos cartas extras, llamadas comodines, pero ellas no son parte esencial
de la baraja, aunque sean importantes y apetecidas en el juego).

Una baraja completa tiene 52 cartas de las cuales 4 son ases. Hay por consiguiente,
52!
= 1326 formas diferentes de seleccionar un par de cartas de la baraja.
2! 50!
4!
De estos 1326 pares de cartas hay = 6 que consisten de 2 ases. En
2! 2!
6 1
consecuencia, la probabilidad buscada será =
1326 221

EJEMPLO: Una universidad recibe 200 estudiantes para primer semestre. De la hoja
de vida de estas personas se obtiene información sobre sexo y posición socio-
económica, como se indica en el cuadro siguiente:

De acuerdo con el cuadro anterior:


La probabilidad de que un estudiante de primer semestre sea mujer es: 88/200
La probabilidad de que un estudiante sea de estrato bajo es: 30/200 = 0.15
La probabilidad de que un estudiante sea mujer de estrato alto (o en forma equivalente:
“El estudiante es mujer” y “es de estrato Alto”) es 30/200

Nótese que esta última probabilidad es igual también a (65/200)(30/65) = P( A)  P( B)


donde A es el evento “El estudiante es de estrato Alto” y B es el evento “El estudiante
es mujer dentro del conjunto de los de estrato Alto”.

EJERCICIO: Con base en los datos del cuadro anterior, calcule para un estudiante
seleccionado aleatoriamente en el primer semestre, las probabilidades siguientes:

26
Breve Introducción a la Probabilidad - Clavijo

a. Probabilidad de que sea de estrato bajo


b. Probabilidad de que sea hombre
c. Probabilidad de que sea hombre de estrato medio
d. Probabilidad de que sea de estrato bajo o de estrato medio
e. Probabilidad de que sea Hombre de estrato bajo o mujer de estrato alto
f. Probabilidad de que sea hombre de estrato bajo y mujer de estrato medio

AXIOMAS DE LA TEORIA DE LA PROBABILIDAD

Para garantizar una correcta asignación de probabilidades a los eventos de un


conjunto muestral se hace necesario establecer ciertos axiomas que servirán de
base a la teoría de la probabilidad.

De una manera más general la probabilidad puede ser vista como una función
P :  → [0,1] que a cada evento E de  asigna un número real no negativo,
llamado “probabilidad de E” y notado P( E ) de modo que se cumplan los
siguientes axiomas:

Axioma 1: Para cada evento E , debe cumplirse 0  P( E )  1


Axioma 2: P() = 1
Axioma 3: Para cualquier secuencia de eventos exclusivos E1 , E2 , , Ek , es
decir,
eventos para los cuales Ei  E j =  con i  j , se ha de cumplir:

   
P  Ei  =  P( Ei )
 i =1  i =1

En los casos en los que Ω es finito no habrá subfamilias infinitas de subconjuntos


de Ω, por lo que el conjunto de eventos ζ será un conjunto finito. En tales casos el
axioma 3 anterior puede ser enunciado sin recurrir a secuencias infinitas ni sumas
infinitas. Es lo que sucede en la mayor parte de los casos considerados en un curso
introductorio como éste. Al final del capítulo sobre probabilidad se verán algunas

27
Breve Introducción a la Probabilidad - Clavijo

generalizaciones más elaboradas que dan un carácter universal a la teoría de la


probabilidad. Por ahora baste con saber que el tercer axioma lo podríamos enunciar
de una manera un poco más elemental como:

Axioma 3: Para cualquier secuencia finita de eventos exclusivos E1 , E2 , , Ek , es


decir, eventos para los cuales Ei  E j =  con i  j , se ha de cumplir:

 k  k
P  Ei  =  P( Ei )
 i =1  i =1

A partir de los axiomas anteriores podemos probar las siguientes propiedades básicas
que cumple una función de Probabilidad.

Demostraciones:

1.  =     P() = P(   ) = P() + P( ) . De aquí, despejando.

2.
 = A  Ac  1 = P() = P( A) + P( Ac ). Despejando : P( Ac ) = 1 − P( A)
3. Consecuencia de 2 y de los axiomas de probabilidad
28
Breve Introducción a la Probabilidad - Clavijo

4. En teoría de conjuntos se demuestra que A = ( A − B)  ( A  B) y esta unión


es disjunta. Aplicar ahora el tercer axioma de probabilidad
5. Si B  A se cumple A  B = B . Aplicar ahora la propiedad anterior.
6. Por 5: P( A) − P( B) = P( A − B) y ahora se aplica 3. A la diferencia A − B
7. A  B puede escribirse como la unión disjunta siguiente:
A  B = ( A − B)  ( A  B)  ( B − A) . De aquí, por el tercer axioma de
probabilidad: P( A  B) = P( A − B) + P( A  B) + P( B − A) y ahora aplicando
la propiedad 4. Se tiene:
P( A  B) =  P( A) − P( A  B)  + P( A  B) +  P( B) − P( B  A) 
=  P( A) − P( A  B)  + P( A  B) +  P( B) − P( A  B) 
= P( A) + P( B) − P( A  B)

EJEMPLO-EJERCICIO
Considere el lanzamiento de dos dados y sea:
 = {( x, y ) x, y {1, 2,3, 4,5, 6}}
Suponga que los eventos elementales en los que x es par tienen doble
probabilidad que los demás eventos elementales.
1. Calcular P( E ) para:
1.1 E = {(3, 2), (2, 4), (4,1), (1,5)}
1.2 E = {( x, y )   x  y}

1.3 E = {( x, y )   x + y es número primo}


2. Considere ahora los siguientes eventos:

A = {( x, y)  x  y}, B = {( x, y)  x + y es par}
2.1 Calcular: P( A  B), P( A  B), P( A − B), P( Ac  B)
2.2 Calcular P (( A − B )c )

EJEMPLO
Se extraen aleatoriamente dos bolas de una urna que contiene 5 bolas blancas
y 4 bolas negras. ¿Cuál es la probabilidad de que salga una bola blanca y una
bola negra?

Solución:
Considérense los experimentos B = “extraer una bola blanca” y N = “extraer una
bola negra”. El primero tiene 5 resultados posibles y el segundo 4. Por

29
Breve Introducción a la Probabilidad - Clavijo

consiguiente, según el principio del conteo, el experimento conjunto BN tiene


5x4 = 20 resultados. De igual manera, el experimento conjunto NB tiene 4x5 =
20 resultados. Puesto que ambos experimentos conjuntos BN o NB conducen a
obtener una bola de cada color, concluímos que en total hay 20+20 = 40
resultados favorables a la pregunta de interés.

Por otra parte, es claro que hay 9 formas diferentes de seleccionar la primera
bola y, una vez seleccionada ésta, 8 formas de seleccionar la segunda. En
consecuencia hay 9x8 = 72 formas de seleccionar dos bolas. Por consiguiente,
la probabilidad buscada es 40/72 = 0.5555.

Nótese que de acuerdo con las fórmulas de conteo ya vistas, la mencionada


probabilidad también puede calcularse como
 5 4
  
 1   1  = 5  4 = 20 = 0.5555
9 36 36
 
 2

NOTA: la tripla (,  , P) se denomina un Espacio Probabilístico

30
Breve Introducción a la Probabilidad - Clavijo

EJERCICIOS 3
Ejercicio 1
Sean A, B, C eventos. Demuestre que
P( A  B  C ) = P( A) + P( B) + P(C ) − P( A  B) − P( A  C ) − P( B  C ) + P( A  B  C )

Ejercicio 2
Los miembros deportistas de un club practican deportes de la siguiente manera: 36
practican solamente tennis. 28 únicamente squash y 18 sólo badminton. Por otra
parte 22 juegan tennis y también squash, 12 tennis y bádminton, 9 juegan squash y
bádminton y finalmente 4 practican los tres deportes.
1. ¿Cuántos miembros deportistas tiene el club?
2. ¿Cuántos de los deportistas practican al menos un deporte?
3. Si se escoge aleatoriamente un deportista del club ¿cuál es la probabilidad de que
él juegue squash?

Ejercicio 3
Si A, B son eventos tales que P( A) = 0.9 y P( B) = 0.8 , muestre que
P( A  B)  0.7 . De una forma más general, existe una desigualdad debida a
Bonferroni que establece que P( A  B)  P( A) + P( B) − 1

Ejercicio 4

Un curso está formado por 30 estudiantes, 12 hombres y 18 mujeres. El profesor ofrece llevar
a 10 estudiantes de este curso a una práctica. Escoge este número porque solo dispone de
dos carros: un automóvil que puede llevar 4 pasajeros, fuera del chofer, y una camioneta que,
además del chofer, puede llevar 6 pasajeros. ¿Cuántos grupos diferentes de estudiantes
puede formar si

a. No importa cómo se acomoden los estudiantes en los dos carros


b. Un vehículo lleva sólo mujeres y el otro sólo hombres
c. En el caso a, ¿Cuál es la probabilidad de que el carro pequeño esté ocupado solo por mujeres?
d. La misma pregunta anterior en el caso b.

31
Breve Introducción a la Probabilidad - Clavijo

Ejercicio 5

Una urna contiene 10 bolas enumeradas del 1 al 10. Se seleccionan aleatoriamente y


sin reemplazamiento 5 bolas de la urna. Hallar la probabilidad de que el segundo
número más grande seleccionado sea 8

Ejercicio 6
Suponga que A, B son eventos de un conjunto muestral tales que
P( A) = 0.35, P( Bc ) = 0.27, P( Ac  B) = 0.59

Calcular P( A  B), P( A  B), P( A  Bc ), P( Ac  Bc )

Ejercicio 7
Si se selecciona aleatoriamente un número entero de tres dígitos, entre los límites 000 y
999 (incluyendo estos límites).
a. ¿Cuál es la probabilidad de que el número tenga un solo dígito mayor que 5?
b. ¿Cuál la probabilidad de que tenga un dígito mayor que 5?

Ejercicio 8
Si entre los dígitos 1, 2, 3, 4, 5, se selecciona aleatoriamente un número y luego se
selecciona otro entre los cuatro dígitos restantes, ¿Cuál es la probabilidad de que los
dígitos seleccionados formen un número par?

Ejercicio 9
Una urna contiene 3 bolas rojas 8 amarillas y 13 verdes. Otra urna contiene 5 bolas rojas, 7
amarillas y 6 verdes. Si se selecciona aleatoriamente una bola de cada urna, ¿Cuál es la
probabilidad de que ambas bolas sean del mismo color?

Ejercicio 10
Un grupo de 8 montañistas entre quienes se encuentran dos médicos se dividen
aleatoriamente en dos grupos, cada uno de 4 personas, para ascender a un nevado por dos
caminos diferentes.

¿Cuál es la probabilidad de que en cada grupo quede un médico?

32
Breve Introducción a la Probabilidad - Clavijo

Ejercicio 11
El vigilante de un supermercado recibe 10 lockers a sabiendas de que 9 de ellos ya están
ocupados. Igualmente recibe las 10 llaves para abrir los lockers, todas muy parecidas
entre sí, pero no sabe cuál llave corresponde a cada locker, de modo que para abrir el
locker desocupado escoge aleatoriamente una llave entre las 10 que tiene en su poder.

Situación 1: El vigilante toma aleatoriamente una llave y si no sirve para abrir el locker
desocupado la pone sobre una mesa y aleatoriamente coge otra llave entre las que no
ha ensayado.

Situación 2: El vigilante escoge aleatoriamente una llave y si no sirve para abrir el locker
la revuelve con las otras 9 llaves y aleatoriamente escoge otra.

En ambas situaciones, él sigue ensayando llaves hasta que encuentre la que abre el
locker.

Responder las dos preguntas siguientes para cada una de las situaciones:

1. Cuántos intentos como máximo son necesarios para encontrar la llave apropiada?
2. Cuál es la probabilidad de que en el k-ésimo intento se pueda abrir el locker? (k = 1, 2,
…)

Ejercicio 12
m hombres y w mujeres, por sí mismos se sientan aleatoriamente en m+w sillas
dispuestas en una fila recta. Encuentre la probabilidad de que todas las mujeres queden
juntas.
Hallar la solución a la misma pregunta si las sillas se han dispuesto en forma circular

INDEPENDENCIA DE EVENTOS Y PROBABILIDAD


CONDICIONAL

Seguramente el lector ya haya observado que en el último teorema sobre las


propiedades de la probabilidad, no hemos dado ninguna fórmula para calcular
P( A  B) en términos de las probabilidades de los eventos A, B . La razón de
ésto es que la probabilidad de una intersección introduce un tema que, por su
33
Breve Introducción a la Probabilidad - Clavijo

importancia, merece ser tratado aparte. Es el concepto de Probabilidad


Condicional.

Como su nombre lo indica, la probabilidad condicional ocurre cuando la ocurrencia


de un evento A depende de otro evento B, es decir la probabilidad de aquel está
condicionada por la de éste. Quizás un ejemplo, ayude a entender un poco más la
situación.

Supóngase que lanzamos un dado dos veces y que en el primer lanzamiento


obtuvimos un 2. Queremos ahora averiguar cuál es la probabilidad de que la suma
de los dos resultados sea 6, suponiendo que todos los resultados son
equiprobables. En este caso el primer evento es conocido y por tanto disponemos
de una información adicional que va a afectar el cálculo de la probabilidad de
Interés.

El evento original podría plantearse como “Cuál es la probabilidad de que al lanzar


un dado dos veces (o dos dados a la vez) la suma de resultados sea 6?”. Es claro que
visto así, hay 5 resultados favorables entre 36 posibles. Estos son (1,5), (2,4), (3,3),
(4,2) y (5,1). En consecuencia, la probabilidad pedida será de 5/36 = 0.13889

Si tenemos en cuenta la información conocida como resultado del primer


lanzamiento, que fue un 2, el segundo lanzamiento sólo puede tener un resultado
favorable –a saber: 4- entre 6 posibles, en consecuencia, en este caso la
probabilidad de que la suma sea 6 equivale a 1/6 = 0.16667

Podemos entonces definir la probabilidad condicional entre dos eventos de la


siguiente manera:

DEFINICION: Supóngase que A, B son dos eventos sobre un mismo conjunto


muestral Ω. Definimos la probabilidad de A condicionada a la ocurrencia del
P( A  B)
evento B , como P( A B) = siempre y cuando P( B)  0 . P( A B)
P( B)
se lee como “Probabilidad de A dado B ”.

EJEMPLO: Volvamos a los datos de los estudiantes que han sido recibidos en una
universidad para primer semestre.

34
Breve Introducción a la Probabilidad - Clavijo

Consideremos los eventos A, B asociados a la selección aleatoria de un


estudiante de primer semestre, dados por:
A : “El estudiante seleccionado es de estrato alto”
B : “El estudiante seleccionado es una mujer”

Al calcular P( A B) estamos dando por sentado que ya conocemos que se trata de


una mujer. Como solo hay 88 mujeres, la probabilidad de que la elegida sea de
estrato alto será de 30/88 = 0.34091.

Si aplicamos la fórmula, tendremos A  B es el conjunto de jóvenes que a la vez


son mujeres y de estrato alto. De éstos hay 30. B es el conjunto de jóvenes que
30
son mujeres. De éstas hay 88. Luego P( A  B) = y por otra parte
200
30
P( A  B) 30
P( B) =
88
. De aquí: = 200 = = 0.34091
200 P( B) 88 88
200

EJEMPLO: Se lanza una moneda dos veces consecutivas. Asumiendo que los cuatro
puntos de Ω = {(C,S), (C,C), (S,C), (S,S)} tienen la misma probabilidad de ser
seleccionados, cuál es la probabilidad de que en ambos lanzamientos salga “Cara”
, dado que:
a) En el primer lanzamiento salió “Cara”
b) Sale “cara” en al menos un lanzamiento?

Solución: Sea B = {(C,C)} el evento que afirma que ambos lanzamientos son “caras”.
Sea F = {(C,C), (C,S)} el evento que afirma que en el primer lanzamiento sale “cara”. Y
Sea A = {(C,C), (C,S), (S,C)} el evento que afirma que al menos en un lanzamiento sale
“cara”.
La probabilidad en la pregunta (a) puede obtenerse a partir de:

1
P( B  F ) P({(C , C )}) 1
P( B F ) = = = 4=
P( F ) P({(C , C ), (C , S )}) 2 2
4
Para el caso (b) se tiene:
1
P( B  A) P({(C , C )}) 1
P( B A) = = = 4=
P( A) P({(C , C ), (C , S ), ( S , C )}) 3 3
4

35
Breve Introducción a la Probabilidad - Clavijo

P( A  B)
De la fórmula anterior, P( A B) = se deduce obviamente que
P( B)
P( A  B) = P( A B) P( B)
Fórmula que de una manera natural se adopta como una manera de calcular la
probabilidad de una intersección de eventos.

EJEMPLO:
Un curso formado por 18 estudiantes, 12 mujeres y 6 hombres, desea elegir dos
delegados para asistir a un evento cultural en otra ciudad. ¿Cuál es la probabilidad
de que dicha delegación esté conformada por un hombre y una mujer?

Solución: Puede pensarse que en el proceso de selección de los delegados se escoja


primero uno de los estudiante y luego el otro y que dicha selección se hace por
sorteo (aleatoriamente).

Llamemos H1 al evento “El primer elegido es hombre” y H2 el evento “El segundo


elegido es hombre”. Puesto que el curso está conformado sólo por hombres y
mujeres, la negación de H1, es decir H1c significa “La primera elegida es una mujer”.
Análogamente H2c significa “La segunda elegida es una mujer”. La delegación
queda constituída por un hombre y una mujer si ocurre alguno de los eventos
H1∩H2c o H1c∩H2. En consecuencia, nos interesa averiguar la probabilidad:

P((H1∩H2c)U(H1c∩H2))
Se tiene:

P((H1∩H2c)U(H1c∩H2)) = P(H1∩H2c)+P(H1c∩H2) – P((H1∩H2c)∩ (H1c∩H2))

Pero (H1∩H2c)∩(H1c∩H2) = H1∩H2c∩ H1c∩H2 =( H1∩ H1c)∩( H2c∩ H2) = ø∩ ø = ø


Luego: P((H1∩H2c)U(H1c∩H2)) = P(H1∩H2c)+P(H1c∩H2)
= P(H1)P(H2c|H1) + P(H1c)P(H2|H1c)
= (6/18)(12/17) + (12/18)(6/17) = 0.4706

0
Si se admite que Ai =  , expresión poco intuitiva pero válida según la teoría de
i =1

conjuntos, se puede generalizar la fórmula


P( A  B) = P( A B) P( B)
en el sentido siguiente:
36
Breve Introducción a la Probabilidad - Clavijo

n n k −1
P(
k =1
Ak ) =  P( A
k =1
k (
i =1
Ai ))

Expresión conocida como regla del producto.

Demostración:

Haciendo inducción sobre n . Debemos seguir el siguiente esquema: primero mostrar


que la fórmula es cierta para n = 1 . Luego, suponiendo su validez para n , demostrar
que también es válida para n + 1 .

Veamos entonces que la fórmula es válida para n = 1 .

 1  P( A1  ) P( A1  )
P  Ak  = P( A1 ) = P( A1  ) = = = P( A1 | )
 k =1  1 P (  )
0 1 k −1
= P( A1 | Ai ) =  P( Ak | Ai )
i =1 k =1 i =1

Suponiendo ahora que la fórmula es válida para n , se tiene:

n +1 n
 n
  n
  n 
P ( Ak ) = P (( Ak )  An +1 ) = P  An +1  ( Ak )  = P  An +1 | ( Ak )  P  Ak 
k =1 k =1  k =1   k =1   k =1 
 n
 n k −1 n +1 n
= P  An +1 | ( Ak )   P ( Ak | Ai ) =  P ( Ak | ( Ai ))
 k =1  k =1 i =1 k =1 i =1

En consecuencia, esta fórmula es válida para cualquier cantidad enumerable de


eventos

INDEPENDENCIA DE EVENTOS

Intuitivamente es claro que dos eventos A, B son independientes si la


ocurrencia de cualquiera de ellos no afecta la ocurrencia del otro. Cuando A, B
son independientes ninguno de los dos ocurre “dentro” del otro por lo que se

37
Breve Introducción a la Probabilidad - Clavijo

puede afirmar que P( A  B) = P( A) P( B) , lo que formalmente se admite


como la definición de independencia entre eventos. Más exactamente, tenemos:

DEFINICION:
Se dice que una familia de eventos ( Ai )iI en un espacio probabilístico
(,  , P) es independiente (o que sus miembros son independientes entre sí)
siempre que satisfagan: P( Ai ) =  P( Ai )
iI iI

EJEMPLO:
Se lanzan dos dados corrientes, se toma como conjunto muestral a

 = {( x, y ) x, y {1, 2,3, 4,5, 6}} y como familia de eventos 2 .Entre


estos eventos consideremos los siguientes:
A : La primera componente, x , es número par
B : La suma de las dos componentes es un número impar
C : La suma de las dos componentes es un número mayor que 5.

1 1 7
Se obtiene: P( A) = P( B) = , P( A  B) = = P( A) P( B) , P( A  C ) =
2 4 8
1 13
P( A) P(C ) =  = 0.3611
2 18
Como se ve, A y B son independientes mientras que A y C no lo son.

EJEMPLO:
Se ha estimado en 0.9 la probabilidad de que un paciente que tiene cierta
enfermedad responda al tratamiento. Suponga que se tienen tres pacientes con
esta enfermedad los cuales son tratados de manera independiente. ¿Cuál es la
probabilidad de que al menos uno de ellos responda al tratamiento?

Solución: Consideremos los siguientes eventos:

A : Al menos uno de los tres pacientes responderá al tratamiento.

B1 : El primer paciente no responderá al tratamiento

38
Breve Introducción a la Probabilidad - Clavijo

B2 : El segundo paciente no responderá al tratamiento


B3 : El tercer paciente no responderá al tratamiento.

Se observa que A = B1  B2  B3 y, por tanto,


c

P( A) = 1 − P( Ac ) = 1 − P( B1  B2  B3 )
Aplicando ahora la regla de multiplicación a los eventos Bi , se tiene:

P( B1  B2  B3 ) = P( B1 )  P( B2 B1 )  P( B3 ( B1  B2 ))

En consecuencia:
P( A) = 1 − P( B1 )  P( B2 B1 )  P( B3 ( B1  B2 ))

Puesto que los eventos son independientes se cumple:

P( B2 B1 ) = P( B2 ) y P( B3 ( B1  B2 )) = P( B3 ) y, por tanto:

P( A) = 1 − P( B1 )  P( B2 )  P( B3 ) ,
esto es:

P( A) = 1 − P( B1 )  P( B2 )  P( B3 ) = 1 − (0.1)(0.1)(0.1) = 0.999

TEOREMA:
Si A y B son eventos independientes entonces también lo son: A y Bc ,
Ac y B c

Demostración:
Se hará la demostración para A y Bc . El otro caso es similar y queda como
ejercicio.

Se debe demostrar que P( A  Bc ) = P( A) P( Bc ) . Ahora bien, puesto que


A  Bc = A − B se concluye que:

39
Breve Introducción a la Probabilidad - Clavijo

P( A  B c ) = P( A − B) = P( A) − P( A  B ) = P ( A) − P ( A) P ( B )
= P( A)[1 − P( B)] = P( A) P( B c )

DEFINICION:
Dada una familia enumerable de eventos,  = ( Ai ), i = 1, 2,3, , en un espacio

probabilístico (,  , P) , se dirá que los elementos de  son:

a. EXCLUYENTES si satisfacen Ai  Aj =  , para, i  j


b. EXHAUSTIVOS si Ai = 
i =1

Algunas observaciones sobre la probabilidad condicional y la independencia de


eventos son las siguientes:

a. Cuando dos eventos A, B , son dependientes la probabilidad del evento A


depende de la ocurrencia o no ocurrencia del evento B , como cuando decimos
que un alumno obtiene nota mayor a 4 si estudia ( A : ”obtener nota por encima
de 4”, B : ”El alumno estudia”). Es decir, la probabilidad de A será un valor si
ocurre B y tendrá otro valor si no ocurre B .
b. Cuando A, B son independientes, la probabilidad de A no depende de la
ocurrencia o no de B y, recíprocamente la probabilidad de B no depende de
la ocurrencia de A
c. Si se quisiera calcular la probabilidad de ocurrencia simultánea de eventos
independientes, bastará multiplicar sus probabilidades individuales. Por
ejemplo, si un avión tiene 4 motores de las mismas características y cada uno
de éstos tiene una probabilidad de 0.001 de falla, la probabilidad de que los 4
fallen simultáneamente será (0.001)4=10-12 = 0.000000000001. En la práctica
se puede tener un concepto diferente de independencia, por ejemplo, si los
cuatro motores del avión tienen mantenimiento con el mismo mecánico o con
los mismos equipos.
d. Un error frecuente es creer que dos eventos disjuntos, es decir, tales que
A  B =  , son independientes. Ni la independencia de A, B implica
A  B =  , ni esta condición implica que los eventos sean independientes.
Cuando A y B son excluyentes (es decir, A  B =  ) solamente se puede
40
Breve Introducción a la Probabilidad - Clavijo

afirmar P( A  B) = P( ) = 0 . Cuando A y B son independientes sólo podemos


afirmar que P( A  B) = PA)  P( B) .
e. Hay muchos casos de eventos independientes para los cuales A  B   y
también hay casos de eventos excluyentes que son independientes. En este
último caso, al menos uno de los dos eventos debe tener probabilidad nula.
f. Cuando A y B son excluyentes, si se sabe que B ha ocurrido, podemos afirmar
que A no ocurre. Esto es claro pues la probabilidad condicional P( A | B) es
cero.
g. Cuando hablamos de P( A | B) estamos hablando de una probabilidad
restringida pues estamos ante un conjunto muestral diferente. En este caso el
conjunto muestral pasa a ser B , como se ve en la gráfica siguiente:

La gráfica anterior muestra la medida de “A dentro de B” (Recuerde que AB es


P( A  B)
otra forma de escribir A  B ). El cociente es la razón entre estas dos
P( B)
medidas.

NOTA: en el caso en que  = { A1 , A2 , , Ak } sea una familia finita se puede

tomar Aj =  para j  k con lo cual se puede aplicar la definición anterior sin


necesidad de hacer salvedades.

Resulta evidente que si  es una familia de eventos excluyentes y exhaustivos, se

cumple  P( A ) = 1 .
Ai 
i

41
Breve Introducción a la Probabilidad - Clavijo

EJEMPLO:
La tabla de los estudiantes admitidos en la Universidad, vista anteriormente,
proporciona un buen ejemplo.

Podemos definir tres eventos a saber: A1 : pertenecer al estrato bajo. A2 :


pertenecer al estrato medio y A3 : pertenecer al estrato alto. Estos tres eventos
constituyen una familia excluyente y exhaustiva cuyas respectivas probabilidades
30/200, 105/200 y 65/200 suman 1.
Supóngase que aleatoriamente escogemos un muchacho de los que ingresaron al
primer semestre en la Universidad y queremos averiguar cuál es la probabilidad de que
el estudiante seleccionado sea un hombre. Consideremos entonces el evento A : ”Se
112
selecciona un hombre”. Este evento evidentemente tiene probabilidad P( A) = ,
200
como se comprueba con sólo observar la tabla.

Sin embargo, observemos este otro cálculo:

P ( A | A1 ) P ( A1 ) + P ( A | A2 ) P ( A2 ) + P ( A | A3 ) P ( A3 )
22 30 55 105 35 65 112
= + + = = P( A)
30 200 105 200 65 200 200

donde A1 , A2 , A3 son los eventos excluyentes y exhaustivos definidos


anteriormente que forman una partición de  .

Lo anterior no es una coincidencia!. Realmente obedece al siguiente teorema, conocido


como TEOREMA DE PROBABILIDAD TOTAL:

42
Breve Introducción a la Probabilidad - Clavijo

TEOREMA (Probabilidad total):

Supóngase que  = ( Ai ) i = 1, 2,3, es una familia enumerable de eventos


excluyentes y exhaustivos en un espacio probabilístico (,  , P) y sea A   un
evento arbitrario. Se cumple entonces:


P( A) =  P( A | A ) P( A )
i =1
i i

Demostración:
 

Se cumple A = A   = A  ( Ai ) = ( A  Ai )
i =1 i =1

Si hacemos Bi = A  Ai , para i j se tiene


   
P( A) = P(
i =1
Bi ) =  P ( B ) = P ( A  A ) = P ( A | A ) P ( A )
i =1
i
i =1
i
i =1
i i QED.

FORMULA O TEOREMA DE BAYES:

El siguiente teorema resume la filosofía reinante en Inglaterra y otras partes de Europa


en la primera mitad del siglo XVIII en la que se tenía claridad acerca de cómo la teoría
de la probabilidad podía resolver problemas del tipo P(Efecto|Causa) pero no había
solución para P(Causa|Efecto) que se denominó probabilidad inversa. Fue el clérigo
Thomas Bayes, amante de la Teología pero aficionado a las matemáticas, quien entre
los años 1746 y 1749 logró resolver este problema a través de un ejemplo. Bayes murió
sin tener consciencia de que había resuelto un problema de gran trascendencia.
Después de su muerte, acaecida en 1761, Richard Price estudió y publicó los trabajos
de Bayes, después de haber introducido algunas correcciones. “An essay towards
solving a problem in the doctrine of chances”( 1764)

43
Breve Introducción a la Probabilidad - Clavijo

Estos trabajos permanecieron varios años sin modificaciones hasta 1950, época en la
que se empezó a hablar de una nueva ciencia estadística: La Estadística Bayesiana que
hoy ocupa a numerosos investigadores y usuarios de la Estadística

TEOREMA (BAYES):
Sea  = ( Bi ) i = 1, 2,3, , una familia enumerable de eventos excluyentes y
exhaustivos en un espacio probabilístico (,  , P) . Dado un evento arbitrario A en 

, se cumple para cada k que:


P ( A | Bk ) P ( Bk )
P ( Bk | A) = 

 P( A | B ) P( B )
i =1
i i

Demostración:
A partir de la fórmula P( A  B) = P( A | B) P( B) se obtiene:

P( A  Bk ) = P( A | Bk ) P( Bk )
Y también: P( A  Bk ) = P( Bk  A) = P( Bk | A) P( A)
Así que:
P( A | Bk ) P( Bk ) = P( Bk | A) P( A)
De donde:
P( A | Bk ) P( Bk )
P( Bk | A) =
P( A)

Utilizando ahora la fórmula de probabilidad total P( A) =  P( A | A ) P( A )


i =1
i i y

reemplazando en la anterior, se obtiene el teorema.

EJEMPLO:
La compañía ABC efectúa una encuesta de mercadeo para evaluar la lucratividad de cada
uno de sus nuevos productos. Encuestas anteriores indican que el 90% de los nuevos
productos resultan lucrativos. Un análisis posterior demuestra que sólo el 70% de los

44
Breve Introducción a la Probabilidad - Clavijo

productos que se pronosticaron lucrativos lo fueron realmente, mientras que de los


productos pronosticados como no lucrativos el 20% resultó ser lucrativo.
La compañía ha comercializado un nuevo producto, XY, que resultó ser lucrativo. ¿Cuál es
la probabilidad de que la encuesta haya pronosticado que XY no era lucrativo?

Solución: Denotemos por L1 el evento “XY se pronostica lucrativo” y por L2 el evento “XY
se pronostica no-lucrativo”. Evidentemente, al ser complementarios L1 y L2 forman una
familia de eventos excluyentes y exhaustivos. Si A es el evento “XY es realmente lucrativo”
se tendrá:

P(A|L2) P(L2) 0.2  0.1


P(L2|A) = = = 0.03077
P(A|L1) P(L1) + P(A|L2) P(L2) 0.7  0.9 + 0.2  0.1

EJEMPLO:

Se entiende por sensibilidad de una prueba la capacidad que ella tiene para detectar un
a enfermedad en sujetos que realmente están enfermos. La especificidad de la prueba
es la capacidad que ella tiene para dar como negativos a los sujetos que realmente no
están enfermos.

Un falso positivo es el caso de un sujeto sano que salió positivo según la prueba.
Un falso negativo es el caso de un sujeto enfermos que la prueba reporta como sano.

La prevalencia es la proporción de individuos que presentan una enfermedad en un


momento dado. La incidencia es la proporción de casos nuevos que aparecen en un
periodo determinado de tiempo

Conociendo el vocabulario anterior, podemos examinar este ejemplo, presentado por


Eduardo Gutierrez Peña, de la UNAM.
(http://www.revista.unam.mx/vol.14/num11/art42/)

Una prueba clínica permite detectar el VIH con una sensibilidad de 95% y una especificidad
de 98%. En una población con una prevalencia de VIH de 1/1000, ¿cuál es la probabilidad
de que una persona cuya prueba resulta positiva realmente tenga el VIH?

45
Breve Introducción a la Probabilidad - Clavijo

Sea A el evento “la persona tiene el VIH” y Ac el evento complementario, “la persona no
tienen el VIH”. Denotemos por B al evento “la prueba resulta positiva”. Entonces,
sensibilidad de 95% significa que Pr(B | A) = 0.95, mientras que especificidad de 98% quiere
decir que Pr(B | Ac) = 0.02. Queremos calcular Pr(A | B). El teorema de Bayes nos dice cómo
obtenerla:

Pr( A | B ) = Pr( A ) Pr( B | A ) / Pr(B)

donde Pr(B) = Pr( A ) Pr( B | A ) + Pr( Ac ) Pr( B | Ac ). En otras palabras

Pr( A | B ) = (0.001)(0.95) / 0.021 = 0.045

Por lo tanto, ¡más del 95% de las personas cuya prueba resulta positiva en realidad
no tienen el VIH! Lo anterior a pesar de las buenas características (sensibilidad y
especificidad) de la prueba de diagnóstico.

EJEMPLO: (Walpole 3.28)

En una fábrica hay 3 máquinas B1 , B2 y B3 que hacen respectivamente el 30%, el


45% y el 25% de los productos. Por experiencias anteriores se sabe ql 2%, 3% y 2%
respectivamente de los productos fabricados salen defectuosos. Se toma
aleatoriamente un producto. ¿Cuál es la probabilidad de que dicho producto sea
defectuosos?

Solución: Sea D el evento “El producto es defectuoso”.

P( B1 ) = 0.30, P( B2 ) = 0.45, P( B3 ) = 0.25


P( D | B1 ) = 0.02, P( D | B2 ) = 0.03, P( D | B3 ) = 0.02

Por la fórmula de probabilidad total, se tiene:

P( D) = P( D | B1 ) P( B1 ) + P( D | B2 ) P( B2 ) + P( D | B3 ) P( B3 )
= 0.02  0.30 + 0.03  0.45 + 0.02  0.25 = 0.0225

46
Breve Introducción a la Probabilidad - Clavijo

Supóngase que nos interesa saber cuál es la probabilidad de que el producto venga
de la máquina B2 sabiendo que es defectuoso. Aplicamos en este caso la fórmula
de Bayes:

P ( D | B2 ) P( B2 ) 0.03  0.45
P( B2 | D) = = = 0.6
P( D | B1 ) P( B1 ) + P( D | B2 ) P( B2 ) + P( D | B3 ) P( B3 ) 0.0225

EJEMPLO
A1, A2, A3, A4, son proveedores de materia prima para una empresa E. La empresa
compra al proveedor A1 el 50% de la materia prima, a A2 el 20%, a A3 el 18% y a A4
el 12%. De acuerdo con los registros históricos, la probabilidad de que la materia
prima salga de mala calidad es para cada proveedor, 0.05, 0.08, 0.10 y 0.15
respectivamente. Si al seleccionar aleatoriamente un artículo producido en la
empresa, éste sale de mala calidad (M), cuál es la probabilidad de haya sido
fabricado con materia prima proveniente del proveedor A1?

En este ejemplo nos preguntamos por P ( A1 | M )

Aplicando la fórmula de Bayes se tiene:

47
Breve Introducción a la Probabilidad - Clavijo

P( M | A1 ) P ( A1 )
P ( A1 | M ) =
P( M | A1 ) P ( A1 ) + P ( M | A2 ) P ( A2 ) + P ( M | A3 ) P ( A3 ) + P ( M | A4 ) P ( A4 )

0.05  0.50
= = 0.3248 aprox
0.05  0.50 + 0.08  0.20 + 0.10  0.18 + 0.15  0.12

Nótese cómo la probabilidad de que artículos defectuosos provengan del


proveedor A1 es bastante alta a pesar de ser el proveedor que ofrece menos
materia prima de mala calidad. Esto se debe a que es el proveedor que más materia
prima ofrece. Compárese con P( A4 | M ) = 0.2195

48
Breve Introducción a la Probabilidad - Clavijo

EJERCICIOS 4

EJERCICIO 1:
En un colegio hay 180 alumnos de grado 10º y 142 alumnos de grado 11º . El 62%
de los alumnos 10º tiene excelente ortografía, porcentaje que sube a 86% en los
alumnos de 11º. En un concurso de redacción en el que participaron
anónimamente todos los estudiantes de 10º y 11º se elige una redacción al azar.
a) ¿Qué probabilidad hay de la redacción escogida sea de un alumno de 11º grado?
b) ¿Cuál es la probabilidad de que dicha redacción pertenezca a un estudiante de
10º si en ella aparecen errores de ortografía?

EJERCICIO 2:
Dos máquinas A y B han producido respectivamente, 100 y 200 piezas. Se sabe que
A produce un 4% de piezas defectuosas y B un 8%. Se toma en forma aleatoria una
pieza y se pide:
1) Probabilidad de que sea defectuosa.
2) Sabiendo que es defectuosa, probabilidad de que proceda de la primera
máquina.

EJERCICIO 3:
En una región hay tres operadores de telefonía celular A, B, C entre otros. El
operador A ha estimado que el 20% de las llamadas que él controla se caen. El
operador B ha tasado en 30% las llamadas caídas y C tiene una estimación del 15%
para el mismo concepto. Por otra parte, las probabilidades de que una llamada se
caiga en el primer minuto han sido tasadas por A, B y C en 0.03, 0.15 y 0.04
respectivamente. ¿Cuál es la probabilidad de que una cierta llamada que se cayó a
los 32 segundos de haber comenzado la conversación, haya sido controlada por el
operador B?
Sugerencia: Revise las hipótesis. Pruebe que dicha probabilidad es un valor entre
0.1106 y 0.7895

EJERCICIO 4:
Un contenedor tiene tres tipos diferentes de bombillas. La probabilidad de que una
bombilla tipo A llegue a las 1000 horas de uso es 0.7. Las de las bombillas tipo B y
C son respectivamente 0.4 y 0.3. Supóngase además que el 20% de las bombillas
del contenedor son de tipo A, el 30% de tipo B y el 50% de tipo C.

49
Breve Introducción a la Probabilidad - Clavijo

Si se selecciona aleatoriamente una bombilla del contenedor, ¿Cuál es la


probabilidad de que ella llegue a las 1000 horas de uso?

EJERCICIO 5:

Tres tiendas A, B y C, pertenecientes a una misma casa matriz, tienen


respectivamente 50, 75 y 100 empleados. En la tienda A el 50% de los empleados
son mujeres. En la B el 60% y en la C el 70%. La probabilidad de que alguien
renuncie es la misma entre todos los empleados, independientemente del sexo.

Una mujer acaba de presentar su carta de renuncia, ¿Cuál es la probabilidad de


que ella estuviese trabajando en la tienda C?

EJERCICIO 6 (Ross S. Pag 118, #46)

Suposse that an insurance company classifies people into one of three classes:
good risks, average risks and bad risks. Their records indicate that the probabilities
that good, average and bad risk persons will be involved in an accident over a 1-
year span are respectively 0.05, 0.15 and 0.30. If 20% of the population are “good
risks”, 50% are “average risk” and 30% are “bad risks”, what proportion of people
have accidents in a fixed year? If police holder A had no accidents in 2017 what is
the probability that he or she is a good risk?

50
Breve Introducción a la Probabilidad - Clavijo

IV

LA PROBABILIDAD COMO UNA MEDIDA

En esta parte del curso se mostrarán algunos elementos muy básicos de la teoría
de la medida para concluir que la probabilidad es en realidad una función de
medida.

Comenzaremos formalizando el concepto de Evento como una estructura


matemática, lo que haremos en las dos próximas definiciones.

DEFINICION
Una álgebra sobre un conjunto  es una familia A de subconjuntos de  que
satisfacen los siguientes axiomas:
1. A
2. Si A A entonces Ac  A
n

3. Si A1 , A2 , , An son elementos de A entonces Ai  A


i =1

Ejemplos de álgebras son los siguientes:

1. A = {, {a}, {b, c}, } con  = {a, b, c}


2. A = {, } para cualquier conjunto  . Esta es además la menor álgebra
que se puede definir sobre cualquier conjunto  .
3. A = 2 =() que es la mayor álgebra que se puede definir sobre cualquier
conjunto  .

51
Breve Introducción a la Probabilidad - Clavijo

Seguramente el lector ya ha observado que los axiomas que definen un álgebra son
exactamente los axiomas vistos anteriormente para definir el concepto de evento.
Realmente así es y, en consecuencia, lo único que estamos haciendo en esta última
definición es formalizando la idea de que los eventos de un espacio probabilístico
forman un álgebra.

El tercer axioma de la definición anterior garantiza que la unión de un número finito


de elementos de un álgebra sea un elemento de la misma. Esto, sin embargo, no se
garantiza para un número infinito de subconjuntos de  . La siguiente definición
tiene por objeto extender el axioma 3 para el caso de familias infinitas enumerables
de subconjuntos de  .

DEFINICION:
Una  − álgebra (léase sigma álgebra) sobre  es una colección  de
subconjuntos de  que satisface los siguientes axiomas:

A1.  
Si A   entonces A  
c
A2.

A3. Si A1 , A2 , A3 , son elementos de   


entonces  Ai   
 i =1 

De acuerdo con esta definición toda  − álgebra es una álgebra pero no al


contrario.

Nos interesa en particular el caso en el que el conjunto  es el conjunto de los


números reales y, como es de suponerlo, las  − álgebras definibles sobre . En
particular la  − álgebra de Borel cuya construcción se basa en los dos teoremas
siguientes.

TEOREMA
Si ( i )iI es una familia de  − álgebras sobre  entonces  i es una  −
iI

álgebra sobre  .

52
Breve Introducción a la Probabilidad - Clavijo

Demostración. Denotemos por T la intersección T =  i . Es claro que   T


iI

pues   i , i  I . En segundo lugar, si A  T entonces A   i , i  I y, por


tanto, Ac   i i  I . Esto nos permite afirmar que Ac  T , con lo cual se
cumple el segundo axioma. Finalmente, suponiendo que A1 , A2 , A3 , es una
familia enumerable de elementos de T, se concluye que
Aj   i , j = 1, 2,3, y i  I . Esto nos lleva a concluir que
 
 Aj    i , i  I pues i es  − álgebra para cada i  I . Esto último implica
 j =1 
 
que  A j   T , con lo cual queda demostrado el teorema.
 j =1 

Denotemos por  la colección de  − álgebras sobre que contienen a todos


los intervalos semiabiertos de la forma (a, b] = {x  | a  x  b} .
Evidentemente  no es vacía, pues 2   , así que es posible construir la
intersección ϐ=  , la cual, según el teorema anterior, es una  − álgebra que
 

contiene a los intervalos de la forma (a, b] . Es claro además que no puede existir
otra  − álgebra Ɓ, menor, con la misma propiedad ya que, de ser así, se tendría
Ɓ   y entonces ϐ  Ɓ lo que va contra el supuesto de que Ɓ es menor.

Realmente hemos demostrado el siguiente

TEOREMA:
Existe una  − álgebra mínima, ϐ, sobre que contiene a todos los intervalos de
la forma (a, b] con a, b reales.

DEFINICION:
La  − álgebra mínima, ϐ, construída en el teorema anterior, se denomina  −
álgebra de Borel sobre . Sus elementos se denominan borelianos.

Hemos construido la  − álgebra de Borel utilizando los intervalos de la forma


(a, b] como conjuntos básicos pero dicha  − álgebra contiene otros conjuntos
diferentes. Podemos preguntarnos cuáles son los borelianos. Es ésta una pregunta
53
Breve Introducción a la Probabilidad - Clavijo

difícil de responder de una manera exhaustiva pero sí podemos mostrar algunos


borelianos particulares. Por ejemplo, los conjuntos unitarios {x} con x  y los
intervalos de cualquier tipo son borelianos, como se muestra en el siguiente

EJEMPLO

Los intervalos de la forma (−, x] pueden ser escritos como (−, x] = (− n, x] ,
n =1

es decir, como uniones de borelianos, así que son borelianos. Los intervalos de la
forma (−, x) son borelianos ya que pueden ser escritos como

1
(−, x) = ( −, x − ] . De aquí deducimos que los intervalos de la forma
n =1 n
[ x, + ) también son borelianos por ser complementos de los anteriores. Puesto
que {x} = [(−, x)  ( x, +)]c se concluye que todo conjunto unitario {x} es un
boreliano y de aquí todo intervalo de la forma [a, b] = {a}  (a, b] son también
borelianos.

DEFINICION
Considérese un conjunto  y  una  − álgebra sobre  . Una medida sobre

(,  ) es una función m :  ⎯⎯


→ =  {−, +} que satisface
los siguientes axiomas:
M1. m( A)  0, A  
M2. Si A1 , A2 , A3 , son elementos de  tales que Ai  A j =  para i  j ,
 
entonces m( Ai ) =  m( Ai )
i =1 i =1

Debido al axioma M2 se dice que las medidas son funciones  − aditivas. Si dicha
propiedad solo pudiera garantizarse para un número finito de conjuntos diríamos
que m es finitamente aditiva. Resulta evidente que toda función  − aditiva es
finitamente aditiva mas no al contrario.

54
Breve Introducción a la Probabilidad - Clavijo

DEFINICION
Una medida m se dice finita si satisface m()  

DEFINICION
Llamaremos Espacio de Medida a cualquier tripla (,  , m) donde  es una
 − álgebra sobre  y m una función de medida

El siguiente teorema es ya conocido, solo que aplicado a la probabilidad. La


demostración es exactamente igual, teniendo en cuenta que la probabilidad P es
una función de medida

TEOREMA
Dado un espacio de medida (,  , m) se cumplen las siguientes afirmaciones
para A, B elementos de :

1. m() = 0
2. m( A − B) = m( A) − m( A  B)
3. Si B  A entonces m( A − B) = m( A) − m( B) además m( B)  m( A)
4. m( A  B) = m( A) + m( B) − m( A  B)

EJEMPLO
Obsérvese que la probabilidad se ha definido como una función p :  → [0,1] que
satisface los dos axiomas de una función de medida. Puesto que p() = 1 ,
concluímos que la probabilidad es una medida finita.

DEFINICION
Considerando el conjunto de los números reales y la  − álgebra de Borel sobre
, entenderemos por medida de Lebesgue sobre , cualquier medida tal que
la medida (I ) sea finita para todo intervalo acotado I .

55
Breve Introducción a la Probabilidad - Clavijo

DISTRIBUCIONES DE MEDIDAS

DEFINICION
Llamaremos función de distribución en sentido general a cualquier función
F: → que sea monótona no decreciente y continua por la derecha.

Tres ejemplos de funciones de distribución en sentido general

El siguiente teorema afirma que toda medida de Lebesgue sobre ( ,ϐ) induce una
función de distribución.

TEOREMA
Sea una medida de Lebesgue sobre ( ,ϐ), existe una función F : → ,
construída a partir de , que es de distribución.

Demostración. Construyamos la función F : → . Según el siguiente


procedimiento:

56
Breve Introducción a la Probabilidad - Clavijo

1. Fijamos el valor F (0) = k arbitrariamente.

2. Dados a, b cualesquiera en con a  b , se sabe que ((a, b]) debe ser


una cantidad finita, r . Entonces damos valores a F (a) y F (b) como se
quiera con tal de que se cumpla F (b) − F (a) = r = ((a, b]) .
3. Se define la función F de la siguiente manera:

 k − (( x, 0]) si x  0

F ( x) =  k si x = 0
 k + ((0, x]) si x  0

Esta función claramente es no decreciente y satisface:

1. Para x  y  0 : F ( y ) − F ( x) = k − (( y, 0]) − k + (( x, 0])


= (( x, 0]) − (( y, 0])
= (( x, y ])

2. Para 0  x  y : F ( y ) − F ( x) = k + ((0, y ]) − [k + ((0, x])]


= ((0, y ]) − ((0, x])
= (( x, y ])
Valor que tiende a 0 cuando x tiende a y

Lo anterior es suficiente para concluir que F es continua por la derecha.


Conviene aclarar que puesto que F (0) = k se fija arbitrariamente, existen muchas
–realmente infinitas- funciones de distribución inducidas por una medida de Lebesgue.
Es decir, el teorema garantiza la existencia de F pero no la unicidad. Con todo, dos
funciones cualesquiera de distribución inducidas por la misma medida difieren
solamente por una constante (recuérdese lo que sucede con las integrales). Existen
entonces infinitas funciones paralelas que son todas de distribución, inducidas por
(ver figura).

57
Breve Introducción a la Probabilidad - Clavijo

Funciones de distribución

OBSERVACION:
Nótese que si m es una medida finita sobre (  , ϐ) entonces m es una medida
de Lebesgue ya que todo intervalo tiene medida finita. En este caso la gráfica de
cualquier medida de distribución es acotada tanto superior como inferiormente.

En particular, la función de distribución de una medida de probabilidad P tendrá una


gráfica no decreciente, continua por la derecha y acotada por los valores
0 = P() y 1 = P() (ver gráfica)

Función de distribución en una medida de probabilidad

El teorema anterior tiene una especie de recíproco que podemos resumir diciendo:

58
Breve Introducción a la Probabilidad - Clavijo

TEOREMA
Dada una función de distribución F : → existe una medida de Lebesgue en
( ,ϐ) inducida por F que satisface ((a, b]) = F (b) − F (a)

La demostración de este resultado está fuera del alcance de estas notas. Remitimos al
lector interesado a textos más especializados como el de R. Ash.

El siguiente teorema nos dice cómo medir otros intervalos, diferentes a los básicos:

TEOREMA
Sea F una función de distribución en sentido general, definida en ( , ϐ). La medida

de Lebesgue, , inducida por F , satisface:

1. ((a, b)) = F (b −) − F (a )
2. ([a, b]) = F (b) − F (a −)
3. ([a, b)) = F (b −) − F (a −)

En las fórmulas anteriores ha de entenderse F (a −) = lim− F ( x)


x →a
Demostración: se omite, pero se basa en la aplicación de expresiones del tipo:
 
1 1
( a , b ) = ( a , b − ) , [ a, b] = ( a − , b) , [a, b) = {a}  (a, b)
i =1 i i =1 i

EJEMPLO:
x Si x  0

Considérese la función de distribución F ( x) = 1 + x 2 Si 0  x  1
3 Si x  1

59
Breve Introducción a la Probabilidad - Clavijo

Se tiene lo siguiente:

1. ((0,1]) = F (1) − F (0) = 3 − 1 = 2


2. ([0,1]) = F (1) − F (0−) = 3 − 0 = 3
3. ({1}) = ([1,1]) = F (1) − F (1−) = 1 − 0 = 1
4. ((0, 4]) = F (4) − F (0) = 3 − 1 = 2
5. ([0, 4]) = F (4) − F (0−) = 3 − 0 = 3

COROLARIO
Sin mucho esfuerzo y basados en el ejemplo anterior (caso 3), podemos afirmar que
F es continua en un punto x si y solamente si ({x}) = 0 .

En efecto:
a) Suponiendo que F es continua en x se cumple F ( x+) = F ( x−) = F ( x) y
de aquí F ( x) − F ( x −) = 0 , es decir, ([ x, x]) = ({x}) = 0 .
b) De otra parte, si ({x}) = 0 se obtiene ([ x, x]) = F ( x) − F ( x −) = 0 , es decir,
F ( x −) = F ( x) , lo que nos dice que F es continua por la izquierda. Puesto que F

es de distribución es continua por la derecha, así que F es continua por ambos


lados, lo que nos dice que es una función continua en el punto x .

60
Breve Introducción a la Probabilidad - Clavijo

EJEMPLO

Aplicando el corolario anterior, podemos hallar la medida del conjunto de los


números enteros, con la medida inducida por la función de distribución del ejemplo
anterior. En efecto: Podemos escribir = 0  {0, 1} donde

0 = {x  | x  0  x  1} = − {0,1} . Puesto que F es continua en todo punto de

0 se tiene F ( x) = 0, x  0 y puesto que 0 es un conjunto enumerable se


cumple ( 0 ) = 0 y, en consecuencia

( ) = ({0,1}) = ({0}) + ({1}) = 1 + 1 = 2

DISTRIBUCIONES DE PROBABILIDAD

Ya hemos visto que la probabilidad es una medida finita y, por tanto, funciones de
distribución aplicadas al caso de la probabilidad deben satisfacer
P() = 0  F ( x)  1 = P() y la probabilidad de cualquier subconjunto de 
debe estar comprendido entre estas dos cotas. Una función de distribución para la
probabilidad debe entonces ser una función no decreciente acotada por los valores 0
y 1. Como habíamos dicho antes, consideramos el caso  = , lo que nos dice que,
en el caso de la probabilidad, la medida de debe ser 1.

DEFINICION
Lo anterior nos obliga a afirmar que una función de distribución de probabilidad es una
función F : → , no negativa, no decreciente, continua por la derecha en todo y
tal que lim F ( x) = 0 y lim F ( x) = 1
x →− x →+

Es decir, son funciones como las siguientes:

61
Breve Introducción a la Probabilidad - Clavijo

Puesto que la probabilidad es una medida finita, según la observación hecha en la


página 61, ella es una medida de Lebesgue. Esto se confirma ya que si la medida de
todo es 1 entonces la de cualquier intervalo debe ser finita, pues los intervalos son
subconjuntos de .

Nótese que el recorrido de una función de distribución para el caso de la probabilidad


es el intervalo [0,1]

Esto nos dice en principio que cualquier función definida en , cuyo recorrido sea
[0,1], que sea monótona no decreciente, será una función de distribución de
probabilidad y ella induce una medida de probabilidad según la cual,

P((−, a]) = P({x  | x  a}) = F (a) − F ( −)


= F (a) − lim F ( x) = F(a) − 0 = F (a)
x →−

Naturalmente que, de acuerdo con esta expresión, se cumple:

P((a, b]) = P((−, b]) − P(−, a]) = F (b) − F (a)

Fórmula que permite hallar la medida de probabilidad de cualquier intervalo o


conjunto finito usando la función de distribución correspondiente.

62
Breve Introducción a la Probabilidad - Clavijo

EJEMPLO IMPORTANTE 1. (Funciones continuas de densidad)

+

Cualquier función f: → que sea no negativa y tal que 


−
f (t )dt = 1

permite construir una función de distribución de probabilidad, F , definiendo


simplemente:

x
F ( x) = 
−
f (t )dt

En efecto:
Es claro que F es no decreciente ya que al ser f no negativa, se cumple para x  y
y x y

: F ( y ) − F ( x) = 
−
f (t )dt −  f (t )dt =  f (t )dt  0 . Por otra parte, al estar
− x

definida mediante una integral, F es una función derivable, así que F es continua
y, al ser continua, es continua por la derecha en todo .

Este ejemplo nos proporciona numerosas funciones continuas de distribución de


probabilidad, también llamadas distribuciones continuas de probabilidad.

DEFINICION
Una función f: → como las definidas en el ejemplo anterior, se denomina
una función de densidad de probabilidad.

Es claro que toda función de densidad da origen a una función de distribución pero al
contrario no necesariamente es cierto.

EJEMPLO

Considérese la siguiente función

63
Breve Introducción a la Probabilidad - Clavijo

1
 48 ( x − 12) Si 12  x  20



1
Si x = 20
f ( x) =  6
1
 (24 − x) Si 20  x  24
 24

 0 En otra parte

Una interpretación de la vida real de este ejemplo podría ser algo similar a lo siguiente:

Supóngase que durante muchos días se ha medido la temperatura al medio día en un


paraje del Cañón de Combeima y que durante ese tiempo la temperatura más baja
registrada ha sido 12ºC, la más alta ha sido 24ºC y la más frecuente ha sido 20ºC. Ante
la carencia de más información podríamos suponer que los registros de temperatura
se ajustan a la figura anterior que, por su forma, es conocida como distribución
triangular.

Nótese que nunca ha habido temperaturas por debajo de 12ºC ni por encima de 24ºC.
Esto se refleja en el hecho de que la gráfica en dichos segmentos tiene un valor de 0.
Realmente la variación –podría decirse real- de la temperatura se reduce al intervalo
[12 , 24]. Por otra parte, como se explica en la gráfica y como se ha afirmado en párrafos
anteriores, la expresión F ( x) representa la medida de Lebesgue del intervalo
(−, x] , determinada por la función de distribución:

x
F ( x) = área bajo la curva (gráfica) desde −  hasta x = 
−
f (t )dt

64
Breve Introducción a la Probabilidad - Clavijo

Puesto que la función de densidad f (t ) encierra un área total de 1 (el área del
triángulo), se concluye que 0  F ( x)  1 y, por tanto, la medida que estamos
considerando es una probabilidad.

Podríamos entonces hacernos preguntas como las siguientes:

1. Cuál es la probabilidad de que se registren temperaturas por debajo de 15ºC?


Respuesta: (Area desde − hasta 15). Esto es: 0.09375
2. Cuál la probabilidad de que haya temperaturas entre 18ºC y 22ºC? Respuesta: (Area
desde − hasta 22) menos ( Area desde − hasta 18) = (Area desde 18 hasta 22)
= (11/12)-(9/48)=0.72917
3. Probabilidad de que se registre una temperatura superior a 21ºC? Respuesta:
0.1875 (Por qué?)

El ejemplo anterior, por sí solo, muestra la importancia de tener funciones de


distribución de probabilidades y las correspondientes funciones de densidad. Son
numerosas las funciones de densidad que existen y cada una de ellas da origen a
una función de distribución, por consiguiente, hay diferentes medidas de
probabilidad –una por cada función de distribución.

Con todo, debe ser claro que no todas las funciones de densidad, y por
consiguiente, no todas las de distribución, son igualmente importantes. Hay
algunas distribuciones que se destacan por alguna aplicación importante. Más
adelante mencionaremos algunas de ellas.

Por ahora vamos a mostrar otro ejemplo en el cual la probabilidad se distribuye


sobre un conjunto enumerable de números reales.

65
Breve Introducción a la Probabilidad - Clavijo

EJEMPLO IMPORTANTE 2 (Funciones discretas de probabilidad)

Considérese un conjunto finito de números reales {x1 , x2 , x3 , , xn } y un


conjunto de valores reales no negativos { p1 , p2 , p3 , , pn } tales que
n

p
i =1
i = 1 . Podemos definir una función f: → de la siguiente manera:

 pi Si t = xi
f (t ) = 
0 En otra parte

Nótese que en este caso, la función de distribución adopta la forma siguiente:

0 Si x  x1
 i

F ( x ) =   pk Si xi  x  xi +1
 k =1
1 Si x  xn

Se obtiene así una distribución discreta que también es distribución de probabilidad a


causa de su variación entre 0 y 1. La medida de Lebesgue correspondiente, generada

66
Breve Introducción a la Probabilidad - Clavijo

por esta distribución, es una probabilidad y cada intervalo en tendrá una medida de
acuerdo con lo dicho en la página 62.

EJEMPLO
Considérese la función de densidad definida por:

 0.3 Si t = 2
 0.5 Si t = 4

f (t ) = 
 0.2 Si t = 7
0 En otra parte

La correspondiente función de distribución será:

0 Si x  2
0.3 Si 2  x  4

F ( x) = 
0.8 Si 4  x  7
 1 Si x  7
Y por tanto:

P((3,5]) = F (5) − F (3) = 0.8 − 0.3 = 0.5


P([4, 6]) = F (6) − F (4−) = 0.8 − 0.3 = 0.5
P((4, 6)) = F (6−) − F (4) = 0.8 − 0.8 = 0

Las funciones de densidad para casos discretos como los que hemos visto en los dos
últimos ejemplos, también se denominan funciones de masa, un término derivado de
la física.

Cabe anotar que a veces se presenta una confusión en cuanto a los nombres de las
funciones, confusiones que han sido alimentadas por textos poco rigurosos en el
lenguaje. Hay quienes llaman funciones de distribución a las que aquí hemos llamado
de densidad y funciones de distribución acumuladas a las que aquí hemos llamado de
distribución. En el lenguaje inglés es común usar las siglas pdf (probability density
function) para las que nosotros hemos denominado funciones de densidad y cdf
(cumulative density function) para las de distribución.

67
Breve Introducción a la Probabilidad - Clavijo

EJERCICIOS 5

1. Considere la siguiente función en la que el extremo más grueso de un segmento


indica que el punto correspondiente pertenece al segmento y, por el contrario, un
extremo no abultado no contiene al extremo del segmento.

Diga si la función es o no de distribución y por qué. En caso de que no lo sea, redefina


la función para que sea de distribución y luego calcule la medida de los siguientes
conjuntos:

Intervalo (-4 , -2.5] Intervalo [-4 , -2.5]


Intervalo (-2.5 , -1.5] Intervalo [-1.75 , -0.5]
Intervalo (-1.75 , -0.5) Intervalo [-0.5 , 3]
Intervalo [-0.5 , 3) Intervalo [2 , 4]
Intervalo (2,4) Intervalo (3,4)
Intervalo [3 , 4] Intervalo (3 , 4]
Intervalo [3 , 4) Intervalo [4 , 12]
Conjunto {5} Conjunto {6}
Conjunto {8} Conjunto {11}
Conjunto {1, 3, 5, 8} Conjunto {1, 2, 3, 4, 5, 6, 7, 8}

68
Breve Introducción a la Probabilidad - Clavijo

Ejercicio 2


 x Si x  1

Considere la función F ( x) =  2 Si 1  x<3
1
 x2 Si x  3
3

Mostrar que es una función de distribución de una medida y calcular la medida de


cada uno de los siguientes conjuntos:

(−1,1], [−1,1], [ −1,1), (1,3), 3

Ejercicio 3

−2 − x 2 Si x  0

 1 x Si 0  x  2
Considere la función F ( x) =  2
 2 Si 2  x  4
 2
 x − 13 Si x  4

Mostrar que es una función de distribución de una medida y calcular la medida de


cada uno de los siguientes conjuntos:

(−1, 0], [−1, 2], [ −1, 2), (1,3), 2

Ejercicio 4

1 − ( x − 1) 2 Si x  1

Considere la función F ( x) =  2 Si 1  x<3
 x2 − 6 Si x  3

Mostrar que es una función de distribución de una medida y calcular la medida de


cada uno de los siguientes conjuntos:

(0,1], [0,1], [0,1), (1,3), 4

69
Breve Introducción a la Probabilidad - Clavijo

Ejercicio 5


 x Si x  1

Considere la función F ( x) =  2 Si 1  x<3
1
 x2 Si x  3
3

Mostrar que es una función de distribución de una medida y calcular la medida de


cada uno de los siguientes conjuntos:

(0,1], [0,1], [1, 2), (1,3), 3

Ejercicio 6


 1 Si x  1

Considere la función F ( x) =  2 Si 1  x<3
1
 x2 Si x  3
3

Mostrar que es una función de distribución de una medida y calcular la medida de


cada uno de los siguientes conjuntos:

(0,1], [0,1], [1, 2), [1,3), 3

Ejercicio 7

 2x Si x  1

Considere la función F ( x) =  x + 2 Si 1  x<3
 x2 − 3 Si x  3

Mostrar que es una función de distribución de una medida y calcular la medida de


cada uno de los siguientes conjuntos:

(0,1], [0,1], [1, 2), [1,3), 3

70
Breve Introducción a la Probabilidad - Clavijo

Ejercicio 8

Construya usted mismo una función de distribución de Probabilidad y calcule la


probabilidad de 4 conjuntos que usted defina

Ejercicio 9

Considere el conjunto M = {3, 7, 8, 10, 12} y los números reales 0.2, 0.3, 0.1, 0.2,
0.2 asociados a los valores de M en el mismo orden de lectura. Construya una
función de distribución para estos valores y, de acuerdo con ella, calcule la medida de
los siguientes conjuntos:

(−2,1], (2,5], [6,9], [10,12), {3}, {7}, {9}, {10,12}

71
Breve Introducción a la Probabilidad - Clavijo

VARIABLES ALEATORIAS

El concepto de “variable” es muy usado en matemáticas. Todo objeto matemático


que cambie y tome diferentes valores es una variable. Lo contrario son las
constantes. Por ejemplo, cuando decimos que y es función de x , estamos
hablando de dos variables, dos entes que cambian y toman diferentes valores.
Diferenciamos sin embargo la manera como ellas se relacionan. Estamos
acostumbrados a pensar que x puede tomar valores libremente dentro del
conjunto de los números reales mientras que los valores que tome y dependen
de los valores que tome x. Decimos por esta razón que x es variable
independiente mientras que y es variable dependiente.

Estos mismos conceptos siguen vigentes en el terreno de la estadística pero hay algo
más: el porqué del calificativo de aleatoria que puede llevar una variable. La razón
de esto tiene que ver con la probabilidad. Las variables aleatorias también toman
valores diferentes pero cada valor que toma una de estas variables tiene asociado
un valor de probabilidad con el que es asumido. Así, por ejemplo, si una variable
aleatoria X representa el número de aparatos de televisión que hay en los hogares
en la ciudad de Ibagué, ésta variable puede tomar valores como 0, 1, 2, 3, 4, 5 ,
desde ningún televisor, hasta 5 televisores por hogar, pero es claro que Algunos de
éstos valores ocurren con mayor frecuencia que otros. Por ejemplo, es más
frecuente que haya 2 o 3 televisores a que haya 5 o a que no haya ninguno. Esto
quiere decir que la probabilidad de que X tome el valor 3 es mayor que la
probabilidad de que X tome el valor 5.

72
Breve Introducción a la Probabilidad - Clavijo

El concepto de variable aleatoria también puede ser formalizado de manera que se


eviten ambigüedades y contradicciones es lo que pretendemos presentar en las
páginas siguientes.

DEFINICION
Sean 1 ,  2 conjuntos no vacíos, provistos de sendas  − álgebras, 1 ,  2
respectivamente. Diremos que una función f : 1 → 2 es  1 −  2 − medible si para

cada B  2 se cumple que f


−1
( B)   1

Un caso de gran importancia para nuestros propósitos es aquel en el que  2 = y


2 = ϐ, la  − álgebra de Borel sobre . Más exactamente es lo siguiente:

DEFINICION

Una función f : (,  ) → ( , ϐ) se dice borel-medible si para todo boreliano B  ϐ


se cumple f −1 ( B)   .

La definición anterior nos permite definir formalmente una variable aleatoria de la


siguiente manera:

DEFINICION:
Dado un espacio probabilístico (,  , p) se entenderá por variable aleatoria sobre
 , cualquier función X : (,  ) → ( , ϐ) que sea borel-medible

EJERCICIO

Considere  , un conjunto no vacío, y  = 2 . Pruebe que cualquier función


f : → es una variable aleatoria.

En los cursos corrientes de estadística se consideran como variables aleatorias


solamente las funciones definidas como en el anterior ejercicio. Esto se debe a que

73
Breve Introducción a la Probabilidad - Clavijo

comúnmente cualquier subconjunto de un conjunto muestral es considerado como un


evento. Con todo, esto es apenas una situación particular entre las muchas que se
pueden dar.

Las variables aleatorias transfieren algo de la naturaleza del espacio probabilístico


(,  , p) al espacio ( , ϐ) ya que, como lo muestra el siguiente teorema, lo
transforman en otro espacio probabilístico

TEOREMA
Sea (,  , p) un espacio probabilístico y sea X : → una variable aleatoria.

X induce sobre ( , ϐ) una medida de probabilidad pX con lo cual ( , ϐ, pX )


es un espacio probabilístico.

Demostración

Dado cualquier B de ϐ, debido a que X es variable aleatoria, se tiene que X −1 ( B )

es un elemento de  y, por consiguiente, p ( X 1 ( B )) es un número real en el

intervalo [0,1]. Esto sugiere la construcción de pX de acuerdo a como se sugiere a


continuación:
p X : ϐ → [0,1] es la función que a cada B  ϐ asigna pX ( B) = p( X −1 ( B)) (ver
gráfica).

74
Breve Introducción a la Probabilidad - Clavijo

Mostraremos ahora que la función pX así construída es realmente una probabilidad.

En primer lugar, si A = B al ser X una función se tiene X −1 ( A) = X −1 ( B ) y, por tanto

p( X −1 ( A)) = p( X −1 ( B)) , es decir, pX ( A) = pX ( B) , lo que muestra que pX es una


función bien definida.

Por otra parte, resulta evidente que pX ( B)  0 B  ϐ ya que X −1 ( B )   y p es


−1
función de probabilidad. Además pX ( ) = p( X ( )) = p() = 1 .

Supóngase por último que B1 , B1 , B1 , es una familia enumerable de borelianos


excluyentes. Por propiedades de la función inversa se cumple:

       
p X  Bi  = p  X −1  Bi   = p  X −1 ( Bi ) 
 i =1    i =1    i =1 

Pero ya que X −1 ( Bi )  X −1 ( B j ) =  para i  j , se tiene:

   
p X  Bi  =  p ( X ( Bi ) ) =  p X ( Bi )
−1

 i =1  i =1 i =1

75
Breve Introducción a la Probabilidad - Clavijo

Con lo cual se completa la prueba del teorema.

Como consecuencia de lo anterior, podemos concluir que pX es una medida de


Lebesgue sobre ( , ϐ).

DEFINICION

Se dirá que una variable aleatoria X :  → es discreta si su recorrido X () es un


conjunto enumerable. Entre las variables aleatorias no discretas son importantes las
continuas que son aquellas cuyo recorrido es un intervalo en

Puesto que se ha demostrado que al tener una variable aleatoria X :  → el espacio


( , ϐ, p X ) es un espacio probabilístico, al considerar un intervalo I de la forma
I = (−, x] se cumple pX ( I ) es un número real en el intervalo [0,1]. De esta manera
podemos construir una función FX : → tal que

FX ( x) = pX ((−, x]) = pX ( I ) [0,1]

la cual satisface las siguientes propiedades:

1. Si b  a entonces FX (b)  FX (a)


2. FX es continua por la derecha
3. lim FX ( x) = 0
x →−

4. lim FX ( x) = 1
x →+

Es decir, FX es una función de distribución en sentido general. La existencia de FX


puede garantizarse por el hecho de que p es una medida de Lebesgue.

Omitimos la demostración de los resultados anteriores ya que seguramente el lector


puede intentarla exitosamente. Tal vez convenga aclarar que para probar la
continuidad de FX por la derecha se puede aplicar un argumento como el siguiente:

si x  x0 es tal que x → x0 entonces ( x0 , x] →  así que

76
Breve Introducción a la Probabilidad - Clavijo

p( X −1 (( x0 , x])) → p() = 0 pero p( X −1 (( x0 , x])) → FX ( x) − FX ( x0 ) luego


FX ( x) → FX ( x0 ) .

Observación muy importante:

Es claro que X −1 ((a, b]) = {w  | X (w)  (a, b]} o lo que es equivalente:


X −1 ((a, b]) = {w  | a  X (w)  b} , razón por la cual podemos escribir:
p( X −1 ((a, b])) = p({w  | a  X (w)  b)}) expresión que comúnmente se
escribe de una manera más simple como p(a  X  b) .

De la misma manera, es común escribir:

p( X  b) en vez de p({w  | X (w)  b})


p(a  X  b) en vez de p({w  | a  X (w)  b})
p ( X = b) en vez de p({w  | X ( w) = b}) , etc

A partir del teorema anterior podemos establecer que

p(a  X  b) = FX (b) − FX (a)

Expresión que relaciona las variables aleatorias con las funciones de distribución FX

correspondientes a la probabilidad pX sobre el espacio probabilístico ( , ϐ, p X ) . De


acuerdo con esto podemos establecer la siguiente

DEFINICION
Una variable aleatoria X :  → tiene distribución FX , lo que escribimos como
X ~ FX , si se cumple pX ( x) = p( X −1 ((−, x])) = p( X  x) = FX ( x) .

La definición anterior nos da una nueva visión de las variables aleatorias como
funciones que asignan un valor real a un evento de un espacio probabilístico. Esta
nueva visión de las variables aleatorias nos permite hablar de dos aspectos que a
menudo se consideran propiedades fundamentales de tales variables hasta el punto

77
Breve Introducción a la Probabilidad - Clavijo

de que en la mayoría de los textos se habla de ellas y se consideran como los elementos
constitutivos esenciales de una variable aleatoria. Su naturaleza como variable y su
distribución de probabilidad.

En la vida real no se necesita una definición tan técnica y elaborada del concepto de
variable aleatoria. Basta pensar que una variable aleatoria, es una variable que a cada
evento de un experimento aleatorio asocia un número real con un determinado grado
de probabilidad. Este concepto ya fue presentado unas páginas atrás.

Por ejemplo, si el experimento consiste en observar el número de televisores que hay


en los hogares de las familias ibaguereñas, los eventos están determinados por el
número de televisores en cada casa. Así, se puede pensar en una variable X que
simplemente toma valores 0, 1, 2, 3, … según la cantidad de televisores que tenga
cada familia. Es claro que no todos los hogares tienen la misma cantidad de televisores,
xi
así que se podría asociar a cada valor de X, la frecuencia relativa donde xi es el
N
número de hogares que tienen el i-ésimo entero. Para fijar ideas, supóngase que en
Ibagué hay 150000 hogares de los cuales 20000 no tienen televisor, 45000 tiene
solamente un televisor, 70000 tienen dos televisores, 10000 tienen 3 televisores y 5000
tienen 4 televisores, la frecuencias relativas son respectivamente: 0.1333, 0.30,
0.4667, 0.0667, 0.0333. Estos 5 valores suman 1 y podrían ser considerados como
valores de probabilidad para cada uno de los 5 valores que toma la variable X. Nótese
que hay unos valores más probables que otros. Por ejemplo, es más probable que un
hogar tenga dos televisores a que tenga 5.
Ese ingrediente probabilístico con el que X asume sus valores es lo que hace que ella
sea una variable aleatoria.

Es frecuente ver en textos de estadística un concepto que no es del todo correcto: dicen
que X es aleatoria porque no se sabe qué valores va a tomar. La verdad, sí se sabe qué
valores va a tomar X, lo que no se sabes es con qué probabilidad.

Así, por ejemplo, si X representa la estatura de las estudiantes de matemáticas en la


Universidad del Tolima, sabemos que X puede tomar cualquier número real entre 1.4
metros y 1.9 metros (quizás sean un poco diferentes estos límites pero esto no daña el
ejemplo). Lo que no sabemos es con qué probabilidad exactamente, X toma cada valor.
Sabemos que no todos los valores son igualmente probables. Hay unos más probables
que otros. Por ejemplo, es más probable que X esté alrededor de 1.65 metros a que

78
Breve Introducción a la Probabilidad - Clavijo

esté cerca de 1.40 metros. Todo esto está relacionado con la distribución de
probabilidad que tenga la variable aleatoria.

Recogiendo lo que se dijo atrás, podemos afirmar que una variable aleatoria es
continua si su recorrido es continuo (un intervalo en R) y es discreta si su recorrido es
un conjunto enumerable en R (incluyendo la posibilidad de que sea un conjunto
enumerable infinito, aunque en la práctica esto casi nunca ocurra).

79
Breve Introducción a la Probabilidad - Clavijo

VI

ALGUNAS DISTRIBUCIONES IMPORTANTES

A continuación presentaremos varias distribuciones importantes construídas según el


último método visto anteriormente mediante el uso de funciones de densidad o de
masa. Estas distribuciones son las más utilizadas en la estadística corriente, razón que
justifica su estudio.

Presentaremos en primer lugar algunos casos considerados de gran importancia y que


corresponden a funciones continuas de densidad. Posteriormente, de igual manera, se
considerarán unos pocos casos muy importantes correspondientes a densidades
discreta o de masa.

1. ALGUNOS CASOS CONTINUOS

Como ya lo hemos dicho, toda función f: → que sea no negativa y que


+

cubra un área de 1 sobre la recta real, es decir tal que 


−
f (t )dt = 1 se puede considerar

como una función de densidad de probabilidad que, por consiguiente, define una
x

función de distribución F ( x) = 
−
f (t )dt , cuya medida de Lebesgue es una medida

de probabilidad. Este resultado abre una enorme posibilidad para construir funciones
de distribución.

A continuación se presentarán algunas distribuciones muy importantes en Estadística.


Lo haremos a través de la correspondiente función de densidad, sin olvidar que la

80
Breve Introducción a la Probabilidad - Clavijo

medida (es decir la probabilidad) sobre un intervalo de la forma (−, x] está dada
por el área bajo la curva de densidad desde − hasta el punto x , como se muestra
en la figura:

Seguramente la parte difícil al manejar estas distribuciones la constituye el cálculo de


la integral correspondiente. Sin embargo, existe software que realiza estos cálculos con
gran precisión, utilizando para ello métodos numéricos. Casi todos los paquetes
estadísticos traen rutinas de cálculo de probabilidades bajo diferentes distribuciones.

Utilizaremos el paquete PQRS (versión 3.2), que, además de ser gratuito y libre,
presenta grandes ventajas didácticas que lo hacen atractivo. Este paquete, dado el
cuantil x , permite hallar la probabilidad –es decir, el área a la izquierda del punto x
, la que aparece sombreada en color rosado y el área complementaria, a la derecha de
x que aparece sombreada en azul. Produce la gráfica de las funciones de densidad y
de distribución, muestra la ecuación de la función de densidad y alguna otra
información de la que no se habla en este curso. Igualmente, si se da un valor de
probabilidad, el paquete muestra el área correspondiente, el área complementaria y el
valor del cuantil x , correspondiente a dicha probabilidad.
Este software puede ser descargado desde
http://software-nanono.blogspot.com.co/2011/11/pqrs-32-statistical-software.html

81
Breve Introducción a la Probabilidad - Clavijo

corre bajo Windows y no necesita instalación especial. Basta con descomprimirlo y


ponerlo en una carpeta. Corre desde cualquier unidad de disco, incluso desde una
memoria (pen-drive).

También es posible usar software bajo Android que puede ser descargado e instalado
en teléfonos celulares o en tablets con este sistema operativo. Un paquete interesante
para Android es “Probability Distributions” de Matthew Bognar, el cual puede ser
localizado y descargado a través de Play Store:

Una versión nueva y más reciente del programa anterior, llamada PyQRS, para
Windows, puede ser descargada en la página:
http://www.pyqrs.eu/home/PyQRS_help_en.html

En primer lugar y a manera de ejemplo, presentaremos la distribución uniforme en el


intervalo  a, b  , cuya función de densidad está definida por:

Claramente esta función es de densidad pues es no negativa y el área comprendida


entre ella y el eje X desde − hasta + , que se reduce al área del rectángulo de
base b − a , es igual a 1.

82
Breve Introducción a la Probabilidad - Clavijo

Es evidente, usando argumentos de tipo geométrico, en particular el área de un


rectángulo, que el área entre − y cualquier punto x de la recta real tiene la
siguiente expresión:

a+b
De acuerdo con lo anterior, se cumple, por ejemplo, p((−, ) = 0.5 y
2
p({x}) = 0 ya que F es continua en todo punto x  (ver figura siguiente)

Función de distribución uniforme continua en el intervalo [a,b]

1.1. Distribución Normal.


Es una de las distribuciones más importantes en estadística. Se conoce desde 1733
cuando Abraham De Moivre la descubre a raíz de algunos trabajos que hacía con la
distribución binomial (J. Bernoulli 1654-1705). Aunque ya había algunas
observaciones interesantes desde la época de Galileo. Gauss la definió
rigurosamente en 1809 y Legendre la utilizó en 1812 para el estudio de los errores.
Posteriormente A. Quételet le da un carácter abstracto más útil al hablar del
“homme type” como un representante humano de todo un conjunto de personas.

83
Breve Introducción a la Probabilidad - Clavijo

Existen dos presentaciones de ella, a saber:

a. La distribución Normal estándar cuya función de densidad está dada por:


1
1 − t2
f (t ) = e 2

2
b. La distribución Normal generalizada. Con densidad definida como:
1  t − 
2

1 −  
2  
f (t ) = e
2
donde  es una constante cualquiera y  2 una constante positiva,
denominados los parámetros de la distribución.

Nótese que la normal estándar corresponde al caso particular en el que  = 0


y  2 =1.

84
Breve Introducción a la Probabilidad - Clavijo

Para poder definir otras distribuciones continuas se hace necesario definir


previamente la función Gamma, una función de gran interés desde el punto de
vista de la matemática. Es la siguiente:

La función Gamma:

La siguiente función, definida por medio de una integral, conocida como


función Gamma, da origen a varias distribuciones de probabilidad muy
importantes en estadística. Fue definida por Euler de la siguiente manera:

( x) =  e − t t x −1dt para x  0
0

Aunque no hagamos las demostraciones –por no tener herramientas de cálculo


en este momento-, podemos asegurar que la Función Gamma satisface, entre
otras, las siguientes importantes propiedades:
1
1. (1) = 1 y   = 
2
2. ( x + 1) = x( x) . En particular: (n + 1) = n !

De la propiedad 2. Se deduce que 0! = (0 + 1) = (1) = 1 , expresión


que, con frecuencia, nos parece rara pero que ahora queda plenamente
justificada.

Utilizando la función Gamma podemos dar otros ejemplos de funciones de


densidad que nos llevan a la construcción de distribuciones de probabilidad de
gran importancia estadística. Solamente vamos a mencionar unos pocos casos
de gran notoriedad.

Recomendamos al lector el libro Handbook of Statistical Distributions with


applications por K. Krishnamoorthy. Chapman and Hall / CRC. 2006

85
Breve Introducción a la Probabilidad - Clavijo

1.2. Distribuciones t de Student

Descubiertas por W. Gosset en 1908 y publicadas bajo el seudónimo de “Student”,


constituyen una familia de distribuciones dependientes del parámetro
n = 1, 2, 3, , comúnmente denominado “grados de libertad”. Son muy
parecidas a la normal estándar aunque un poco más achatadas y de colas más
pesadas. De hecho, desde el punto de vista matemático, la sucesión
{t1 , t2 , t3 , } = {tn } converge uniformemente a la normal estándar. Este hecho,
de gran importancia computacional, ha causado también falsas teorías que no
podemos discutir en este momento pero que han llevado al mito de que las
muestras estadísticas se dividen en grandes (n  30) y pequeñas (n  30) .

La función de densidad –mejor sería decir funciones de densidad, porque son


infinitas, una por cada valor de n - está dada por:

 n +1 
 
f (t ) =  2 

1
para t 
n +1
n
   n  t  2 2

2 1 + 
 n

Las gráficas siguiente corresponde al nivel de probabilidad de 0.025 en la cola


derecha para t31 , t200 , t500 y t1000

En ellas se puede apreciar que el cuantil tn , 0.025 , es decir, el valor del cuantil
que deja a su derecha una cola de probabilidad de 0.025, se acerca a 1.96 que
es el valor correspondiente al mismo nivel de probabilidad bajo la normal
estándar. Pero, lejos de lo que cree mucha gente -que n = 31 es suficiente- se
observa que se necesita más de n = 500 para poder sustituir la t por la
normal.

86
Breve Introducción a la Probabilidad - Clavijo

Otras distribuciones continuas de gran importancia que pueden ser manejadas usando
el software PQRS son las siguientes:

87
Breve Introducción a la Probabilidad - Clavijo

1.3. Distribución Gamma

Corresponde a la distribución dada por la función de densidad:

 − t (t ) −1
 e Si t  0
f (t ) =  ( ) con  ,  parámetros positivos
0
 En otra parte

Ejemplo: La Gamma de parámetros  = 2,  = 1.5 en PQRS se ve como sigue:

1.4. Distribución Ji cuadrado o de Pearson

Es un caso particular de distribución Gamma. Depende de un solo parámetro 


1
(entero positivo) y corresponde al caso de la gamma de parámetros = y
2

=
2

Ejemplo:
La gráfica –elaborada en PQRS- corresponde al caso de una Ji cuadrado con 6
grados de libertad, mostrando el cuantil 12.59 que deja una medida (probabilidad)
de 0.05 en la cola derecha:

88
Breve Introducción a la Probabilidad - Clavijo

Esta distribución corresponde al caso de una Gamma de parámetros


1
 = 3,  = 0.5 es decir,  = 2 = 6,  = = 2 , como puede verse en la figura

siguiente:

1.5. Distribución F de Fisher- Snedecor

Es otra de las distribuciones importantes en estadística. Corresponde a la función


de densidad siguiente:

89
Breve Introducción a la Probabilidad - Clavijo

 m
 +   
m
m n m −1
 
2

  2     t2
 2 Si t  0
 m+n
f (t ) =   m   n  m
       n  2  mt  2
  2   2    1 + 
 2  n 
 0
 En otro caso

con parámetros enteros positivos m, n

Ejemplo:
La gráfica siguiente corresponde a un caso de distribución F21, 16 , es decir, una

F de parámetros m = 21, n = 16 :

2. ALGUNOS CASOS DISCRETOS

A continuación mostraremos algunas distribuciones importantes de tipo discreto.


Estas distribuciones presentan puntos de discontinuidad, razón por la cual no se
puede asegurar que p({x}) = 0, x  , en consecuencia, cada vez que se fije un
valor para la distribución, el paquete PQRS presentará tres conjuntos y la medida
de probabilidad correspondiente a cada uno de ellos, de la siguiente manera:

a. El conjunto L = { y  | y  x} , es decir, los puntos situados a la


izquierda de x , cuya medida en el recuadro rojo, es:
90
Breve Introducción a la Probabilidad - Clavijo

p( L) = p((−, x)) = F ( x −) .

b. El conjunto unitario formado por el punto en consideración, es decir, A = {x}


para el cual, en color negro, aparece :

p( A) = F ({x, x}) = F ( x) − F ( x −)

c. El conjunto U = { y  | y  x} , o sea, el conjunto de puntos situados a la


derecha de x, cuya medida en el recuadro azul, está dada por:

p(U ) = p(( x, +)) = 1 − p((−, x]) = 1 − F ( x)

EJEMPLO:
 0.3 Si t = 3

Consideremos la función de densidad f (t ) =  0.7 Si t = 5
0
 En otra parte
0 Si x  3

cuya función de distribución está dada por: F ( x) = 0.3 Si 3  x  5
1 Si x  5

En este caso para x=3 se tiene

Nótese que la suma de estas tres medidas es 1. Siempre será así.

91
Breve Introducción a la Probabilidad - Clavijo

EJEMPLO (Caso particular)


El caso discreto en el cual se tiene un conjunto finito de números reales

{x1 , x2 , , xn }

y una función de densidad (masa) definida como:


1/ n Si x = xi
f ( x) = 
0 En otro caso
Se denomina distribución uniforme discreta.

Miraremos ahora sí algunos casos de gran importancia estadística.

2.1. Distribución Binomial

En la página 13, en un ejemplo, vimos el caso de la selección de una muestra con


reemplazamiento. Observamos que en esta situación cada unidad seleccionada se
extrae de un conjunto de N unidades que se mantiene constante ya que cada
unidad seleccionada vuelve al conjunto de donde se extrajo. De esta manera la
1
probabilidad de selección de cada unidad es pi = .
N
Podemos imaginar que tenemos un conjunto de N elementos de los cuales A
son de una clase (por ejemplo de color verde) y N − A de otra clase (por
ejemplo, de color amarillo). Aleatoriamente vamos a extraer, uno a uno,
n (n  N ) objetos y nos anotamos un ÉXITO, o un punto, cada vez que el
objeto extraído sea de color verde.

Si extraemos los elementos CON reemplazamiento, la probabilidad de seleccionar


A
un objeto de color verde es siempre la misma: p = .
N
Nos preguntamos entonces ¿cuál es la probabilidad de extraer x elementos
verdes entre los n seleccionados?. Es decir, la probabilidad de obtener x puntos
o x éxitos en los n ensayos. Es claro que x puede tomar los valores 0,1, 2,
3, …, n.

92
Breve Introducción a la Probabilidad - Clavijo

Puesto que la probabilidad no cambia después de cada selección, las selecciones


son independientes unas de otras y en consecuencia la probabilidad de obtener
x éxitos será p p p  p = p x pero si se han obtenido x éxitos se
tendrán n−x fracasos los cuales tendrán probabilidad
(1 − p)(1 − p) (1 − p) = (1 − p)n− x . Esto nos dice que la probabilidad de
obtener x éxitos y n−x fracasos es p x (1 − p)n− x . Pero es claro que este
n
resultado puede obtenerse de   maneras diferentes, así que, según el principio
 x
del conteo, la probabilidad de obtener x éxitos y n − x fracasos en los n
ensayos (extracciones) está dada por:

n
f ( x) =   p x (1 − p ) n − x para x = 0, 1, 2, ,n
 x

Se observa que

1. f ( x)  0 x 
n
n
2. 
x
f ( x) =    p x (1 − p) n − x = [ p + (1 − p)]n = 1n = 1
x =0  x 

Estos dos resultados muestran que f es una función de densidad (masa) para una
distribución discreta, llamada Distribución binomial de parámetros n y p.
La distribución binomial fue estudiada por Jakob Bernoulli (Suiza, 1654-1705).

Las gráficas siguientes corresponden a la binomial de parámetros n = 15, p = 0.2


en el punto x = 4:

93
Breve Introducción a la Probabilidad - Clavijo

Función de densidad (masa) de la binomial de parámetros 15 y 0.2

Función de distribución de la binomial de parámetros 15 y 0.2

En la primera gráfica anterior se observa que la probabilidad de obtener 4 éxitos en


los 15 ensayos (barra negra) es igual a 0.1876. La de obtener menos de 4 éxitos (suma
de las barras rojas) es 0.6482 y la de obtener más de 3 éxitos en los 15 ensayos (suma
de las barras azules) es 0.1642. Además, la suma de estas tres probabilidades es 1 y
la probabilidad acumulada hasta x = 4 es 0.8358 (segunda gráfica).

2.2. Distribución Hipergeométrica

El mismo problema anterior pero realizado SIN reemplazamiento nos lleva a otra
distribución discreta conocida como Distribución hipergeométrica. En este caso se
requiere conocer el tamaño N del conjunto mayor, del cual se va a extraer la
muestra. El número A o N1 de objetos verdes (éxitos) presentes en el conjunto
anterior y el número n de elementos que se van a extraer (tamaño de la muestra).
A
La probabilidad de éxito de la primera extracción es pero, dado que el elemento
N
seleccionado no vuelve a la población, ésta cambia de tamaño con cada extracción.

94
Breve Introducción a la Probabilidad - Clavijo

Igual el número de éxitos (elementos verdes) en la población cambia en cada caso


dependiendo de si el anterior ha sido un éxito o un fracaso.

En el siguiente ejemplo estamos suponiendo que hay N = 30 objetos en la población


de los cuales A = N1 = 18 son verdes (éxitos) y que vamos a extraer sin
reemplazamiento n = 15 elementos.

Como se ve, la probabilidad de obtener exactamente 8 éxitos en los 15 ensayos es


0.2234. La probabilidad de obtener menos de 8 éxitos es 0.1318 y la de obtener más
de 8 éxitos es 0.6448. Nuevamente estas tres probabilidades suman 1.

2.3. Distribución Poisson

Fue descubierta por Simeon Denis Poisson (Francia 1781-1840) y publicada en


1837 en un trabajo suyo, Recherches sur la la probabilité des jugements en matière
criminelle et matière civile. Aunque en su época fue poco valorada hoy en día es
una de las herramientas más importantes para describir fenómenos que pueden
ser contados por unidad de tiempo, volumen, área, etc.

La función de densidad (masa) está dada por


 −t  t
e Para t = 0, 1, 2, 3,
f (t ) =  t!
0
 Para otros casos

95
Breve Introducción a la Probabilidad - Clavijo

Imagen de una Poisson de parámetro  = 15 y los valores de medida para los conjuntos
L, A, U cuando x = 12 .

96
Breve Introducción a la Probabilidad - Clavijo

EJERCICIOS 6

Ejercicio 1

Considere la distribución normal de parámetros  = 5,  2 = 9 . Use el


programa PQRS u otro equivalente para hallar la medida de los siguientes conjuntos:

A = {x  | −4  x  −1}
B = {x  | x  0}
C = {x  | −2  x  1}
D = {x  | ( x  −5)  ( x  5)}

Ejercicio 2
Considere que la probabilidad de que un fusible se dañe ante una subida de
energía es 0.03. Se instalan 15 fusibles para proteger sendos computadores en
una sala de cómputo. Cuál es la probabilidad de que ante una subida de energía
se dañen
a. ¿Exactamente 5 fusibles de los 15?
b. ¿Menos de 3 fusibles?
c. ¿Más de 8 fusibles?
d. ¿Todos los 15 fusibles?
e. ¿Ningún fusible?

Ejercicio 3
(Para pensar!) Considere el par ( , ϐ) y suponga que : ϐ→ es una
función definida para cada A ϐ por ( A) = Sup( A) − Inf ( A) .
a. ¿Es una función de medida? (Demostrar!)
En caso de que la pregunta anterior sea afirmativa:
b. ¿Es una medida finita? (justificar)
c. ¿Es una medida de Lebesgue? (justificar)
d. En caso de una respuesta afirmativa en c. construya una función de distribución
y con ella, calcule:

97
Breve Introducción a la Probabilidad - Clavijo

d1. ((0 ,10])


d 2. (( −3 , 5])
d 3. ([2 , 5])
d 4. (( −3 , 5])
d 5. ({4})
d 6. ({3, 6, 9,15})

Ejercicio 4
Suponga que un banco atiende en promedio 10 clientes por hora (  = 10 ). ¿Cuál es la
probabilidad de que en una hora lleguen exactamente 8 clientes? ¿cuál la probabilidad
de que en una hora lleguen más de 8 clientes?

Ejercicio 5

Suponga que la duración promedio de las llantas para automóvil de un cierto tipo y
marca es una normal de parámetros µ = 60000 km y desviación estándar σ = 2500 km.
Hallar la probabilidad de que una llanta del tipo y marca considerados

a. Se desgaste antes de 53000 km


b. Dure más de 70000 km
c. Dure entre 57000 y 62000 km

Ejercicio 6

La duración promedio de cierto tipo de bombillas tiene distribución normal de media


µ = 8000 horas y desviación estándar σ = 600 horas.

a. ¿Qué fracción o porcentaje de ese tipo de bombillas se espera que dure menos de
6000 horas?
b. La fábrica ofrece como garantía reponer al cliente bombillas nuevas en caso de que
las que haya comprado se fundan antes de las 7000 horas de uso. ¿Qué porcentaje
de clientes se espera que haga uso de la garantía?

98
Breve Introducción a la Probabilidad - Clavijo

Ejercicio 7

La duración en horas de cierto tipo de baterías de litio para controles electrónicos tiene
distribución normal de media µ = 200 horas y desviación estándar σ = 25 horas. ¿Cuál
es la probabilidad de que una bombilla de esas características

a. Dure más de 250 horas?


b. Dure menos de 180 horas
c. Dure entre 220 y 260 horas?

Ejercicio 8

La estatura promedio de los hombres adultos de cierta comunidad tiene distribución


normal de media µ = 160 cm y desviación estándar σ = 20 cm . ¿Cuál es la probabilidad
de que un hombre de dicha comunidad, seleccionado aleatoriamente

a. ¿Mida menos de 150 cm?


b. ¿Dure más de 2 m?
c. ¿Mida entre 160 y 190 cm?

Ejercicio 9

Se asume que el coeficiente de inteligencia IQ asume una distribución normal de media


µ = 100 puntos y desviación estándar σ = 15 puntos. La siguiente tabla ha sido utilizada
durante mucho tiempo para clasificar a los seres humanos adultos:

99
Breve Introducción a la Probabilidad - Clavijo

De acuerdo con la tabla anterior,

a. ¿Qué porcentaje de la población adulta puede considerar con un IQ muy superior?


b. ¿Cuál es la probabilidad de que un adulto elegido aleatoriamente tenga un IQ
inferior o deficiente
c. Suponga que una condición para lograr la licencia de conducción es tener un IQ por
encima de 85 puntos. A qué proporción de la población adulta le negarán la licencia
por este concepto?

Ejercicio 10

Una empresa, fabricante de audífonos, ha detectado que aproximadamente el 3% de


los aparatos fabricados presenta algún tipo de defecto. ¿Cuál es la probabilidad de que
en una caja de 500 audífonos despachados a una empresa de aviación

a. ¿Aparezcan al menos 20 audífonos defectuosos?


b. No haya audífonos defectuosos
c. ¿Aparezca al menos un audífono defectuoso?

Ejercicio 11

Una empresa, fabricante de Micro SD, ha detectado que aproximadamente el 2% de


los chips que fabrica presenta algún tipo de defecto. ¿Cuál es la probabilidad de que en
una caja de 50 micro SD

a. ¿Aparezcan exactamente dos chips defectuosos?


b. ¿Aparezcan menos de dos chips defectuosos?
c. ¿Aparezcan por lo menos 5 chips defectuosos?

Ejercicio 12

Una empresa, fabricante de Micro SD, ha detectado que aproximadamente el 2.5% de


los chips que fabrica presenta algún tipo de defecto. ¿Cuál es la probabilidad de que en
una caja de 60 micro SD

a. No haya chips defectuosos?


b. Haya entre 3 y 5 chips defectuosos (incluyendo estos valores de 3 y 5)?

100
Breve Introducción a la Probabilidad - Clavijo

Ejercicio 13

Una empresa de telefonía celular ha detectado que aproximadamente el 2% de las


llamadas procesadas durante las horas pico de la 6 p.m a las 8 p.m, se caen por algún
motivo. La empresa indemniza a sus usuarios con 1 minuto por cada llamada caída
durante las horas anotadas.

Cierto día hubo 6000 llamadas en las horas pico. De acuerdo con esto

a. ¿Cuál es la probabilidad de que la empresa tenga que hacer 300 o más


indemnizaciones?
b. ¿Cual es la probabilidad de que las indemnizaciones no superen los 50 minutos?

Ejercicio 14:

En una pequeña biblioteca de 25 libros hay 8 de literatura. Si se toma aleatoriamente


una muestra de 4 libros, ¿Cuál es la probabilidad de que

a. 2 de los libros seleccionados sean de literatura


b. En la muestra haya por lo menos un libro de literatura

Ejercicio 15:

Se tiene un listado de las 200 universidades existentes en un país (75 públicas y 125
privadas). Si aleatoriamente se seleccionan 8 universidades de ese listado, ¿Cuál es la
probabilidad

a. Salgan 4 públicas y 4 privadas?


b. Al menos una de las elegidas sea pública?

Ejercicio 16

En un colegio trabajan 28 profesores, 16 de ellos hombres. El rector planea hacer una


jornada deportiva en un día festivo y necesita 8 profesores para que acompañen a los
estudiantes en las actividades. Propone elegir aleatoriamente a los maestros
acompañantes y ofrecerles un día compensatorio por el servicio. ¿Cuál es la
probabilidad de que el grupo de docentes acompañantes esté conformado

101
Breve Introducción a la Probabilidad - Clavijo

• Sólo por mujeres?


• Sólo por hombres?
• Por 4 mujeres y 4 hombres?

Ejercicio 17

Una empresa de transporte de pasajeros tiene 24 vans y 36 taxis. Un día determinado


tiene que enviar 8 vehículos a otra ciudad. Para ello escoge aleatoriamente 8 vehículos
entre los 56 vehículos de la empresa. ¿Cuál es la probabilidad de que

• Todos los carros seleccionados sean tipo Van?


• Resulten seleccionados 4 vans y 4 taxis?
• Sean seleccionados al menos 2 taxis?

Ejercicio 18:

El alfabeto español está conformado por 27 letras de las cuales 5 son vocales. Un juego
consiste en escoger aleatoriamente y sin reemplazo 4 letras de una caja donde están
las 27, para ver si con ellas se puede formar una palabra que tenga sentido en el idioma
español. ¿Cuál es la probabilidad de que en una selección

• Todas las letras escogidas sean vocales?


• Salgan al menos dos vocales?

102
Breve Introducción a la Probabilidad - Clavijo

OPERACIONES CON VARIABLES ALEATORIAS

El hecho de que los números reales constituyan un espacio vectorial sobre sí mismo, -lo que
permite efectuar operaciones de adición, multiplicación resta, división, potenciación,
radicación, etc-, nos lleva a una estructura semejante para el conjunto de variables
aleatorias definidas en un espacio probabilístico (,  , P) Es decir, se pueden definir
operaciones de adición y multiplicación con sus correspondientes operaciones e inversas y
las derivadas de potenciación y logaritmación para variables aleatorias. De esta manera se
pueden definir:

a. Suma de dos variables aleatorias, X + Y , como

( X + Y )(w) = X (w) + Y (w), w 

b. Multiplicación por escalar de variables aleatorias, X , como

( X )( w) =  X (w), w ,  

c. Producto de variables aleatorias, XY , como

( XY )( w) = X ( w)Y ( w), w 

Estas tres operaciones permiten calcular X − Y , nX con n entero, X n , etc y


X / Y, Log(X ) cuando éstas tengan sentido.

103
Breve Introducción a la Probabilidad - Clavijo

Variables aleatorias y poblaciones


MEDIA Y VARIANZA

En estadística es muy importante el concepto de población que, a diferencia del concepto


estudiado en geografía, no es ningún grupo humano ni una aglomeración de casas o
personas, como podría pensarse. Una población en el sentido estadístico es la colección de
todos los datos que puede tomar una variable aleatoria, junto con su distribución de
probabilidad. Desde este punto de vista una población y una variable aleatoria son
conceptos equivalentes.

En la vida diaria, toda población está descrita por una variable aleatoria con una
determinada distribución y toda variable aleatoria puede ser vista como una población. Por
ejemplo, el contenido de gaseosa que se encuentra en las “botellas" de 350 m.l es una
población descrita por una variable aleatoria con distribución normal cuyos valores oscilan
alrededor de los 350 m.l. En cada frasco encontramos una cantidad de bebida que puede
ser ligeramente inferior o ligeramente superior a 350 m. El valor 350 es el valor esperado
de líquido en cualquier “frasco” pero, debido a que el proceso de envasado es automático,
puede haber ligeras diferencias con el valor esperado: unas veces sale más, otras menos,
pero en promedio dicho valor concuerda con lo que se enuncia en los recipientes.

El valor esperado, también llamado Esperanza, Media o promedio poblacional, es un


valor numérico  que para una variable numérica discreta está definido como (recordar
la definición de variable aleatoria):

104
Breve Introducción a la Probabilidad - Clavijo

n
 =  xf ( x) =  xi pi
x i =1

Y para una variable aleatoria continua como


=  xf ( x)dx
−
donde f es la función de densidad de la variable aleatoria X en consideración.

Con frecuencia escribimos E( X ) para denotar la esperanza de X

EJEMPLO:

Si X es una variable aleatoria con distribución binomial de parámetros n, p , al hacer


q = 1 − p , se tiene

n n
n
=  xf ( x) = x  x  p q x n− x

x =0 x =0  
n
 n  x n− x
=  x  p q
x =1  x 
(pues el primer término desaparece)

n  1 2  3   (n − 1) n 
pero x   = x  
 x 1 2  3   ( n − x) 1 2  3   ( x − 1) x 
1 2  3   (n − 1)  n − 1
=n = n 
1 2  3   ( n − x)  1 2  3   ( x − 1)  x − 1
así que :

n
 n − 1 x −1 n − x n
 n − 1 x −1 ( n −1)−( x −1)
 = np    p q = np   p q
x =1  x − 1  x =1  x − 1 

Y haciendo los cambios de variable: m = n − 1, k = x − 1:

105
Breve Introducción a la Probabilidad - Clavijo

m
m
 = np    p k q m−k = np( p + q)m = np
kk =0  

EJEMPLO:

Supóngase ahora que X es una variable aleatoria con distribución uniforme en el intervalo
[a, b] . Esto quiere decir que la pdf de X está dada por:

 1
 Si a  x  b
f ( x) =  b − a

 0 En otra parte

De lo anterior:
a b 
1
 =  x0dx +  xdx +  x0dx
− a
b − a b
x =b
1 1 2 
b b
x 1
= dx =  xdx =  2 x 
a
b − a b − a a
b − a x=a

1  b2 − a 2  a + b
=  =
2 b−a  2

Otro concepto importante para variables aleatorias es el de varianza.

DEFINICION:

Se define la varianza de X como V( X ) =  2 = E ( X −  ) 2 

Resulta claro que V( X ) = E( X ) −  E( X )  . En efecto:


2 2

106
Breve Introducción a la Probabilidad - Clavijo

V( X ) = E( X 2 − 2  X +  2 ) = E ( X 2 ) − E (2  X ) + E (  2 )
= E(X 2 ) − 2  E( X ) +  2 = E( X 2 ) − 2  2 +  2
= E(X 2 ) −  2 = E( X 2 ) −  E( X ) 
2

EJEMPLO:

Aplicando el resultado anterior podemos calcular la varianza de una variable aleatoria que
tenga distribución binomial de parámetros n, p

Como ya sabemos, si X ~ B(n, p) se cumple E( X ) = np . Por consiguiente, se deduce que


V( X ) = E ( X 2 ) − n2 p 2 . Calculemos aparte

n
n
E ( X ) =  x 2   p x q n− x
2

x =0  x
n
 n  x n− x
=  ( x ( x − 1) + x )  p q
x =0  x
n
 n  x n− x n
n
=  x( x − 1)   p q +  x   p x q n− x
x =0  x x =0  x 

n
n
=  x( x − 1)   p x q n − x + E(X )
x =0  x
n
n!
=  x( x − 1) p x q n − x + np
x=2 (n − x)! x !
n
n!
= 
x = 2 ( n − x )!( x − 2)!
p x q n − x + np
n
(n − 2)!
= n(n − 1) p 2
 (n − x)!( x − 2)!p
x=2
x−2
q n − x + np

Y haciendo el cambio de variable j = x−2:

107
Breve Introducción a la Probabilidad - Clavijo

n
(n − 2)!
= n(n − 1) p 2  p x − 2 q n − x + np
x = 2 ( n − x )!( x − 2)!

 n − 2  j n − 2− j
n−2
= n(n − 1) p  
j =0 
2

j 
p q + np

= n(n − 1) p 2 ( p + q) n − 2 + np
= n(n − 1) p 2 + np

E( X 2 ) −  E( X ) = n(n − 1) p 2 + np − n 2 p 2 = npq
2
En consecuencia:
Es decir, V( X ) = npq .

EJEMPLO:

De igual manera, aplicando la primera definición, podemos calcular la varianza de una


variable aleatoria que tenga distribución uniforme sobre un intervalo (a, b) .
 a+b 2
V( X ) = E ( X −  ) 2  = E ( X − ) 
 2 
 2
a+b a+b  1
2
 
b
= −  x − 2  f ( x)dx = a  x − 2  b − a dx
1
b
 2  a+b 
2

b − a a 
=  x − ( a + b ) x +   dx
 2  
x =b
1 1 3 1  a+b 
2

=  x − ( a + b) x + 
2
 x
b − a  3 2  2   x = a
1
= b3 − a 3 − 3ab 2 + 3a 2b 
12(b − a )
(b − a ) 2
=
12

El cuadro siguiente resume las medias y las varianzas de variables aleatorias con las
distribuciones más comunes que hemos mencionado en páginas anteriores:

108
Breve Introducción a la Probabilidad - Clavijo

DISTRIBUCION PARAMETROS MEDIA VARIANZA


Binomial n, p np npq con q = 1 − p
Hipergeométrica N , N1 , n N   N  N  N − n 
n 1  n  1  1 − 1   
N   N  N   N −1 
Poisson  0  

Uniforme continua a, b (con a  b) a+b (b − a ) 2


2 12
Normal  ,  (con   0)  2

t de Student n0 0 n
para n  2
n−2
Gamma   0,   0  
 2
Ji cuadrado  (entero positivo)  2

para n  2 2n (m +2 n − 2) con n  4
n 2

F (Fisher Snedecor) m, n (enteros positivos) n − 2 m(n − 2) (n − 4)

TEOREMA:
La media y la varianza de variables aleatorias X , Y satisfacen las siguientes propiedades:

1. E(aX ) = aE( X ), a 
2. E(X + Y ) = E( X ) + E(Y )
3. V(aX ) = a 2 V(X ), a 

Demostración: Ejercicio para realizar en clase.

La media y la varianza son dos valores de mucha importancia para cualquier variable
aleatoria – valga decir, para cualquier población. La primera de ellas es un valor que
“resume” los valores de la población. Por ejemplo, si se afirma que el promedio nacional de
ingreso per cápita es de $2,600,000.00, aunque no todas las personas perciban este ingreso,
sí nos damos una idea de cuánto se gana en un determinado país. Más aún, podemos
hacernos a una idea de cómo son las economías de dos países cuando conocemos sus

109
Breve Introducción a la Probabilidad - Clavijo

ingresos medios per cápita. La segunda medida da una idea de cómo es la dispersión de los
datos en una población. Si la varianza es pequeña los datos están muy concentrados y
presentan poca variabilidad. Por el contrario, una varianza alta indica que los datos –aunque
se dispongan alrededor de la media- son muy variables y, por tanto, presentan una alta
dispersión o variabilidad

En los casos vistos anteriormente hemos podido calcular la media y la varianza porque
conocemos las fórmulas correspondientes a las diferentes distribuciones. Sin embargo, la
situación real es diferente: En la vida real se conoce una población (por ejemplo, la estatura
de niños de 9 años) pero no conocemos ni la forma de la función de densidad ni la función
de distribución correspondiente. Uno de los tantos objetivos que persigue la estadística es,
poder decir cuál sea la posible distribución de la mencionada variable aleatoria, poder
“conocer” en líneas generales cómo es dicha población y seguramente hacer algunos tipos
de inferencias.

Al no disponer de todas las medidas posibles que pueda tomar una variable aleatoria no
conocemos tampoco la correspondiente población. Debemos inferir algunas de sus
propiedades a partir de la observación de unos cuantos datos tomados de dicha población.

Por ejemplo, es sabido que consumir pescado u otros productos de mar contaminados por
mercurio representa un grave riesgo para la salud. La contaminación de los peces por
mercurio es algo inevitable, sin embargo, cuando la cantidad de mercurio sobrepasa ciertos
límites, estos alimentos no deben ser consumidos. La tabla siguiente, tomada de la revista
médica de Chile, Vol 142, No 9, septiembre de 2014, fija los límites máximos admisibles de
mercurio

110
Breve Introducción a la Probabilidad - Clavijo

La distribución de los peces en las aguas marinas no es uniforme. Ellos prefieren ciertas
regiones o se mueven en grandes grupos. Por otra parte, no todos los peces están
igualmente contaminados. Los niveles de mercurio en cada animal dependen de sus
hábitos, de la zona donde se encuentre, de la especie, etc. Por otra parte, por razones
obvias, resulta imposible examinar todos los peces de una cierta región. Entonces, ¿cómo
saber si se puede comer o no peces de cierta región marítima?

Se puede pensar en una variable aleatoria X que represente la cantidad de mercurio en


miligramos por cada kilogramo de peso de un pez. Sabemos qué representa esta variable
pero no conocemos sus valores, ni su distribución, ni la posible función de densidad para
contestar preguntas como ¿Es el promedio de mercurio por unidad de peso superior a 1.5,
por ejemplo?. Si conociéramos la distribución de X y si dicha distribución fuera una de
las mencionadas en la tabla de distribuciones vista anteriormente que tienen en su cuerpo,
podríamos contestar la pregunta. Pero ni conocemos dicha distribución ni es muy probable
que ella corresponda a una distribución teórica.

El problema se resuelve estadísticamente, tomando una muestra de peces –digamos, por


ejemplo, 80, los cuales deben ser sacrificados y llevados al laboratorio donde se les pesa y
se les mide la cantidad de mercurio. A partir de los 80 datos arrojados por los pescados
podemos inferir cómo es la población, y cuál es la concentración de mercurio por kg de
peso, así como intentar calcular probabilidades, por ejemplo, cuál es la probabilidad de que
un determinado pez sobrepase el límite máximo permitido de 1.5 mg/Kg.

111
Breve Introducción a la Probabilidad - Clavijo

BIBLIOGRAFIA

1. Rolla, L & N. DeLima (2022); Probabilidade. S.l

2. Rolla, T.T (2018); Introdução à Probabilidade, Notas de Aula. S.l

3. Ross, S (2010); A first Course in Probability. 8a Ed. Pearson. NJ

4. Woodroofe, M (2000); Probabilidad con Aplicaciones. UA de Chapingo

5. Blanco, L (2004); Probabilidad. U. N. de Colombia. Bogotá

6. Grimmett, G & D. Welsh (1986). Probability, An Introduction. Clarendon Press.


Oxford

7. Grinstead, C. & J.L. Snell. (). Introduction to Probability. 2nd Ed. American
Mathematical Society.

112

También podría gustarte