Está en la página 1de 37

ESTADISTCA I CAPITULO 2

Probabilidad

Universidad de Chile
Economía & Negocios

PROBABILIDAD

I. TEORIA DE CONJUNTO.

1.1. El Espacio Muestral

La colección de todos los posibles resultados de un experimento se llama espacio muestral de


experimentos. En otras palabras, el espacio muestral de un experimento puede considerarse
como un conjunto o colección de diferentes resultados posibles, y cada resultado puede ser
considerado como un punto, o un elemento, del espacio muestral. Debido a esta
interpretación, el lenguaje y los conceptos de la teoría de conjuntos proporcionan un contexto
natural para el desarrollo de la teoría de la probabilidad. A continuación se revisan las ideas
básicas y la notación de la teoría de conjuntos.

1.2. Relaciones de la Teoría de Conjuntos.

Sea S el espacio muestral de un experimento. Entonces se dice que cualquier resultado posible
s del experimento es un miembro del espacio S o que pertenece al espacio S . La afirmación
de que s es un miembro de S se denota simbólicamente por la relación s ∈ S .

Cuando se ha realizado un experimento y se dice que ha ocurrido un suceso, significa que el


resultado del experimento satisfizo ciertas condiciones que especifican ese suceso. En otras
palabras, algunos resultados del espacio S indican que el suceso ocurrió, y los restantes
resultados de S indican que el suceso no ocurrió. De acuerdo con esta interpretación,
cualquier suceso puede ser considerado como un subconjunto de posibles resultados del espacio
S.

Por ejemplo, cuando se lanza un dado de seis caras puede considerarse que el espacio muestral
contiene los seis números 1, 2, 3, 4, 5, 6 . Simbólicamente, se escribe

S = {1, 2, 3, 4, 5, 6} (1.1)

El suceso A de obtener un número par está definido por el subconjunto A = {2, 4, 6} . El suceso
B de obtener un número mayor que 2 está definido por el subconjunto B = {3, 4, 5, 6} .

Se dice que un suceso A está contenido en otro suceso B si cada resultado que pertenece al
subconjunto que define el suceso A pertenece al subconjunto que define el suceso B . Esta
relación entre dos sucesos se expresa simbólicamente por la relación A ⊂ B . La relación A ⊂ B
se expresa también diciendo que A es un subconjunto de B . Equivalentemente, si A ⊂ B ,
puede decirse que B contiene a A y escribir B ⊃ A .

Autor: Pablo Tapia Página 1


ESTADISTCA I CAPITULO 2
Probabilidad

En el ejemplo del dado, supongamos que A es el suceso de obtener un número par y C es el


suceso de obtener un número mayor que 1. Puesto que A = {2, 4, 6} y C = {2, 3, 4, 5, 6} , resulta
que A ⊂ C . Obsérvese que A ⊂ S para cualquier suceso A .

Si dos sucesos A y B son tales que A ⊂ B y B ⊂ A , resulta que A y B deben contener


exactamente los mismo puntos. En otras palabras A = B .

Si A , B y C son tres sucesos tales que A ⊂ B y B ⊂ C , entonces resulta que A ⊂ C . La


demostración de ese hecho denominado transitividad de conjuntos se deja como ejercicio.

1.3. El Conjunto Vacío

Algunos sucesos son imposibles. Por ejemplo, cuando se lanza un dado, es imposible obtener
un número negativo. De ahí que el suceso de obtener un número negativo se defina como el
subconjunto de S que no contiene resultados. Este subconjunto de S se llama conjunto vacío,
y se denota por el símbolo φ .

Consideremos ahora cualquier suceso arbitrario A . Puesto que el conjunto φ no contiene


puntos, es lógicamente correcto decir que cualquier punto que pertenece a φ también
pertenece a A , esto es, φ ∈ A . En otras palabras, para cualquier suceso A es cierto que
φ ⊂ A⊂ S .

1.4. Operaciones de la Teoría de Conjunto

Uniones. Si A y B son dos sucesos cualesquiera, la unión de A y B se define como el


suceso que contiene todos los resultados que pertenecen sólo a A , sólo a B o ambos, A y B .
La notación para la unión de A y B es A ∪ B . El suceso A ∪ B se ilustra en la figura 1.1. un
esquema de este tipo se llama diagrama de Venn.

A B

Figura 1.1. El suceso A ∪ B

Para cualesquiera sucesos A y B , la unión tiene las siguientes propiedades:

A∪ B = B ∪ A A∪ A = A A ∪φ = A A∪ S = S (1.2)

Autor: Pablo Tapia Página 2


ESTADISTCA I CAPITULO 2
Probabilidad

Además, si A ⊂ B , entonces A ∪ B = B .

La unión de n sucesos A1 , A2 ,..., An se define como el suceso que contiene todos los resultados
que pertenecen al menos a uno de estos n sucesos. La notación para esta unión es
n
A1 ∪ A2 ∪ L ∪ An o U i =1
Ai . Análogamente, la notación para la unión de una sucesión infinita

de sucesos A1 , A2 ,... es U i =1
Ai . La notación para la unión de una colección arbitraria de
sucesos Ai , donde los valores del subíndice i pertenecen a un conjunto de índices I , es
U Ai .
i∈I

La unión de tres sucesos A , B y C puede ser calculada directamente de la definición de


A ∪ B ∪ C o evaluando primero la unión de dos sucesos cualesquiera y luego formando la unión
de esta combinación con el tercer suceso. En otras palabras, se satisface la siguiente relación
asociativa:

A ∪ B ∪ C = ( A ∪ B) ∪ C = A ∪ ( B ∪ C ) (1.3)

Intersecciones. Si A y B son dos sucesos cualesquiera, la intersección de A y B se define


como el suceso que contiene todos los resultados que pertenecen a ambos A y B o ambos. La
notación para la intersección de A y B es A ∩ B . El suceso A ∩ B se ilustra en el diagrama de
Venn de la figura 1.2. a menudo es conveniente denotar la intersección de A y B por el
símbolo AB en lugar de A ∩ B , y usaremos indistintamente estos dos tipos de notación.

A B

Figura 1.2. El suceso A ∩ B .

Para sucesos A y B cualesquiera, la intersección tiene las siguientes propiedades:

A∩ B = B ∩ A A∩ A = A A ∩φ = φ A∩ S = A (1.4)

Además, si A ⊂ B , entonces A ∩ B = A .

La intersección de n sucesos A1 , A2 ,..., An se define como el suceso que contiene todos los
resultados que son comunes a todos estos sucesos. La notación para esta intersección es

Autor: Pablo Tapia Página 3


ESTADISTCA I CAPITULO 2
Probabilidad

n
A1 ∩ A2 ∩ L ∩ An o I i =1
Ai . Se utilizan notaciones similares para la intersección de una
sucesión infinita de sucesos o para la intersección de una colección arbitraria de sucesos.

Para tres sucesos cualesquiera A , B y C , se satisface la siguiente relación asociativa:

A ∩ B ∩ C = ( A ∩ B) ∩ C = A ∩ ( B ∩ C ) (1.5)

Complementarios. El suceso complementario de un suceso A se define como el suceso que


contiene todos los resultados del espacio muestral S que no pertenecen a A . La notación para
el complementario de A es A c . El suceso A c se ilustra en la figura 1.3.

Ac
A

Figura 1.3. El suceso A c .

Para cualquier suceso A, el complementario tiene las siguientes propiedades:

( Ac ) c = A φc = S Sc =φ A ∪ Ac = S A ∩ Ac = φ (1.6)

Sucesos Disjuntos. Se dice que dos sucesos A y B son disjuntos, o mutuamente


excluyentes, si A y B no tienen resultados en común. Entonces, A y B son disjuntos si, y
sólo si, A ∩ B = φ . Se dice que los sucesos en una colección arbitraria son disjuntos si no hay
dos sucesos de la colección que tengan resultados en común.

Como ilustración de estos conceptos, en la figura 1.4 se presenta un diagrama de Venn para
tres sucesos A , B y C . El diagrama indica que las diversas intersecciones de A , B y C y sus
complementarios dividen el espacio muestral S en ocho subconjuntos disjuntos.

Autor: Pablo Tapia Página 4


ESTADISTCA I CAPITULO 2
Probabilidad

S A B

A∩ B ∩Cc
A∩ B ∩C
c c
Ac ∩ B ∩ C c

A∩ B ∩C

A ∩ Bc ∩ C
Ac ∩ B ∩ C

Ac ∩ B c ∩ C
C Ac ∩ B c ∩ C c
Figura 1.4. Partición de S determinada por tres sucesos A , B y C .

Ejemplo 1
Lanzamiento de una moneda. Supongamos que se lanza una moneda tres veces. Entonces, el
espacio muestral S contiene los ocho resultados posibles siguientes s1 , s 2 ,..., s8 :

s1 = RRR; s 2 = HRR; s 3 = RHR; s 4 = RRH ; s 5 = RHH ; s 6 = HRH ; s 7 = HHR; s 8 = HHH

En esta notación, R indica cara y H indica sello. El resultado s 3 , por ejemplo, es el resultado
en el cual se obtiene cara en el primer lanzamiento, sello en el segundo lanzamiento y cara en el
tercero.

Para aplicar los conceptos introducidos en esta sección, se definirán cuatro sucesos como sigue:
Sea A el suceso de obtener al menos una cara en los tres lanzamientos; sea B el suceso de
obtener cara en el segundo lanzamiento; sea C el suceso de obtener sello en el tercer
lanzamiento y sea D el suceso de no obtener caras. Así pues,

A = {s1 , s 2 , s 3 , s 4 , s 5 , s 6 , s 7 }
B = {s1 , s 2 , s 4 , s 6 }
C = {s 4 , s 5 , s 6 , s 8 }
D = {s 8 }

Se puede obtener varias relaciones entre estos sucesos. Algunas de éstas son B ⊂ A , A c = D ,
B ∩ D = φ , A ∪ C = S , B ∩ C = {s 4 , s 6 } , ( B ∪ C ) c = {s 3 , s 7 } y A ∩ ( B ∪ C ) = {s1 , s 2 , s 4 , s 5 , s 6 } .
Por otro lado es posible señalar que A y D igual que A y D son disjuntos entre si.

1.5. Sigma Algebra.

Un sigma-álgebra (que lo denotaremos como Σ ) es una familia de subconjuntos de un


conjunto S y satisface las siguientes propiedades:

1. Si A ∈ Σ , entonces el complemento de A debe pertenecer al sigma-álgebra, es decir,


AC ∈ Σ .

Autor: Pablo Tapia Página 5


ESTADISTCA I CAPITULO 2
Probabilidad

2. Si {A1 , A2 , A3 ,..., An } ≡ {Ai }in=1 es una colección discreta o no discreta numerable de


conjuntos generados desde el conjunto S , tal que Ai ∈ Σ ∀i , entonces, la unión de
todos estos subconjuntos también debe pertenecer al sigma-álgebra,
A1 ∪ A2 ∪ L ∪ An ≡ ∪ in=1 Ai ∈ Σ .

Es importante destacar que a partir de la primera y segunda propiedad se debe cumplir


necesariamente que, la intersección del complemento de todos los subconjuntos debe
pertenecer al mismo sigma-álgebra y, por ende, la intersección de los conjuntos también debe
pertenecer al sigma-álgebra, es decir,

A1C ∩ A2C ∩ L ∩ AnC ≡ ∩ in=1 AiC ∈ Σ , entonces

A1 ∩ A2 ∩ L ∩ An ≡ ∩ in=1 Ai ∈ Σ

Bajo estas propiedades podríamos generar distintos sigma-álgebras para un conjunto específico
S.

Ejemplo 2
Supongamos que el conjunto S está dado S = {1,2,3} y se define la siguiente colección de
subconjuntos Δ = {S , {φ }} = {{1,2,3}, {φ }}

Determine si Δ es un sigma-álgebra en S.

Respuesta

Para ver si Δ es un sigma-álgebra debemos demostrar que para todos los elementos
pertenecientes a él (que en este caso son dos) se cumplen las dos propiedades anteriores.

Al tomar A = {1,2,3}, su complemento corresponde a A C = {φ } , a lo que podemos concluir que


A ∈ Δ , y que A C ∈ Δ , y en caso contrario podemos apreciar el mismo resultado.

Ahora supongamos que la colección discreta presentada en Δ corresponde a A1 = {1,2,3} y


A2 = {φ } , con la cual se puede ver fácilmente que A1 ∪ A2 = {1,2,3}∪ {φ } = {1,2,3} que también
pertenece a Δ . Por lo tanto, podemos concluir que Δ es un sigma-álgebra en S .

En realidad, independiente de los valores que contenga un conjunto cualquiera S , el sigma-


álgebra más pequeño que se puede generar es aquél que contiene a S y al conjunto vacío φ .
Cualquier otra familia de subconjuntos generados por S y que no contenga al menos a
S y al conjunto vacío φ nunca será un sigma-álgebra.

Autor: Pablo Tapia Página 6


ESTADISTCA I CAPITULO 2
Probabilidad

Ejemplo 3
Supongamos que el conjunto S está dado S = {1,2,3} , pero se define una colección de
subconjuntos como Φ = {{1}, {2,3}, S , {φ }} , que deberá demostrar si es un sigma-álgebra sobre S.

Respuesta

Es fácil ver que la colección para Φ es A1 = {1} , A2 = {2,3} , A3 = {1,2,3} y A4 = {φ }, tal que el
complemento de cada uno de ellos también pertenece Φ . Además, podemos ver que la unión
de toda la colección de subconjuntos,

A1 ∪ A2 ∪ A3 ∪ A4 = {1}∪ {2,3}∪ {1,2,3}∪ {φ } = {1,2,3}

también pertenece a Φ . Entonces podemos decir que Φ es un sigma-álgebra.

A partir de este último ejemplo, podemos concluir que es posible construir más de un sigma-
álgebra para un mismo conjunto, de hecho el Conjunto Potencia o Conjunto de Partes, que
se denota por P( S ) , el cual se constituye de todos los subconjuntos posibles que se
pueden generar en base a un conjunto S , es el sigma-álgebra más grande que se puede
construir a partir de S .

Para comprender mejor esta idea del mayor sigma-álgebra que se puede hacer sobre un
conjunto S , debemos recordar el conjunto potencia de tener 2 n elementos, donde n es el
número total de elementos contenidos en S , por ejemplo, tenemos el conjunto S = {1,2,3} ,
entonces el número de elementos que debe contener el P( S ) es de 2 3 = 8 , de hecho ese
conjunto corresponde a:

P ( S ) = {{φ }, {1}, {2}, {3}, {1,2}, {1,3}, {2,3}, S }

Y este conjunto sería el sigma-álgebra más grande que se podría construir a partir de S .

Para la teoría de probabilidades el conjunto sigma-álgebra es muy importante. Para efectos


prácticos, para conjuntos S discretos o no discretos, pero sí numerables siempre ocuparemos
el sigma-álgebra más grande ( P( S ) ) no así para conjuntos S no numerables que es el caso del
eje de los reales o cualquier intervalo de los reales. La explicación en realidad es muy técnica y
escapa de los objetivos de este curso, sin embargo, un alcance para entender esto es que el
conjunto P( S ) para eje de los reales o cualquier intervalo de los reales es muy grande, por lo
que, pierde sentido práctico para el manejo de probabilidades.

1.6. Segmentación.

Una segmentación consiste en hacer una división de un set de subconjuntos sobre el conjunto
S , tal que todas las partes deben ser excluyentes entre sí, y además la unión de todas las
particiones debe ser igual al conjunto S , es decir:

Autor: Pablo Tapia Página 7


ESTADISTCA I CAPITULO 2
Probabilidad

i. Ai ⊂ S ∀ i = 1,..., N
ii. Ai ∩ A j = φ ∀ i ≠ j
iii. ∪ iN=1 Ai

Se debe tener presente que la división es bajo un criterio, tal como los complementarios, es
decir A y A c son un sigma álgebra. Entonces podemos decir que si {Ai }i∈I es una partición en
S , y B ⊂ S , entonces {Ai }i∈I es sigma álgebra en B también, tal como se aprecia en la figura
1.5, por tanto el conjunto B se puede escribir como:

B = ∪ i∈I ( B ∩ Ai ) = ∪ i∈I ( Ai ∩ B ) (1.7)

S A2
A3
A1

A6

A4
A5

Figura 1.5. El suceso de {Ai }i∈I en S y B

Ejemplo 4
En el experimento que consiste en lanzar un dado de seis caras vamos a concretar los conceptos
de suceso elemental, suceso compuesto o evento, suceso seguro, suceso imposible, espacio
muestral y naturaleza del mismo.

En este experimento si admitimos que cada una de las caras se identifican por los enteros que
van del 1 al 6, de forma que a la cara uno se la identifica por el valor 1, a la dos por el valor 2, y
así sucesivamente, entonces los sucesos elementales de este experimento, que representaremos
por ei , serán los enteros e1 = 1, e 2 = 2, e3 = 3, e 4 = 4, e5 = 5, e6 = 6 . A partir de éstos se pueden
definir otros eventos. Así, el evento A = {número par} se define como A = {2,4,6} , el evento
B = {número primo} viene dado por B = {1,2,3,5} , etc. A su vez el suceso seguro en este
experimento es E = {que salga alguna cara} y está formado por E = {1,2,3,4,5,6} . Sobre un
experimento aleatorio se puede definir más de un suceso imposible, aunque todos ellos
satisfacen la definición dada con anterioridad. Así en este ejemplo sería sucesos imposibles los
siguientes: φ = {obtener la cara número siete}, φ = {obtener la cara número dos y medio}, etc.
Finalmente el espacio muestral asociado a este experimento vendría dado por E = {1,2,3,4,5,6} ,
es decir, el conjunto de todos los resultados posibles del mismo. En este caso se trata de un
espacio finito y, por lo tanto, discreto.

Autor: Pablo Tapia Página 8


ESTADISTCA I CAPITULO 2
Probabilidad

Ejemplo 5
Sea el experimento que consiste en contar el número de mujeres en una muestra de 12
parlamentarios seleccionados al azar.

En este caso el espacio muestral correspondiente a este experimento viene dado por
E = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12} , que también es finito y discreto. Para este experimento
también se puede definir distintos tipos de eventos como: A = {que el número de mujeres sea
mayoría}; B = {que el número de mujeres sea al menos tres}; etc.

Ejemplo 6
Sea el experimento que consiste en contar el número de personas que llega a la caja de un
supermercado durante un mes.

El espacio muestral de este experimento viene dado por E = {0, 1, 2, 3, 4,...} . En este caso
estamos ante un espacio infinito numerable y, en consecuencia, también discreto.

Ejemplo 7
Sea el experimento que consiste en anotar el instante en que se recibe una llamada telefónica a
lo largo de un día.

Si se admite que esa llamada puede ocurrir en cualquier instante de ese intervalo de 24 horas,
entonces el espacio muestral será E = {el intervalo de tiempo correspondiente a 24 horas}, que
origina un espacio infinito no numerable, es decir, continuo.

Una vez que se ha dado el concepto de suceso o evento, a continuación se van a definir las
operaciones más habituales que pueden realizarse con los mismos.

Otras definiciones como unión, intersección, etc. de sucesos se discutieron al inicio de este
capítulo en teoría de conjuntos.

1.7. Métodos de enumeración o conteo.

Las siguientes son algunas técnicas útiles para contar el número de resultados o sucesos de un
experimento aleatorio.

1.7.1. Tablas de Doble Entrada

Es útil para relacionar dos pruebas, indicándonos los resultados que integran el espacio
muestral, pudiendo indicar sobre la tabla determinados sucesos en los que estemos interesados.
En general con m elementos a1 , a 2 ,..., a m y n elementos b1 , b2 , b3 ,..., bn es posible formar
m × n pares (a i , b j ) tales que cada par tiene al menos algún elemento diferente de cada grupo.

1.7.2. Principio de Multiplicación

Autor: Pablo Tapia Página 9


ESTADISTCA I CAPITULO 2
Probabilidad

Sean los conjuntos A1 , A2 ,..., Ak que tienen respectivamente n1 , n 2 ,..., n k elementos, de manera
que se constituye un nuevo conjunto como A = A1 × A2 × L× Ak , el cual posee vectores de
dimensión k y, el primer elemento pertenece a A1 , el segundo a A2 y así sucesivamente.

• En el caso particular de que n1 = n 2 = L = n k = n el número posible de vectores que


se pueden construir será n k .

• En el caso general, el número de posibles resultados será n1 ⋅ n 2 ⋅ L ⋅ n k . Este principio


es de utilidad en el caso de un experimento aleatorio compuesto por otros k
experimentos.

1.7.3. Diagramas de árbol

Este diagrama nos permite indicar de manera sencilla el conjunto de posibles resultados en un
experimento aleatorio siempre y cuando los resultados del experimento puedan obtenerse en
diferentes fases sucesivas. Por ejemplo, un experimento aleatorio que consistente en lanzar al
aire un dado y después 3 veces consecutivas una moneda.

1.7.4. Variaciones, Permutaciones y Combinatoria.

a. Variaciones sin reemplazo.

Las variaciones sin reemplazo de m elementos, son los diferentes grupos que pueden formarse
con los m elementos dados, de modo que dos grupos difieren entre sí porque son distintos o
sus elementos están en distinto orden.

V (m, m) = m! = m ⋅ (m − 1) ⋅ (m − 2) ⋅ L ⋅ 3 ⋅ 2 ⋅1

b. Variaciones con reemplazo (repetición)

Variaciones con reemplazo de m elementos, son los diferentes grupos que pueden formarse
con los m elementos dados, en los que pueden aparecer elementos repetidos, de modo que dos
grupos difieren entre sí porque son distintos en al menos un elemento o sus elementos están en
distinto orden.
V R ( m, m ) = m m

c. Permutaciones1

Llamaremos permutaciones de m elementos tomados de n en n a los distintos subconjuntos


diferentes de n elementos que se pueden formar con los m elementos, influyendo el orden en
el que se toman

1
En Excel la función que permite calcular una permutación es =PERMUTACIONES(Número;
Tamaño), devuelve el número de permutaciones para un número determinado de objetos que pueden
ser seleccionados de los objetos totales; Número es el número total de objetos.

Autor: Pablo Tapia Página 10


ESTADISTCA I CAPITULO 2
Probabilidad

m!
P (m, n) =
(m − n)!

d. Permutaciones con reemplazo

Corresponde a los diferentes grupos que pueden formarse con los m elementos dados,
tomados de n en n , en los que pueden aparecer elementos repetidos, de modo que dos grupos
difieren entre sí porque al menos uno de los elementos es distinto o sus elementos están en
distinto orden.

PR (m, n) = m n

f. Permutación con elementos repetidos.

El número de permutaciones distintas de m elementos, donde hay un primer grupo de n1


objetos iguales entre si; n 2 objetos iguales entre si de un segundo tipo y así sucesivamente hasta
n k objetos iguales entre si de un último tipo, es decir, Σ ik=1 n i = m , entonces:

m!
P (m, n1 , n 2 ,..., n k ) =
n1 !⋅n 2 !⋅... ⋅ n k !

g. Combinaciones2

Llamaremos combinaciones de m elementos tomados de n en n al número de subconjuntos


diferentes de n elementos que se pueden formar con los m elementos del conjunto inicial. No
se tiene en cuenta el orden.

C (m, n) = ( ) = n!(mm−! n)!


m
n

h. Combinaciones con repetición

Los diferentes grupos que pueden formarse con los m elementos dados, tomados de n en n ,
en los que pueden aparecer elementos repetidos, de modo que dos grupos difieren entre sí
cuando, al menos, un elemento es distinto.

CR(m, n) = ( m + n −1
n ) = nm!(+mn−−11)!!

2
En Excel la función que permite calcular la combinatoria es =COMBINAT(Número; Tamaño),
devuelve el número de combinaciones para un número determinado de elementos.

Autor: Pablo Tapia Página 11


ESTADISTCA I CAPITULO 2
Probabilidad

II. CONCEPTO DE PROBABILIDAD.

El concepto de probabilidad es muy antiguo y a lo largo de la historia se ha definido de distintas


formas, aunque todas ellas mantienen en común las características básicas del concepto. En
general cuando hablemos de probabilidad lo haremos siempre en referencia a la probabilidad de
un suceso y la entenderemos como una medida cuantificada de la verosimilitud de ocurrencia
de un suceso frente a los demás sucesos del experimento. Pero que duda cabe que esta
definición no es del todo buena, pues se utiliza el término verosimilitud para definir la
probabilidad, cuando el mismo es un sinónimo de lo que se quiere definir. También podría
hablarse del grado de incertidumbre en la ocurrencia de los resultados de un experimento. En
cualquier caso la probabilidad de un suceso es una medida cuantificable que toma valores entre
cero y uno a diferencia del concepto de posibilidad que es una medida cualitativa.

Una vez que se ha dado el concepto de probabilidad en sentido amplio debemos señalar que a lo
largo de la historia podemos encontrar tres formas distintas de definir o interpretar la
probabilidad. Cada uno de ellas responde a un tipo de experimento distinto. En concreto,
supongamos que queremos calcular la probabilidad de los siguientes sucesos:

· Obtener un seis al lanzar un dado honesto.


· Obtener un seis al lanzar un dado cargado.
· Que la tasa de crecimiento del PIB de España sea superior al 4%.

Para obtener esas probabilidades hay que recurrir a enfoque o definiciones distintas. En realidad
esos enfoques sirven para establecer reglas de asignación de probabilidades a los sucesos más
que para definir la probabilidad.

2.1. Probabilidad clásica o a priori (Regla de Laplace).

Si el experimento que estamos realizando da lugar a un espacio muestral E que es finito y cuyos
resultados son conocidos de antemano y equisprobables o simétricos, entonces, la probabilidad
del suceso A perteneciente a E se define como el cociente de los resultados favorables a A
respecto del total de resultados posibles.

Número de resultados favorables a A


Pr( A) = (2.1)
Número de resultados posibles

A esta expresión se le conoce como regla de Laplace.

Este concepto de probabilidad está íntimamente ligado a los juegos de azar. Esta definición
satisface tres propiedades:

i. No negatividad: esto quiere decir que Pr( A) ≥ 0

ii. Certeza: Cuando un suceso ocurre con certeza, la probabilidad es igual a uno, por ejemplo,
el espacio muestral E ocurre con certeza, esto quiere decir Pr( E ) = 1

Autor: Pablo Tapia Página 12


ESTADISTCA I CAPITULO 2
Probabilidad

iii. Imposibilidad: Cuando un suceso es imposible de que ocurra, entonces la probabilidad de


este sucesos es igual a cero, por ejemplo, Pr(φ ) = 0

iv. Adición: Si A y B son dos sucesos del espacio E y ambos son mutuamente excluyentes,
entonces la probabilidad de C = A ∪ B será: Pr(C ) = Pr( A) + Pr( B) . En el caso de que A y B
no sean mutuamente excluyentes, es decir A ∩ B ≠ φ , entonces se debe cumplir
Pr(C ) = Pr( A) + Pr( B ) − Pr( A ∩ B ) , lo que será demostración más adelante.

Antes de finalizar con este concepto de probabilidad hay que señalar la razón de su
denominación. Así el adjetivo “clásica” hace alusión a que fue la forma en la que los primeros
estadísticos abordaron este concepto. A su vez el término “a priori” se refiere a que la
probabilidad de cualquiera de los sucesos de este tipo de experimentos es conocida incluso
antes que los mismos tengan lugar. De hecho no es necesario realizar el experimento para
conocer las probabilidades de sus resultados.

2.2. Probabilidad frecuencial o a posteriori.

En este caso la probabilidad de un suceso A se define como el límite de una frecuencia relativa,
cuando el experimento se realiza un número infinito de veces. Formalmente diremos que

ηi
Pr( Ai ) = lim ∀ i = 1,..., t (2.2)
T →∞ T

Donde

Ai : Es el evento i-ésimo de un infinito de un proceso generador de datos DGP (Data


generation process).
η i : Corresponde a la frecuencia absoluta (cantidad de veces encontradas en tendencia) del
evento Ai sobre un infinito de eventos.
T : Este término señala el total de eventos encontrados que converge el infinito.

Esta definición de probabilidad cumple también las tres propiedades enunciadas en el caso
anterior.

Con este concepto de probabilidad lo que se pretende es dar respuesta a experimentos en los
que no se cumplen los requisitos señalados anteriormente, en especial el de una probabilidad
cualquiera o simetría de los resultados. Esta circunstancia conlleva que la probabilidad de cada
resultado no sea conocido de antemano, siendo necesaria la realización del experimento para la
cuantificación de la misma.

Con esta definición se puede determinar la probabilidad de: las caras de un dado cuando el
mismo está cargado; pieza defectuosa en la producción de una empresa; accidente de tráfico;
factura impagada; cliente moroso; que el cliente de un establecimiento comercial sea menor de
25 años; que los ingresos de una persona sea superior a la media; etc.

Autor: Pablo Tapia Página 13


ESTADISTCA I CAPITULO 2
Probabilidad

La probabilidad definida bajo este enfoque también satisface las tres propiedades dadas
anteriormente.

Ejemplo 1. Los 1000 empleados de una empresa, según la edad y el sexo de los mismos,
vienen dados en la siguiente tabla de doble entrada.

EDAD SEXO Mujeres Hombres Total


Menos de 30 años 100 250 350
De 30 y más años 200 450 650
TOTAL 300 700 1000

Obtenga la probabilidad de que elegido un empleado al azar el mismo sea:


a) Hombre
b) Mujer
c) Menor de 30 años
d) De 30 o más años
e) Mujer menor de 30 años
f) Hombre de 30 y más años
Solución.
Antes de calcular esas probabilidades vamos a definir simbólicamente cada uno de esos sucesos:
A = El empleado seleccionado es hombre
B = El empleado seleccionado es mujer
C = El empleado seleccionado es menor de 30 años
D = El empleado seleccionado tiene 30 o más años
Entonces, al definir los sucesos de esta forma, las probabilidades pedidas son:
a) Pr( A) = 700 1000 = 0,7
b) Pr( B) = 300 1000 = 0,3
c) Pr(C ) = 350 1000 = 0,35
d) Pr( D) = 650 1000 = 0,65
e) Pr( B ∩ C ) = 100 1000 = 0,1
f) Pr( A ∩ D) = 450 1000 = 0,45

Autor: Pablo Tapia Página 14


ESTADISTCA I CAPITULO 2
Probabilidad

2.3. Probabilidad subjetiva.

Hay determinados experimentos aleatorios que no son susceptibles de realizarse y sus


resultados no poseen un valor numérico de probabilidad. Imaginemos que se quiere determinar
la probabilidad: de que la economía de CHILE crezca en el próximo año un 3%; que las
acciones de una empresa se revaloricen en un 10% en un mes; que una empresa presente
suspensión de pagos; que un nuevo producto sea bien acogido en el mercado; que ocurra un
accidente nuclear; etc.

En estas circunstancias, donde los experimentos solo se pueden realizar una vez o ninguna o
que se puedan repetir pero en condiciones distintas, no son aplicables ninguna de las dos
definiciones dadas anteriormente, por lo que no es posible asignar probabilidades mediante un
procedimiento objetivo, debiendo recurrir a procedimientos de tipo subjetivo, a opiniones de
expertos. En estos casos la probabilidad expresa un grado de creencia o confianza individual en
relación con la ocurrencia o no de un determinado suceso. Se trata de un juicio personal sobre
el resultado de un experimento aleatorio. Además debemos admitir la posibilidad de que
distintos sujetos asignen probabilidades diferentes al mismo suceso. No obstante esta definición
de probabilidad también satisface las tres propiedades vistas antes.

2.4. Probabilidad axiomática.

Para dar esta definición es preciso, previamente, definir el concepto de σ − álgebra de Boole. Un
σ − álgebra de Boole, que representaremos por {Ai }i∈I , es una familia de sucesos no vacía, la cual
contiene necesariamente los sucesos φ y E y que, además, es cerrada para las operaciones de
complementación y de unión de infinitos subconjuntos numerables de E , si E es el espacio
muestral del experimento. En base a este concepto, la probabilidad axiomática se define como
una función de conjunto, que llamaremos P (de partición), cuyo dominio es el σ − álgebra de
Boole y cuyo recorrido es el intervalo cerrado [0,1] si además satisface los tres axiomas siguientes
(axiomas de Kolmogorov):

1) Axioma de no negatividad. Pr( Ai ) ≥ 0 , para todo Ai ∈ P( E ) = {Ai }i∈I


2) Axioma de certeza. Pr( E ) = 1
3) Axioma de aditividad. Si {Ai }i∈I es una sucesión numerable de sucesos pertenecientes a E ,
tales que entre si son mutuamente excluyentes, Ai ∩ A j = φ ∀ i ≠ j , entonces

Pr⎛⎜
⎝ U i∈I
Ai ⎞⎟ =
⎠ ∑ i∈I
Pr( Ai ) (2.3)

A partir de la ecuación 2.3 se puede deducir lo siguiente, si {Ai }i∈I es un σ − álgebra en E y


además B es subconjunto de E , entonces se es posible deducir lo siguiente:

Pr( B) = Pr ⎛⎜
⎝ U i∈I
( Ai ∩ B) ⎞⎟ =
⎠ ∑ i∈I
Pr( Ai ∩ B ) (2.4)

Autor: Pablo Tapia Página 15


ESTADISTCA I CAPITULO 2
Probabilidad

III. TEOREMAS BÁSICOS SOBRE PROBABILIDAD.

A continuación vamos enunciar una serie de teoremas sobre probabilidad, de gran utilidad, que
se deducen de los axiomas anteriores.

1. Para cualquier suceso A ⊂ E se verifica que la probabilidad de su complementario


Pr( A c ) = 1 − Pr( A) .

Para demostrar este teorema partimos de que:

A ∪ Ac = E A ∩ Ac = φ (3.1)

En base a la ecuación 3.1 se puede establecer que un conjunto y su complemento conforman un


σ − álgebra en el conjunto E , por lo tanto, con esta ecuación más las propiedades antes
mencionadas se tiene que:

Pr( E ) = Pr( A ∪ A c ) = Pr( A) + Pr( A c ) = 1 ⇒ Pr( A c ) = 1 − Pr( A)

2. La probabilidad Pr es monótona no decreciente, es decir, para cualesquiera sucesos


A, B ⊂ E , tales que A ⊂ B , entonces Pr( A) ≤ Pr( B) .

Para demostrar este teorema se parte de que

B = A ∪ (B ∩ Ac ) A ∩ (B ∩ Ac ) = φ (3.2)

Utilizando el mismo principio que el punto anterior pero en la ecuación II.2, se tiene que:

( )
Pr( B ) = Pr A ∪ ( B ∩ A c ) = Pr( A) + Pr( B ∩ A c ) ≥ Pr( A)

3. Para cualquier suceso A ⊂ E se verifica que 0 ≤ Pr( A) ≤ 1

4. Regla general de la adición. Para cualesquiera sucesos A, B ⊂ E se verifica que


Pr(C ) = Pr( A) + Pr( B ) − Pr( A ∩ B ) .

Para demostrar este teorema vamos a expresar los sucesos A ∪ B y A como la unión de los
siguientes sucesos disjuntos:

A∪ B = B ∪ (A∩ Bc ) A = ( A ∩ B) ∪ ( A ∩ B c ) (3.3)

A su vez, la probabilidad de los mismos, según el tercero de los axiomas, viene dada por

Pr( A ∪ B ) = Pr( B ) + Pr( A ∩ B c ) (3.4)

Pr( A) = Pr( A ∩ B ) + Pr( A ∩ B c ) ⇒ Pr( A ∩ B c ) = Pr( A) − Pr( A ∩ B ) (3.5)

Autor: Pablo Tapia Página 16


ESTADISTCA I CAPITULO 2
Probabilidad

Al reemplazar la ecuación 3.5 en la ecuación 3.4 se tiene el resultado que se quería demostrar.

Ejemplo 2. Sean A y B dos sucesos tales que: Pr( A ∪ B) = 34 ; Pr( A c ) = 23 ; Pr( A ∩ B) = 14 .


Hallar a) Pr( A) , b) Pr(B) , c) Pr( B ∩ A c ) .
Solución.
a) Pr( A) = 1 − Pr( A c ) = 1 − 23 = 13
b) Pr( B) = Pr( A ∪ B) − Pr( A) + Pr( A ∩ B) = 23
c) Pr( A ∩ B c ) = Pr( A) − Pr( A ∩ B) = 121

Ejemplo 3. La probabilidad de que las acciones de una empresa financiera coticen al alza es
0,8, mientras que esa probabilidad para una empresa del sector nuevas tecnologías es 0,4. A su
vez, la probabilidad de que las dos coticen al alza es 0,3. Obtenga las siguientes probabilidades:
a) que coticen al alza al menos una de las dos empresas;
b) que ninguna de las dos cotice al alza;
c) que solo cotice una al alza.
Solución.
Para dar solución a este ejercicio vamos a proceder en primer lugar a definir los siguientes
sucesos:
A = La empresa del sector financiero cotiza al alza.
B = La empresa del sector nuevas tecnologías cotiza al alza.
C = Al menos una empresa cotiza al alza.
D = Ninguna de las dos empresas cotiza al alza.
F = Solo una empresa cotiza al alza.
a) A partir del enunciado sabemos que Pr( A) = 0,8 ; Pr( B) = 0,4 y Pr( A ∩ B) = 0,3 .
Con ello tenemos que:
Pr(C ) = Pr( A ∪ B ) = Pr( A) + Pr( B ) − Pr( A ∩ B ) = 0,9
b) El suceso D se puede expresar como:
D = A c ∩ B c = ( A ∪ B) c (3.6)
Si aplicamos el concepto de probabilidad a la ecuación II.6, se obtiene.
( )
Pr( D) = Pr ( A ∪ B) c = 1 − Pr( A ∩ B ) = 0,1
c) El suceso F se puede expresar como:
F = ( A ∩ B c ) ∪ ( A c ∩ B) (3.7)
Pero como se trata de la unión de dos sucesos disjuntos, entonces la probabilidad del suceso F
es:
Pr( F ) = Pr( A ∩ B c ) + Pr( A c ∩ B)
Ahora bien
A = ( A ∩ B ) ∪ ( A ∩ B c ) ⇒ Pr( A ∩ B c ) = Pr( A) − Pr( A ∩ B ) (3.8)
A su vez
B = ( A ∩ B ) ∪ ( A c ∩ B ) ⇒ Pr( A c ∩ B ) = Pr( B ) − Pr( A ∩ B ) (3.9)
Todo ello nos permite escribir
( )
Pr( F ) = Pr ( A ∩ B c ) ∪ ( A c ∩ B ) = Pr( A) + Pr( B ) − 2 Pr( A ∩ B) = 0,6

Autor: Pablo Tapia Página 17


ESTADISTCA I CAPITULO 2
Probabilidad

IV. PROBABILIDAD CONDICIONAL, REGLA DE LA MULTIPLICACIÓN E


INDEPENDENCIA DE SUCESOS.

Hasta ahora hemos definido la probabilidad de un suceso A referida a todo el espacio muestral
E del experimento. Supongamos ahora la existencia de otro suceso B definido sobre E y que
no sea incompatible con A , es decir que ( A ∩ B) ≠ φ . Esto significa que los sucesos A y B
tienen partes en común. Supongamos adicionalmente que tenemos la certeza de que ha
ocurrido el suceso B . Ahora estamos interesados en saber como cambia la probabilidad de A
sabiendo que ha ocurrido B . Sabiendo que ha ocurrido B , la probabilidad de que ocurra A se
representa por Pr( A / B) y se le conoce como probabilidad condicional. En estas circunstancias,
para calcular la probabilidad de A hay que cambiar el espacio de referencia el cual, ahora ya no
es E sino B , y habrá que exigir que no sea un espacio nulo, es decir, debe cumplirse que
Pr( B ) > 0 . Si sabemos que el suceso B ha ocurrido, entonces se sabe que el resultado del
experimento es uno de los incluidos en B . Por tanto, para evaluar la probabilidad de que
ocurra A , se debe considerar el conjunto de los resultados incluidos en B que también
implique la ocurrencia de A . Este conjunto viene dado por la intersección de A y B , es decir
( A ∩ B ) . En tales circunstancias resulta natural definir la probabilidad condicional de A dado
que ha tenido lugar B de la siguiente forma:

Pr( A ∩ B )
Pr( A / B) = (4.1)
Pr( B)

En realidad para definir esta probabilidad se ha recurrido a la regla de Laplace, en el sentido de


que si sabemos que ha ocurrido B , entonces, ahora, estos son los casos posibles del
experimento, mientras que los favorables estarían constituidos por todos aquellos elementos
que pertenecen simultáneamente a A y a B , es decir ( A ∩ B) .

Esta definición de probabilidad tiene la particularidad de que ha implicado una redefinición de


las probabilidades de A en base a la información que representa el conocimiento de la
presencia del suceso B , el cual es ahora el nuevo espacio muestral de referencia y que al ser
más pequeño que E supone una reducción de incertidumbre en relación con el suceso A .

Una vez dado el concepto de probabilidad condicional no resulta difícil demostrar que esta
definición satisface los tres axiomas de la probabilidad.

A partir de esta definición del concepto de probabilidad condicional se puede expresar la


correspondiente al suceso intersección como:

Pr( A ∩ B ) = Pr( A) Pr( B / A) = Pr( B) Pr( A / B ) (4.2)

A esta forma de dar la probabilidad de la intersección de dos sucesos se le conoce como regla
del producto. Si en lugar de tener dos sucesos se tuvieran tres, entonces la probabilidad de la
intersección de los tres vendrá dada por:

Pr( A ∩ B ∩ C ) = Pr( A) Pr( B / A) Pr(C / A ∩ B) (4.3)

Autor: Pablo Tapia Página 18


ESTADISTCA I CAPITULO 2
Probabilidad

o por cualquiera de las otras cinco ordenaciones posibles. Esta regla puede extenderse para el
caso de que el número de sucesos sea mayor que tres.

La definición de probabilidad condicional pone de manifiesto que la ocurrencia de un suceso B


puede modificar la probabilidad de otro suceso A . Si esto no ocurriera se diría que los sucesos
A y B son independientes. Antes de dar una definición formal de este concepto haremos uso
de un ejemplo donde queden claras estas ideas.

Ejemplo 4. Supongamos que se tiene un dado de seis caras construido de forma honesta. En
tal caso todas las caras son equisprobables y el espacio muestral asociado al experimento que
consiste en lanzarlo al aire es E = {1, 2, 3, 4, 5, 6} . A partir de este espacio muestral vamos a
definir los sucesos: A = {obtener número par}; B = {obtener un dos o un cinco}; C = {obtener un
número cuatro}.
Solución.
Para este experimento aleatorio, las probabilidades de los sucesos definidos antes son:
Pr( A) = 12 ; Pr( B ) = 13 ; Pr(C ) = 16 . Ahora bien, si nos dijeran que al lanzar el dado ha tenido
lugar el suceso C , entonces Pr( A / C ) = 1 , dado que A ⊂ C . Vemos como el conocer que ha
tenido lugar C modifica la probabilidad de A . Por otro lado, si nos hubieran dicho que ha
ocurrido B resulta ahora que:
Pr( A ∩ B ) 1 6 1
Pr( A / B) = = = = Pr( A)
Pr( B) 13 2
En este caso la presencia de B no ha alterado la probabilidad del suceso A . En estas
circunstancias se dice que la probabilidad de A no depende de la presencia de B . Esta idea se
puede expresar también diciendo que A y B son dos sucesos independientes. Es decir, los
sucesos A y B se dicen que son independientes cuando la presencia de uno de ellos no afecta a
la probabilidad del otro.

Si el resultado de este ejemplo lo lleváramos a la regla del producto definida antes se tiene
entonces que:

Pr( A ∩ B ) = Pr( A) Pr( B ) (4.4)

Pues bien, cuando se cumple esta última igualdad se dice que los sucesos son independientes.
Esta condición de independencia entre sucesos es equivalente a que Pr( A) = Pr( A / B) , o bien
que Pr( B) = Pr( B / A) . Pero que dos sucesos sean independientes no significa que sean
mutuamente excluyentes. Este segundo caso se da cuando esos sucesos no pueden ocurrir
simultáneamente y, por lo tanto, su intersección es el suceso imposible, por lo que su
probabilidad será nula.

Si en lugar de tener los sucesos A y B se tuvieran los sucesos A , B y C , entonces se diría


que los tres son independientes si lo son dos a dos y los tres a la vez. Es decir si se cumple que:

Pr( A ∩ B ) = Pr( A) Pr( B ), Pr( A ∩ C ) = Pr( A) Pr(C ), Pr( B ∩ C ) = Pr( B ) Pr(C ) (4.5)

Pr( A ∩ B ∩ C ) = Pr( A) Pr( B ) Pr(C ) (4.6)

Autor: Pablo Tapia Página 19


ESTADISTCA I CAPITULO 2
Probabilidad

Ejemplo 5. En un departamento hay cuatro ordenadores numerados del 1 al 4. Si se


seleccionan dos ordenadores al azar y se definen los sucesos A = {1, 2} , B = {1, 3} y C = {1, 4} ,
resulta que Pr( A) = Pr( B) = Pr(C ) = 12 . Además de la ecuación 3.5 se tiene que
Pr( A ∩ B ) = 1
4
= Pr( A) Pr( B), Pr( A ∩ C ) = 1
4
= Pr( A) Pr(C ), Pr( B ∩ C ) = 1
4
= Pr( B) Pr(C )
Este resultado nos permite decir que los sucesos son independientes por pares. En cambio:
Pr( A ∩ B ∩ C ) = 1
4
≠ 1
8
= Pr( A) Pr( B) Pr(C )
Ello nos lleva a concluir que esos tres sucesos no son independientes.

Ejemplo 6. La probabilidad de que una empresa venda un producto defectuoso cuando la


producción se somete a un proceso diario de control de calidad es 0,005. La probabilidad de
que un día no haya control de calidad es 0,05 y la probabilidad de que esa empresa venda un
producto defectuoso es 0,02. Determinar:
a) La probabilidad de que se venda un producto defectuoso y que haya control de calidad.
b) La probabilidad de que habiéndose vendido un producto defectuoso haya habido control de
calidad.
c) La probabilidad de que habiéndose vendido un producto defectuoso no haya habido control
de calidad.
d) La probabilidad de que habiéndose vendido un producto no defectuoso haya habido control
de calidad.
e) La probabilidad de que habiéndose vendido un producto no defectuoso no haya habido
control de calidad.
f) La probabilidad de que no habiendo control de calidad se venda un producto defectuoso.
g) La probabilidad de que no habiendo control de calidad se venda un producto no defectuoso.
Solución.
Antes de dar respuesta a cada uno de estos apartados vamos a definir los siguientes sucesos:
D = {venta de producto defectuoso} y C = {hay control de calidad}.
A su vez, el enunciado del ejercicio nos facilita la siguiente información:
Pr( D / C ) = 0,005; Pr( D) = 0,02; Pr(C c ) = 0,05
A partir de esta información resulta inmediato que:
Pr( D c / C ) = 1 − Pr( D / C ) = 0,995; Pr( D c ) = 1 − Pr( D) = 0,98; Pr(C ) = 1 − Pr(C c ) = 0,95
Con toda esta información tenemos que:
Pr(C ∩ D)
a) Pr(C / D) = ⇒ Pr(C ∩ D) = Pr(C / D) Pr(C ) = 0,00475
Pr(C )
Pr(C ∩ D)
b) Pr(C / D) = = 0,2375
Pr( D)
c) Pr(C c / D) = 1 − Pr(C / D) = 0,7625
Pr(C ∩ D c ) Pr(C ) Pr( D c / C )
d) Pr(C / D c ) = = = 0,9645
Pr( D c ) Pr( D c )
e) Pr(C c / D c ) = 1 − Pr(C / D c ) = 0,0355
Pr(C c ∩ D) Pr( D) Pr(C c / D)
f) Pr( D / C c ) = = = 0,305
Pr(C c ) Pr(C c )
g) Pr( D c / C c ) = 1 − Pr( D / C c ) = 0,695

Autor: Pablo Tapia Página 20


ESTADISTCA I CAPITULO 2
Probabilidad

Para todos los apartados, puede apreciarse como influye de manera decisiva sobre la
probabilidad inicial de los sucesos C y D (así como de sus respectivos complementarios) la
información que se incorpora en el cálculo de las respectivas probabilidades condicionales. Así,
mientras que Pr(C ) = 0,95 , en cambio, Pr(C / D) = 0,2375 . Es decir, la probabilidad de que se
realice un control de calidad es alta y, en esas circunstancias, es poco probable que se venda una
pieza defectuosa (esa probabilidad no llega al 1%). Sin embargo, si se sabe que la pieza vendida
es defectuosa entonces será poco probable que haya habido control de calidad, como de hecho
se confirma con la nueva probabilidad. Este tipo de razonamiento es aplicable a todas las demás
situaciones contempladas en este ejercicio.

Ejemplo 7. Una empresa que se dedica a la venta de sus productos por internet está interesada
en conocer cuales son sus clientes potenciales. Para ello realiza una encuesta a 1000 personas
atendiendo a su edad y al número de horas semanales que navegan en al red, obteniendo los
resultados que se dan en la tabla siguiente.

Menor de De 25 a 45 Mayores de
HORAS EDAD 25 años años 45 años Total
Menos de 7 horas 100 250 100 450
De 7 a 14 horas 100 150 100 350
Más de 14 horas 100 50 50 200
Total 300 450 250 1000

A partir de la información de esta tabla se van a definir los siguientes sucesos:


A1 = persona menor de 25 años
A2 = persona de 25 a 45 años
A3 = persona mayor de 45 años
B1 = navegar menos de 7 horas a la semana
B 2 = navegar entre 7 y 14 horas a la semana
B3 = navegar más de 14 horas a la semana.
Con esta notación, la tabla anterior se puede expresar como:

HORAS EDAD A1 A2 A3 Total


B1 ( A1 ∩ B1 ) = 100 ( A2 ∩ B1 ) = 250 ( A3 ∩ B1 ) = 100 450
B2 ( A1 ∩ B 2 ) = 100 ( A2 ∩ B 2 ) = 150 ( A3 ∩ B 2 ) = 100 350
B3 ( A1 ∩ B3 ) = 100 ( A2 ∩ B3 ) = 50 ( A3 ∩ B3 ) = 50 200
Total 300 450 250 1000

Llegados a este punto se obtiene la siguiente tabla de probabilidades, siempre y cuando


admitamos que la muestra anterior es representativa de la población de la que se ha extraído:

Autor: Pablo Tapia Página 21


ESTADISTCA I CAPITULO 2
Probabilidad

HORAS EDAD A1 A2 A3 Total


B1 Pr( A1 ∩ B1 ) = 0,1 Pr( A2 ∩ B1 ) = 0,25 Pr( A3 ∩ B1 ) = 0,1 Pr( B1 ) = 0,45
B2 Pr( A1 ∩ B 2 ) = 0,1 Pr( A2 ∩ B 2 ) = 0,15 Pr( A3 ∩ B 2 ) = 0,1 Pr( B 2 ) = 0,35
B3 Pr( A1 ∩ B3 ) = 0,1 Pr( A2 ∩ B3 ) = 0,5 ( A3 ∩ B3 ) = 50 Pr( B3 ) = 0,2
Total Pr( A1 ) = 0,3 Pr( A2 ) = 0,45 Pr( A3 ) = 0,25 1

La lectura del contenido de esta tabla es sencillo. Supongamos ahora que queremos determinar
la probabilidad de que, seleccionada una persona al azar, ésta navegue más de 14 horas a la
semana sabiendo que es menor de 25 años. Para determinar esa probabilidad no tiene sentido
que trabajemos con todo el espacio muestral (las 1000 personas de la muestra), pues sabemos
que es menor de 25 años. Así pues nuestro nuevo espacio muestral será el formado por el
suceso A1 . Ahora el denominador de esa frecuencia relativa, que es la probabilidad, no es
1000, sino que es A1 = 300 . A su vez el numerador deja de ser B3 = 200 , pues dentro de ese
colectivo de 200 personas que navegan más de 14 horas a la semana hay algunas que tienen más
de 25 años, pero nosotros sabemos que nuestra persona seleccionada es menor de 25. Ahora el
numerador es ( A1 ∩ B3 ) = 100 . Todo ello lleva a que la nueva probabilidad viene dada por el
cociente:
Pr( B3 ∩ A1 ) 1
Pr( B3 / A1 ) = =
Pr( A1 ) 3
Además, como Pr( B3 ) = 0,20 , resulta que los sucesos A1 y B3 no son independientes. Pero
como estos sucesos no son independientes, se puede concluir que, para este ejemplo, los
atributos edad y horas de navegación en internet tampoco son independientes.

A partir de los datos de esta última tabla de doble entrada podemos definir los conceptos de
probabilidad conjunta y probabilidad marginal. La primera es la que hace alusión a la presencia
o aparición simultánea de más de un suceso elemental, es decir, la probabilidades de la
intersección Pr( Ai ∩ A j ) para cualquier i o j. En cambio las probabilidades marginales son las
de los sucesos elementales, Pr( Ai ) o Pr( B j ) .

Pero cualquier suceso elemental se puede expresar como la unión de un conjunto de sucesos
mutuamente excluyentes. Para el ejemplo que estamos usando se tiene que el suceso A2 sería:

A2 = ( A2 ∩ B1 ) ∪ ( A2 ∩ B 2 ) ∪ ( A2 ∩ B3 ) (4.7)

y, en general, para el suceso Ai .

Ai = U j∈I
( Ai ∩ B j ) (4.8)

Esto lleva a que cualquier toda probabilidad marginal se pueda poner como una suma de
probabilidades conjuntas. Es decir:

Autor: Pablo Tapia Página 22


ESTADISTCA I CAPITULO 2
Probabilidad

Pr( Ai ) = ∑ j∈I
Pr( Ai ∩ B j ) (4.9)

Ahora si utilizamos la ecuación 4.1 en la 4.9 se obtiene que:

Pr( Ai ) = ∑ j∈I
Pr( Ai / B j ) Pr( B j ) (4.10)

A este resultado se le conoce como Teorema de la probabilidad total.

Ejemplo 8. Una empresa dedicada al montaje de ordenadores recibe procesadores


procedentes de tres fabricantes distintos. Los procesadores que recibe pueden ser buenos o
defectuosos y, por experiencia anterior, esta empresa trabaja con los siguientes datos:
COMPONENTE EMPRESA H1 H2 H3
BUENO (B) 0,23 0,30 0,39
DEFECTUOSO (D) 0,02 0,05 0,01
a) Si se elige un procesador al azar de entre todos los recibidos, ¿cuál es la probabilidad de que
sea defectuoso?
b) Si se elige un procesador al azar de entre todos los recibidos, ¿cuál es la probabilidad de que
proceda de la empresa H 1 ?
c) ¿Cuál es la probabilidad de que un procesador procedente de la empresa H 1 sea defectuoso?
d) ¿Cuál es la probabilidad de que un procesador defectuoso elegido al azar proceda de la
empresa H 1 ?
e) ¿Es la calidad del procesador independiente del proveedor?
f) Teniendo en cuenta la calidad, ¿cuál de las empresas es más fiable?
Solución
En este ejemplo la información viene dada en forma de tabla de doble entrada que se puede
completar en la manera siguiente:
COMPONENTE EMPRESA H1 H2 H3 Total
BUENO (B) 0,23 0,30 0,39 0,92
DEFECTUOSO (D) 0,02 0,05 0,01 0,08
Total 0,25 0,35 0,40 1,00
Con esta información las respuestas a cada uno de los apartados anteriores serían las siguientes:
a) Pr( D) = ∑ i =1 Pr( H i ∩ D) = 0,02 + 0,05 + 0,01 = 0,08
3

b) Pr( H 1) = 0,25
Pr( D ∩ H 1 )
c) Pr( D / H 1 ) = = 0,08
Pr( H 1 )
Pr( D ∩ H 1 )
d) Pr( H 1 / D) = = 0,25
Pr( D)
e) No, porque aunque Pr( H 1 / D) = Pr( H 1 ) , sin embargo, Pr( H 2 / D) ≠ Pr( H 2 ) y
Pr( H 3 / D) = Pr( H 3 ) , como es fácil de comprobar.
f) La más fiable resulta ser H3, según se desprende de las siguientes probabilidades
condicionales: Pr( D / H 1 ) = 0,08; Pr( D / H 2 ) = 0,143; Pr( D / H 3 ) = 0,025 .

Autor: Pablo Tapia Página 23


ESTADISTCA I CAPITULO 2
Probabilidad

Ejemplo 9. En este ejemplo vamos a realizar una aplicación del concepto de probabilidad
condicional en un contexto de muestreo, donde alguna de las preguntas del cuestionario sea de
tal naturaleza que haya reticencias a contestarla de forma directa. En concreto, imaginemos que
deseamos conocer la probabilidad de que una familia, en su declaración de renta, cometa
fraude. Está claro que, si esta pregunta se hace de forma directa, lo más probable es que se
tengan muchas respuestas falsas o muchas respuestas en blanco. Para evitar cualquiera de estas
dos posibilidades y alcanzar el objetivo marcado se puede proceder de la forma siguiente. Se
formulan dos preguntas:
a) ¿es par el último dígito de su DNI?
b) ¿ha cometido fraude en la declaración de la renta?. Cada entrevistado ha de responder solo a
una de ellas en función del siguiente criterio: antes de responder lanza una moneda al aire y
solo él conoce el resultado de ese lanzamiento. Si sale cara responderá a la pregunta a),
mientras que si sale cruz responderá a
b). Realizado este experimento el 40% de los entrevistados respondieron “si”. En estas
circunstancias nuestro interés radica en determinar la probabilidad de que habiendo contestado
a la parte b) haya dicho que “si”. Como puede comprobarse, con este procedimiento se
garantiza al entrevistado que su respuesta es anónima y que solo él conoce la naturaleza de la
misma. A este procedimiento se le conoce como muestreo con respuesta aleatorizada.
Solución
Veamos ahora cual es la probabilidad pedida. En primer lugar definamos los siguientes sucesos:
A = {el entrevistado responde “si”}, B = {el entrevistado responde a la pregunta a)}, C = {el
entrevistado responde a la pregunta b)}.
Para estos suceso sabemos que: Pr( A) = 0,40 ; Pr( B) = 0,50 y Pr(C ) = 0,50 . Estas dos últimas
probabilidades se deben a que son el resultado del lanzamiento de una moneda. Además
sabemos que Pr( A / B) = 0,50 , pues la mitad de los DNI termina en número par. Con toda esta
información lo que se pretende es calcular Pr( A / C ) . Como los sucesos A y C se han
construido de forma que sean mutuamente excluyentes y exhaustivos se tiene que:
( B ∩ A) ∪ (C ∩ A) = A (4.10)
De la ecuación 4.10 y con la ecuación 4.1 se obtiene la siguiente expresión
Pr( A) = Pr( B ∩ A) + Pr(C ∩ A) = Pr( A / B ) Pr( B ) + Pr( A / C ) Pr(C ) (4.11)
Luego en base a la ecuación 3.11 es posible encontrar una expresión para Pr( A / C ) , tal que:
Pr( A) − Pr( B ) Pr( A / B )
Pr( A / C ) = = 0,30
Pr(C )

Ejemplo 10. Un analista financiero está realizando un estudio para la captación de clientes en
base a los registros de su antigua empresa. A partir de esos datos ha concluido que la
probabilidad de que un cliente entre en el mercado de renta variable es 0,10. Además ha
observado que para ese tipo de clientes, el 30% crean su propia cartera de valores y de ellos la
mitad son partícipes de fondos de inversión. También ha observado que de los que no tienen
cartera propia, el 40% destinan sus ahorros a fondos de inversión.
Con esta información vamos definir los siguientes sucesos:
A = invierte en bolsa
B = invierte en cartera propia
C = Invierte en fondos.
Para ellos se sabe que:

Autor: Pablo Tapia Página 24


ESTADISTCA I CAPITULO 2
Probabilidad

Pr( A) = 0,10; Pr( B / A) = 0,30; Pr(C / A ∩ B ) = 0,50; Pr(C / A ∩ B c ) = 0,40


Determinar:
a) Probabilidad de A y B .
b) Probabilidad de A y B y C .
c) Probabilidad de C .
d) Probabilidad de B .
e) Probabilidad de A ó B ó C .
f) Probabilidad de no A , no B y no C .
Solución
Dadas las probabilidades iniciales se llega a que:
Pr( A c ) = 0,90; Pr( B c / A) = 0,70; Pr(C c / A ∩ B ) = 0,50; Pr(C c / A ∩ B c ) = 0,50;
Pr( B / A c ) = 0; Pr( B c / A c ) = 1; Pr(C / A c ∩ B) = 0; Pr(C c / A c ∩ B) = 1;
Pr(C / A c ∩ B c ) = 0; Pr(C c / A c ∩ B c ) = 1
a) El suceso definido en este apartado, para este ejemplo, es equivalente a este otro:
( A ∩ B ) = [ A ∩ B ∩ (C ∪ C c )] = ( A ∩ B ∩ C ) ∪ ( A ∩ B ∩ C c ) (4.12)
por lo que de la ecuación 4.12 la probabilidad pedida es:
Pr( A ∩ B ) = Pr( A ∩ B ∩ C ) + Pr( A ∩ B ∩ C c ) (4.13)
A partir de la ecuación 4.13 junto con la ecuación 3.3 se tiene que:
Pr( A ∩ B) = Pr( A) Pr( B / A) Pr(C /( A ∩ B)) + Pr( A) Pr( B / A) Pr(C c /( A ∩ B)) (4.14)
Sin embargo, la ecuación 4.14 se puede reducir a la siguiente expresión
( )
Pr( A ∩ B) = Pr( A) Pr( B / A) Pr(C /( A ∩ B )) + Pr(C c /( A ∩ B )) = Pr( A) Pr( B / A) (4.15)
De la ecuación 4.15 se puede decir que:
Pr( A ∩ B ) = Pr( A) Pr( B / A) = 0,3
b) Pr( A ∩ B ∩ C ) = Pr( A) Pr( B / A) Pr(C / A ∩ B) = 0,015
c)
( ) ( ) (
Pr(C ) = Pr (( A ∩ B ) ∩ C ) + Pr ( A c ∩ B ) ∩ C + Pr ( A ∩ B c ) ∩ C + Pr ( A c ∩ B c ) ∩ C ) (4.16)
Utilizando la ecuación 4.3 en la ecuación 4.16 se obtiene el siguiente resultado:
Pr(C ) = 0,043
d) Utilizando la ecuación 4.16 pero para el conjunto B , se obtiene que:
Pr( B ) = 0,03
e)
Pr( A ∪ B ∪ C ) = Pr( A ∩ B ∩ C ) + Pr( A c ∩ B ∩ C ) + Pr( A ∩ B c ∩ C )
+ Pr( A ∩ B ∩ C c ) + Pr( A c ∩ B c ∩ C ) + Pr( A c ∩ B ∩ C c ) (4.17)
+ Pr( A ∩ B c ∩ C c )
Reemplazando la ecuación 4.3 en la ecuación 4.17 se obtiene el siguiente resultado:
Pr( A ∪ B ∪ C ) = 0,10
f) Pr( A ∩ B ∩ C ) = Pr( A ) Pr( B / A c ) Pr(C c / A c ∩ B c ) = 0,9
c c c c c

Autor: Pablo Tapia Página 25


ESTADISTCA I CAPITULO 2
Probabilidad

V. TEOREMA DE BAYES.

Supongamos que tenemos un espacio muestral sobre el realizamos dos particiones tales cada
una de ellas es exhaustiva. Tal podría ser el caso de un conjunto de 1000 personas que las
clasificamos en relación a la actividad y la edad. Admitamos que esa clasificación nos lleva a la
siguiente tabla:

16-19 ( H 1 ) 20-24 ( H 2 ) 25-54 ( H 3 ) 55 + ( H 4 ) Total


Activos ( A1 ) 25 35 425 50 535
No activos ( A2 ) 70 60 185 150 465
Total 95 95 610 200 1000

Ahora seleccionamos una persona al azar y nos preguntamos cual es la probabilidad de que sea
Activo. En este caso, tal probabilidad viene dada por Pr( A1 ) = 535 1000 = 0,535 . Al mismo
resultado se habría llegado si hubiéramos hecho uso del teorema de la probabilidad total que se
vio en el apartado anterior:


4
Pr( Ai ) = Pr( H i ) Pr( A1 / H i ) = 0,535
i =1

Para este ejemplo puede resultar innecesario la aplicación de esta última expresión, dada la
abundante información de que se dispone. Pero si en lugar de conocer la tabla completa solo
conociéramos la distribución porcentual de la población por edad (probabilidades de pertenecer
a un grupo de edad concreto) y las tasas de actividad por edad (probabilidades condicionadas),
entonces no se podría haber aplicado la definición de probabilidad frecuencial y la única
solución habría sido el uso del teorema de la probabilidad total. La probabilidad del suceso A1
es, en ese caso, la tasa de actividad total que, puede comprobarse, es una media ponderada de
las tasas de actividad por edades, siendo las ponderaciones el peso relativo de cada grupo de
edad

Este resultado nos sirve para introducir el Teorema de Bayes. La aplicación de este teorema ha
dado lugar al nacimiento de una rama de la Estadística. La que se conoce como Teoría
Bayesiana. No es este el momento de entrar en más detalles respecto de esta cuestión, por lo
que nos limitaremos exponer el teorema en sí. Para ello haremos uso del ejemplo.

Supongamos de nuevo que sobre un espacio muestral podemos realizar dos particiones que son,
cada una de ellas, exhaustivas. Entonces, por la definición de probabilidad condicional tenemos
que:

Pr( H i ∩ A1 ) Pr( A1 / H i ) Pr( H i )


Pr( H i / A1 ) = = (4.1)

t
Pr( A1 ) Pr( A1 / H j ) Pr( H j )
j =1

En el ejemplo con el que estamos trabajando t = 4 . A los posibles t resultados se les conoce
habitualmente como causas o hipótesis y a Pr( H i ) se les llama probabilidades a priori, mientras que

Autor: Pablo Tapia Página 26


ESTADISTCA I CAPITULO 2
Probabilidad

a Pr( H i / A1 ) se les llama probabilidades a posteriori y, finalmente, a Pr( A1 / H i ) se les conoce


como verosimilitudes.

La idea de este teorema es muy simple. Con el mismo lo que se pretende es modificar el
conocimiento inicial que se tiene a cerca de una determinada realidad (las probabilidades a
priori), haciendo uso de una información adicional que generalmente es de tipo muestral (las
verosimilitudes). Se trata de ver en qué medida es información muestral nos lleva a cambiar
nuestras hipótesis iniciales.

Ejemplo 11. Un analista de coyuntura económica quiere realizar predicciones a corto plazo
sobre la evolución de la economía. Para ello utiliza como indicador adelantado el consumo de
energía eléctrica. Por experiencia pasada sabe que cuando la economía crece durante un
periodo a un ritmo superior al del periodo anterior (escenario A ) la probabilidad de que el
consumo eléctrico sea alto es 0,90. Si ese crecimiento es igual al del periodo anterior
(escenario B ) la probabilidad anterior es 0,50. Finalmente, si el crecimiento está por debajo al
observado en el periodo anterior (escenario C ), entonces aquella probabilidad se reduce al
0,20. Además se sabe que los pronósticos respecto del comportamiento de la economía asignan
al escenario A una probabilidad del 0,20 y al B del 0,60. Determinar:
a) La probabilidad de que se de el escenario A y que el consumo eléctrico sea alto.
b) La probabilidad de que el consumo eléctrico sea alto.
c) Si el consumo es alto, ¿cuál es la probabilidad de los distintos escenarios?
Solución
Antes de responder a las tres cuestiones planteadas vamos a representar simbólicamente cada
uno de los sucesos definidos en el ejercicio así como a resumir las probabilidades que se nos
dan.
A = tiene lugar el escenario A .
B = tiene lugar el escenario B .
C = tiene lugar el escenario C .
D = consumo eléctrico alto.
Pr( A) = 0,20; Pr( B) = 0,60; Pr(C ) = 0,20; Pr( D / A) = 0,90; Pr( D / B ) = 0,50; Pr( D / C ) = 0,20
a) Pr( A ∩ D) = Pr( A) Pr( D / A) = 0,18
b)
Pr( D) = Pr( A ∩ D) + Pr( B ∩ D) + Pr(C ∩ D)
= Pr( A) Pr( D / A) + Pr( B ) Pr( D / B ) + Pr(C ) Pr( D / C )
= 0,52
c)
Pr( A ∩ D) Pr( A) Pr( D / A)
Pr( A / D) = = = 0,346
Pr( D) Pr( D)
Pr( B ∩ D) Pr( B) Pr( D / B )
Pr( B / D) = = = 0,577
Pr( D) Pr( D)
Pr(C ∩ D) Pr( A) Pr( D / C )
Pr(C / D) = = = 0,077
Pr( D) Pr( D)

En este ejemplo, la interpretación de los resultados sería la siguiente. La probabilidad a priori


del suceso A es relativamente baja (solo del 0,20). Pero este suceso se asocia positivamente

Autor: Pablo Tapia Página 27


ESTADISTCA I CAPITULO 2
Probabilidad

con D y como este ha tenido lugar, ahora, la probabilidad a posteriori es superior a la inicial.
Es decir, las previsiones de las que se partía hay que revisarlas al alza pues ha tenido lugar un
suceso que nos induce a pensar que la probabilidad de que la economía crezca es superior a la
de partida.

La información de este ejercicio, así como los resultados del mismo, se puede resumir en la
siguiente tabla:

Sucesos Probabilidad Verosimilitud Probabilidad Probabilidad


(Escenarios) a priori total a posteriori
A 0,20 0,90 0,18 0,346
B 0,60 0,50 0,30 0,577
C 0,20 0,20 0,04 0,077
Total 1,00 0,52 1,000

Ejemplo 12. Una empresa que se dedica a al envasado de café utiliza a tal efecto tres máquinas
A , B y C . De ellas sabe, por controles de calidad previos, que la primera deposita menos
cantidad de la establecida en un 2% de los paquetes, la segunda en 1% y la tercera en un 3%. El
40% del envasado lo realiza la máquina A y el 35% la B . Si se selecciona al azar un paquete,
determinar la probabilidad:
a) de que proceda de A si tiene menos cantidad de la establecida;
b) de que no proceda de A si tiene la cantidad correcta.
Solución.
Sean:
A = envasado por A .
B = envasado por B .
C = envasado por C .
D = menos cantidad de la establecida.
Pr( A) = 0,40; Pr( B) = 0,35; Pr(C ) = 0,25; Pr( D / A) = 0,02; Pr( D / B ) = 0,01; Pr( D / C ) = 0,03
a) Previamente es necesario obtener la probabilidad de D .
Pr( D) = Pr( A ∩ D) + Pr( B ∩ D) + Pr(C ∩ D)
= Pr( A) Pr( D / A) + Pr( B) Pr( D / B ) + Pr(C ) Pr( D / C )
= 0,019
Pr( A ∩ D ) Pr( A) Pr( D / A)
⇒ Pr( A / D) = = = 0,421
Pr( D) Pr( D)
b) Para resolver este problema será necesario utilizar las propiedades de complementariedad y
la regla general de adición, es decir:
Pr( A c / D c ) =
Pr( A c ∩ D c )
=
(
Pr ( A ∪ D) c
=
)
1 − Pr( A ∪ B)
Pr( D c ) Pr( D c ) 1 − Pr( D)
1 − Pr( A) − Pr( B ) + Pr( A ∩ B)
= = 0,6
1 − Pr( D)

Autor: Pablo Tapia Página 28


ESTADISTCA I CAPITULO 2
Probabilidad

VI. DECISIONES MULTIPLES.

6.1. Variables Aleatorias Discretas.

Considere un experimento cuyo espacio muestral es el conjunto E. Una función con valores
reales que está definida sobre el espacio E recibe el nombre de variable aleatoria. En otras
palabras, en un experimento concreto, una variable aleatoria X sería una función que asigna un
número real X ( Ai ) a cada resultado posible (suceso o evento) Ai ∈ E .

Ejemplo 13. Considere un experimento en el cual es lanzado una sola vez un dado
equilibrado, establezca una variable aleatoria para este experimento.
Solución.
En este caso se debe tener presente que el espacio muestral corresponde a E = {1, 2, 3, 4, 5, 6} ,
por lo tanto, cada evento posible de este experimento se define como Ai = i , de este modo una
variable aleatoria para este evento podría ser X ( Ai ) = Ai = i , sin embargo también se puede
definir a X 1 ( Ai ) = 2i ó X 2 ( Ai ) = i 2 , tal que los valores reales para cada variable aleatoria
definida serían los que se aprecian en la siguiente tabla.

Ai X ( Ai ) = x X 1 ( Ai ) = x1 X 2 ( Ai ) = x 2
1 1 1 1
2 2 4 4
3 3 6 9
4 4 8 16
5 5 10 25
6 6 12 36

Esto nos lleva a concluir que no existe una única forma de establecer una variable aleatoria,
pero se debe tener en cuenta que cada valor debe tener asociado al menos un evento, de lo
contrario, la definición de la variable aleatoria sería errada.

Ejemplo 14. Considere un experimento en el cual son lanzados dos dados equilibrados, y se
debe establecer una variable aleatoria para describir este experimento.
Solución.
Supongamos que cada dado serán identificados por las letras A y B respectivamente, por lo
tanto, el espacio muestral en este caso se define como: E = {( Ai , B j )} ti , j =1 , entonces, algunas
variables aleatorias que se pueden utilizar para describir este experimento es
X 1 ( Ai , B j ) = Ai + B j , X 2 ( Ai , B j ) = Ai , X 3 ( Ai , B j ) = Ai ⋅ B j , etc.

Claramente en este ejemplo, cada variable aleatoria definida tiene asociado al menos un evento
perteneciente al espacio muestral, pero como cada variable aleatoria posee un estructura
diferente el número de coincidencias entre los sucesos y esta variable son totalmente diferentes
para cada caso, esto sugiere que la frecuencia para cada valor real puede ser diferente.

Autor: Pablo Tapia Página 29


ESTADISTCA I CAPITULO 2
Probabilidad

6.2. Esperanza de una Variable Aleatoria Discreta.

Supóngase que una variable aleatoria X que describe una espacio muestral, y que cada valor
posee una frecuencia absoluta, de forma que podemos calcular la media aritmética de esta
variable X , tal que:

∑ ∑
t t
η i xi η x
i =1 i =1 i i
XT = = (6.1)

t T
ηi
i =1

Dado el T corresponde al número total de eventos pertenecientes al espacio muestral en la


ecuación 6.1, el cual no depende de la sumatoria, por lo que este elemento se puede introducir
a la ecuación, con lo que se obtiene la siguiente ecuación:

ηi
∑ ∑ ∑
t t t
XT = 1
η i xi = 1
η x = xi (6.2)
T i =1 i =1 T i i i =1 T

Ahora aplicamos la definición de probabilidad frecuencial o a posteriori a la ecuación 6.2 se


convierte en la siguiente expresión:

ηi
∑ ∑
t t
XT = xi = Pr( x i ) ⋅ x i = E ( X ) (6.3)
i =1 T i =1

Ahora el lado derecho de la ecuación 6.3 se conoce como esperanza muestral o la esperanza de la
variable X , la cual puede ser interpretada como el número más probable de encontrar dentro
de un espacio muestral E o el valor más probable que puede tomar la variable X .

Ejemplo 15. Supóngase que una variable aleatoria X puede tomar únicamente los valores -2,
0, 1 y 4 y que Pr( X = −2) = 0,1 , Pr( X = 0) = 0,4 , Pr( X = 1) = 0,3 y Pr( X = 4) = 0,2 . Determine
el valor esperado de X .
Solución.
En este caso se cumple que:


t
E( X ) = Pr( X = x i ) x i = (0,1)(−2) + (0,4)(0) + (0,3)(1) + (0,2)(4) = 0,9
i =1

Se puede observar en el ejemplo anterior que la esperanza E ( X ) no es necesariamente igual a


uno de los valores posibles de X .

Si X puede tomar únicamente un número finito de valores distintos, como en el ejemplo 15,
entonces existe únicamente un número finito de términos en la suma de la ecuación 6.3. Sin
embargo, si existe una sucesión infinita de valores posibles distintos de X , entonces la suma de
la ecuación 6.3 es una serie infinita de términos. Se dice que la esperanza E ( X ) existe si, y sólo
si, la suma de ecuación 6.3 es absolutamente convergente, esto es, si, y sólo si,

Autor: Pablo Tapia Página 30


ESTADISTCA I CAPITULO 2
Probabilidad


t
x i Pr( X = x i ) (6.4)
i =1

En otras palabras, si se verifica la relación 6.4, entonces E ( X ) existe y su valor está dado por la
ecuación 6.3. Si no se verifica la relación 6.4, entonces E ( X ) no existe.

Ejemplo 16. Supóngase las mismas condiciones del ejemplo 15, pero en este caso se pide
determinar la esperanza de X 2 .
Solución.
Para resolver este problema se debe tener presente que Pr( X 2 = x i2 ) = Pr( X = x i ) , ya que, para
que ocurra el evento x i2 debe ocurrir primero xi , entonces la esperanza solicitada queda
como:

t
E( X 2 ) = Pr( X = x i ) x i2 = (0,1)(−2) 2 + (0,4)(0) 2 + (0,3)(1) 2 + (0,2)(4) 2 = 3,9
i =1

En base al ejemplo anterior se puede afirmar que la ecuación

X = xi (6.5)

conserva su condición de igualdad si aplicación una función, es decir,

f ( X ) = f ( xi ) (6.6)

por tanto, la probabilidad de que ocurra 6.5 y 6.6 es la misma, entonces se puede decir que la
esperanza de una función de una variable aleatoria discreta y en caso de conocer las
probabilidades de cada evento, es:

∑ Pr ( f ( X ) = f ( x i ) ) ⋅ f ( x i ) = ∑ Pr ( X = x i ) ⋅ f ( x i )
t t
E ( f ( X )) = (6.7)
i =1 i =1

Sin embargo, se debe tener presente que aunque las probabilidades de la ecuación 6.5 y 6.6
sean las mismas, el valor dimensional de la esperanza es diferente para ambos casos.
Supongamos por un minuto que las unidades utilizadas en el ejemplo 15 fueran centímetros,
entonces la esperanza de este ejemplo sería en centímetros, pero, por otro lado la esperanza
para el ejemplo 16 sería en centímetros cuadrados, ya que la función utilizada es el de una
función con una transformación cuadrática.

a) Algunas propiedades para la esperanza uni-variante.

a.1. Si un evento cierto es valorado con el número real a, entonces la probabilidad de este
evento será igual a uno como fue señalado en puntos anteriores. Entonces, se puede decir que
la esperanza de evento cierto es el mismo valor real designado.

E (α ) = α ∀α ∈ IR (6.8)

Autor: Pablo Tapia Página 31


ESTADISTCA I CAPITULO 2
Probabilidad

Demostración. Debemos señalar que la probabilidad de un evento cierto es igual a uno, por lo
tanto el calculo de la esperanza de un número constante es igual al número constante, tal como
se demuestra a continuación.

E (α ) = Pr( X = α ) ⋅ α = 1 ⋅ α

a.2. Si una variable aleatoria X tiene una valor esperado igual a u, entonces para una variable
aleatoria Y = α + β X , se tiene que su esperanza es igual a:
E (Y ) = ∑ Pr(Y = y i ) y i = ∑ Pr(α + βX = α + β x i )(α + βx i ) (6.9)
i=I i=I

Entonces, si aplicamos la propiedad descrita en la ecuación 6.7, podemos reducir la ecuación


6.9 a:

E (Y ) = ∑ i=I
Pr( X = x i )(α + βx i ) = ∑ i=I
[Pr( X = x i )α ] + ∑ i=I
[Pr( X = x i ) βx i ] (6.10)

Aplicando las propiedades de las sumatorias, se logra

E (Y ) = α + β ∑ i=I
Pr( X = x i ) x i =α + βμ X (6.11)

De la ecuación 6.11 se puede concluir que si Y = α + β X , donde X es una variable aleatoria,


entonces:
E (Y ) = E (α + βX ) = α + βE ( X ) (6.12)

6.3. Problema de Decisiones Múltiples a Priori y Posteriori

Supóngase que se tiene m decisiones que pueden ser tomadas, las cuales designaremos por el
conjunto D = {d j } mj=1 , y además se sabe a priori que estas decisiones están más o menos
relacionadas con un conjunto de n eventos Θ = {θ i } in=1 . Por lo tanto, si la decisión j tomada
esta relacionada positivamente con el evento i, entonces la utilidad percibida por ello sería u ij ,
la cual puede ser una gran perdida si la relación entre decisión y evento es negativa.

Una forma de resumir estas relaciones entre decisiones y eventos es un cuadro de decisiones,
tal como se presenta a continuación.

EVENTO DECISION d1 d2 L dm
θ1 u11 u12 L u1m
θ2 u 21 u 22 L u 2m
M M M M
θn u n1 u n2 L u nm

Este cuadro ordena las decisiones en la primera fila y en la primera columna a la izquierda es
ordena los eventos, entonces los elementos contenidos en el interior corresponde a la relación
positiva o negativa que existe entre decisión y evento, de este modo el término uij por simple

Autor: Pablo Tapia Página 32


ESTADISTCA I CAPITULO 2
Probabilidad

nemotecnia lo entenderemos como la utilidad obtenida de tomar la decisión j, y que ocurrió el


evento i, del mismo modo si el valor de este término es negativo indicará una relación negativa
y en el caso de ser positiva será una relación positiva.

Aunque este problema pudiera ser de muy fácil resolución, sin embargo, debemos tener
presente que si la decisión que debe ser tomada corresponde a un evento futuro, este puede ser
incierto, es decir que ocurre con cierta probabilidad, por lo tanto, a nuestro cuadro resumen
debemos agregar la probabilidad con la que pueden ocurrir estos eventos, es decir:

EVENTO DECISION d1 d2 L dm Pr(θ )


θ1 u11 u12 L u1m Pr(θ 1 )
θ2 u 21 u 22 L u 2m Pr(θ 2 )
M M M M M
θn u n1 u n2 L u nm Pr(θ n )

Al incorporar este nuevo elemento, nos encontramos con que cada decisión ahora posee una
utilidad esperada, lo que señalaremos de la siguiente forma:


n
ρ (d j ) = ρ j = Pr(θ 1 )u1 j + Pr(θ 2 )u 2 j + L + Pr(θ n )u nj = Pr(θ i )u ij ∀ j = 1,..., m (6.13)
i =1

A partir de la ecuación 6.13 se puede decir que ρ j es la utilidad esperada de tomar la decisión
j. Entonces, la decisión que se debería tomar es la que reporte mayor utilidad esperada, lo cual
representaremos de la siguiente forma:

ρ * = max {ρ j } mj=1 (6.14)


j

Cuando se toma una decisión de este tipo se asume bajo ciertas condiciones que las
probabilidades a priori no cambian, pero habitualmente esto no ocurre, por esta razón es
necesario actualizar la información que se utiliza para tomar la decisión y mejorar este proceso.
Siempre puede ocurrir un evento fortuito (shock) que puede cambiar las probabilidades a priori
de los sucesos o eventos, de este modo si se toman algunas observaciones y las incorporamos a
estas probabilidades.

Pr(θ i ∩ F ) Pr( F / θ i ) Pr(θ i )


Pr(θ i / F ) = = ∀ i = 1,..., n (6.15)

Pr( F ) n
Pr( F / θ k ) Pr(θ k )
k =1

En la ecuación 6.15 el término F representa la nueva información (observaciones que incluyen


el shock), por lo tanto, esta probabilidad condicional denominada probabilidad a posteriori,
representa la probabilidad de que ocurra el evento i dado que ahora se cuenta con la
información F .

Autor: Pablo Tapia Página 33


ESTADISTCA I CAPITULO 2
Probabilidad

Cuando se cuenta con información adicional, nuestro proceso de toma de decisiones cambia, ya
que las probabilidades ahora cuentan con información adicional, de esta forma el cuadro
resumen queda representado por:

EVENTO DECISION d1 d2 L dm Pr(θ / F )


θ1 u11 u12 L u1m Pr(θ 1 / F )
θ2 u 21 u 22 L u 2m Pr(θ 2 / F )
M M M M M
θn u n1 u n2 L u nm Pr(θ n / F )

En base este nuevo cuadro la decisión que debe ser tomada deberá ser:

ρ~ * ( F ) = ρ~ * = max {ρ~ j } mj=1 (6.16)


j

Donde ρ~ j representa la utilidad esperada de tomar la decisión j, dado que se cuenta con la
información F , la cual se calcula de la siguiente forma:


n
ρ~ j = Pr(θ i / F ) ⋅u ij ∀ j = 1,..., m (6.17)
i =1

Ejemplo 17. El gerente de marketing de una empresa estudia la factibilidad de lanzar un


producto al mercado, para lo cual ha solicitado la opinión de un grupo de profesionales de este
departamento. Este grupo elabora un informe que señala si las condiciones para el lanzamiento
de este producto son favorables o desfavorables. En el pasado, el 80% de los productos
lanzados que tuvieron éxito tenían un informe favorable y el 40% de los productos lanzados
que no tuvieron éxito tenían un informe desfavorable. Entonces, el gerente general debe
decidir si se lanza este producto al mercado o no. Supóngase que las perdidas en millones de
pesos, son las siguientes.
Lanzar producto No lanzar producto
Tendrá éxito 0 2
No tendrá éxito 5 0
a) Supóngase que la probabilidad inicial de que el producto tenga éxito es 2 5 y si el informe es
favorable, ¿cuál será la decisión?
b) Para qué valores de la probabilidad inicial la decisión será lanzar el producto, aunque el
informe sea desfavorable?
Solución
a)
θ1 = éxito d1 = lanzar producto F = informe favorable
θ 2 = no éxito d 2 = no lanzar producto NF = informe desfavorable
d1 d2 Pr(θ )
θ1 0 2 2
5
θ2 5 0 3
5

Autor: Pablo Tapia Página 34


ESTADISTCA I CAPITULO 2
Probabilidad

Además por enunciado sabemos que:


Pr( F / θ = θ1 ) = 0,8 = 4 5 ∧ Pr( NF / θ = θ1 ) = 0,2 = 1 5
Pr( F / θ = θ 2 ) = 0,6 = 3 5 ∧ Pr( NF / θ = θ 2 ) = 0,4 = 2 5
Por lo tanto, las probabilidades finales son:
Pr( F / θ = θ 1 ) ⋅ ξ (θ 1 ) ⋅
4 2
8
Pr(θ = θ 1 / F ) = = 5 5
=
Pr( F / θ = θ 1 ) ⋅ Pr(θ 1 ) + Pr( F / θ = θ 2 ) Pr(θ 2 ) 4
5
⋅ 2
5
+ 53 ⋅ 53 17
9
⇒ Pr(θ = θ 2 / F ) = 1 − Pr(θ = θ 1 / F ) =
17
de este modo el valor esperado por decisión corresponde a:
ρ~1 = 0 ⋅ 178 + 5 ⋅ 179 = 17
45
∧ ρ~2 = 2 ⋅ 178 + 0 ⋅ 179 = 17
16
⇒ ρ~ * = min{ρ~1 , ρ~2 } = ρ~2
Entonces, para esta probabilidad se tiene que la decisión será no lanzar el producto.

b)
θ1 = éxito d1 = lanzar producto F = informe favorable
θ 2 = no éxito d 2 = no lanzar producto NF = informe desfavorable
d1 d2 Pr(θ )
0 θ1 2 p
θ2 5 0 1− p
Donde p es la probabilidad que se debe determinar, por otro lado, sabemos que:
Pr( NF / θ = θ1 ) = 0,2 = 1
5 ∧ Pr( NF / θ = θ 2 ) = 0,4 = 2
5
Por lo tanto, las probabilidades finales son:
Pr( NF / θ = θ 1 ) ⋅ ξ (θ 1 )
Pr(θ = θ 1 / NF ) =
Pr( NF / θ = θ 1 ) ⋅ Pr(θ 1 ) + Pr( NF / θ = θ 2 ) Pr(θ 2 )
1
⋅p p
Pr(θ = θ 1 / NF ) = 5
=
1
5
⋅ p + ⋅ (1 − p )
2
5
2− p
2−2p
⇒ Pr(θ = θ 2 / NF ) = 1 − Pr(θ = θ 1 / NF ) =
2− p
de este modo el valor esperado por decisión corresponde a:
ρ~1 = 0 ⋅ 2 −p p + 5 ⋅ 22−−2pp = 5( 2 − 2 p )
2− p
∧ ρ~2 = 2 ⋅ 2−p p + 0 ⋅ 22−−2pp = 2p
2− p
Sin embargo, queremos que bajo estas condiciones igual sea recomendable lanzar el producto,
por lo tanto, se debe imponer ρ~1 < ρ~2 .
⇒ 5(2 − 2 p ) < 2 p ⇒ 10 < 12 p ⇒ 10
12
< p
Entonces, para probabilidades iniciales mayores que 10/12 el producto se lanzará, a pesar de
que el informe sea desfavorable.

6.4. Valor de la Información.

Supóngase que la información que es utilizada en una decisión a posteriori tiene un algún valor,
la pregunta que surge en forma natural sería ¿cuál sería este valor?, para responder a esta
pregunta es necesario saber cuales son los escenarios posibles en las que se basa la información,
y determinar cuales son los beneficios o utilidades que se obtendrían en cada caso. Sin
embargo, antes de embarcarse en este calculo, es necesario establecer el mayor beneficio o

Autor: Pablo Tapia Página 35


ESTADISTCA I CAPITULO 2
Probabilidad

utilidad esperada ( ρ * ) que se obtendría de no ser utilizada esta información, tal como se define
en la ecuación 6.14.

Para determinar si el valor de la información es justo, se debe establecer el beneficio o utilidad


esperada de poseerla y compararla con el beneficio o utilidad de no contar con esta
información, para ejemplificar este procedimiento, asumiremos que esta información tiene sólo
dos posibilidades que son: favorable y desfavorable. Bajo el supuesto de que la decisión tomada
en el caso de que la información sea favorable es la j, sin embargo, esta decisión se obtuvo en
base a un proceso de maximización (ver ecuación 6.16), tal proceso daría como resultado una
utilidad esperada igual ρ * ( F ) , y en el caso de que la información sea desfavorable la decisión
sería la i y la utilidad esperada será igual a ρ * ( NF ) . Si la probabilidad de cada condición de la
probabilidad es igual a Pr(F ) y Pr(NF ) , respectivamente, entonces la utilidad que se esperaría
obtener de poseer dicha información sería igual a:

ρ CI
*
= Pr( F ) ⋅ ρ * ( F ) + Pr( NF ) ⋅ ρ * ( NF ) (6.18)

Entonces, para determinar el valor máximo que se podría pagar por la información (VI )
debería ser menor a la diferencia entre la utilidad esperada de utilizar la información (ecuación
6.18) y la utilidad esperada de no contar que esta información, lo que se puede ver en la
ecuación 6.19.

Valor Información = VI ≤ ρ CI
*
− ρ* (6.19)

Ejemplo 18. Suponga que se define el siguiente cuadro de beneficios, para una situación que
cuenta con dos eventos (θ1 , θ 2 ) y tres decisiones (d1 , d 2 , d 3 ) , respectivamente.

d1 d2 d3 Pr(θ )
θ1 P 0 λP α
θ2 1
P 3P 1
λP β
2 4

Donde el valor de P es positivo en forma estricta.


a) ¿Cuál será la decisión que tomaría si α < β , λ = 1 ?
b) Suponga ahora que puede disponer de información, la cual puede tener sólo dos estado,
regular (R) o Buena (B) , tal que se cumplen las siguientes probabilidades condicionales de
ocurrencia Pr( R / θ1 ) = 0.2 ∧ Pr( R / θ 2 ) = 0.9 . Además se sabe que α = 0.4, β = 0.6 ∧ λ = 0 .
¿Cuál será la decisión que se tomaría si la información es buena? ¿Cuánto es el máximo que se
estaría dispuesto a pagar por esta información?

Autor: Pablo Tapia Página 36


ESTADISTCA I CAPITULO 2
Probabilidad

Solución.
a)
En este caso el problema queda definido como:
d1 d2 d3 Pr(θ )
θ1 P 0 P α
θ2 1
P 3P 1
P β
2 4
Entonces, los beneficios esperados de cada decisión, son:
ρ1 : αP + 12 βP / ρ 2 = 3β P = β P + 2 β P / ρ 3 = αP + 14 β P
Dado que α < β , λ = 1 , claramente se puede apreciar que la decisión a tomar es la 2.
b)
Solución.
Para este caso particular no existe la decisión 3, por lo que el problema se reduce a:
d1 d2 Pr(θ )
θ1 P 0 0 .4
θ2 1
2
P 3P 0 .6
Si la información es buena, y aplicando el teorema de Bayes se tiene que:
Pr( B / θ 1 ) = 1 − 0,2 = 0,8 ∧ Pr( B / θ 2 ) = 1 − 0,9 = 0,1
Ahora en el caso de tener información buena, ocurrirá que:
0,8 ⋅ 0,4
Pr(θ 1 / B ) = = 0,842 ⇒ Pr(θ 2 / B ) = 0,158
0,8 ⋅ 0,4 + 0,1 ⋅ 0,6
ρ1 ( B ) = 0,842 ⋅ P + 0,158 ⋅ 12 P = 0,941P; ρ 2 ( B) = 0,158 ⋅ 3P = 0,474
⇒ ρ2 ( B ) < ρ1 ( B ) ⇒ ρ CI ( B ) = ρ1 ( B) = 0,941P
Por lo tanto, bajo estas condiciones si la información es buena, entonces la decisión a tomar
debe será la 1.

Dado que el caso con buena información está calculado, sólo restará calcular el caso con
información regular (R) .
Ahora en el caso de tener información regular, ocurrirá que:
0,2 ⋅ 0,4
Pr(θ 1 / R) = = 0,129 ⇒ Pr(θ 2 / R) = 0,871
0,2 ⋅ 0,4 + 0,9 ⋅ 0,6
ρ1 (R ) = 0,129 ⋅ P + 0,871 ⋅ 12 P = 0,565 P; ρ 2 ( R) = 0,871 ⋅ 3P = 2,613P
⇒ ρ1 (R ) < ρ 2 (R ) ⇒ ρ CI (R ) = ρ 2 (R ) = 2,613P
Por lo tanto, el valor esperado de la información es:
⇒ ρ TCI = Pr( B) ρ CI ( B) + Pr( R ) ρ CI ( R ) = 0,38 ⋅ 0,941P + 0,62 ⋅ 2,613P = 1,978 P
Valor Información = ρ CI − ρ SI = 1,978 P − 1,8 P = 0,178 P
Por lo tanto, lo máximo que se estaría dispuesto a pagar por la información es: 0,178P .

Autor: Pablo Tapia Página 37

También podría gustarte