Apuntes Tema 3 Variables Aleatorias

Estadı́stica. Ingenierı́a INDUSTRIAL.
EPSEVG
Tema 3. Variables aleatorias
Ester Simó Mezquita
Departament de Matemàtiques
EPSEVG. Universitat Politècnica de Catalunya

Capı́tulo 2
Variables aleatorias
En este capı́tulo desarrollaremos métodos que serán de utilidad en el

cálculo de probabilidades de sucesos que involucran atributos de los resulta-
dos de experimentos.
2.1. La noción de variable aleatoria

En muchas situaciones experimentales deseamos asignar un número real x
a cada uno de los elementos s del espacio muestral S. Esto es, x = X(s) es el
valor de una función X del espacio muestral en los números reales. Teniendo
esto presente, hagamos la siguiente definición formal.
Sea un experimento y S el espacio muestral asociado a él. Una función

X que asigna a cada uno de los elementos s ∈ S, un número real X(s), le
llamaremos variable aleatoria.
Ejemplo 2.14
Supongamos que se lanza una moneda tres veces, y que se apunta la secuencia
de caras y cruces obtenidas en los tres lanzamientos. El espacio muestral para este
experimento es
S = {ccc, cc+, c + c, c + +, +c+, + + c, + + +}
Representaremos por X al número de caras en los tres lanzamientos de la moneda.

X asigna a cada resultado del experimento un número del conjunto ImgX =
1
2
{0, 1, 2, 3}. La tabla inferior lista los 8 resultados posibles del experimento y los
correspondientes valores de X.
s ccc cc+ c + c +cc c + + +c+ + + c + + +

X(s) 3 2 2 2 1 1 1 0
X es una variable aleatoria que toma valores en el conjunto ImgX = {0, 1, 2, 3}.
Denotaremos por ImgX el conjunto formado por todos los valores posi-
bles de la v. a. X. Este conjunto nos permite definir dos tipos de variables
aleatorias.
Diremos que X es una variable aleatoria discreta si el conjunto ImgX

tiene cardinal finito o infinito numerable. Y diremos que X es una variable
aleatoria continua si el conjunto ImgX tiene cardinal infinito no numerable
(un intervalo de números reales o unión de intervalos).
Al analizar en detalle las diferentes propiedades asociadas con variables
aleatorias, hemos creido conveniente realizar esta distinción.
2.2. Variables aleatorias discretas
Estas variables se corresponden con experimentos en los cuales se cuenta

el número de veces que se ha presentado cierto suceso.
Ejemplo 2.15
Una fuente radioactiva emite partı́culas α. Un contador observa la emisión de
esas partı́culas durante un periodo de tiempo determinado. La siguiente variable
aleatoria es de interés:
X = número de partı́culas observadas.
¿Cuáles son los valores posibles de X?.

Supondremos que estos valores constan de todos los enteros no negativos. Esto
es, ImgX = {0, 1, 2, · · · , n, · · ·}
3
Ejemplo 2.16
Supóngase que los artı́culos que salen de una lı́nea de producción se clasifican
como defectuosos (D) o no defectuosos (N) y que se eligen al azar tres artı́culos de
la producción de un dı́a, los cuales se clasifican de acuerdo con este esquema. El
espacio muestral para este experimento, digamos S, puede escribirse ası́:
S = {DDD, DDN, DN D, N DD, DN N, N DN, N N D, N N N }
Supongamos que con probabilidad 0.2 un artı́culo es defectuoso y, por lo tanto,

con probabilidad 0.8 un artı́culo es no defectuoso. Supongamos que esas probabili-
dades son iguales para cada artı́culo, al menos durante nuestro estudio. Finalmente,
supongamos que la clasificación de cualquier artı́culo particular es independiente
de la clasificación de cualquier otro artı́culo.
Usualmente nuestro interés no se enfoca hacia los resultados individuales de S,
sino que sólo deseamos saber cuántos artı́culos defectuosos se encuentran (sin tener
en cuenta el orden en que ocurrieron). Es decir, deseamos considerar la variable
aleatoria X que asigna a cada uno de los resultados s ∈ S el número de artı́culos
defectuosos encontrados en s. Por tanto el conjunto de valores posibles de X es
ImgX = {0, 1, 2, 3}
Sea X una v. a. discreta. Con cada resultado posible xi asociamos un

número f (xi ) = P (X = xi ), llamado probabilidad de xi . Los números f (xi ),
∀xi ∈ ImgX deben satisfacer las condiciones siguientes:
1. f (xi ) ≥ 0 para toda i,
2. f (xi ) = 1.
P
∀xi
La función f que antes se definió, se llama función de probabilidad de la

variable aleatoria X. Y la colección de pares (xi , f (xi )), ∀xi ∈ ImgX, dis-
tribución de probabilidad de X.
Ejemplo 2.17
Obtengamos la distribución de probabilidades para la variable aleatoria defini-
da en el ejemplo anterior.
X=0 si y sólo si ocurre NNN;

X=1 si y sólo si ocurre DNN, NDN, NND;
X=2 si y sólo si ocurre DDN, DND, NDD;
X=3 si y sólo si ocurre DDD.
4
(Nótese que {N, N, N } equivale a {X = 0}, etc).

Por lo tanto,
f (0) = P (X = 0) = (0,8)3 ,
f (1) = P (X = 1) = 3(0,2)(0,8)2 ,
f (2) = P (X = 2) = 3(0,8)(0,2)2 ,
f (3) = P (X = 3) = (0,2)3 .
Nótese que la suma de estas probabilidades es igual a 1, porque la suma se puede
escribir como (0,8 + 0,2)3 .
Por tanto, un modelo de distribución de probabilidad es la representación

idealizada de un experimento aleatorio y se construye indicando los valores
posibles de la variable aleatoria asociada al experimento y sus probabilidades
respectivas. La forma más general de caracterizar estos modelos es mediante
la función de distribución, F (x), definida en cada punto x0 como la proba-
bilidad de que la v. a. X tome un valor menor o igual a x0 . Escribiremos:
F (x0 ) = P (X ≤ x0 )
La función de distribución, se define para todo punto real, es siempre no

decreciente, y por convenio:
F (−∞) = 0, F (+∞) = 1
Suponiendo que la v. a. X toma los valores posibles {x1 , · · · , xn }, siendo

X
x1 ≤ · · · ≤ xn y P (X = xi ) = 1
∀xi
entonces, la función de distribución vendrá dada por:
F (x1 ) = P (X ≤ x1 ) = P (X = x1 )
F (x2 ) = P (X ≤ x2 ) = P (X = x1 ) + P (X = x2 )
..
.
F (xn ) = P (X ≤ xn ) = P (X = x1 ) + · · · + P (X = xn )
Por tanto, la función de distribución tendrá saltos, en los puntos x1 , · · · , xn ,

iguales a las probabilidades en esos puntos, siendo constante en los intervalos
entre los puntos de salto.
5
Ejemplo 2.18
Obtengamos la función de distribución asociada a la variable aleatoria presen-
tada en el ejemplo 2.16.


 0 si x < 0
(0,8)3 si 0 ≤ x < 1




FX (x) = (0,8) + 3(0,2)(0,8)2
3 si 1 ≤ x < 2
(0,8) + 3(0,2)(0,8)2 + 3(0,2)2 (0,8)
3 si 2 ≤ x < 3





1 si x ≥ 3

2.2.1. Caracterı́sticas de una variable aleatoria discre-

ta
Generalizando lo estudiado para distribuciones de frecuencias, se define
la esperanza matemática, media, o valor esperado de una v. a. discreta X con
valores posibles {x1 , · · · , xn }, y probabilidades f (xi ) = P (X = xi ), ∀i como:
X
µ = E[X] = xi · f (xi )
∀xi ∈ImgX
Esto es, la suma de todos los valores posibles, cada uno ponderado por su
probabilidad.
Ejemplo 2.19
Un fabricante produce artı́culos de modo que el 10 % es defectuoso y el 90 % no
lo es. Si se produce un artı́culo defectuoso el fabricante pierde 1$, mientras que un
artı́culo sin defectos le produce una ganancia de 5$. ¿Cuál es la ganancia esperada
del fabricante por artı́culo?
La ganancia la podemos representar mediante una v. a. discreta X con dis-
tribución de probabilidades
10 90
{(−1, P (X = −1) = ), (5, P (X = 5) = )}
100 100
Por lo tanto, la ganancia esperada será
E[X] = −1 · P (X = −1) + 5 · P (X = 5) = −1 · 0,1 + 5 · 0,9 = 4,4

6
Dada una v. a. discreta X, con función de probabilidad f (xi ) = P (X =

xi ), definiremos la esperanza de una función g(X) de dicha variable por:
X
E[g(X)] = g(xi ) · f (xi )
∀xi
Esta ecuación nos permite calcular directamente la esperanza de una v. a. Y

que es función de otra con distribución conocida, sin necesidad de obtener la
función de probabilidad de la variable Y .
Ejemplo 2.20
Es inmediato comprobar que, si a y b son constantes:
E[aX + b] = aE[X] + b
Veámoslo:
E[aX + b] = ∀xi (axi + b) · f (xi ) = ∀xi (axi · f (xi ) + b · f (xi )) =
P P
= a ∀xi xi · f (xi ) + b ∀xi f (xi ) = aE[X] + b

P P
Definimos la varianza de una v. a. discreta X por:
σ 2 = V ar[X] = (xi − µ)2 · f (xi ).

X
∀xi
La varianza puede escribirse de una manera condensada utilizando la no-

tación de esperanzas. Tomando como nueva variable las desviaciones al cuadra-
do (X − µ)2 , tendremos que:
(xi − µ)2 · P (X = xi ) = E[(X − µ)2 ].

X
V ar[X] =
Por lo tanto, la varianza de una v. a. discreta X es la esperanza del cuadrado

de la distancia entre los valores posibles de X y la media poblacional.
Si desarrollamos la expresión anterior obtendremos un método alternativo
para calcular la varianza de una v. a. discreta X
V ar(X) = E[X 2 − 2Xµ + µ2 ] = E[X 2 ] − E 2 [X].

7
Ejemplo 2.21
Es fácil comprobar que, si a y b son constantes:
V ar[aX + b] = a2 V ar[X]
Veámoslo:
V ar[aX + b] = E[(aX + b)2 ] − E 2 [aX + b]
Teniendo en cuenta que:
E[(aX + b)2 ] = E[(aX)2 + 2abX + b2 ] =
= ∀xi (a2 x2i + 2abxi + b2 )f (xi ) =
P
= a2 ∀xi x2i f (xi ) + 2ab ∀xi xi f (xi ) + b2 ∀xi f (xi ) =

P P P
= a2 E[X 2 ] + 2abE[X] + b2
y que
E 2 [aX + b] = (aE[X] + b)2 = a2 E 2 [X] + 2abE[X] + b2
tendremos
V ar[aX + b] = a2 E[X 2 ] + 2abE[X] + b2 − (a2 E 2 [X] + 2abE[X] + b2 ) =
= a2 (E[X 2 ] − E [ X]) = a2 V ar[X]
Definimos la desviación tı́pica de una v. a. discreta por la raiz cuadrada

positiva de la varianza, es decir, σ.
En resumen, la media y la desviación tı́pica son parámetros que carac-
terizan a la población que podemos calcular a partir de las distribuciones de
probabilidad.
2.2.2. Variables aleatorias discretas independientes

Tal como definimos el concepto de independencia entre dos sucesos A y
B, ahora definiremos las variables aleatorias discretas independientes.
Sean X e Y variables aleatorias discretas. Diremos que X e Y son inde-
pendientes si y sólo si
P ({X = xi } ∩ {Y = yj }) = P (X = xi )P (Y = yj )
Lo que queremos decir intuitivamente es que X e Y son variables aleatorias
independientes si el resultado de X, de ninguna manera influye en el resultado
de Y .
8
2.3. Algunos modelos de distribución de pro-

babilidad discreta
2.3.1. Proceso de Bernoulli
Supongamos un experimento aleatorio que consiste en:
1. Observar elementos de una población y clasificarlos en dos categorı́as,

que llamaremos E (éxito) y F (fracaso).
2. La proporción de elementos E y F en la población es constante y no se

modifica qualquiera que sea la cantidad observada. Esto implica que la
probabilidad p de éxito es la misma en todas las pruebas.
3. Las pruebas son independientes, es decir, el resultado de una no afecta

a los resultados de las siguientes.
Un experimento de este tipo se llama proceso de Bernoulli. Este modelo

se aplica a poblaciones finitas de las que tomamos elementos al azar con
reemplazamiento, y también a poblaciones conceptualmente infinitas, como
las que producirá una máquina, siempre que el proceso generador sea estable
(proporción de piezas defectuosas constante a largo plazo) y sin memoria (el
resultado a cada momento es independiente de lo previamente ocurrido).
2.3.2. La distribución binomial

Vamos a construir una variable aleatoria a partir de un proceso de Bernoul-
li. Sea X la v. a. que representa el número de éxitos en n pruebas de Bernoulli,
con una probabilidad p de éxito.
X = número de éxitos al observar n elementos de la población
El conjunto de todos los valores posibles de X es ImgX = {0, 1, 2, · · · , n}.

Para calcular la probabilidad de un valor particular k ∈ ImgX
P (X = k),
consideraremos el suceso k éxitos, seguidos de n − k fracasos, que repre-

sentaremos
E1 E2 · Ek F1 F2 · Fn−k
9
Por hipótesis de independencia, la probabilidad de este suceso es:
pk · (1 − p)n−k .
La probabilidad de k elementos defectuosos en cualquier orden, requiere

sumar las probabilidades de todos los sucesos mutuamente excluyentes que
verifican esta condición. Estos sucesos se obtienen permutando las letras an-
teriores de todas las formas posibles. Este número es:
n!
(nk ) = .
k!(n − k)!
Por lo tanto:
P (X = k) = (nk )pk (1 − p)n−k ∀k ∈ {0, 1, · · · , n}
La variable ası́ definida se conoce como v. a. Binomial de parámetros n y p

(Bi(n, p)). Es fácil probar que:
E[X] = n · p y V ar[X] = n · p · (1 − p)
Tanto la distribución de probabilidad, como la media y la varianza de una v.

a. binomial de parámetros n y p dependen sólo de esos dos números.
Ejemplo 2.22
De un lote que contiene 25 artı́culos, 5 de los cuales son defectuosos, se eligen 4
al azar (con sustitución). Sea X el número de artı́culos defectuosos seleccionados.
Obtengamos la distribución de probabilidad de X.
Se trata de un proceso de Bernoulli, dado que realizamos un experimento
aleatorio que consiste en:
1. Observar elementos de un lote (población) y clasificarlos en dos categorias:

Éxito (artı́culo defectuoso) y fracaso (artı́culo no defectuoso).
2. La probabilidad de éxito es la misma en todas las pruebas

5
P (artı́culo defectuoso) = = 0,2
25
3. Las pruebas son independientes al elegirse el artı́culo al azar con reemplaza-

miento.
10
Al ser X la variable que representa el número de éxitos en 4 pruebas de Bernoulli,

se distribuye Bi(4, 0,2).
Ejemplo 2.23
Supongamos que el 5 % de los artı́culos que salen de una lı́nea de producción
son defectuosos. Se escogen 10 de ellos y se inspeccionan. ¿Cuál es la probabilidad
de que se encuentren como mucho 2 defectuosos?
Se trata de un proceso de Bernoulli, dado que realizamos un experimento
aleatorio que consiste en:
1. Observar los artı́culos que salen de una lı́nea de producción (población) y
clasificarlos en dos categorias: Éxito (defectuoso) y fracaso (no defectuoso).
2. La probabilidad de éxito es la misma en todas las pruebas ya que se trata

de un proceso de producción que se supone estable (el 5 % de los artı́culos
que salen de la lı́nea de producción son defectuosos)
5
P (artı́culo defectuoso) = = 0,05
100
3. Las pruebas son independientes dado que el resultado en cada momento es

independiente de lo que previamente ha ocurrido.
La variable X que representa el número de éxitos en las 10 pruebas de Bernoulli
se distribuye Bi(10, 0,05).
Nos piden que calculemos la probabilidad de que se encuentren como mucho
2 artı́culos defectuosos. En términos de la distribución binomial, tenemos que cal-
cular
P (X ≤ 2) = P (Bi(10, 0,05) ≤ 2) =
= P (Bi(10, 0,05) = 0) + P (Bi(10, 0,05) = 1) + P (Bi(10, 0,05) = 2) =
= 2i=0 (10 k
k ) · 0,05 (1 − 0,05)
10−k = 0,9885
P
En ocasiones, una v. a. binomial con n = 1 también recibe el nombre de

variable aleatoria Bernoulli
2.3.3. El proceso de Poisson

Consideremos un experimento en el que observamos la aparición de suce-
sos puntuales sobre un soporte continuo. Por ejemplo, averı́as de máquinas
11
en el tiempo, llegadas de aviones a un aeropuerto, corrosión en una tuberı́a,

defectos en una plancha de metal, etc. Supondremos que el proceso se carac-
teriza por:
1. Ser estable: produce, a largo plazo, un número medio de sucesos cons-
tante λ por unidad de magnitud.
2. Los sucesos aparecen aleatoriamente de forma independiente, es decir,
el proceso no tiene memoria: conocer el número de sucesos que se han
presentado en un intervalo no ayuda a predecir el número de sucesos
que se presentarán en el siguiente intervalo de magnitud.
Un experimento de este tipo le llamaremos proceso de Poisson.
2.3.4. La distribución de Poisson

Vamos a construir una nueva variable aleatoria a partir de un proceso
de Poisson. Consideremos, por ejemplo, que el número medio de accidentes
por 100 horas de conducción para un grupo de conductores es λ, y que los
accidentes ocurren de acuerdo al proceso de Poisson: aleatoriamente e inde-
pendientemente a lo largo del tiempo. Sea X la variable que representa el
número de accidentes en 100 horas de conducción.
X = número de sucesos por unidad de magnitud
Notar que en este caso sucesos ≡ accidentes y unidad de magnitud ≡ 100
horas de conducción.
El conjunto de valores posibles de X es ImgX = {0, 1, · · · , n, · · ·}. Para
obtener su distribución de probabilidad, observemos que podemos convertir
X en binomial considerando intervalos de tiempo muy pequeños (por ejemplo,
cada minuto), donde la probabilidad de dos o más accidentes en un minuto
es despreciable. Entonces, X puede considerarse como una variable aleatoria
binomial Bi(n, p), siendo n = 100 · 60 = 6000 pruebas, cada una consistente
en observar si en un minuto ha ocurrido o no un accidente, y la probabilidad
de accidente p será tal que:
λ
E[X] = λ = np; p= .
n
Por tanto, disminuyendo el intervalo de observación (equivale a aumentar el
número de pruebas n) pero manteniendo constante λ = np se obtendrá la
distribución de la variable X.
12
En conclusión, las probabilidades buscadas pueden apoximarse por

λ λ
P (X = k) = (nk )( )k (1 − )n−k ,
n n
y tomando lı́mites:
λk n(n − 1) · · · (n − (k − 1)) λ
lı́m P (X = k) = lı́m λ k k (1 − )n
k! (1 − n ) n n
Y teniendo en cuenta que

n (n−1)
lı́m (n−λ) (n−λ)
· · · (n−k+1)
(n−λ)
=1
λ n −λ
lı́m(1 − n ) = e .
Tendremos que, en el lı́mite
λk −λ
P (X = k) = e ∀k = 0, 1, 2, ...
k!
La variable ası́ definida se conoce como v. a. Poisson de parámetro λ (P o(λ)).
Notemos que el parámetro de la distribución de Poisson coincide con sus
caracterı́sticas
E[X] = V ar[X] = λ.
Ejemplo 2.24
Los fallos superficiales de un alambre delgado de cobre se presentan de manera
aleatoria. Sea X la variable aleatoria que representa el número de fallos super-
ficiales de un alambre de cobre de longitud 50 milı́metros, y supóngase que el
número promedio de fallos en 50 milı́metros es 2. Obtengamos la distribución de
probabilidad de X.
Se trata de un proceso de Poisson, dado que se está considerando un experi-
mento que consiste en:
1. Observar la aparición de sucesos puntuales (fallos superficiales) sobre un

soporte continuo (alambre de cobre).
2. El proceso es estable (el número promedio de fallos en 50 milı́metros es 2).
3. Los sucesos aparecen aleatoriamente de forma independiente (los fallos su-

perficiales del alambre delgado de cobre se presentan de manera aleatoria).
13
Por lo tanto, la variable aleatoria X que representa el número de fallos superficiales

de un alambre de cobre de longitud 50 milı́metros se distribuye P o(2).
En el cálculo de probabilidades de variables aleatorias Poisson es impor-

tante utilizar unidades que sean consistentes. El ejemplo que sigue ilustra
conversiones entre unidades.
Ejemplo 2.25
La contaminación es un problema en la fabricación de discos de almacenamien-
to óptico. El número de partı́culas contaminantes que aparecen en un disco óptico
tiene una distribución Poisson, y el número promedio de partı́culas por centı́metro
cuadrado de superficie del medio de almacenamiento es 0.1. Hállese la probabilidad
de encontrar 12 partı́culas en el área del disco, si:
1. El área de un disco bajo estudio es 100 centı́metros cuadrados.

Sea X la variable aleatoria que cuenta el número de partı́culas en el área del
disco. Dado que el número promedio de partı́culas es 0.1 por cm2 tendremos
partı́culas
E[X] = 100cm2 · 0,1 = 10 partı́culas
cm2
Por consiguiente, la v. a. X se distribuye P o(10) y
1012
P (X = 12) = exp−10 = 0,095
12!
2. El área de un disco bajo estudio es 50 centı́metros cuadrados.

Sea Y la variable aleatoria que representa el número de partı́culas contam-
inantes en el área del disco. Dado que el número promedio de partı́culas es
0.1 por cm2 tendremos
partı́culas
E[X] = 50cm2 · 0,1 = 5 partı́culas
cm2
Por consiguiente, la v. a. Y se distribuye P o(5) y
512
P (X = 12) = exp−5 = 0,0034
12!
14
2.4. Variables aleatorias continuas

Estas variables se corresponden con experimentos en los que se mide una
magnitud. Por ejemplo, el peso de una pieza, el tiempo de duración de un
proceso, etc.
Es importante proporcionar un medio sencillo para describir la distribu-
ción de probabilidad de una variable aleatoria continua X. Por desgracia, el
método utilizado para describir la distribución de variables aleatorias discre-
tas -listar cada valor en el rango, junto con la probabilidad asociada con éste-
es inapropiado cuando el conjunto ImgX contiene un intervalo de números
reales. Sin embargo, es posible desarrollar una función que permita calcular
probabilidades donde aparece X.
Asociada a toda variable aleatoria continua tenemos una función real de
variable real, que denotaremos por fX (x), y llamaremos función de densidad,
la cual satisface las siguientes propiedades:
1. fX (x) ≥ 0, ∀x ∈ R
R +∞
2. −∞ fX (x)dx = 1,
3. Para cualquier a, b, tal que −∞ < a ≤ b < +∞, tenemos
Z b
P (a ≤ X ≤ b) = fX (x)dx.
a
Notar:
1. Una consecuencia de que X sea una v. a. continua es que,
∀ a ∈ ImgX, P (X = a) = 0.
Este resultado se desprende de inmediato del hecho de que

Z a
fX (x)dx = 0.
a
2. Si X es una v. a. continua, entonces, ∀ a, b ∈ R con a < b, se tiene
P (a ≤ X ≤ b) = P (a ≤ X < b) = P (a < X ≤ b) = P (a < X < b)
3. La probabilidad P (a ≤ X ≤ b) representa el área que encierra la gráfica

de la función de densidad fX (x), el eje OX y las rectas x = a y x = b.
15
Ejemplo 2.26
El porcentaje de alcohol (100X) en cierto compuesto se puede considerar como
una v. a., donde X tiene la siguiente función de densidad
(
ax3 (1 − x), si 0 < x < 1,
f (x) =
0, para cualquier otro valor.
+∞ R
Para evaluar la constante a, debemos acudir a la condición −∞ f (x)dx = 1, que en
R1 3
este caso se convierte en 0 ax (1 − x)dx = 1. Desarrollando la expresión anterior
obtendremos a = 20.
Para variables aleatorias continuas también puede emplearse un método

alternativo de descripción de la distribución:
Dada X una v. a. continua con función de densidad fX (x), se define la

función de distribución asociada a X como
Z x0
FX (x0 ) = P (X ≤ x0 ) = f (x)dx, ∀x ∈ R
−∞
La función de distribución FX (x) de una v. a. continua X, con función de

densidad fX (x), satisface las siguientes propiedades:
1. FX (x) es no decreciente
2. FX (−∞) = 0 y FX (+∞) = 1
d
3. fX (x) = dx
F (x)
4. P (a ≤ X ≤ b) = FX (b) − FX (a)
Ejemplo 2.27
El tiempo de espera, en minutos, que tarda un radar en detectar 2 conductores
sucesivos a alta velocidad es una v. a. continua con función de distribución
(
0 si x≤0
FX (x) =
1 − e−8x si x>0
16
¿Cuál es la probabilidad de esperar menos de 12 minutos entre 2 conductores

sucesivos?
P (X < 12) = FX (12) = 1 − exp−8·12
2.4.1. Caracterı́sticas asociadas a una variable aleato-

ria contı́nua
Se define la esperanza matemática, media o valor esperado de una v. a.
continua X con función de densidad, fX (x), como:
Z +∞
µ = E[X] = x · fX (x)dx.
−∞
Ejemplo 2.28
Se supone que el diámetro de un cable eléctrico viene representado por una v.
a. continua con función de densidad
(
6x(1 − x), si 0 ≤ x ≤ 1,
fX (x) =
0 en el resto.
Determinemos el diámetro medio del cable eléctrico.

+∞ R
E[X] = −∞ x · fX (x)dx
R1
= 0 x · 6x(1 − x)dx
3 4
= 6( x3 − x4 )]10 = 12
Dada una v. a. X continua, con función de densidad fX (x), definimos la

esperanza de una función g(X) de dicha variable como
Z +∞
E[g(X)] = g(x) · fX (x)dx
−∞
Esta ecuación nos permite calcular directamente la esperanza de una v. a. Y

que es función de otra con distribución conocida, sin necesidad de conocer la
función de densidad de la variable Y .
17
Ejemplo 2.29
Sea X una v. a. continua con función de densidad
( 2
2xe−x , si x≥0
fX (x) =
0, para cualquier otro valor
Calculemos E[X 2 ].
2
E[X 2 ] = 0+∞ x2 · 2xe−x dx
R
2
= −e−x (x2 + 1)]+∞0
2 +1
= lı́m∞ − x−x 2 + 1 =1
e
Ejemplo 2.30
Al igual que en el caso discreto, la esperanza de una v. a. continua satisface la
propiedad:
E[aX + b] = aE[X] + b, siendo a y b constantes.
Efectivamente:
+∞ R
E[aX + b] = −∞ (ax + b) · fX (x)dx
R +∞
= −∞ (ax · fX (x) + b · fX (x))dx
R +∞ R +∞
= a −∞ x · fX (x)dx + b −∞ f (x)dx
= aE[X] + b
Definimos la varianza de una v. a. continua X por:

Z +∞
2
σ = V ar[X] = (x − µ)2 · fX (x).dx
−∞
Al igual que en el caso discreto, la varianza puede escribirse de forma con-

densada utilizando la notación de esperanzas.
V ar[X] = E[(X − µ)2 ]

18
Y si desarrollamos la expresión anterior obtendremos un método alternativo

para calcular la varianza de una v. a. continua
V ar[X] = E[X 2 ] − E 2 [X]
Efectivamente,
+∞
V ar[X] = −∞ (x − µ)2 · fX (x)dx
R
R +∞ 2
= −∞ (x − 2µx + µ2 ) · fX (x)dx
R +∞ 2 R +∞ R +∞
= −∞ x · fX (x)dx + 2µ −∞ x · fX (x)dx + µ2 −∞ fX (x)dx
2 2
= E[X ] − 2µ · µ + µ
= E[X 2 ] − µ2
Ejemplo 2.31
Consideremos una v. a. uniforme de parámetros a y b (U (a, b)), y calculemos
su varianza.
La variable U (a, b) es una v. a. continua con función de densidad
(
1
b−a si x ∈ (a, b),
fX (x) =
0 en el resto.
Teniendo en cuenta que

Rb 1
E[X 2 ] = ax2 b−a dx
x 3 b3 −a3
= b
3(b−a) ]a = 3(b−a)
(b−a)(b2 +ab+a2 ) b2 +ab+a2
= 3(b−a) = 3
y que,
Rb 1
E[X] = a x b−a dx
x 2 b2 −a2
= b
2(b−a) ]a =2(b−a)
(b−a)(b+a)
= 2(b−a) = b+a2
Tendremos
V ar[X] = E[X 2 ] − E 2 [X]
2 2 2
= b +ab+a
3 − (b+a)
4
2
= (b−a)
12
19
Se deja como ejercicio para el lector comprobar que, al igual que sucedı́a
en el caso discreto, si X es una v. a. continua, y a y b son constantes:
V ar[aX + b] = a2 V ar[X]
Y para finalizar la sección, definiremos la desviación tı́pica de una v. a. disc-

reta como la raiz cuadrada positiva de la varianza, es decir, σ.
2.5. La distribución normal

Una variable aleatoria continua X diremos que sigue una distribución
normal de parámetros µ y σ, (N (µ, σ)) si su función de densidad es de la
forma
1 −(x−µ)2
fX (x) = √ e 2σ2 − ∞ < x < +∞
2πσ
Los parámetros µ y σ deben satisfacer las condiciones −∞ < µ < +∞, y
σ > 0.
Notemos que:
1. Hay una v. a. normal para cada par de parámetros µ y σ.
2. Los valores de µ y σ determinan la forma de la función de densidad.

La gráfica de la función de densidad de una v. a. N (µ, σ) es una curva
simétrica respecto a la recta x = µ, con forma de campana. Alcanza su
1
máximo en x = µ, el cual toma el valor √2πσ . Y en los valores x = µ−σ
y x = µ + σ la curva presenta dos puntos de inflexión.
La figura 1 muestra cómo las gráficas de la función de densidad cambian
cuando µ varı́a y σ permanece constante,mientras que la figura 2 nos
muestra como las gráficas de la función de densidad varián cuando σ
varı́a y µ permanece constante. En estas gráficas se aprecia claramente
como el valor de µ determina el centro de la distribución, mientras que
el de σ determina la dispersión de los valores respecto a la media (a
1
mayor sigma, mayor dispersión dado que el máximo de la función √2πσ
disminuye, y viceversa.).
20
Figura 1: Funciones de densidad de las variables N (−2, 1), N (0, 1) y

N (2, 1)
Figura:2 Funciones de densidad de las variables N (0, 1), N (0, 2) y n(0, 0,5)
3. A partir de los parámetros de la distribución normal podemos deter-

minar sus principales caracterı́sticas:
E(X) = µ y V ar(X) = σ 2
2.5.1. Cálculo de probabilidades

Si la v. a. X tiene una distribución N (0, 1) diremos que X presenta una
distribución normal estándar o tipificada. La función de densidad de una v.
a. normal estándar viene dada por la expresión
1 2
fN (0,1) (x) = √ e−x /2 dx.
2π
Supongamos ahora que estamos interesados en calcular la probabilidad
1 Z b −x2 /2
P (a ≤ X ≤ b) = √ e dx,
2π a
21
siendo a y b dos números reales . Esta integral no puede evaluarse por métodos
ordinarios (la dificultad proviene del hecho de que no podemos encontrar
2
una función cuya derivada sea igual a e−x /2 ). Sin embargo, los métodos de
integración numérica nos permiten evaluar integrales de la forma anterior,
y de hecho la función de distribución FN (0,1) ha sido tabulada (ver tablas
probabilidades). Podemos usar ahora la tabulación de esta función con el
objeto de evaluar P (a ≤ X ≤ b), puesto que
P (a ≤ X ≤ b) = FN (0,1) (b) − FN (0,1) (a)
Veamos algunos ejemplos.
Ejemplo 2.32
Calcúlense las siguientes probabilidades:
1. P (N (0, 1) > 1,26)
P (N (0, 1) > 1,26) = 1 − P (N (0, 1) ≤ 1,26)

= 1 − FN (0,1) (1,26)
= 1 − 0,89616 = 0,10384
2. P (N (0, 1) < −0,86)
P (N (0, 1) < −0,86) = P (N (0, 1) > 0,86)

= 1 − P (N (0, 1) ≤ 0,86)
= 1 − FN (0,1) (0,86)
= 1 − 0,80510 = 0,1949
3. P (N (0, 1) > −1,37)
P (N (0, 1) > −1,37) = P (N (0, 1) < 1,37)

= FN (0,1) (1,37) = 0,91465
4. P (−1,25 < N (0, 1) < 0,37)
P (−1,25 < N (0, 1) < 0,37) = P (N (0, 1) < 0,37) − P (N (0, 1) < −1,25)
= FN (0,1) (0,37) − FN (0,1) (−1,25)
= 0,64431 − 0,10565 = 0,53866
22
Veamos con un ejemplo como se ha de proceder en el caso que se nos

plantee la situación contraria a los ejemplos anteriores, esto es, supongamos
que se conoce la probabilidad, y queremos determinar el valor que lı́mita ese
área.
Ejemplo 2.33
Hállese el valor real que satisface la expresión P (N (0, 1) > z) = 0,05
El valor de z que satisface la expresión P (N (0, 1) > z) = 0,05, también verifica
la igualdad P (N (0, 1) ≤ z) = 0,95. En este caso la tabla de FN (0,1) se utiliza al
revés. Deberemos buscar la probabilidad 0.95 en el centro de la tabla. Dado que el
valor 0.95 no se encuentra de manera exacta en la tabla, buscaremos el valor más
cercano, el cual es 0.95053, que corresponde a z = 1,65.
Los ejemplos anteriores nos muestran como utilizar las tablas de la dis-
tribución normal tipificada para calcular probabilidades. El empleo de este
mismo enfoque para una v. a. normal arbitraria, requerirı́a una tabla separada
para cada par posible de valores µ y σ. Por fortuna todas las distribuciones
de probabilidad normales están relacionadas de manera algebraica, de modo
que la tabla de la FN (0,1) puede emplearse para encontrar las probabilidades
asociadas con una v. a. normal arbitraria si primero se hace uso de una
transformación sencilla.
Nótese que si X se distribuye N (µ, σ), entonces la variable aleatoria
X −µ
Z=
σ
se distribuye N (0, 1).
La creación de una nueva v. a. con esta transformación se conoce como

tipificación o estandarización de la v. a. N (µ, σ). Por lo tanto, haciendo uso
de la tipificación tendremos
P (a ≤ N (µ, σ) ≤ b) = P ( a−µ
σ
≤ N (µ,σ)−µ
σ
≤ b−µ σ
)
a−µ b−µ
= P ( σ ≤ N (0, 1) ≤ σ )
= FN (0,1) ( b−µ
σ
) − FN (0,1) ( a−µ
σ
)
23
Ejemplo 2.34
Si la longitud en mm de ciertas piezas, sigue una distribución N (32, 0,3),
veamos que proporción de piezas tienen una longitud comprendida entre 31.1 mm
y 32.6 mm.
Para hallar este valor, calcularemos la probabilidad P (N (32, 0,3) ∈ [31,1, 32,6]).
P (31,1 ≤ N (32, 0,3) ≤ 32,6) = P ( 31,1−32

0,3 ≤ N (32,0,3)−32
0,3 ≤ 32,6−32
0,3 )
a−µ b−µ
= P ( σ ≤ N (0, 1) ≤ σ )
= FN (0,1) ( b−µ a−µ
σ ) − FN (0,1) ( σ )
Ejemplo 2.35
Supóngase que X tiene distribución N (3, 4). Deseamos encontrar un número c
tal que
P (X > c) = 2P (X ≤ c).
X−3
Observemos que 2 tiene distribución N (0, 1). Por tanto,
P (X > c) = P ( X−3 c−3 X−3

2 > 2 ) = 1 − P( 2 ≤
c−3
2 ) =
c−3
= 1 − FN (0,1) ( 2 )
y,
X −3 c−3 c−3
P (X ≤ c) = P ( ≤ ) = FN (0,1) ( )
2 2 2
Por lo tanto, la condición anterior se puede escribir como
c−3 c−3
1 − FN (0,1) ( ) = 2FN (0,1) ( ).
2 2
Esto se convierte en FN (0,1) ( c−3 1
2 ) = 3 . A partir de la tabla de la normal estándar
c−3
encontramos que 2 = −0,43, obteniendo c = 2,14.
Ejemplo 2.36
Supóngase que la resistencia a romperse de un género de algodón, está repre-
sentada por una v. a. X que se distribuye N (165, 3). Suponiendo además, que una
muestra de este género se considera defectuosa si X < 162, ¿cuál es la probabilidad
de que un género elegido al azar sea defectuoso?.
24
Deberemos calcular P (X < 162).
P (X < 162) = P ( X−165

3 < 162−165
3 )
= P (N (0, 1) < −1)
= FN (0,1) (−1)
= 1 − FN (0,1) (1) = 0,159
Es fácil probar que el 68,26 % de los datos que se distribuyen según una v.
a. N (µ, σ) se encuentran en el intervalo (µ − σ, µ + σ), el 95,44 % de los datos
se encuentran en el intervalo (µ − 2σ, µ + 2σ), y el 99,73 % en el intervalo
de longitud (µ − 3σ, µ + 3σ). A este último se le conoce como intervalo de
control de una v. a. normal N (µ, σ).
2.6. Variables aleatorias múltiples

A menudo es útil definir en un experimento aleatorio más de una variable
aleatoria. Por ejemplo, en la clasificación de señales transmitidas y recibidas,
cada una de ellas puede clasificarse como de baja, media y alta calidad.
Incluso puede definirse una v. a. X igual al número de señales de alta cali-
dad recibidas, y otra variable Y igual al número de señales de baja calidad
recibidas. En otro ejemplo, la v. a. continua X puede denotar la longitud
de una pieza moldeada por inyección, y la v. a. continua Y puede ser el an-
cho de la pieza. El interés recae en probabilidades que pueden expresarse en
términos de X y de Y . Por ejemplo, si las especificaciones para X y para
Y son (2.95 a 3.05) y (7.60 a 7.80) milı́metros, respectivamente, entonces
puede interesar conocer la probabilidad de que una pieza cumpla con ambas
especificaciones; estos es,
P (2,95 < X < 3,05 y 7,60 < Y < 7,80).
En general, si X e Y son dos variables aleatorias, la distribución de pro-

babilidad que define el comportamiento simultáneo de estas dos variables se
conoce como distribución de probabilidad conjunta. La extensión a tres o más
variables aleatorias es directa, por ello omitimos su presentación.
25
2.6.1. Caso discreto

Dadas X e Y dos variables aleatorias discretas, definimos la función de
probabilidad conjunta asociada a las variables aleatorias X e Y , como aquella
función, fXY (x, y), que proporciona la probabilidad de la intersección,
f(XY ) = P ({X = x} ∩ {Y = y})
para todas las combinaciones de valores de x e y, la cual debe satisfacer las

siguientes propiedades:
1. fXY (x, y) ≥ 0,
2. fXY (x, y) = 1.
P P
x y
(Nota: El sı́mbolo x y denota el sumatorio para todos los valores de x y

P P
de y)
Si en un experimento aleatorio se define más de una variable aleatoria,
entonces es importante distinguir entre la distribución de probabilidad con-
junta de X e Y y la distribución de probabilidad de cada una de las vari-
ables aleatorias por separado (que llamaremos distribución de probabilidad
marginal).
Dadas X e Y dos variables aleatorias discretas con función de probabi-
lidad conjunta fXY (x, y), entonces las funciones de probabilidad marginales
de X e Y son, respectivamente,
fX (x) = P (X = x) = RX fXY (x, y),

P
fY (y) = P (Y = y) = RY fXY (x, y).

P
donde RX denota el conjunto de todos los puntos del conjunto Img (X, Y )
para los que X = x, y RY denota el conjunto de todos los puntos del conjunto
Img (X, Y ) para los que Y = y.
Por analogı́a con los sucesos independientes, se dice que dos variables
aleatorias discretas son independientes si
fY X (x, y) = fX (x)fY (y), para todo (x, y) ∈ Img(X, Y )
2.6.2. Caso continuo

Supongamos que la v. a. continua X representa la longitud de una di-
mensión de una pieza moldeada por inyección, y que la v. a. Y representa
26
la longitud de otra dimensión de la misma pieza. El espacio muestral del ex-

perimento aleatorio estará formado por puntos del espacio bidimensional. Es
posible estudiar cada v. a. por separado. Sin embargo, dado que las dos vari-
ables aleatorias representan dimensiones de la misma pieza, es probable que
pequeñas variaciones en el proceso de moldeado por inyección (tales como las
variaciones de presión y temperatura) generen valores para X e Y en regiones
especı́ficas del espacio bidimensional. Por ejemplo, un ligero aumento en la
presión puede generar piezas para las que X e Y son mayores que las dimen-
siones deseadas, mientras que una ligera disminución en la presión puede dar
origen a piezas en las que tanto X como Y son menores que las dimensiones
deseadas. En consecuencia, basándonos en las variaciones de presión, lo que
se espera es que la probabilidad de una pieza con una X mucho mayor que el
valor deseado y una Y mucho menor que el valor especificado, sea pequeña.
Con este ejemplo queremos remarcar que el conocimiento de la distribu-
ción de probabilidad conjunta de X e Y puede proporcionar información que
no resulta obvia a partir de las distribuciones de probabilidad marginales.
La distribución de probabilidad conjunta asociada a dos variables aleato-
rias continuas X e Y puede especificarse al proporcionar un método que nos
permita calcular la probabilidad de que X e Y tomen un valor en cualquier
región D del espacio bidimensional R2 .
Llamaremos función de densidad de probabilidad conjunta asociada a las
variables aleatorias continuas X e Y , denotada por fXY (x, y), como una
función que nos permite calcular probabilidades en regiones del plano
Z +∞ Z +∞
∀D ⊂ R2 , P [(X, Y ) ∈ D] = fXY (x, y) dx dy.
−∞ −∞
la cual satisface las siguientes propiedades:

1. fXY (x, y) ≥ 0 para toda x, y,
R +∞ R +∞
2. −∞ −∞ fXY (x, y) dx dy = 1,
Notemos que la probabilidad P [(X, Y ) ∈ D] puede interpretarse como el
volumen bajo la superficie fXY (x, y) sobre la región D.
A partir de la función de densidad conjunta asociada a las variables aleato-
rias continuas X e Y , fXY (x, y), es fácil recuperar el modelo de distribución
que tiene cada variable por separado:
Dado que,
P (a < X < b) = P ({a < X < b} ∩ {−∞ < Y < +∞})
P (c < Y < d) = P ({−∞ < X < +∞} ∩ {c < Y < d})
27
entonces las funciones de densidad de probabilidad marginal de X e Y son
+∞
fX (x) = −∞ f (x, y)dy
R
R +∞ XY
fY (x) = −∞ fXY (x, y)dy
El proceso en sentido inverso no se puede hacer en general; sólo si son

variables aleatorias independientes.
Diremos que las variables aleatorias continuas X e Y son independientes
si
fXY (x, y) = fX (x)fY (y), ∀ (x, y) ∈ R2
2.6.3. Caracterı́sticas de sumas y productos

Dadas X e Y variables aleatorias definidas conjuntamente con función
de probabilidad/densidad fXY (x, y), definimos la esperanza de una función
g(X, Y ) como:
(
g(x, y)fXY (x, y) si X e Y son discretas,
P P
E[g(X, Y )] = R +∞x y
−∞ g(x, y)fXY (x, y)dxdy si X e Y son contı́nuas.
Para cualquier par de variables aleatorias definidas conjuntamente se veri-

ficará
E[X + Y ] = E[X] + E[Y ]
La demostración es inmediata, tanto en el caso discreto como en el continuo,

aplicando la definición de esperanza.
Para variables aleatorias independientes, como
fXY (x, y) = fX (x)fY (y), ∀(x, y) ∈ R2 ,
se verifica también además:
1. E[XY ] = E[X]E[Y ]
2. V ar[X + Y ] = V ar[X] + V ar[Y ]

28
2.7. Aproximación normal a las distribuciones

Binomial y Poisson
2.7.1. Teorema Central del Lı́mite
Este teorema establece que si X1 , X2 , · · · , Xn son variables aleatorias in-
dependientes con media µi , varianza σi2 y distribución cualquiera -no nece-
sariamente la misma- y formamos la variable suma
Y = X1 + X2 + · · · + Xn
entonces, cuando n crece, la variable

Y − µi
P
qP
σi2
tiende hacia una distribución N (0, 1).

El resultado anterior implica que si n es grande, podemos aproximar las
probabilidades de Y utilizando
r !
X X
Y ∼N µi , σ2
Una interpretación poco rigurosa de este teorema, que justificarı́a la fre-

cuente aparición de la distribución normal para modelar fenómenos, podrı́a
ser que cuando en un fenómeno intervienen muchos i/o diferente aspectos
relacionados con el azar, el modelo de distribución que mejor lo describe es
una normal.
2.7.2. Aproximación normal a la distribución binomial

El Teorema central del lı́mite implica que laq
distribución binomial Bi(n, p)
se puede aproximar por la distribución N (np, np(1 − p)). La razón de esto
es que una v. a. Y que se distribuye Bi(n, p) se puede pensar como la suma
Pn
i=1 Xi de n variables aleatorias Xi Bernoulli, las cuales están caracterizadas
por tener
1. Distribución de probabilidad
{(0, P (Xi = 0) = 1 − p), (1, P (Xi = 1) = p)}

29
2. Caracterı́sticas
E(Xi ) = p y V ar(Xi ) = p(1 − p)
Notemos que estamos aproximando una distribución de probabilidad discreta

(la binomial) por una contı́nua (la normal), por lo tanto es natural aproximar
el verdadero valor de la probabilidad
P (Bi(n, p) = k), con k ∈ ImgY,
con el área bajo la curva fN (np,√np(1−p)) entre k − 0,5 y k + 0,5; es decir

q
P (Y = k) ≈ P (k − 0,5 ≤ N (np, np(1 − p)) ≤ k + 0,5)
Ejemplo 2.37
Supóngase que en un canal de comunicación digital se transmiten 16 millones
de bits. El número de bits que se reciben de manera errónea puede modelarse
con una variable aleatoria binomial, y que la probabilidad de recibir un bit de
manera errónea es 1 · 10−5 . En tales condiciones, ¿cuál es la probabilidad de que
se presenten más de 150 errores?
Fórmulemos la pregunta en términos de la función de probabilidad de la bino-
mial.
P (Bi(16 · 106 , 10−5 ) > 150) = 1 − P (Bi(16 · 106 ,10−5 ) ≤ 150)

= 1 − 150 16000000 (10−5 )x (1 − 10−5 )16000000−x
P
i=0 x
Es evidente que la probabilidad es difı́cil de calcular. Por fortuna, en este ejemplo

puede emplearse la distribución normal para obtener una aproximación excelente
de la probabilidad real.
P (Bi(16 · 106 , 10−5 ) > 150) = 1 − P (Bi(16 · p

106 , 10−5 ) ≤ 150)
= 1 − P (N (160, 160(1 − 10−5 ) ≤ 150) = 0,785
La aproximación normal a la distribución binomial es buena si n es bas-

tante grande con respecto a p; en particular esto es cierto cuando np > 5 y
n(1 − p) > 5.
30
Ejemplo 2.38
Para tener una idea del grado de eficacia de la aproximación normal, de nuevo
consideremos la transmisión de bits del ejemplo anterior. Supongamos que sólo se
transmiten n = 50 bits, y que la probabilidad de un error en la transmisión es
p = 0,1. La probabilidad de que se presenten menos de tres errores es
P (Bi(50, 0,1) ≤ 2) = 0,1117
Mientras que en base a la aproximación normal

p
P (Bi(50, 0,1) ≤ 2) ≈ P (N (5, 4,5) ≤ 2) = 0,0785
Como puede verse, para una muestra tan pequeña como 50 bits, la apro-
ximación normal no es una buena aproximación. Para subsanar la poca pre-
cisión de la aproximación, en ocasiones, la aproximación normal de una pro-
babilidad binomial se modifica con un factor de corrección por continuidad
de 0.5 que mejora la aproximación (0.5 puede sumarse o restarse).
Ejemplo 2.39
Siguiendo con el ejemplo anterior, como la binomial Bi(50, 0,1) es una variable
aleatoria discreta, tendremos que
P (Bi(50, 0,1) ≤ 2) = P (Bi(50, 0,1) ≤ 2,5)
Sin embargo, la aproximación normal a P (Bi(50, 0,1) ≤ 2) puede mejorarse al

aplicar la aproximación a P (Bi(50, 0,1) ≤ 2,5). Efectivamente,
P (Bi(50, 0,1) ≤ 2) = P (Bi(50, 0,1) ≤ 2,5)

√
≈ P (N (5, 4,5) ≤ 2,5) = 0, 1192
Ejemplo 2.40
31
Un proceso de fabricación de chips produce un 2 % que son defectuosos. Supong-

amos que los chips son independientes y que un lote contiene 1000 de ellos. Calcule-
mos la probabilidad de que el número de chips defectuosos en el lote sea inferior a
25.
La variable que cuenta el número de chips defectuosos contenidos en un lote se
distribuye Bi(1000, 0,02). Por lo tanto, la probabilidad que nos están pidiendo es
P (Bi(1000, 0,02) < 25) = 0,8455
Haciendo uso de la aproximación normal tendremos,

p
P (Bi(1000, 0,02) < 25) ≈ P (N (20, 19,6) < 25) = 0,871
Y utilizando el factor de corrección para aproximar la probabilidad tendremos,
P (Bi(1000, 0,02) < 25) = P (Bi(1000, 0,02) ≤ 25 − 0,5)

√
≈ P (N (20, 19,6) ≤ 24,5) = 0,8457.
Como podemos comprobar, al aplicar el factor de corrección de con-

tinuidad, la aproximación a la probabilidad mejora considerablemente.
2.7.3. Aproximación normal a la distribución de Pois-

son
Recordemos que la distribución de Poisson se desarrolló como el lı́mite de
una distribución binomial cuando el número de pruebas de Bernoulli tiende
a infinito. En consecuencia, no debe ser sorprendente el hecho de encon-
trar que la distribución normal también puede emplearse para aproximar las
probabilidades de una v. a. Poisson.
Una v. a. Y que se distribuye P o(λ) se puede pensar como la suma λi=1 Xi
P
de λ variables aleatorias Xi Poisson, cada una con media y varianza igual

a 1. Aplicando el Teorema central del lı́mite, tendremos que √ la distribución
Poisson P (λ) se puede aproximar por la distribución N (λ, λ).
Notemos que, al igual que en el caso anterior, estamos aproximando una
distribución de probabilidad discreta (la Poisson) por una contı́nua (la nor-
mal), por lo tanto es natural aproximar el verdadero valor de la probabilidad
P (P o(λ) = k), con k ∈ ImgY,

32
con el área bajo la curva fN (λ,√λ) entre k − 0,5 y k + 0,5; es decir

√
P (Y = k) ≈ P (k − 0,5 ≤ N (λ, λ) ≤ k + 0,5)
La aproximación normal a la distribución Poisson es buena para valores de

λ > 5. Sin embargo, notemos como mejora al aplicar el factor de corrección
por continuidad.
Ejemplo 2.41
Entre las 9:00 y las 10:00 horas, el número medio de llamadas telefónicas por
minuto que recibe una centralita es 6.3. Hallar la probabilidad de que durante un
minuto concreto se produzcan más de 8 llamadas.
La variable que representa el número de llamadas por minuto se distribuye
P o(6,3). Formulando en términos de la Poisson la probabilidad anterior tendremos,
P (P o(6,3) > 8) = 1 − P (P o(6,3) ≤ 8) = 0,2983
Haciendo uso de la aproximación normal

p
P (P o(6,3) > 8) ≈ 1 − P (N (6,3, 6,3) ≤ 8) = 0,3902
Y utilizando el factor de corrección para aproximar la probabilidad tendremos,

P (P o(6,3) > 8) = 1 − P (P o(6,3) ≤ 8)
= 1 − P (P o(6,3) ≤ 7 + 0,5)
√
≈ 1 − P (N (6,3, 6,3) ≤ 7,5) = 0,3163
Bibliografı́a
1. R. Grover Brown, y P. Y. C. Hwang, Introduction to random signals

and applied Kalman Filtering , Ed. John Wiley and Sons, 1997.
2. R. V. Hogg, y J. Ledolter, Engineering Statistics, Ed. Maxwell Macmil-
lan International Editions, 1989.
3. Alberto Leon-Garcia, Probability and Random Processes for Electrical
Engineering, Ed. Addison-Wesley Publishing Company, 1993.
4. D. C. Montgomery, y G. C. Runger, Probabilidad y Estadı́stica aplicadas
a la ingenierı́a, Ed. McGraw-Hill, 1996.
33
5. Daniel Peña Sánchez de Rivera, Estadı́stica Modelos y métodos. Vol. 1.

Fundamentos, Ed. Alianza Universidad Textos, 1989.

Apuntes Tema 3 Variables Aleatorias

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apuntes Tema 3 Variables Aleatorias

Cargado por

Copyright:

Formatos disponibles

Estadı́stica. Ingenierı́a INDUSTRIAL.

Tema 3. Variables aleatorias

Ester Simó Mezquita

EPSEVG. Universitat Politècnica de Catalunya

En este capı́tulo desarrollaremos métodos que serán de utilidad en el

2.1. La noción de variable aleatoria

Sea  un experimento y S el espacio muestral asociado a él. Una función

S = {ccc, cc+, c + c, c + +, +c+, + + c, + + +}

Representaremos por X al número de caras en los tres lanzamientos de la moneda.

s ccc cc+ c + c +cc c + + +c+ + + c + + +

Diremos que X es una variable aleatoria discreta si el conjunto ImgX

2.2. Variables aleatorias discretas

Estas variables se corresponden con experimentos en los cuales se cuenta

X = número de partı́culas observadas.

¿Cuáles son los valores posibles de X?.

S = {DDD, DDN, DN D, N DD, DN N, N DN, N N D, N N N }

Supongamos que con probabilidad 0.2 un artı́culo es defectuoso y, por lo tanto,

Sea X una v. a. discreta. Con cada resultado posible xi asociamos un

La función f que antes se definió, se llama función de probabilidad de la

X=0 si y sólo si ocurre NNN;

(Nótese que {N, N, N } equivale a {X = 0}, etc).

Por tanto, un modelo de distribución de probabilidad es la representación

La función de distribución, se define para todo punto real, es siempre no

Suponiendo que la v. a. X toma los valores posibles {x1 , · · · , xn }, siendo

entonces, la función de distribución vendrá dada por:

Por tanto, la función de distribución tendrá saltos, en los puntos x1 , · · · , xn ,

2.2.1. Caracterı́sticas de una variable aleatoria discre-

E[X] = −1 · P (X = −1) + 5 · P (X = 5) = −1 · 0,1 + 5 · 0,9 = 4,4

Dada una v. a. discreta X, con función de probabilidad f (xi ) = P (X =

Esta ecuación nos permite calcular directamente la esperanza de una v. a. Y

= a ∀xi xi · f (xi ) + b ∀xi f (xi ) = aE[X] + b

Definimos la varianza de una v. a. discreta X por:

σ 2 = V ar[X] = (xi − µ)2 · f (xi ).

La varianza puede escribirse de una manera condensada utilizando la no-

(xi − µ)2 · P (X = xi ) = E[(X − µ)2 ].

Por lo tanto, la varianza de una v. a. discreta X es la esperanza del cuadrado

V ar(X) = E[X 2 − 2Xµ + µ2 ] = E[X 2 ] − E 2 [X].

= a2 ∀xi x2i f (xi ) + 2ab ∀xi xi f (xi ) + b2 ∀xi f (xi ) =

Definimos la desviación tı́pica de una v. a. discreta por la raiz cuadrada

2.2.2. Variables aleatorias discretas independientes

2.3. Algunos modelos de distribución de pro-

1. Observar elementos de una población y clasificarlos en dos categorı́as,

2. La proporción de elementos E y F en la población es constante y no se

3. Las pruebas son independientes, es decir, el resultado de una no afecta

Un experimento de este tipo se llama proceso de Bernoulli. Este modelo

2.3.2. La distribución binomial

X = número de éxitos al observar n elementos de la población

El conjunto de todos los valores posibles de X es ImgX = {0, 1, 2, · · · , n}.

consideraremos el suceso k éxitos, seguidos de n − k fracasos, que repre-

Por hipótesis de independencia, la probabilidad de este suceso es:

La probabilidad de k elementos defectuosos en cualquier orden, requiere

P (X = k) = (nk )pk (1 − p)n−k ∀k ∈ {0, 1, · · · , n}

La variable ası́ definida se conoce como v. a. Binomial de parámetros n y p

Tanto la distribución de probabilidad, como la media y la varianza de una v.

1. Observar elementos de un lote (población) y clasificarlos en dos categorias:

2. La probabilidad de éxito es la misma en todas las pruebas

3. Las pruebas son independientes al elegirse el artı́culo al azar con reemplaza-

Al ser X la variable que representa el número de éxitos en 4 pruebas de Bernoulli,

2. La probabilidad de éxito es la misma en todas las pruebas ya que se trata

3. Las pruebas son independientes dado que el resultado en cada momento es

En ocasiones, una v. a. binomial con n = 1 también recibe el nombre de

2.3.3. El proceso de Poisson

en el tiempo, llegadas de aviones a un aeropuerto, corrosión en una tuberı́a,

Sea un experimento y S el espacio muestral asociado a él. Una función