Distribuciones Probabilidad

Proyecto CLAVEMAT – EPN
Texto Guía 2: Leyes de distribución de probabilidad
Contenidos: Juan Carlos Trujillo

Estructura pedagógica: Victoria Novillo
Enero 2016
Estadística descriptiva
Histogramas de frecuencia relativa
Definición
Un histograma de frecuencia relativa es una representación gráfica de un conjunto

de datos en forma de rectángulos. El área de cada rectángulo es proporcional a la
frecuencia relativa de un subconjunto del total de los datos.
Se utiliza fundamentalmente para dar una “idea general” de la distribución de los datos
respecto a alguna de las características de estos datos que se pretende obtener.
Método
Guías para construir un histograma
1. El número de sub-intervalos es arbitrario. Sin embargo, observa que si hay muchos,

su longitud es pequeña y contendrán pocos datos; por el contrario, si son pocos,
su longitud es grande y contendrán casi todos los datos. Hay que evitar los dos
extremos mencionados y buscar la longitud del intervalo que sea significativa para
los datos que se están representado. Por ejemplo, en el caso de los divorcios se han
considerado períodos de 5 años y con un límite de matrimonios de 30 de duración
(pues son pocos los divorcios de matrimonios que han superado dicho tiempo).
La práctica sugiere que se utilicen entre 5 y 20 sub-intervalos y, mientras más
grande sea el conjunto de datos, mayor sea el número de intervalos.
2. En la construcción manual del histograma realizada en este documento se

consideraron sub-intervalos cuyos extremos coinciden con algunos de los datos.
Por ejemplo, en el intervalo [1 − 5] se incluyeron todos los matrimonios cuya
duración fue entre 1 y 5 años, inclusive. Con el mismo criterio se calculó la
frecuencia relativa de los otros subintervalos.
Sin embargo, cuando se construye un histograma con herramientas tecnológicas,
la elección de los subintervalos cuyos extremos coinciden con algunos datos suele
traer la complicación de que la herramienta no sabe a qué intervalo corresponde
el dato y no incluye ninguno.
Por ello, se recomienda que, en la construcción de los sub-intervalos, los extremos
considerados no coincidan con ninguno de los datos.
3. Aunque no hay ninguna razón para ello, es muy común que los subintervalos se
escojan de igual longitud.
2
Ejemplo
Considera la situación siguiente.
En el año 2014, una encuesta realizada a 100 personas que se divorciaron

en el año 2013, preguntó por el número de años que duró el matrimonio; en
la tabla siguiente se consigna la información recabada:
3 10 7 11 5 4 9 8 6 1
4 12 21 3 7 11 1 6 10 3
7 2 29 9 21 6 11 14 19 5
9 6 4 8 10 25 2 7 15 8
17 6 13 10 20 13 4 20 24 12
28 9 11 19 12 16 8 4 3 10
15 5 9 2 5 8 15 14 8 15
25 30 24 4 23 10 18 22 5 21
10 22 17 14 27 3 21 11 19 7
1 16 15 21 12 16 23 5 2 17
Entre los diversos propósitos que pudieron plantearse para la realización de

esta encuesta podrían estar los siguientes:
• Determinar la proporción de matrimonios que tienen una duración

determinada. Por ejemplo, ¿cuál es la proporción de matrimonios que
han durado entre uno y cinco años?
• Determinar el número de años en promedio que dura un matrimonio en
Ecuador.
A continuación, vas a aplicar el método indicado:
1. En este ejemplo, el dato más pequeño es 1 y el más grande es 30. Divide el intervalo
[1, 30] en grupos o sub-intervalos; en este caso, considera seis:
[1 − 5], [6 − 10], [11 − 15], [16 − 20], [21 − 25] y [26 − 30].
Ahora determina el número de datos que hay en cada subintervalo y la proporción

respecto del total (en este caso, 100); es decir, calcula las frecuencias y frecuencias
3
relativas de cada subintervalo (recuerda que el número total de datos es 100):
Intervalo Frecuencia Frecuencia relativa

[1 − 5] 24 0.24
[6 − 10] 28 0.28
[11 − 15] 19 0.19
[16 − 20] 12 0.12
[21 − 25] 13 0.13
[26 − 30] 4 0.04
2. En un sistema de coordenadas, en el eje horizontal se registran los datos; en este

caso, el eje se divide en los 6 sub-intervalos considerados. En el eje vertical, en
cambio, se consignan las frecuencias relativas, como se muestra en el siguiente
gráfico:
0.3
Frecuencia relativa
0.2
0.1
0
0 5 10 15 20 25 30
Duración del matrimonio en años
3. Sobre cada subintervalo, se levanta un rectángulo de altura igual a su frecuencia

relativa:
0.3
Frecuencia relativa
0.2
0.28
0.1 0.24
0.19
0.12 0.13
0.04
0
0 5 10 15 20 25 30
El dibujo obtenido es el histograma de frecuencias relativas de los datos sobre la

duración de los matrimonios que se divorciaron en el año 2013.
4
Si la encuesta ha sido realizada bajo las condiciones exigidas por las técnicas de la
inferencia estadística, estos resultados podrían utilizarse para estimar la probabilidad
de que un matrimonio elegido al azar en este año 2014 se divorcie.
Por ejemplo, si eliges al azar un matrimonio que ha durado ya 8 años, que está en el
sub-intervalo [6 − 10], la probabilidad de que se divorcie en este año es igual a 0.28; es
decir, si se tomaran 100 matrimonios, 28 de ellos podrían terminar en divorcio.
Más aún, a través de este recurso gráfico, podría estimarse la probabilidad de que un
matrimonio que ha durado por lo menos 16 años (es decir, ha durado 16 o más años) es
0.12 + 0.13 + 0.04 = 0.29,
porque el 29 por ciento de los datos se encuentran sobre 15 años.
O la probabilidad de que un matrimonio no pase de los diez años es
0.24 + 0.28 = 0.52,
pues el 52 por ciento de los datos se encuentran bajo 10 años.
Para el estudio de la inferencia estadística, deberás aprender los conceptos de variable

aleatoria y distribución de probabilidad, entre otros. Los histogramas serán de ayuda
para explicar estos conceptos, tanto en la teoría como en la práctica.
Medidas numéricas
Definiciones
Las medidas numéricas para describir un conjunto de datos son adecuadas para
realizar inferencias. En este curso vas a estudiar dos: a) la media aritmética, o
simplemente media(otro nombre para esta medida es promedio, que pertenece a la
categoría de las medidas de tendencia central ; y b) la varianza que pertenece a las
medidas de dispersión o variación.
Observación
La idea central de la descripción de los datos a través de estas medidas numéricas es

la siguiente: La media es valor que “representa a todo el conjunto de los datos”; pero,
para que los represente, la “mayoría de los datos” deberán estar “cerca” de la media.
Y es justamente la varianza la medida numérica que dirá “cuántos datos están cerca
de la media y cuán cerca”: mientras más pequeña sea la varianza, más datos estarán
5
cerca de la media. En otras palabras, la varianza permitirá decidir si la media es una
buena medida para representar a todo el conjunto de los datos.
Definición
Media
Es una de las principales medidas de tendencia central; se la define de la siguiente

manera.
Si M = {x1 , x2 , . . . , xn } es una muestra de n datos o medidas, la media aritmética, o

simplemente media de la muestra M , es el número representado por x y definido por
n
1 1¼
x= (x1 + x2 + · · · + xn ) = xk . (1)
n n
k =1
La media poblacional correspondiente se suele representar por la letra griega Þ (se

pronuncia “mi”).
Método
La aplicación Excel de Microsoft© provee una función para calcular la media de un

conjunto de datos; se llama PROMEDIO. Su uso es sencillo y se ilustra a continuación.
1. Inicia Excel, nombra una nueva hoja de trabajo con “Media y varianza” y guarda el
libro con el nombre “Divorcios 2013”.
2. Copia los datos de la tabla de la página 3 en el rango de celdas A2:J11 como se

muestra a continuación:
3. En la celda $B$12 escribe la fórmula =PROMEDIO(A2:J11):
6
Luego de dar “Enter”, obtendrás la media del conjunto de mediciones de la
muestra:
La media de una muestra indica o localiza el “centro de los datos”:
0.3
Frecuencia relativa
0.2 x
0.1
0
11.75
0 5 10 15 20 25 30
7
Observación
En este ejemplo, la información es insuficiente para una descripción satisfactoria de la

muestra a través de la media:
Considera a M1 = {2, 10} y M2 = {5, 6, 7} como dos muestras. Ambas tienen la misma
media:
2 + 10 5+6+7
x1 = = 6 y x2 = = 6;
2 3
sin embargo, los dos datos de la primera muestra {2, 10} están “lejos” de la media 6,
mientras que en la segunda muestra {5, 6, 7} están “cerca” de ella. Esto quiere decir
que la media por sí sola no informa si la mayoría de las medidas son “parecidas” entre
sí y cercanas a la media.
La varianza es la medida que complementa la información de la media al dar un valor

para la “variabilidad” de los datos.
Definición
Varianza y desviación estándar
Si M = {x1 , x2 , . . . , xn } es una muestra de n datos o medidas, la varianza de la muestra

M es el número representado por s 2 y definido por
n
1 h i 1 ¼
s2 = (x1 − x )2 + (x2 − x )2 + · · · + (xn − x )2 = (xk − x )2 . (2)
n−1 n−1
k =1
La varianza poblacional correspondiente se suele representar por la letra griega ã2 (se

pronuncia “sigma cuadrado”).
La varianza pertenece a la categoría de las medidas de dispersión.
Ejemplo
El siguiente conjunto de datos es una muestra de la nota (sobre 10 puntos) que tienen 8
estudiantes en Probabilidades y Estadística :
N = {8, 7.5, 8, 7.2, 9.3, 5.3, 10, 6.9}.
Entonces, la media de esta muestra es
1
x= (8 + 7.5 + 8 + 7.2 + 9.3 + 5.3 + 10 + 6.9) ≈ 7.78.
8
¿Qué tan “cerca” o tan “lejos” están los datos de este número?
8
La manera de medir la “distancia” de cada uno de los datos a la media es calcular la
diferencia (resta) entre la media y cada dato:
7.78 − 8 = −0.225, 7.78 − 7.5 = 0.275, 7.78 − 6.9 = −0.875. (3)
Por otro lado, recuerda que el cuadrado de un número que se va acercando a 0 es más
pequeño que el número mismo. Luego, si las diferencias entre la media y los datos son
pequeñas, los cuadrados de estas diferencias serán aún más pequeñas. Si son
grandes, esos cuadrados serán grandes. De esta propiedad se colige la importancia de
la desviación estándar como una medida que mide la dispersión de los datos respecto
de la media.
En el ejemplo mencionado, tienes que:
(7.78 − 8)2 ≈ 0.0506 < 0.225 = |7.78 − 8|,
(7.78 − 7.5)2 ≈ 0.0756 < 0.275 = |7.78 − 7.5|,
(7.78 − 6.9)2 ≈ 0.7656 < 0.875 = |7.78 − 6.9|, . . .
Para determinar la cercanía o no de los datos, primero sumas estas ocho diferencias
elevadas al cuadrado:
(7.78 − 8)2 + (7.78 − 7.5)2 + · · · + (7.78 − 6.9)2 ≈ 14.6748.
Y luego divides este valor por 7:
(7.78 − 8)2 + (7.78 − 7.5)2 + · · · + (7.78 − 6.9)2 14.6748

= ≈ 2.0964.
7 7
Observación
La varianza de una muestra se la utiliza para medir la “distancia de los datos” a la

media.
Observación
La varianza es un valor “cercano al promedio” porque, en este ejemplo, en lugar de

dividir por 8, se lo hace por 7. La explicación de por qué se toma 7 y no 8 se escapa del
alcance de esta sección del curso, pero la razón es que con 7 se mide mejor la
variabilidad de los datos que con 8.
9
Observación
La varianza es un tipo de media del cuadrado de las diferencias de cada medida respecto
de la media. Se dice que es un “tipo” de media porque la suma se divide para n − 1 y no
para n. La razón, que no podrás explicar en esta sección, es que al dividir por n − 1 se
obtiene una mejor medida de la variabilidad que cuando se divide por n.
Observación
Otra característica de la varianza, que no se profundizará es que es apropiada para

comparar la variabilidad de dos conjuntos mediciones. Sin embargo, cuando se emplea
un solo conjunto de datos, la variabilidad se explica mejor a través de su raíz cuadrada:
la varianza suma los cuadrados de las diferencias entre los datos y la media; al extraer
la raíz cuadrada obtienes una medida para las diferencias y no para sus cuadrados.
Definición
A la raíz cuadrada de la varianza se le conoce con el nombre de desviación estándar.
De manera más precisa, si M = {x1 , x2 , . . . , xn } es una muestra de n datos o medidas, su

desviación estándar es el número representado por s y definida como la raíz cuadrada
de la varianza:
√
s = s2. (4)
La desviación estándar poblacional correspondiente se representa por la letra griega

ã (se lee “sigma”).
Ejemplo
En el ejemplo de las notas, la varianza que calculaste es 2.0964; por tanto, la desviación
estándar de esta muestra es
√
2.0964 ≈ 1.4479.
¿Qué indica este número sobre la variabilidad de los datos? La respuesta está en la
regla empírica que vas a estudiar en seguida, pero antes mira la definición precisa de
desviación estándar y su notación.
Ejemplo
A continuación, calcula la varianza y la desviación estándar de la muestra del ejemplo

de los divorcios.
10
Por la cantidad de datos, los cálculos para determinar la varianza y la desviación
estándar no los realizarás manualmente, sino mediante calculadoras electrónicas
como Excel.
1. Inicia Excel, abre el libro “Divorcios 2013.xls” y selecciona la hoja “Media y

varianza”.
2. En la celda $B$13 escribe la fórmula “=VAR.S(A2:J11)”:
Luego de dar “Enter”, obtendrás la varianza:
Presta atención de utilizar la función VAR.S y no la función VAR.P. Esta última es la

varianza de la población, en cuyo caso, Excel utiliza n en lugar de n − 1. La letra S
en la función VAR.S quiere decir “sample”, que en inglés significa “muestra”.
3. Ahora calcula la desviación estándar de la muestra. Podrías hacerlo extrayendo

la raíz cuadrada de la varianza, pero hazlo utilizando la función que Excel provee
para ello: en la celda $B$14 escribe la fórmula “=DESVEST.M(A2:J11)”:
11
Presiona “Enter” y obtendrás la desviación estándar:
En resumen:
La varianza de la muestra de la duración de los matrimonios que se

divorciaron en 2013 es aproximadamente 54.33 y la desviación estándar
es aproximadamente 7.37.
¿Puedes utilizar la media de estos datos como un valor representativo de los mismos?
La desviación estándar te lo dirá.
Emplearás la regla empírica como una herramienta que te permitirá expresar la

variabilidad de los datos respecto de la media a través de la desviación estándar.
12
Propiedad
La regla empírica
Si la distribución de los datos o mediciones de una muestra tiene la forma de

“montículo” o “campana”, entonces:
• El intervalo [Þ − ã, Þ + ã] contiene el 68 % de las mediciones aproximadamente:
68 %
Þ−ã Þ Þ+ã
• El intervalo [Þ − 2ã, Þ + 2ã] contiene el 95 % de las mediciones aproximadamente:
95 %
Þ − 2ã Þ Þ + 2ã
• El intervalo [Þ − 3ã, Þ + 3ã] contiene casi todas las mediciones:
≈ 100 %
Þ − 3ã Þ Þ + 3ã
Ejemplo
Para explicar como se utiliza la regla empírica, realiza primero el histograma de la

siguiente muestra del número de matrimonios mensuales en las diversas provincias de
Ecuador en el año 2004:
340 339 249 410 335 337 379 422 330 338 161 444
298 300 260 330 340 420 310 295 298 333 301 217
128 110 134 130 83 113 114 109 129 132 198 161
387 409 366 376 498 379 434 409 399 387 342 399
224 173 192 216 204 255 275 215 263 146 266 233
288 270 299 263 266 252 271 278 261 202 198 367
202 194 223 187 215 208 217 193 195 245 166 226
218 187 152 185 229 176 207 267 247 167 255 348
389 421 299 328 300 241 299 300 430 237 417 408
306 281 245 311 277 267 323 336 279 272 193 342
13
Utiliza Excel para elaborar un histograma de esta muestra. Si tomas 10 subintervalos,
podrás obtener la representación de los datos dada en la figura:
Como puedes ver, la distribución de las frecuencias de estos datos tiene la forma de
“montículo” o “campana”. Cuando esto ocurre, la variabilidad del conjunto de datos se
puede expresar a través de la desviación estándar, como se explica a continuación.
Ahora aplica la regla empírica a la muestra de los matrimonios y luego compara sus
conclusiones con los datos.
Para ello, primero calcula la media y la desviación estándar de la muestra. Si utilizas

Excel, obtendrás que
x ≈ 271.66 y s ≈ 89.31.
Entonces, bajo el supuesto de que la muestra ha sido tomada adecuadamente, la

media y la desviación estándar poblacionales se tomarán igual a la media y la
desviación estándar muestrales:
Þ ≈ 271.66 y ã ≈ 89.31.
Calcula, ahora, los intervalos que indican la regla empírica:
• [Þ − ã, Þ + ã] = [271.66 − 89.31, 271.66 + 89.31] = [182.35, 360.97].

La regla asegura, entonces, que aproximadamente el 68 % del número de
matrimonios mensuales deben estar entre 182 y 361. Como hay 120 mediciones,
entonces se espera que aproximadamente
120 × 0.68 ≈ 82
mediciones estén entre 182 y 361.

Si miras los datos, verás que hay exactamente 80 mediciones en ese intervalo.
14
• [Þ − 2ã, Þ + 2ã] = [271.66 − 2 × 89.31, 271.66 + 2 × 89.31] = [93.03, 450.28].
La regla asegura que aproximadamente el 95 % del número de matrimonios
mensuales deben estar entre 93 y 450. Como hay 120 mediciones, entonces se
espera que aproximadamente
120 × 0.95 ≈ 114
mediciones estén entre 93 y 450.

Si miras las mediciones, ¡hay exactamente 119 datos!
• [Þ − 3ã, Þ + 3ã] = [271.66 − 3 × 89.31, 271.66 + 3 × 89.31] = [3.72, 539.59].

La regla asegura que casi todas las mediciones deben estar entre 93 y 450. Se
espera, entonces, que las 120 mediciones estén entre 4 y 540. Lo cual es cierto:
todos los datos están en este intervalo porque el valor mínimo de los datos es 83
y el valor máximo es 498.
Observación
Como se ha ilustrado con el ejemplo anterior, el conocer las medidas numéricas media
y desviación estándar juntas proveen mayor información sobre los datos que cuando se
lo hace con el histograma. Sin embargo, este último te permite saber si se puede aplicar
o no la regla empírica.
Ejercicio
La media y la varianza de una muestra de notas de las alumnas y alumnos de la

materia de Probabilidades y Estadística del primer año de la Escuela Politécnica
Nacional son 7.3 y 0.25, respectivamente. Un histograma de los datos tiene forma
de montículo. ¿Entre qué límites está la mayoría de las notas?
A) [5.8, 8.8]
B) [6.3, 8.3]
C) [5.8, 7.8]
Solución. La opción correcta es A). En efecto, dado que el histograma tiene forma de montículo,
es aplicable la regla empírica. Esta afirma, entre otras cosas, que la mayoría de los datos está
en el intervalo
[Þ − 3ã, Þ + 3ã],
donde Þ es la media y ã es la desviación estándar. Por tanto, para este caso, tienes que
√
Þ = 7.3 y ã = 0.25 = 0.5,
15
de donde, por la regla empírica, la mayoría de los datos estará en el intervalo
[7.3 − 3 × 0.5, 7.3 + 3 × 0.5] = [7.3 − 1.5, 7.3 + 1.5] = [5.8, 8.8].
Ejercicio
Del total de las y los 216 estudiantes que rindieron el examen final de
Probabilidades y Estadística, se tomó una muestra cuya media y varianza fueron
8.1 y 0.36, respectivamente. El histograma de frecuencias mostró que los datos
tienen una distribución en forma de montículo. ¿Cuántos estudiantes
aproximadamente obtuvieron una nota entre 7.5 y 8.7?
A) 205
B) 180
C) 146
Solución. La opción correcta es C). En efecto, como el histograma muestra una distribución de
frecuencias en forma de montículo, puedes aplicar la regla empírica. En este caso, tienes que
√
Þ = 8.1 y ã = 0.36 = 0.6.
Por tanto, la regla empírica te dice que el 68 % de los datos está en el intervalo
[Þ − ã, Þ + ã];
es decir, en el intervalo
[8.1 − 0.6, 8.1 + 0.6] = [7.5, 8.7].
Así, el número aproximado de estudiantes que obtuvieron su nota entre 7.5 y 8.7 es:
216 × 0.68 ≈ 146.88;
es decir, aproximadamente 146 estudiantes.
Ejercicio
La media del conjunto de datos
{−5, −4, −3, −2, −1, 0, 1, 2, 3, 4, 5}
es:
15
A)
11
16
B) 0
30
C)
11
Solución. La opción correcta es B). En efecto, recuerda que la media de un conjunto de datos
{ x1 , x2 , x3 , . . . , x n }
es
1
x=( x + x + · · · + xn ) .
n 1 2
En este caso, tienes que n = 11, de donde,
(−5) + (−4) + (−3) + (−2) + (−1) + 0 + 1 + 2 + 3 + 4 + 5

x=
11
0
= = 0.
11
Ejercicio
¿Se puede considerar representativa la media del siguiente conjunto de datos?
{−5, −4, −3, −2, −1, 1 100, 1, 2, 3, 4, 5}
A) NO
B) SÍ
Solución. La opción correcta es A). En efecto, recuerda que la media de un conjunto de datos
{ x1 , x2 , x3 , . . . , x n }
es
1
x=( x + x + · · · + xn ) .
n 1 2
En este caso, tienes que n = 11, de donde,
(−5) + (−4) + (−3) + (−2) + (−1) + 1 100 + 1 + 2 + 3 + 4 + 5

x=
11
1 100
= = 100.
11
Como puedes ver, todos los datos son valores cuya diferencia con la media es bastante grande.
Luego, la media no representa el conjunto de datos.
17
Ejercicio
La desviación estándar del conjunto de datos
{−5, −4, −3, −2, −1, 1 100, 1, 2, 3, 4, 5}
es:
A) 316.24
B) 110 001
C) 100 010
D) 331.68
Solución. La opción correcta es D). En efecto, utiliza Excel para obtener la varianza de este
conjunto de datos:
1. Inicia Excel.
2. Registra el conjunto de datos como se muestra a continuación:
3. Utiliza la función DESVEST.M como se muestra en el dibujo:
4. Finalmente, obtienes que la desviación estándar es 331.68:
18
19
Variables aleatorias discretas
Variables aleatorias
Definición
Realizado un experimento, donde Ò es el espacio muestral correspondiente, una función

de la forma
X : Ò −→ R
es una variable aleatoria asociada al experimento si el conjunto de todos elementos

del espacio muestral en los cuales la función X toma un valor menor que x ,
{é ∈ Ò : X (é) < x },
es un evento del experimento.
Ejemplo
A través de este ejemplo simple podrás comprender de una manera adecuada el rol
que tienen las variables aleatorias. Considera el lanzamiento de una moneda
(perfectamente balanceada) dos veces. El espacio muestral Ò se puede expresar de la
siguiente manera:
Ò = {{cc}, {cs}, {sc}, {ss}} .
Ahora considera una función del espacio Ò en el conjunto de los números reales R: a
cada elemento de Ò le haces corresponder el número de caras que salen. Si nombras
con X esta función, entonces puedes escribir:
X ({cc}) = 2, X ({cs}) = 1, X ({sc}) = 1 y X ({ss}) = 0.
Con la ayuda de esta función X , puedes expresar todos los posibles eventos de este
experimento. Por ejemplo, el evento
A = {{cs}, {sc}},
es decir, el evento
“sale exactamente una cara”,
se puede expresar diciendo que es el evento
en cuyos elementos la función X siempre toma el valor igual a 1.
21
En este caso, en lugar plantear el problema de calcular la probabilidad del evento A
directamente, se plantea el problema de calcular la probabilidad de que la variable
aleatoria X tome el valor 1, lo que se escribe de la manera siguiente:
P (X = 1) ;
es decir, para este ejemplo, tienes que:
2 1
P (X = 1) = P (A) = = .
4 2
Ahora considera el evento B : “sale por lo menos un sello”. Entonces
B = {{cs}, {sc}, {ss}} .
En este caso, la probabilidad de este evento se puede expresar utilizando X de la manera

siguiente:
P (X ≥ 1) .
Y en este caso, podrás expresar esta probabilidad así:
1 1 3
P (X ≥ 1) = P (X = 1) + P (X = 2) = + = .
2 4 4
En este caso también se verifica que
1 1 1
P (X = 0) + P (X = 1) + P (X = 2) = + + = 1.
2 2 4
Entonces, si x es uno de los tres números: 0, 1 o 2, la expresión
P (X = x )
indica la probabilidad del evento: “han salido exactamente x caras”.
En resumen, este proceso ha introducido una nueva función, que se le representa con la
letra minúscula p:
p : {0, 1, 2} −→ R,
donde
p( x ) = P ( X = x ) ,
es decir, p(x ) es la probabilidad de que la función X tome el valor x ; es decir, la

probabilidad de que ocurra el evento “Salen exactamente x caras”.
Esta función se denomina función de distribución de probabilidad de la función X , y la

función se denomina variable aleatoria.
El papel de la función de distribución de probabilidad es que, una vez ya conocida, te
22
permite calcular la probabilidad de un evento fácilmente.
Ejemplo
En la segunda vuelta electoral para la presidencia de un país hay dos candidatas o

candidatos. Previo a la elección, una encuesta de sondeo de opinión consiste en
preguntar a 1 200 votantes si votarán por el candidato A. Nombra con la letra X la
variable aleatoria “Número de personas encuestadas que votarán por A”.
El objetivo de la encuesta es conocer qué proporción de la población de votantes está a

favor del candidato A. Para ello se ha elegido una muestra con 1 200 elementos (las y
los votantes). Si la selección es correcta, entonces se pretende inferir la proporción de
la población que está a favor de A, a partir de la proporción que está a favor de A en la
muestra.
En este caso la variable aleatoria X podrá tomar cualquiera de los valores entre 0 y
1 200. Que tome, por ejemplo, el valor 439 quiere decir que de las 1 200 personas, 439
están a favor de A. Que tome el valor 0 significaría que ninguna de las encuestadas y
ninguno de los encuestados está a favor del candidato A.
Por lo tanto, si Ò es el espacio muestral, la variable aleatoria X , “número de personas

encuestadas que votarán por A”, es la función
X : Ò −→ {0, 1, 2, . . . , 1 200}
x 7−→ X (x ) = número de personas encuestadas que votarán por A.
Y si p es la función de distribución de probabilidad de X , entonces el número
p(X = 534)
indica la probabilidad de que la variable aleatoria X tome el valor 534; es decir, la

probabilidad del evento “534 personas encuestadas votarán por A”.
Observación
El concepto de variable aleatoria te permite responder preguntas del siguiente tipo. La

primera:
¿hay elementos en Ò en los cuales la variable aleatoria X tome un valor

menor que 1?
Claro que sí; de hecho, hay uno solo y es {ss }, pues X ({ss }) = 0. Entonces, el conjunto
de los elementos del espacio muestral en los que la variable aleatoria X toma el valor 0
23
tiene un solo elemento. Este conjunto se representa de la manera siguiente:
{é ∈ Ò : X (é) < 1},
que se lee:
“el conjunto de los eventos simples é en el espacio muestral Ò en los cuales

X toma un valor menor que 1”.
Como puedes ver, este conjunto es el evento “no sale ninguna cara”:
{é ∈ Ò : X (é) < 1} = {{ss }}.
Una segunda pregunta:
¿cuál es el conjunto de los elementos en Ò en los cuales la variable aleatoria

X toma un valor menor que 1.8?
El siguiente:
{{cs}, {sc}, {ss}}
En cada uno de los dos primeros elementos X toma el valor 1, que es menor que 1.8; en
el tercero, toma el valor 0, que también es menor que 1.8. Es decir, en los tres casos, X
toma un valor menor que 1.8. A este conjunto se lo representa de la siguiente manera:
{é ∈ Ò : X (é) < 1.8},
que se lee:
“el conjunto de los eventos simples é en el espacio muestral Ò en los cuales

X toma un valor menor que 1.8”,
y es el evento “a lo mucho sale una cara”.
La tercera pregunta:
¿cuál es el conjunto de los elementos en Ò en los cuales la variable aleatoria

X toma un valor menor que 3?
El siguiente:
{{cc}, {cs}, {sc}, {ss}} ,
que se expresa de la manera siguiente:
{é ∈ Ò : X (é) < 3},
24
y que en este caso es igual al espacio muestral, es decir, es el evento cierto.
De manera similar a lo desarrollado para contestar las tres preguntas, verifica por ti
misma o por ti mismo los siguientes hechos:
• El conjunto de los elementos en Ò en los cuales X toma un valor menor que 0 es

el conjunto vacío; es decir, es el evento nulo:
{é ∈ Ò : X (é) < 0} = ∅.
• El conjunto de los elementos en Ò en los cuales X toma un valor menor que 4 es

el espacio muestral; es decir, es el evento cierto:
{é ∈ Ò : X (é) < 4} = Ò .
• El conjunto de los elementos en Ò en los cuales X toma un valor menor que 1.8 es
el evento “a lo mucho sale una cara”:
{é ∈ Ò : X (é) < 1.8} = {{cs}, {sc}, {ss}} .
Observación
Los ejemplos anteriores se generalizan en el concepto de variable aleatoria de la

siguiente manera:
Si x es un número real cualquiera, el conjunto
{é ∈ Ò : X (é) < x },
es decir, el conjunto de “los elementos del espacio muestral Ò en los cuales

la variable aleatoria X toma un valor menor que x”, es un evento del
experimento.
¡Esta es la propiedad que cualquier variable aleatoria tiene que cumplir!
Definición
Dado un experimento, Ò representa el correspondiente espacio muestral; X una variable

aleatoria asociada al experimento; y x un número real. Se consideran los siguientes
eventos:
• “Los elementos de Ò en los que X toma un valor menor que x ”:
{é ∈ Ò : X (é) < x }.
25
Su probabilidad se representa por P (X < x ); es decir:
P (X < x ) = P ({é ∈ Ò : X (é) < x }) .
• “Los elementos de Ò en los que X toma un valor igual a x ”:
{é ∈ Ò : X (é) = x }.
Su probabilidad se representa por P (X = x ).
• “Los elementos de Ò en los que X toma un valor menor o igual que x ”:
{é ∈ Ò : X (é) 6 x }.
Su probabilidad se representa por P (X 6 x ).
• “Los elementos de Ò en los que X toma un valor mayor que x ”:
{é ∈ Ò : X (é) > x }.
Su probabilidad se representa por P (X > x ).
• “Los elementos de Ò en los que X toma un valor mayor o igual que x ”:
{é ∈ Ò : X (é) > x }.
Su probabilidad se representa por P (X > x ).
Ejemplo
Considera el lanzamiento de una moneda dos veces. Entonces,
• Nombra con A el evento “sale exactamente una cara”. Entonces A se representa por
A = {é ∈ Ò : X (é) = 1} = {{cs}, {sc}}.
Por lo tanto, en este caso:

2 1
P (X = 1}) = = .
4 2
• Nombra con B el evento “a lo mucho sale una cara”; luego B se representa por
B = {é ∈ Ò : X (é) 6 1} = {{ss}, {cs}, {sc}}.
En este caso tienes que

3
P (X 6 1) = .
4
26
• Observa que el evento B puede expresarse también de la manera siguiente:
B = {é ∈ Ò : X (é) = 0 ó X (é) = 1}.
Luego, el evento B puede escribirse como la unión de dos eventos disjuntos:
B = {é ∈ Ò : X (é) = 0} ∪ {é ∈ Ò : X (é) = 1};
por lo tanto, tienes que
1 1 3
P (X 6 1) = P (X = 0) + P (X = 1) = + = .
4 2 4
• Nota que el evento

{é ∈ Ò : X (é) > 1}
es el evento contrario al evento
{é ∈ Ò : X (é) 6 1}.
Por ello, tienes que

P (X > 1) = 1 − P (X 6 1) .
Ejemplo
Una prueba psicológica para niñas y niños consiste en relacionar cada una de 3
imágenes de objetos con la palabra que identifica a ese objeto. Una niña asigna al azar
cada una de la palabras a una de las tres imágenes. Considera la variable aleatoria
X : “el número de pares correctos”,
y descríbela.
En primer lugar, el experimento consiste en asignar al azar cada una de las tres palabras
a una de las tres imágenes de objetos. Los resultados de este experimento se pueden
representar de la manera siguiente.
Numera las palabras y las imágenes con los dígitos del 1 al 3, de tal manera que si una
palabra y una imagen se corresponden, se identifican con el mismo dígito. Por ejemplo,
la palabra asignada con el dígito 2 describe el objeto de la imagen 2:
1 2 3
♣ ♦ ♠
Trébol Diamante Corazón
A continuación, representa cada posible asignación de las tres palabras a las imágenes
en forma de un arreglo lineal de los tres dígitos, de forma que cuando una palabra
27
describe correctamente el objeto de la imagen, el número que representa la palabra
ocupa la posición en el arreglo indicada por dicho número.
Por ejemplo, si la niña relacionara
• la primera imagen con la palabra numerada con 3;
• la segunda imagen con la palabra numerada con 1; y
• la tercera imagen con la palabra numerada con 2;
es decir:
3 1 2
♣ ♦ ♠
Corazón Trébol Diamante
utilizarías el arreglo para representar la prueba:
312.
En este caso, no se habría conseguido ningún par correcto. En cambio, el arreglo 321
indica que hay un par correcto: la segunda imagen fue identificada con la palabra
correcta:
3 2 1
♣ ♦ ♠
Corazón Diamante Trébol
Con esta representación, el experimento puede ser visto como la selección del total de
3 objetos sin devolución y con orden; es decir, el espacio muestral está conformado por
todas las permutaciones de tamaño 3, y, por lo tanto, tiene 3! = 6 elementos:
Ò = {{123}, {132}, {213}, {231}, {312}, {321}}.
Ahora bien, describir la variable aleatoria X asociada a este experimento consiste en

indicar qué valor toma X en cada uno de los elementos del espacio muestral Ò .
Como puedes ver, X solo puede tomar tres valores: 0, 1 y 3. En efecto:
• Toma el valor 0 en {231} y {312}, porque en ninguna de estas pruebas hay un par
correcto.
• Toma el valor 1 en {132}, {213} y {321}, porque hay un par correcto en cada prueba.
• No toma el valor 2, pues no hay dos pares correctos en ningún elemento del
espacio muestral Ò . Y,
28
• Toma el valor 3 únicamente en {123}.
Por lo tanto, X es la función X : Ò −→ R donde
X ({231}) = X ({312}) = 0, X ({132}) = X ({213}) = X ({321}) = 1 y X ({123}) = 3.
Como la asignación es al azar, cada evento simple tiene la misma probabilidad de salir;
luego, obtienes que:
2 1
• P (X = 0) = P ({{231}, {312}}}) = = .
6 3
3 1
• P (X = 1) = P ({{132}, {213}, {321}) = = .
6 2
• P (X = 2) = 0, pues, como lo viste ya, X no toma el valor 2. Y,
1
• P (X = 3) = P ({{123}}) = .
6
Ejemplo
En el ejemplo sobre la violencia de género, se indicó que en Ecuador, el INEC había

realizado una encuesta a mujeres de 15 años de 18 800 viviendas. Supón que se eligen
al azar 18 de esas 18 800 encuestas. Describe la variable aleatoria:
X : “el número de mujeres que sufren algún tipo de violencia”.
En este caso, el experimento consiste en seleccionar al azar 18 mujeres de las 18 800, y

contar cuántas de ellas sufren o han sufrido algún tipo de violencia.
Nombra con la letra Ò el espacio muestral correspondiente. Supón, por ejemplo, que
é ∈ Ò ; es decir, é es una de las posibles selecciones de 18 mujeres, de las cuales, 7
sufren o han sufrido algún tipo de violencia, entonces
X (é) = 7.
En general, para cada é ∈ Ò , se tiene que X (é) es
el número total de mujeres de la selección é que sufren o han sufrido algún

tipo de violencia.
Como hay 18 mujeres en cada selección, tienes que X (é) puede ser cualquiera de los
números entre 0 y 18.
Luego, la variable aleatoria X es una función X : Ò −→ R cuyo conjunto de valores es:
{0, 1, 2, . . . , 18}.
29
Definiciones
Una variable aleatoria X es:
• Discreta si el conjunto de valores que toma X es un conjunto finito o un

subconjunto infinito que tiene el mismo número de elementos que el conjunto de
los números naturales.
• Continua si el conjunto de valores que toma X es un conjunto que tiene el mismo

número de elementos que el conjunto de los números reales .
Definición
Dada la variable aleatoria X , la función representada por FX y definida por
FX : R −→ R
x 7−→ P (X < x )
se denomina función de distribución de X .
Observación
Recuerda que si X es una variable aleatoria asociada a un experimento cuyo espacio

muestral es Ò , entonces para cada número real x , el conjunto
{é ∈ Ò : X (é) < x } (5)
es un evento del experimento, y como tal, tiene una probabilidad de ocurrir.
Por ejemplo, en el caso del lanzamiento de una moneda dos veces, el conjunto de valores
que toma la variable aleatoria X , “el número de caras que salen”, es:
{0, 1, 2}.
Entonces, si x es un número real cualquiera, hay cinco posibilidades: x = 0, x = 1, x = 2,

x < 0 y x > 2. Por lo tanto, todos los eventos posibles del tipo (5) son los siguientes:
• A = {é ∈ Ò : X (é) < 0} = ∅, pues el número de caras que salen no puede ser menor
que 0.
• B = {é ∈ Ò : X (é) < 1} = {é ∈ Ò : X (é) = 0} = {{ss}}.
• C = {é ∈ Ò : X (é) < 2}; es decir:
C = {é ∈ Ò : X (é) = 0} ∪ {é ∈ Ò : X (é) = 1};
30
de donde:
C = {{ss}} ∪ {{cs}, {sc}} = {{ss}, {cs}, {sc}} .
• Si x < 0, entonces la situación es similar al primer caso:
D = {é ∈ Ò : X (é) < x } = ∅,
pues la variable aleatoria no toma ningún valor menor que 0.
• Si x > 2, entonces
E = {é ∈ Ò : X (é) < x } = Ò ,
pues el número de caras son 0, 1 y 2.
Ahora puedes indicar las probabilidades de los cinco eventos en cuestión:
• P (A) = P (X < 0) = P (∅) = 0.
• P (B ) = P (X < 1) = 14 .
• P (C ) = P (X < 2) = 34 .
• Si x < 0, entonces
P (X < x ) = P (∅) = 0.
• Si x > 2, tienes que

P (X < x ) = P (Ò ) = 1.
A través de las probabilidades de estos cinco eventos, se ha introducido una nueva

función, a la que se la representa con FX :
FX : R −→ R,
y se la define de la manera siguiente:
FX (x ) = P (X < x ) ;
es decir:
FX (x ) es la probabilidad de que la variable aleatoria X tome un valor menor

que x ; es decir, la probabilidad de que el número de caras sea menor que x .
Por ejemplo:
1 3
FX (1) = P (X < 1) = ; FX (2) = P (X < 2) = .
4 4
Esto quiere decir, respectivamente, que:
31
1
la probabilidad de que el número de caras sea menor que 1 es , y la
4
3
probabilidad de que el número de caras sea menor que 2 es .
4
Por otro lado, tienes que:

FX (−1) = P (X < −1) = 0,
pues −1 < 0. Esto se interpreta así:
¡Es imposible que el número de caras sea menor que −1!
Y también tienes que:

FX (4) = P (X < 4) = 1,
ya que 4 > 2. Luego:
¡Siempre el número de caras es menor que 4!
En resumen, la función de distribución de la variable aleatoria X , “el número de caras

que salen”, se describe de la manera siguiente:

0 si x ≤ 0;







 1
si x = 1;



4


FX (x ) = 
3


 si x = 2;



 4


1 si x > 2.


La función FX se conoce con el nombre de función de distribución de la variable

aleatoria X .
Ejemplo
Considera la variable aleatoria X , “el número de pares correctos” de la prueba

psicológica. Ahí encontrarás que el conjunto de valores que toma X es {0, 1, 3}.
También encontrarás las probabilidades de que la variable aleatoria tome uno de sus
valores.
Describe la función de distribución de la variable aleatoria del ejemplo de la prueba

psicológica:
X : “el número de pares correctos”.
Para describir la función de distribución de la variable X , requieres conocer las
32
probabilidades de los eventos del tipo (5):
{é ∈ Ò : X (é) < x }.
Sin embargo, como los únicos valores que X puede tomar son 0, 1 y 3, es suficiente que
consideres los siguientes casos:
• {é ∈ Ò : X (é) < 0} = ∅. Luego P (X < 0) = 0 y FX (0) = 0.
• {é ∈ Ò : X (é) < 1} = {é ∈ Ò : X (é) = 0} = {{231}, {312}, {321}}. Luego:
1
FX (1) = P (X < 1) = P (X = 0) = .
2
• {é ∈ Ò : X (é) < 2} = {é ∈ Ò : X (é) = 0} ∪ {é ∈ Ò : X (é) = 1}. Por lo tanto:
P (X < 2) = P (X = 0) + P (X = 1) .
Por un lado, ya sabes que

1
P (X = 0) = .
2
Por otro lado, tienes que
{é ∈ Ò : X (é) = 1} = {{132}, {213}},
de donde
1
P (X = 1) = .
3
Luego:
1 1 5
FX (2) = P (X < 2) = P (X = 0) + P (X = 1) = + = .
2 3 6
• Tienes que:
FX (3) = P (X < 3) = P (X = 0) + P (X = 1) + P (X = 2) .
Ya sabes que
1 1
P (X = 0) = y P (X = 1) = .
2 3
Por lo tanto:
1 1
FX (3) = + + P (X = 2) .
2 3
Pero
P (X = 2) = 0,
ya que X nunca toma el valor 2. Por lo tanto:
1 1 5
FX (3) = + +0= .
2 3 6
33
• Finalmente, si x > 3, tienes que
FX (x ) = P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3) .
Como sabes que (mira la página 29)
1
P (X = 3) = ,
6
entonces:
1 1 1
FX (x ) = + + 0 + = 1.
2 3 6
En resumen, la función de distribución de X se puede describir así:


0 si x = 0;







 1
si x = 1;



2


FX (x ) = 
 5
si x = 2;



6







1
 si x > 3.
Como quizás ya te hayas dado cuenta, la función de distribución en este ejemplo queda
descrita completamente en los valores que toma la variable aleatoria. Esto sucede
siempre con las variables aleatorias discretas. Por ello, en lugar de FX , se considera la
siguiente función, representada por pX , y que se define únicamente en los valores que
toma X
pX ( x ) = P (X = x ) .
En el caso del último ejemplo, pX se define únicamente para x = 0, x = 1 y x = 3:
1 1 1
pX (0) = P (X = 0) = , pX (1) = P (X = 1) = y pX (3) = P (X = 3) = .
2 3 6
Observa que la función FX se puede describir completamente mediante pX :
FX (1) = pX (0),
FX (2) = pX (0) + pX (1),
FX (3) = pX (0) + pX (1),
FX (x ) = pX (0) + pX (1) + pX (3),
cuando x > 3. No te olvides que no has tomado en cuenta el caso en que x = 2, porque
la variable aleatoria no toma ese valor, y por lo tanto P (X = 2) = 0.
34
Observación
Para el caso de las variables aleatorias discretas, vas a trabajar siempre con la función
pX en lugar de FX .
Definición
Dada una variable aleatoria discreta X asociada a un experimento, donde el conjunto

de valores que X puede tomar se representa por
{x1 , x2 , x3 , . . .},
la función representada por pX y definida por
pX ( x ) = P (X = x ) ,
donde x toma cualquiera de los valores {x1 , x2 , x3 , . . .}, se denomina ley de distribución
de probabilidad de la variable aleatoria X .
Ejemplo
En el experimento del lanzamiento de la moneda dos veces, la ley de distribución de la

variable aleatoria X , “el número de caras que salen”, es:
1 1 1
pX (0) = , pX (1) = y pX (2) = .
4 2 4
Ejemplo
En el caso de la prueba psicológica, la ley de distribución de la variable aleatoria X , “el

número de pares correctos”, es:
1 1 1
pX (0) = , pX (1) = y pX (3) = .
2 3 6
Como puedes ver, si sumas todos los valores que toma pX , el resultado siempre es 1. En
efecto, para el caso del lanzamiento de la moneda dos veces:
1 1 1
pX (0) + pX (1) + pX (2) = + + = 1.
4 2 4
Y para el caso de la prueba psicológica:
1 1 1
pX (0) + pX (1) + pX (3) = + + = 1.
2 3 6
35
Esta propiedad tiene sentido, porque la suma de todos los posibles valores que toma pX
representa la probabilidad del espacio muestral Ò , que es 1.
Propiedad
Dada una variable aleatoria discreta X , donde
V = {x1 , x2 , x3 , . . .}
es el conjunto de todos los valores que toma X , la ley de distribución de X , la función pX ,

satisface las siguientes dos propiedades:
• Para todo x ∈ V :
0 6 pX (x ) 6 1.
• px (x1 ) + pX (x2 ) + pX (x3 ) + · · · = 1.
Definición
Dada una variable aleatoria discreta X , donde {x1 , x2 , x3 , . . .} es el conjunto de valores

que toma X , y pX es la ley de distribución de X , la esperanza de la variable aleatoria
X, representada por ÞX y también por E (X ), se define de la siguiente manera:
ÞX = E (X ) = x1 pX (x1 ) + x2 pX (x2 ) + p3 (x3 ) + · · ·
Ejemplo
Considera la situación de la prueba psicológica una vez más. La variable aleatoria X es

“el número de pares correcto”. El conjunto de valores que toma X es: {0, 1, 3}, y la ley de
distribución es
1 1 1
pX (0) = , pX (1) = y pX (3) = .
2 3 6
Si este modelo se utilizara para estimar la media del número de palabras asignadas
correctamente a las imágenes por un grupo de niñas y niños que hubieran hecho la
prueba psicológica descrita, entonces las probabilidades dadas por pX serían
aproximaciones de las frecuencias relativas en la población.
En efecto, supón que 10 000 niñas o niños realizan la prueba. Entonces, esperaríamos
que:
• El número de las examinadas y examinados que no consiguieron asignar ninguna
36
de las palabras a las imágenes correctamente sería, aproximadamente
1
pX (0) × 10 000 = × 10 000 = 5 000.
2
• El número de niñas y niños que solo asignaron una de las tres palabras a la imagen
correcta sería, aproximadamente
1
pX (1) × 10 000 = × 10 000 ≈ 3 333.
3
• El número de niñas y niños que harían la prueba correctamente sería,

aproximadamente
1
pX (3) × 10 000 = × 10 000 ≈ 1 667.
6
En este caso, como la variable aleatoria es “el número de pares correctos”, la

población de 10 000 datos no son las niñas ni los niños, sino 10 000 números
distribuidos entre el 0, el 1 y el 3. De hecho, de manera más precisa, la población
estaría constituida teóricamente por:
• 5 000 números 0;
• 3 333 números 1; y
• 1 667 números 3.
Se dice “teóricamente”, porque al momento de hacer el muestreo real, estos valores

serán diferentes, aunque se espera que sean muy similares. Si no fuera así, o el modelo
es incorrecto, o el muestreo no ha sido realizado correctamente.
Ahora bien, calcula la media y la desviación estándar de esta población teórica; estos
dos números describen de manera adecuada la población.
Empieza con la media; nómbrala con la letra griega Þ. Recuerda que se obtiene al sumar
todos los datos y dividir por el número total de ellos: como hay 5 000 números 0, 3 333
números 1 y 1 667 números 3, entonces
5 000 × 0 + 3 333 × 1 + 1 667 × 3

Þ= .
10 000
Antes de calcular el valor de Þ, re-escribe la igualdad anterior de la siguiente manera:
5 000 × 0 + 3 333 × 1 + 1 667 × 3

Þ=
10 000
5 000 × 0 3 333 × 1 1 667 × 3
= + +
10 000 10 000 10 000
5 000 3 333 1 667
= ×0+ ×1+ ×3
10 000 10 000 10 000
1 1 1
= ×0+ ×1+ ×3
2 3 6
37
1 1 5
= + = ≈ 0.8333 ≈ 1;
3 2 6
es decir, se espera que en promedio las niñas y niños identifiquen una imagen con la
palabra correcta.
Aparte del resultado, lo más importante de lo realizado es que Þ se expresa en función

de la ley de distribución de la variable aleatoria X . En efecto, mira:
1 1 1
Þ= × 0 + × 1 + × 3 = pX (0) × 0 + pX (1) × 1 + pX (3) × 3.
2 3 6
Ejemplo
En el caso del lanzamiento de la moneda dos veces y la variable aleatoria “el número de
caras que salen”, la esperanza de esta variable aleatoria es:
E (X ) = 0 × pX (0) + 1 × pX (1) + 2 × pX (2)

1 1 1 1 1
= 0 × + 1 × + 2 × = + = 1.
4 2 4 2 2
Esto quiere decir que
al lanzar una moneda dos veces, se espera que salga una cara.
Observación
Así como la media de una muestra no es suficiente para describir la muestra, la

esperanza de una variable aleatoria tampoco lo es para la población. Se requiere,
además, medir la variabilidad de los datos. Para ello, se recurre a medir “cuán
dispersos o no están los datos” a través de la varianza. La idea es la siguiente.
Supón que X es la variable aleatoria. Entonces se define una nueva aleatoria:
[X − E (X )]2 .
Esta mide el cuadrado de la diferencia entre los valores que toma X y su esperanza; es
decir, mide el cuadrado de la diferencia de los valores que toma X respecto de su centro.
Como recordarás al definir la varianza de una muestra, elevar al cuadrado las

diferencias tiene el efecto de dar una medida más sensible de la variación: si la
diferencia es pequeña, el cuadrado la hace aún más pequeña ; en cambio, si la
diferencia es grande, el cuadrado la hace aún más grande.
Finalmente, se toma la esperanza de esta nueva aleatoria como una medida de la

variabilidad de los valores que toma X .
38
Sin embargo, siguiendo con el paralelismo entre la varianza de una variable aleatoria
y el de una muestra, una mejor medida de esa variabilidad, es la raíz cuadrada de la
varianza, denominada desviación estándar.
Definición
Dada una variable aleatoria X , la varianza de X , representada por V (X ), se define como

la esperanza de la variable aleatoria [X − E (X )]2 :
V (X ) = E ([X − E (X )]2 ).
La raíz cuadrada de V (X ) se denomina desviación estándar de X y se la representa con

ãX :
p
ãX = V (X ).
Propiedad
Dada una variable aleatoria X , donde {x1 , x2 , x3 , . . .} es el conjunto de los valores que
toma X , ÞX es la esperanza de X y pX es la correspondiente ley de distribución, la
varianza de X se calcula mediante la siguiente fórmula:
V (x ) = (x1 − ÞX )2 pX (x1 ) + (x2 − ÞX )2 pX (x2 ) + (x3 − ÞX )2 pX (x3 ) + · · ·
Ejemplo
Considera la variable aleatoria X , “el número de pares es correcto”, en el ejemplo de la

prueba psicológica. Recuerda que X toma los valores 0, 1 y 3, y que
5
ÞX = E ( X ) = .
6
Entonces:
V (x ) = E ([X − ÞX ]2 )
5 2 5 2 5 2

= 0− pX (0) + 1 − pX (1) + 3 − pX (3)
6 6 6
2 2 2
5 1 1 1 13 1
= × + × + ×
6 2 6 3 6 6
≈ 1.1389.
39
Por lo tanto, la desviación estándar de X es aproximadamente:
√
ã ≈ 1.1389 ≈ 1.0672.
¿Y qué nos dice este número? Igual que en el caso de una muestra: nos da una medida de
cuán dispersos están los valores que toma la variable aleatoria. Y la forma de saberlo es
a través de la regla empírica que también es aplicable a las variables aleatorias, cuando
su ley de distribución tiene también forma de montículo o campana.
¿Y cómo se puede saber si esta es la situación? Realizando un histograma de los valores

que toma X . Igual que antes, puedes suponer que hay 10 000 medidas. Entonces 5 000
serán 0, 3 333 serán 1 y 1 667 serán 0. Con la ayuda de Excel, obtendrás el histograma
siguiente:
Recuerda que la media es

5
.
6
Según la regla empírica, el 68 % de los datos deberán estar en el intervalo
5 5

[ÞX − ã, ÞX + ã] = − 1.0672, + 1.0672 ≈ [−0, 2339, 1.9005].
6 6
Este intervalo cubre prácticamente los rectángulos correspondientes a 0 y a 1; en el

primer hay 5 000 datos, en el segundo 3 333. Entonces, hay 8 333 de los 10 000 en esos
dos rectángulos, que representan el
8 333
× 100 ≈ 83.33 %.
10 000
Está claro que si la desviación estándar fuera muy pequeña, el intervalo
[ÞX − 3ã, ÞX + 3ã]
sería pequeño y contendrían la mayoría de los datos, todos ellos muy cerca de la media,
de manera que ésta sería una medida representativa de los datos.
También debe estar claro que si la desviación estándar es grande, dicho intervalo es
grande y, aunque contenga la mayoría de los datos, estos no estarán cerca de ÞX
necesariamente.
40
Ejemplo
Vas a calcular la desviación estándar de la variable aleatoria X , “el número de caras

que salen”, cuando se lanza una moneda dos veces.
Recuerda que en ese caso X toma los valores {0, 1, 2} y
1 1 1
ÞX = 1, pX (0) = , pX (1) = y pX (2) = .
4 2 4
Por lo tanto:
V (x ) = (0 − 1)2 × pX (0) + (1 − 1)2 × pX (1) + (2 − 1)2 × pX (2)

1 1 1
= + = .
4 4 2
Por lo tanto r
1
ãX = ≈ 0.7071.
2
Observación
En la práctica, no vas a utilizar estas fórmulas, pues muchas muestras y las variables
aleatorias correspondientes siguen leyes de distribución conocidas de antemano, de las
cuales se conocen fórmulas para calcular la esperanza y la desviación estándar. Incluso,
estas fórmulas vienen ya incorporadas en las calculadoras electrónicas así como en el
Excel.
Ejercicio
Supón que X es una variable aleatoria y pX , su ley de distribución de probabilidad,

está definida por:
x 1 2 3 4
pX (x ) 0.4 0.3 0.2 0.1
La probabilidad de que X sea menor que 3 es:
A) 0.2
B) 0.7
C) 0.9
Solución. La opción correcta es B). En efecto, recuerda que, por definición de pX , tienes que la
probabilidad de que X tome un valor menor que 3 es igual a
P (X < 3) = pX (X = 1) + pX (X = 2).
41
Y, como
pX (X = 1) = 0.4 y pX (X = 2) = 0.3,
obtienes que
P (X < 3) = 0.4 + 0.3 = 0.7.
Ejercicio

está definida por:
x 1 2 3 4
pX (x ) 0.4 0.3 0.2 0.1
La esperanza de X es:
A) 2
B) 1
C) 0.5
Solución. La opción correcta es A). En efecto, recuerda que la esperanza de la variable X es

igual a
E (X ) = 1 · pX (1) + 2 · pX (2) + 3 · pX (3) + 4 · pX (4)

= 1 · 0.4 + 2 · 0.3 + 3 · 0.2 + 4 · 0.1
= 0.4 + 0.6 + 0.6 + 0.4 = 2.
Ejercicio

está definida por:
x 1 2 3 4
pX (x ) 0.4 0.3 0.2 0.1
Su varianza es:
A) 1
B) 2
√
C) 2.
42
Solución. La opción correcta es A). En efecto, en el ejercicio anterior obtuviste que
ÞX = E (X ) = 2.
Ahora bien, por definición de varianza de una variable aleatoria, tienes que
V (X ) = E ([X − E (X )]2 ).
Por tanto,
V (X ) = (1 − 2)2 pX (1) + (2 − 2)2 pX (2) + (3 − 2)2 pX (3) + (4 − 2)2 pX (4)

= (−1)2 · 0.4 + 02 · 0.4 + 12 · 0.2 + 22 · 0.1
= 0.4 + 0 + 0.2 + 0.4 = 1.
Ejercicio
La esperanza de la variable aleatoria X “El número que muestra un dado después

de ser lanzado” es igual a:
A) 3
B) 3.5
C) 4
Solución. La opción correcta es B). En efecto, el experimento asociado a la variable aleatoria X

consiste en lanzar un dado y observar el número que muestra luego del lanzamiento. Luego, el
espacio muestral es:
Ò = {1, 2, 3, 4, 5, 6}.
Luego, X toma 6 valores posibles: los números de 1 al 6. Y. bajo el supuesto de que el lado está
balanceado, la probabilidad de cada evento simple es
1 1
= .
|Ò | 6
Por tanto, la ley de distribución de probabilidad de X se puede mostrar a través de la siguiente

tabla:
x 1 2 3 4 5 6
pX (x ) 16 16 61 16 16 16
Y a partir de esta puedes calcular la esperanza de X :
E (X ) = 1 · pX (1) + 2 · pX (2) + 3 · pX (3) + 4 · pX (4) + 5 · pX (5) + 6 · pX (6)

1 1 1 1 1 1
= 1· +2· +3· +4· +5· +6·
6 6 6 6 6 6
1 21 7
= (1 + 2 + 3 + 4 + 5 + 6) · = = .
6 6 2
43
Ejercicio
La desviación estándar de la variable aleatoria X “El número que muestra un dado

después de ser lanzado” es igual a:
A) 1.71
B) 2.92
√
C) 3.5
Solución. La opción correcta es A). En efecto, en el ejercicio anterior obtuviste que la esperanza
de X es 3.5:
ÞX = E (X ) = 3.5.
Por tanto, la desviación estándar es igual a:

p
ã= V (x )
r
1 1 1 1 1 1
= (1 − 3.5)2 + (2 − 3.5)2 + (3 − 3.5)2 + (4 − 3.5)2 + (5 − 3.5)2 + (6 − 3.5)2
6 6 6 6 6 6
r
1 1 1 1 1 1
= 6.25 · + 2.25 · + 0.25 · + 0.25 · + 2.25 · + 6.25 ·
6 6 6 6 6 6
√
≈ 2.92 ≈ 1.71.
44

Distribuciones Probabilidad

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Distribuciones Probabilidad

Cargado por

Copyright:

Formatos disponibles

Proyecto CLAVEMAT – EPN

Texto Guía 2: Leyes de distribución de probabilidad

Contenidos: Juan Carlos Trujillo

Un histograma de frecuencia relativa es una representación gráfica de un conjunto

Guías para construir un histograma

1. El número de sub-intervalos es arbitrario. Sin embargo, observa que si hay muchos,

2. En la construcción manual del histograma realizada en este documento se

Considera la situación siguiente.

En el año 2014, una encuesta realizada a 100 personas que se divorciaron

Entre los diversos propósitos que pudieron plantearse para la realización de

• Determinar la proporción de matrimonios que tienen una duración

A continuación, vas a aplicar el método indicado:

Ahora determina el número de datos que hay en cada subintervalo y la proporción

Intervalo Frecuencia Frecuencia relativa

[11 − 15] 19 0.19

[16 − 20] 12 0.12

[21 − 25] 13 0.13

[26 − 30] 4 0.04

2. En un sistema de coordenadas, en el eje horizontal se registran los datos; en este

3. Sobre cada subintervalo, se levanta un rectángulo de altura igual a su frecuencia

El dibujo obtenido es el histograma de frecuencias relativas de los datos sobre la

0.12 + 0.13 + 0.04 = 0.29,

porque el 29 por ciento de los datos se encuentran sobre 15 años.

O la probabilidad de que un matrimonio no pase de los diez años es

0.24 + 0.28 = 0.52,

pues el 52 por ciento de los datos se encuentran bajo 10 años.

Para el estudio de la inferencia estadística, deberás aprender los conceptos de variable

La idea central de la descripción de los datos a través de estas medidas numéricas es

Es una de las principales medidas de tendencia central; se la define de la siguiente

Si M = {x1 , x2 , . . . , xn } es una muestra de n datos o medidas, la media aritmética, o

La media poblacional correspondiente se suele representar por la letra griega Þ (se

La aplicación Excel de Microsoft© provee una función para calcular la media de un

2. Copia los datos de la tabla de la página 3 en el rango de celdas A2:J11 como se

3. En la celda $B$12 escribe la fórmula =PROMEDIO(A2:J11):

La media de una muestra indica o localiza el “centro de los datos”:

En este ejemplo, la información es insuficiente para una descripción satisfactoria de la

La varianza es la medida que complementa la información de la media al dar un valor

Varianza y desviación estándar

Si M = {x1 , x2 , . . . , xn } es una muestra de n datos o medidas, la varianza de la muestra

La varianza poblacional correspondiente se suele representar por la letra griega ã2 (se

La varianza pertenece a la categoría de las medidas de dispersión.

N = {8, 7.5, 8, 7.2, 9.3, 5.3, 10, 6.9}.

Entonces, la media de esta muestra es

7.78 − 8 = −0.225, 7.78 − 7.5 = 0.275, 7.78 − 6.9 = −0.875. (3)

En el ejemplo mencionado, tienes que:

(7.78 − 8)2 ≈ 0.0506 < 0.225 = |7.78 − 8|,

(7.78 − 7.5)2 ≈ 0.0756 < 0.275 = |7.78 − 7.5|,

(7.78 − 6.9)2 ≈ 0.7656 < 0.875 = |7.78 − 6.9|, . . .

(7.78 − 8)2 + (7.78 − 7.5)2 + · · · + (7.78 − 6.9)2 ≈ 14.6748.

Y luego divides este valor por 7:

(7.78 − 8)2 + (7.78 − 7.5)2 + · · · + (7.78 − 6.9)2 14.6748

La varianza de una muestra se la utiliza para medir la “distancia de los datos” a la

La varianza es un valor “cercano al promedio” porque, en este ejemplo, en lugar de

Otra característica de la varianza, que no se profundizará es que es apropiada para

A la raíz cuadrada de la varianza se le conoce con el nombre de desviación estándar.

De manera más precisa, si M = {x1 , x2 , . . . , xn } es una muestra de n datos o medidas, su

La desviación estándar poblacional correspondiente se representa por la letra griega

A continuación, calcula la varianza y la desviación estándar de la muestra del ejemplo

1. Inicia Excel, abre el libro “Divorcios 2013.xls” y selecciona la hoja “Media y

2. En la celda $B$13 escribe la fórmula “=VAR.S(A2:J11)”:

Luego de dar “Enter”, obtendrás la varianza:

Presta atención de utilizar la función VAR.S y no la función VAR.P. Esta última es la

3. Ahora calcula la desviación estándar de la muestra. Podrías hacerlo extrayendo