Está en la página 1de 45

Proyecto CLAVEMAT – EPN

Texto Guía 2: Leyes de distribución de probabilidad

Contenidos: Juan Carlos Trujillo


Estructura pedagógica: Victoria Novillo

Enero 2016
Estadística descriptiva
Histogramas de frecuencia relativa

Definición

Un histograma de frecuencia relativa es una representación gráfica de un conjunto


de datos en forma de rectángulos. El área de cada rectángulo es proporcional a la
frecuencia relativa de un subconjunto del total de los datos.

Se utiliza fundamentalmente para dar una “idea general” de la distribución de los datos
respecto a alguna de las características de estos datos que se pretende obtener.

Método

Guías para construir un histograma

1. El número de sub-intervalos es arbitrario. Sin embargo, observa que si hay muchos,


su longitud es pequeña y contendrán pocos datos; por el contrario, si son pocos,
su longitud es grande y contendrán casi todos los datos. Hay que evitar los dos
extremos mencionados y buscar la longitud del intervalo que sea significativa para
los datos que se están representado. Por ejemplo, en el caso de los divorcios se han
considerado períodos de 5 años y con un límite de matrimonios de 30 de duración
(pues son pocos los divorcios de matrimonios que han superado dicho tiempo).
La práctica sugiere que se utilicen entre 5 y 20 sub-intervalos y, mientras más
grande sea el conjunto de datos, mayor sea el número de intervalos.

2. En la construcción manual del histograma realizada en este documento se


consideraron sub-intervalos cuyos extremos coinciden con algunos de los datos.
Por ejemplo, en el intervalo [1 − 5] se incluyeron todos los matrimonios cuya
duración fue entre 1 y 5 años, inclusive. Con el mismo criterio se calculó la
frecuencia relativa de los otros subintervalos.
Sin embargo, cuando se construye un histograma con herramientas tecnológicas,
la elección de los subintervalos cuyos extremos coinciden con algunos datos suele
traer la complicación de que la herramienta no sabe a qué intervalo corresponde
el dato y no incluye ninguno.
Por ello, se recomienda que, en la construcción de los sub-intervalos, los extremos
considerados no coincidan con ninguno de los datos.

3. Aunque no hay ninguna razón para ello, es muy común que los subintervalos se
escojan de igual longitud.

2
Ejemplo

Considera la situación siguiente.

En el año 2014, una encuesta realizada a 100 personas que se divorciaron


en el año 2013, preguntó por el número de años que duró el matrimonio; en
la tabla siguiente se consigna la información recabada:

3 10 7 11 5 4 9 8 6 1
4 12 21 3 7 11 1 6 10 3
7 2 29 9 21 6 11 14 19 5
9 6 4 8 10 25 2 7 15 8
17 6 13 10 20 13 4 20 24 12
28 9 11 19 12 16 8 4 3 10
15 5 9 2 5 8 15 14 8 15
25 30 24 4 23 10 18 22 5 21
10 22 17 14 27 3 21 11 19 7
1 16 15 21 12 16 23 5 2 17

Entre los diversos propósitos que pudieron plantearse para la realización de


esta encuesta podrían estar los siguientes:

• Determinar la proporción de matrimonios que tienen una duración


determinada. Por ejemplo, ¿cuál es la proporción de matrimonios que
han durado entre uno y cinco años?
• Determinar el número de años en promedio que dura un matrimonio en
Ecuador.

A continuación, vas a aplicar el método indicado:

1. En este ejemplo, el dato más pequeño es 1 y el más grande es 30. Divide el intervalo
[1, 30] en grupos o sub-intervalos; en este caso, considera seis:

[1 − 5], [6 − 10], [11 − 15], [16 − 20], [21 − 25] y [26 − 30].

Ahora determina el número de datos que hay en cada subintervalo y la proporción


respecto del total (en este caso, 100); es decir, calcula las frecuencias y frecuencias

3
relativas de cada subintervalo (recuerda que el número total de datos es 100):

Intervalo Frecuencia Frecuencia relativa


[1 − 5] 24 0.24

[6 − 10] 28 0.28

[11 − 15] 19 0.19

[16 − 20] 12 0.12

[21 − 25] 13 0.13

[26 − 30] 4 0.04

2. En un sistema de coordenadas, en el eje horizontal se registran los datos; en este


caso, el eje se divide en los 6 sub-intervalos considerados. En el eje vertical, en
cambio, se consignan las frecuencias relativas, como se muestra en el siguiente
gráfico:

0.3
Frecuencia relativa

0.2

0.1

0
0 5 10 15 20 25 30
Duración del matrimonio en años

3. Sobre cada subintervalo, se levanta un rectángulo de altura igual a su frecuencia


relativa:

0.3
Frecuencia relativa

0.2

0.28
0.1 0.24
0.19
0.12 0.13
0.04
0
0 5 10 15 20 25 30
Duración del matrimonio en años

El dibujo obtenido es el histograma de frecuencias relativas de los datos sobre la


duración de los matrimonios que se divorciaron en el año 2013.

4
Si la encuesta ha sido realizada bajo las condiciones exigidas por las técnicas de la
inferencia estadística, estos resultados podrían utilizarse para estimar la probabilidad
de que un matrimonio elegido al azar en este año 2014 se divorcie.

Por ejemplo, si eliges al azar un matrimonio que ha durado ya 8 años, que está en el
sub-intervalo [6 − 10], la probabilidad de que se divorcie en este año es igual a 0.28; es
decir, si se tomaran 100 matrimonios, 28 de ellos podrían terminar en divorcio.

Más aún, a través de este recurso gráfico, podría estimarse la probabilidad de que un
matrimonio que ha durado por lo menos 16 años (es decir, ha durado 16 o más años) es

0.12 + 0.13 + 0.04 = 0.29,

porque el 29 por ciento de los datos se encuentran sobre 15 años.

O la probabilidad de que un matrimonio no pase de los diez años es

0.24 + 0.28 = 0.52,

pues el 52 por ciento de los datos se encuentran bajo 10 años.

Para el estudio de la inferencia estadística, deberás aprender los conceptos de variable


aleatoria y distribución de probabilidad, entre otros. Los histogramas serán de ayuda
para explicar estos conceptos, tanto en la teoría como en la práctica.

Medidas numéricas

Definiciones

Las medidas numéricas para describir un conjunto de datos son adecuadas para
realizar inferencias. En este curso vas a estudiar dos: a) la media aritmética, o
simplemente media(otro nombre para esta medida es promedio, que pertenece a la
categoría de las medidas de tendencia central ; y b) la varianza que pertenece a las
medidas de dispersión o variación.

Observación

La idea central de la descripción de los datos a través de estas medidas numéricas es


la siguiente: La media es valor que “representa a todo el conjunto de los datos”; pero,
para que los represente, la “mayoría de los datos” deberán estar “cerca” de la media.
Y es justamente la varianza la medida numérica que dirá “cuántos datos están cerca
de la media y cuán cerca”: mientras más pequeña sea la varianza, más datos estarán

5
cerca de la media. En otras palabras, la varianza permitirá decidir si la media es una
buena medida para representar a todo el conjunto de los datos.

Definición

Media

Es una de las principales medidas de tendencia central; se la define de la siguiente


manera.

Si M = {x1 , x2 , . . . , xn } es una muestra de n datos o medidas, la media aritmética, o


simplemente media de la muestra M , es el número representado por x y definido por
n
1 1¼
x= (x1 + x2 + · · · + xn ) = xk . (1)
n n
k =1

La media poblacional correspondiente se suele representar por la letra griega Þ (se


pronuncia “mi”).

Método

La aplicación Excel de Microsoft© provee una función para calcular la media de un


conjunto de datos; se llama PROMEDIO. Su uso es sencillo y se ilustra a continuación.

1. Inicia Excel, nombra una nueva hoja de trabajo con “Media y varianza” y guarda el
libro con el nombre “Divorcios 2013”.

2. Copia los datos de la tabla de la página 3 en el rango de celdas A2:J11 como se


muestra a continuación:

3. En la celda $B$12 escribe la fórmula =PROMEDIO(A2:J11):

6
Luego de dar “Enter”, obtendrás la media del conjunto de mediciones de la
muestra:

La media de una muestra indica o localiza el “centro de los datos”:

0.3
Frecuencia relativa

0.2 x

0.1

0
11.75
0 5 10 15 20 25 30
Duración del matrimonio en años

7
Observación

En este ejemplo, la información es insuficiente para una descripción satisfactoria de la


muestra a través de la media:

Considera a M1 = {2, 10} y M2 = {5, 6, 7} como dos muestras. Ambas tienen la misma
media:
2 + 10 5+6+7
x1 = = 6 y x2 = = 6;
2 3
sin embargo, los dos datos de la primera muestra {2, 10} están “lejos” de la media 6,
mientras que en la segunda muestra {5, 6, 7} están “cerca” de ella. Esto quiere decir
que la media por sí sola no informa si la mayoría de las medidas son “parecidas” entre
sí y cercanas a la media.

La varianza es la medida que complementa la información de la media al dar un valor


para la “variabilidad” de los datos.

Definición

Varianza y desviación estándar

Si M = {x1 , x2 , . . . , xn } es una muestra de n datos o medidas, la varianza de la muestra


M es el número representado por s 2 y definido por
n
1 h i 1 ¼
s2 = (x1 − x )2 + (x2 − x )2 + · · · + (xn − x )2 = (xk − x )2 . (2)
n−1 n−1
k =1

La varianza poblacional correspondiente se suele representar por la letra griega ã2 (se


pronuncia “sigma cuadrado”).

La varianza pertenece a la categoría de las medidas de dispersión.

Ejemplo

El siguiente conjunto de datos es una muestra de la nota (sobre 10 puntos) que tienen 8
estudiantes en Probabilidades y Estadística :

N = {8, 7.5, 8, 7.2, 9.3, 5.3, 10, 6.9}.

Entonces, la media de esta muestra es

1
x= (8 + 7.5 + 8 + 7.2 + 9.3 + 5.3 + 10 + 6.9) ≈ 7.78.
8

¿Qué tan “cerca” o tan “lejos” están los datos de este número?

8
La manera de medir la “distancia” de cada uno de los datos a la media es calcular la
diferencia (resta) entre la media y cada dato:

7.78 − 8 = −0.225, 7.78 − 7.5 = 0.275, 7.78 − 6.9 = −0.875. (3)

Por otro lado, recuerda que el cuadrado de un número que se va acercando a 0 es más
pequeño que el número mismo. Luego, si las diferencias entre la media y los datos son
pequeñas, los cuadrados de estas diferencias serán aún más pequeñas. Si son
grandes, esos cuadrados serán grandes. De esta propiedad se colige la importancia de
la desviación estándar como una medida que mide la dispersión de los datos respecto
de la media.

En el ejemplo mencionado, tienes que:

(7.78 − 8)2 ≈ 0.0506 < 0.225 = |7.78 − 8|,

(7.78 − 7.5)2 ≈ 0.0756 < 0.275 = |7.78 − 7.5|,

(7.78 − 6.9)2 ≈ 0.7656 < 0.875 = |7.78 − 6.9|, . . .

Para determinar la cercanía o no de los datos, primero sumas estas ocho diferencias
elevadas al cuadrado:

(7.78 − 8)2 + (7.78 − 7.5)2 + · · · + (7.78 − 6.9)2 ≈ 14.6748.

Y luego divides este valor por 7:

(7.78 − 8)2 + (7.78 − 7.5)2 + · · · + (7.78 − 6.9)2 14.6748


= ≈ 2.0964.
7 7

Observación

La varianza de una muestra se la utiliza para medir la “distancia de los datos” a la


media.

Observación

La varianza es un valor “cercano al promedio” porque, en este ejemplo, en lugar de


dividir por 8, se lo hace por 7. La explicación de por qué se toma 7 y no 8 se escapa del
alcance de esta sección del curso, pero la razón es que con 7 se mide mejor la
variabilidad de los datos que con 8.

9
Observación

La varianza es un tipo de media del cuadrado de las diferencias de cada medida respecto
de la media. Se dice que es un “tipo” de media porque la suma se divide para n − 1 y no
para n. La razón, que no podrás explicar en esta sección, es que al dividir por n − 1 se
obtiene una mejor medida de la variabilidad que cuando se divide por n.

Observación

Otra característica de la varianza, que no se profundizará es que es apropiada para


comparar la variabilidad de dos conjuntos mediciones. Sin embargo, cuando se emplea
un solo conjunto de datos, la variabilidad se explica mejor a través de su raíz cuadrada:
la varianza suma los cuadrados de las diferencias entre los datos y la media; al extraer
la raíz cuadrada obtienes una medida para las diferencias y no para sus cuadrados.

Definición

A la raíz cuadrada de la varianza se le conoce con el nombre de desviación estándar.

De manera más precisa, si M = {x1 , x2 , . . . , xn } es una muestra de n datos o medidas, su


desviación estándar es el número representado por s y definida como la raíz cuadrada
de la varianza:

s = s2. (4)

La desviación estándar poblacional correspondiente se representa por la letra griega


ã (se lee “sigma”).

Ejemplo

En el ejemplo de las notas, la varianza que calculaste es 2.0964; por tanto, la desviación
estándar de esta muestra es

2.0964 ≈ 1.4479.

¿Qué indica este número sobre la variabilidad de los datos? La respuesta está en la
regla empírica que vas a estudiar en seguida, pero antes mira la definición precisa de
desviación estándar y su notación.

Ejemplo

A continuación, calcula la varianza y la desviación estándar de la muestra del ejemplo


de los divorcios.

10
Por la cantidad de datos, los cálculos para determinar la varianza y la desviación
estándar no los realizarás manualmente, sino mediante calculadoras electrónicas
como Excel.

1. Inicia Excel, abre el libro “Divorcios 2013.xls” y selecciona la hoja “Media y


varianza”.

2. En la celda $B$13 escribe la fórmula “=VAR.S(A2:J11)”:

Luego de dar “Enter”, obtendrás la varianza:

Presta atención de utilizar la función VAR.S y no la función VAR.P. Esta última es la


varianza de la población, en cuyo caso, Excel utiliza n en lugar de n − 1. La letra S
en la función VAR.S quiere decir “sample”, que en inglés significa “muestra”.

3. Ahora calcula la desviación estándar de la muestra. Podrías hacerlo extrayendo


la raíz cuadrada de la varianza, pero hazlo utilizando la función que Excel provee
para ello: en la celda $B$14 escribe la fórmula “=DESVEST.M(A2:J11)”:

11
Presiona “Enter” y obtendrás la desviación estándar:

En resumen:

La varianza de la muestra de la duración de los matrimonios que se


divorciaron en 2013 es aproximadamente 54.33 y la desviación estándar
es aproximadamente 7.37.

¿Puedes utilizar la media de estos datos como un valor representativo de los mismos?
La desviación estándar te lo dirá.

Emplearás la regla empírica como una herramienta que te permitirá expresar la


variabilidad de los datos respecto de la media a través de la desviación estándar.

12
Propiedad

La regla empírica

Si la distribución de los datos o mediciones de una muestra tiene la forma de


“montículo” o “campana”, entonces:

• El intervalo [Þ − ã, Þ + ã] contiene el 68 % de las mediciones aproximadamente:

68 %

Þ−ã Þ Þ+ã

• El intervalo [Þ − 2ã, Þ + 2ã] contiene el 95 % de las mediciones aproximadamente:

95 %

Þ − 2ã Þ Þ + 2ã
• El intervalo [Þ − 3ã, Þ + 3ã] contiene casi todas las mediciones:

≈ 100 %

Þ − 3ã Þ Þ + 3ã

Ejemplo

Para explicar como se utiliza la regla empírica, realiza primero el histograma de la


siguiente muestra del número de matrimonios mensuales en las diversas provincias de
Ecuador en el año 2004:
340 339 249 410 335 337 379 422 330 338 161 444
298 300 260 330 340 420 310 295 298 333 301 217
128 110 134 130 83 113 114 109 129 132 198 161
387 409 366 376 498 379 434 409 399 387 342 399
224 173 192 216 204 255 275 215 263 146 266 233
288 270 299 263 266 252 271 278 261 202 198 367
202 194 223 187 215 208 217 193 195 245 166 226
218 187 152 185 229 176 207 267 247 167 255 348
389 421 299 328 300 241 299 300 430 237 417 408
306 281 245 311 277 267 323 336 279 272 193 342

13
Utiliza Excel para elaborar un histograma de esta muestra. Si tomas 10 subintervalos,
podrás obtener la representación de los datos dada en la figura:

Como puedes ver, la distribución de las frecuencias de estos datos tiene la forma de
“montículo” o “campana”. Cuando esto ocurre, la variabilidad del conjunto de datos se
puede expresar a través de la desviación estándar, como se explica a continuación.

Ahora aplica la regla empírica a la muestra de los matrimonios y luego compara sus
conclusiones con los datos.

Para ello, primero calcula la media y la desviación estándar de la muestra. Si utilizas


Excel, obtendrás que
x ≈ 271.66 y s ≈ 89.31.

Entonces, bajo el supuesto de que la muestra ha sido tomada adecuadamente, la


media y la desviación estándar poblacionales se tomarán igual a la media y la
desviación estándar muestrales:

Þ ≈ 271.66 y ã ≈ 89.31.

Calcula, ahora, los intervalos que indican la regla empírica:

• [Þ − ã, Þ + ã] = [271.66 − 89.31, 271.66 + 89.31] = [182.35, 360.97].


La regla asegura, entonces, que aproximadamente el 68 % del número de
matrimonios mensuales deben estar entre 182 y 361. Como hay 120 mediciones,
entonces se espera que aproximadamente

120 × 0.68 ≈ 82

mediciones estén entre 182 y 361.


Si miras los datos, verás que hay exactamente 80 mediciones en ese intervalo.

14
• [Þ − 2ã, Þ + 2ã] = [271.66 − 2 × 89.31, 271.66 + 2 × 89.31] = [93.03, 450.28].
La regla asegura que aproximadamente el 95 % del número de matrimonios
mensuales deben estar entre 93 y 450. Como hay 120 mediciones, entonces se
espera que aproximadamente

120 × 0.95 ≈ 114

mediciones estén entre 93 y 450.


Si miras las mediciones, ¡hay exactamente 119 datos!

• [Þ − 3ã, Þ + 3ã] = [271.66 − 3 × 89.31, 271.66 + 3 × 89.31] = [3.72, 539.59].


La regla asegura que casi todas las mediciones deben estar entre 93 y 450. Se
espera, entonces, que las 120 mediciones estén entre 4 y 540. Lo cual es cierto:
todos los datos están en este intervalo porque el valor mínimo de los datos es 83
y el valor máximo es 498.

Observación

Como se ha ilustrado con el ejemplo anterior, el conocer las medidas numéricas media
y desviación estándar juntas proveen mayor información sobre los datos que cuando se
lo hace con el histograma. Sin embargo, este último te permite saber si se puede aplicar
o no la regla empírica.

Ejercicio

La media y la varianza de una muestra de notas de las alumnas y alumnos de la


materia de Probabilidades y Estadística del primer año de la Escuela Politécnica
Nacional son 7.3 y 0.25, respectivamente. Un histograma de los datos tiene forma
de montículo. ¿Entre qué límites está la mayoría de las notas?

A) [5.8, 8.8]

B) [6.3, 8.3]

C) [5.8, 7.8]

Solución. La opción correcta es A). En efecto, dado que el histograma tiene forma de montículo,
es aplicable la regla empírica. Esta afirma, entre otras cosas, que la mayoría de los datos está
en el intervalo
[Þ − 3ã, Þ + 3ã],

donde Þ es la media y ã es la desviación estándar. Por tanto, para este caso, tienes que

Þ = 7.3 y ã = 0.25 = 0.5,

15
de donde, por la regla empírica, la mayoría de los datos estará en el intervalo

[7.3 − 3 × 0.5, 7.3 + 3 × 0.5] = [7.3 − 1.5, 7.3 + 1.5] = [5.8, 8.8].

Ejercicio

Del total de las y los 216 estudiantes que rindieron el examen final de
Probabilidades y Estadística, se tomó una muestra cuya media y varianza fueron
8.1 y 0.36, respectivamente. El histograma de frecuencias mostró que los datos
tienen una distribución en forma de montículo. ¿Cuántos estudiantes
aproximadamente obtuvieron una nota entre 7.5 y 8.7?

A) 205

B) 180

C) 146

Solución. La opción correcta es C). En efecto, como el histograma muestra una distribución de
frecuencias en forma de montículo, puedes aplicar la regla empírica. En este caso, tienes que

Þ = 8.1 y ã = 0.36 = 0.6.

Por tanto, la regla empírica te dice que el 68 % de los datos está en el intervalo

[Þ − ã, Þ + ã];

es decir, en el intervalo
[8.1 − 0.6, 8.1 + 0.6] = [7.5, 8.7].

Así, el número aproximado de estudiantes que obtuvieron su nota entre 7.5 y 8.7 es:

216 × 0.68 ≈ 146.88;

es decir, aproximadamente 146 estudiantes.

Ejercicio

La media del conjunto de datos

{−5, −4, −3, −2, −1, 0, 1, 2, 3, 4, 5}

es:

15
A)
11

16
B) 0
30
C)
11

Solución. La opción correcta es B). En efecto, recuerda que la media de un conjunto de datos

{ x1 , x2 , x3 , . . . , x n }

es
1
x=( x + x + · · · + xn ) .
n 1 2
En este caso, tienes que n = 11, de donde,

(−5) + (−4) + (−3) + (−2) + (−1) + 0 + 1 + 2 + 3 + 4 + 5


x=
11
0
= = 0.
11

Ejercicio

¿Se puede considerar representativa la media del siguiente conjunto de datos?

{−5, −4, −3, −2, −1, 1 100, 1, 2, 3, 4, 5}

A) NO

B) SÍ

Solución. La opción correcta es A). En efecto, recuerda que la media de un conjunto de datos

{ x1 , x2 , x3 , . . . , x n }

es
1
x=( x + x + · · · + xn ) .
n 1 2
En este caso, tienes que n = 11, de donde,

(−5) + (−4) + (−3) + (−2) + (−1) + 1 100 + 1 + 2 + 3 + 4 + 5


x=
11
1 100
= = 100.
11

Como puedes ver, todos los datos son valores cuya diferencia con la media es bastante grande.
Luego, la media no representa el conjunto de datos.

17
Ejercicio

La desviación estándar del conjunto de datos

{−5, −4, −3, −2, −1, 1 100, 1, 2, 3, 4, 5}

es:

A) 316.24

B) 110 001

C) 100 010

D) 331.68

Solución. La opción correcta es D). En efecto, utiliza Excel para obtener la varianza de este
conjunto de datos:

1. Inicia Excel.

2. Registra el conjunto de datos como se muestra a continuación:

3. Utiliza la función DESVEST.M como se muestra en el dibujo:

4. Finalmente, obtienes que la desviación estándar es 331.68:

18
19
Variables aleatorias discretas
Variables aleatorias

Definición

Realizado un experimento, donde Ò es el espacio muestral correspondiente, una función


de la forma
X : Ò −→ R

es una variable aleatoria asociada al experimento si el conjunto de todos elementos


del espacio muestral en los cuales la función X toma un valor menor que x ,

{é ∈ Ò : X (é) < x },

es un evento del experimento.

Ejemplo

A través de este ejemplo simple podrás comprender de una manera adecuada el rol
que tienen las variables aleatorias. Considera el lanzamiento de una moneda
(perfectamente balanceada) dos veces. El espacio muestral Ò se puede expresar de la
siguiente manera:
Ò = {{cc}, {cs}, {sc}, {ss}} .

Ahora considera una función del espacio Ò en el conjunto de los números reales R: a
cada elemento de Ò le haces corresponder el número de caras que salen. Si nombras
con X esta función, entonces puedes escribir:

X ({cc}) = 2, X ({cs}) = 1, X ({sc}) = 1 y X ({ss}) = 0.

Con la ayuda de esta función X , puedes expresar todos los posibles eventos de este
experimento. Por ejemplo, el evento

A = {{cs}, {sc}},

es decir, el evento

“sale exactamente una cara”,

se puede expresar diciendo que es el evento

en cuyos elementos la función X siempre toma el valor igual a 1.

21
En este caso, en lugar plantear el problema de calcular la probabilidad del evento A
directamente, se plantea el problema de calcular la probabilidad de que la variable
aleatoria X tome el valor 1, lo que se escribe de la manera siguiente:

P (X = 1) ;

es decir, para este ejemplo, tienes que:

2 1
P (X = 1) = P (A) = = .
4 2

Ahora considera el evento B : “sale por lo menos un sello”. Entonces

B = {{cs}, {sc}, {ss}} .

En este caso, la probabilidad de este evento se puede expresar utilizando X de la manera


siguiente:
P (X ≥ 1) .

Y en este caso, podrás expresar esta probabilidad así:

1 1 3
P (X ≥ 1) = P (X = 1) + P (X = 2) = + = .
2 4 4

En este caso también se verifica que

1 1 1
P (X = 0) + P (X = 1) + P (X = 2) = + + = 1.
2 2 4

Entonces, si x es uno de los tres números: 0, 1 o 2, la expresión

P (X = x )

indica la probabilidad del evento: “han salido exactamente x caras”.

En resumen, este proceso ha introducido una nueva función, que se le representa con la
letra minúscula p:
p : {0, 1, 2} −→ R,

donde
p( x ) = P ( X = x ) ,

es decir, p(x ) es la probabilidad de que la función X tome el valor x ; es decir, la


probabilidad de que ocurra el evento “Salen exactamente x caras”.

Esta función se denomina función de distribución de probabilidad de la función X , y la


función se denomina variable aleatoria.

El papel de la función de distribución de probabilidad es que, una vez ya conocida, te

22
permite calcular la probabilidad de un evento fácilmente.

Ejemplo

En la segunda vuelta electoral para la presidencia de un país hay dos candidatas o


candidatos. Previo a la elección, una encuesta de sondeo de opinión consiste en
preguntar a 1 200 votantes si votarán por el candidato A. Nombra con la letra X la
variable aleatoria “Número de personas encuestadas que votarán por A”.

El objetivo de la encuesta es conocer qué proporción de la población de votantes está a


favor del candidato A. Para ello se ha elegido una muestra con 1 200 elementos (las y
los votantes). Si la selección es correcta, entonces se pretende inferir la proporción de
la población que está a favor de A, a partir de la proporción que está a favor de A en la
muestra.

En este caso la variable aleatoria X podrá tomar cualquiera de los valores entre 0 y
1 200. Que tome, por ejemplo, el valor 439 quiere decir que de las 1 200 personas, 439
están a favor de A. Que tome el valor 0 significaría que ninguna de las encuestadas y
ninguno de los encuestados está a favor del candidato A.

Por lo tanto, si Ò es el espacio muestral, la variable aleatoria X , “número de personas


encuestadas que votarán por A”, es la función

X : Ò −→ {0, 1, 2, . . . , 1 200}
x 7−→ X (x ) = número de personas encuestadas que votarán por A.

Y si p es la función de distribución de probabilidad de X , entonces el número

p(X = 534)

indica la probabilidad de que la variable aleatoria X tome el valor 534; es decir, la


probabilidad del evento “534 personas encuestadas votarán por A”.

Observación

El concepto de variable aleatoria te permite responder preguntas del siguiente tipo. La


primera:

¿hay elementos en Ò en los cuales la variable aleatoria X tome un valor


menor que 1?

Claro que sí; de hecho, hay uno solo y es {ss }, pues X ({ss }) = 0. Entonces, el conjunto
de los elementos del espacio muestral en los que la variable aleatoria X toma el valor 0

23
tiene un solo elemento. Este conjunto se representa de la manera siguiente:

{é ∈ Ò : X (é) < 1},

que se lee:

“el conjunto de los eventos simples é en el espacio muestral Ò en los cuales


X toma un valor menor que 1”.

Como puedes ver, este conjunto es el evento “no sale ninguna cara”:

{é ∈ Ò : X (é) < 1} = {{ss }}.

Una segunda pregunta:

¿cuál es el conjunto de los elementos en Ò en los cuales la variable aleatoria


X toma un valor menor que 1.8?

El siguiente:
{{cs}, {sc}, {ss}}

En cada uno de los dos primeros elementos X toma el valor 1, que es menor que 1.8; en
el tercero, toma el valor 0, que también es menor que 1.8. Es decir, en los tres casos, X
toma un valor menor que 1.8. A este conjunto se lo representa de la siguiente manera:

{é ∈ Ò : X (é) < 1.8},

que se lee:

“el conjunto de los eventos simples é en el espacio muestral Ò en los cuales


X toma un valor menor que 1.8”,

y es el evento “a lo mucho sale una cara”.

La tercera pregunta:

¿cuál es el conjunto de los elementos en Ò en los cuales la variable aleatoria


X toma un valor menor que 3?

El siguiente:
{{cc}, {cs}, {sc}, {ss}} ,

que se expresa de la manera siguiente:

{é ∈ Ò : X (é) < 3},

24
y que en este caso es igual al espacio muestral, es decir, es el evento cierto.

De manera similar a lo desarrollado para contestar las tres preguntas, verifica por ti
misma o por ti mismo los siguientes hechos:

• El conjunto de los elementos en Ò en los cuales X toma un valor menor que 0 es


el conjunto vacío; es decir, es el evento nulo:

{é ∈ Ò : X (é) < 0} = ∅.

• El conjunto de los elementos en Ò en los cuales X toma un valor menor que 4 es


el espacio muestral; es decir, es el evento cierto:

{é ∈ Ò : X (é) < 4} = Ò .

• El conjunto de los elementos en Ò en los cuales X toma un valor menor que 1.8 es
el evento “a lo mucho sale una cara”:

{é ∈ Ò : X (é) < 1.8} = {{cs}, {sc}, {ss}} .

Observación

Los ejemplos anteriores se generalizan en el concepto de variable aleatoria de la


siguiente manera:

Si x es un número real cualquiera, el conjunto

{é ∈ Ò : X (é) < x },

es decir, el conjunto de “los elementos del espacio muestral Ò en los cuales


la variable aleatoria X toma un valor menor que x”, es un evento del
experimento.

¡Esta es la propiedad que cualquier variable aleatoria tiene que cumplir!

Definición

Dado un experimento, Ò representa el correspondiente espacio muestral; X una variable


aleatoria asociada al experimento; y x un número real. Se consideran los siguientes
eventos:

• “Los elementos de Ò en los que X toma un valor menor que x ”:

{é ∈ Ò : X (é) < x }.

25
Su probabilidad se representa por P (X < x ); es decir:

P (X < x ) = P ({é ∈ Ò : X (é) < x }) .

• “Los elementos de Ò en los que X toma un valor igual a x ”:

{é ∈ Ò : X (é) = x }.

Su probabilidad se representa por P (X = x ).

• “Los elementos de Ò en los que X toma un valor menor o igual que x ”:

{é ∈ Ò : X (é) 6 x }.

Su probabilidad se representa por P (X 6 x ).

• “Los elementos de Ò en los que X toma un valor mayor que x ”:

{é ∈ Ò : X (é) > x }.

Su probabilidad se representa por P (X > x ).

• “Los elementos de Ò en los que X toma un valor mayor o igual que x ”:

{é ∈ Ò : X (é) > x }.

Su probabilidad se representa por P (X > x ).

Ejemplo

Considera el lanzamiento de una moneda dos veces. Entonces,

• Nombra con A el evento “sale exactamente una cara”. Entonces A se representa por

A = {é ∈ Ò : X (é) = 1} = {{cs}, {sc}}.

Por lo tanto, en este caso:


2 1
P (X = 1}) = = .
4 2
• Nombra con B el evento “a lo mucho sale una cara”; luego B se representa por

B = {é ∈ Ò : X (é) 6 1} = {{ss}, {cs}, {sc}}.

En este caso tienes que


3
P (X 6 1) = .
4

26
• Observa que el evento B puede expresarse también de la manera siguiente:

B = {é ∈ Ò : X (é) = 0 ó X (é) = 1}.

Luego, el evento B puede escribirse como la unión de dos eventos disjuntos:

B = {é ∈ Ò : X (é) = 0} ∪ {é ∈ Ò : X (é) = 1};

por lo tanto, tienes que

1 1 3
P (X 6 1) = P (X = 0) + P (X = 1) = + = .
4 2 4

• Nota que el evento


{é ∈ Ò : X (é) > 1}

es el evento contrario al evento

{é ∈ Ò : X (é) 6 1}.

Por ello, tienes que


P (X > 1) = 1 − P (X 6 1) .

Ejemplo

Una prueba psicológica para niñas y niños consiste en relacionar cada una de 3
imágenes de objetos con la palabra que identifica a ese objeto. Una niña asigna al azar
cada una de la palabras a una de las tres imágenes. Considera la variable aleatoria

X : “el número de pares correctos”,

y descríbela.

En primer lugar, el experimento consiste en asignar al azar cada una de las tres palabras
a una de las tres imágenes de objetos. Los resultados de este experimento se pueden
representar de la manera siguiente.

Numera las palabras y las imágenes con los dígitos del 1 al 3, de tal manera que si una
palabra y una imagen se corresponden, se identifican con el mismo dígito. Por ejemplo,
la palabra asignada con el dígito 2 describe el objeto de la imagen 2:

1 2 3
♣ ♦ ♠
Trébol Diamante Corazón

A continuación, representa cada posible asignación de las tres palabras a las imágenes
en forma de un arreglo lineal de los tres dígitos, de forma que cuando una palabra

27
describe correctamente el objeto de la imagen, el número que representa la palabra
ocupa la posición en el arreglo indicada por dicho número.

Por ejemplo, si la niña relacionara

• la primera imagen con la palabra numerada con 3;

• la segunda imagen con la palabra numerada con 1; y

• la tercera imagen con la palabra numerada con 2;

es decir:

3 1 2
♣ ♦ ♠
Corazón Trébol Diamante

utilizarías el arreglo para representar la prueba:

312.

En este caso, no se habría conseguido ningún par correcto. En cambio, el arreglo 321
indica que hay un par correcto: la segunda imagen fue identificada con la palabra
correcta:

3 2 1
♣ ♦ ♠
Corazón Diamante Trébol

Con esta representación, el experimento puede ser visto como la selección del total de
3 objetos sin devolución y con orden; es decir, el espacio muestral está conformado por
todas las permutaciones de tamaño 3, y, por lo tanto, tiene 3! = 6 elementos:

Ò = {{123}, {132}, {213}, {231}, {312}, {321}}.

Ahora bien, describir la variable aleatoria X asociada a este experimento consiste en


indicar qué valor toma X en cada uno de los elementos del espacio muestral Ò .

Como puedes ver, X solo puede tomar tres valores: 0, 1 y 3. En efecto:

• Toma el valor 0 en {231} y {312}, porque en ninguna de estas pruebas hay un par
correcto.

• Toma el valor 1 en {132}, {213} y {321}, porque hay un par correcto en cada prueba.

• No toma el valor 2, pues no hay dos pares correctos en ningún elemento del
espacio muestral Ò . Y,

28
• Toma el valor 3 únicamente en {123}.

Por lo tanto, X es la función X : Ò −→ R donde

X ({231}) = X ({312}) = 0, X ({132}) = X ({213}) = X ({321}) = 1 y X ({123}) = 3.

Como la asignación es al azar, cada evento simple tiene la misma probabilidad de salir;
luego, obtienes que:

2 1
• P (X = 0) = P ({{231}, {312}}}) = = .
6 3
3 1
• P (X = 1) = P ({{132}, {213}, {321}) = = .
6 2
• P (X = 2) = 0, pues, como lo viste ya, X no toma el valor 2. Y,
1
• P (X = 3) = P ({{123}}) = .
6

Ejemplo

En el ejemplo sobre la violencia de género, se indicó que en Ecuador, el INEC había


realizado una encuesta a mujeres de 15 años de 18 800 viviendas. Supón que se eligen
al azar 18 de esas 18 800 encuestas. Describe la variable aleatoria:

X : “el número de mujeres que sufren algún tipo de violencia”.

En este caso, el experimento consiste en seleccionar al azar 18 mujeres de las 18 800, y


contar cuántas de ellas sufren o han sufrido algún tipo de violencia.

Nombra con la letra Ò el espacio muestral correspondiente. Supón, por ejemplo, que
é ∈ Ò ; es decir, é es una de las posibles selecciones de 18 mujeres, de las cuales, 7
sufren o han sufrido algún tipo de violencia, entonces

X (é) = 7.

En general, para cada é ∈ Ò , se tiene que X (é) es

el número total de mujeres de la selección é que sufren o han sufrido algún


tipo de violencia.

Como hay 18 mujeres en cada selección, tienes que X (é) puede ser cualquiera de los
números entre 0 y 18.

Luego, la variable aleatoria X es una función X : Ò −→ R cuyo conjunto de valores es:

{0, 1, 2, . . . , 18}.

29
Definiciones

Una variable aleatoria X es:

• Discreta si el conjunto de valores que toma X es un conjunto finito o un


subconjunto infinito que tiene el mismo número de elementos que el conjunto de
los números naturales.

• Continua si el conjunto de valores que toma X es un conjunto que tiene el mismo


número de elementos que el conjunto de los números reales .

Definición

Dada la variable aleatoria X , la función representada por FX y definida por

FX : R −→ R
x 7−→ P (X < x )

se denomina función de distribución de X .

Observación

Recuerda que si X es una variable aleatoria asociada a un experimento cuyo espacio


muestral es Ò , entonces para cada número real x , el conjunto

{é ∈ Ò : X (é) < x } (5)

es un evento del experimento, y como tal, tiene una probabilidad de ocurrir.

Por ejemplo, en el caso del lanzamiento de una moneda dos veces, el conjunto de valores
que toma la variable aleatoria X , “el número de caras que salen”, es:

{0, 1, 2}.

Entonces, si x es un número real cualquiera, hay cinco posibilidades: x = 0, x = 1, x = 2,


x < 0 y x > 2. Por lo tanto, todos los eventos posibles del tipo (5) son los siguientes:

• A = {é ∈ Ò : X (é) < 0} = ∅, pues el número de caras que salen no puede ser menor
que 0.

• B = {é ∈ Ò : X (é) < 1} = {é ∈ Ò : X (é) = 0} = {{ss}}.

• C = {é ∈ Ò : X (é) < 2}; es decir:

C = {é ∈ Ò : X (é) = 0} ∪ {é ∈ Ò : X (é) = 1};

30
de donde:
C = {{ss}} ∪ {{cs}, {sc}} = {{ss}, {cs}, {sc}} .

• Si x < 0, entonces la situación es similar al primer caso:

D = {é ∈ Ò : X (é) < x } = ∅,

pues la variable aleatoria no toma ningún valor menor que 0.

• Si x > 2, entonces
E = {é ∈ Ò : X (é) < x } = Ò ,

pues el número de caras son 0, 1 y 2.

Ahora puedes indicar las probabilidades de los cinco eventos en cuestión:

• P (A) = P (X < 0) = P (∅) = 0.

• P (B ) = P (X < 1) = 14 .

• P (C ) = P (X < 2) = 34 .

• Si x < 0, entonces
P (X < x ) = P (∅) = 0.

• Si x > 2, tienes que


P (X < x ) = P (Ò ) = 1.

A través de las probabilidades de estos cinco eventos, se ha introducido una nueva


función, a la que se la representa con FX :

FX : R −→ R,

y se la define de la manera siguiente:

FX (x ) = P (X < x ) ;

es decir:

FX (x ) es la probabilidad de que la variable aleatoria X tome un valor menor


que x ; es decir, la probabilidad de que el número de caras sea menor que x .

Por ejemplo:
1 3
FX (1) = P (X < 1) = ; FX (2) = P (X < 2) = .
4 4
Esto quiere decir, respectivamente, que:

31
1
la probabilidad de que el número de caras sea menor que 1 es , y la
4
3
probabilidad de que el número de caras sea menor que 2 es .
4

Por otro lado, tienes que:


FX (−1) = P (X < −1) = 0,

pues −1 < 0. Esto se interpreta así:

¡Es imposible que el número de caras sea menor que −1!

Y también tienes que:


FX (4) = P (X < 4) = 1,

ya que 4 > 2. Luego:

¡Siempre el número de caras es menor que 4!

En resumen, la función de distribución de la variable aleatoria X , “el número de caras


que salen”, se describe de la manera siguiente:

0 si x ≤ 0;







 1
si x = 1;



4


FX (x ) = 
3


 si x = 2;



 4


1 si x > 2.

La función FX se conoce con el nombre de función de distribución de la variable


aleatoria X .

Ejemplo

Considera la variable aleatoria X , “el número de pares correctos” de la prueba


psicológica. Ahí encontrarás que el conjunto de valores que toma X es {0, 1, 3}.
También encontrarás las probabilidades de que la variable aleatoria tome uno de sus
valores.

Describe la función de distribución de la variable aleatoria del ejemplo de la prueba


psicológica:

X : “el número de pares correctos”.

Para describir la función de distribución de la variable X , requieres conocer las

32
probabilidades de los eventos del tipo (5):

{é ∈ Ò : X (é) < x }.

Sin embargo, como los únicos valores que X puede tomar son 0, 1 y 3, es suficiente que
consideres los siguientes casos:

• {é ∈ Ò : X (é) < 0} = ∅. Luego P (X < 0) = 0 y FX (0) = 0.

• {é ∈ Ò : X (é) < 1} = {é ∈ Ò : X (é) = 0} = {{231}, {312}, {321}}. Luego:

1
FX (1) = P (X < 1) = P (X = 0) = .
2

• {é ∈ Ò : X (é) < 2} = {é ∈ Ò : X (é) = 0} ∪ {é ∈ Ò : X (é) = 1}. Por lo tanto:

P (X < 2) = P (X = 0) + P (X = 1) .

Por un lado, ya sabes que


1
P (X = 0) = .
2
Por otro lado, tienes que

{é ∈ Ò : X (é) = 1} = {{132}, {213}},

de donde
1
P (X = 1) = .
3
Luego:
1 1 5
FX (2) = P (X < 2) = P (X = 0) + P (X = 1) = + = .
2 3 6
• Tienes que:

FX (3) = P (X < 3) = P (X = 0) + P (X = 1) + P (X = 2) .

Ya sabes que
1 1
P (X = 0) = y P (X = 1) = .
2 3
Por lo tanto:
1 1
FX (3) = + + P (X = 2) .
2 3
Pero
P (X = 2) = 0,

ya que X nunca toma el valor 2. Por lo tanto:

1 1 5
FX (3) = + +0= .
2 3 6

33
• Finalmente, si x > 3, tienes que

FX (x ) = P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3) .

Como sabes que (mira la página 29)

1
P (X = 3) = ,
6

entonces:
1 1 1
FX (x ) = + + 0 + = 1.
2 3 6

En resumen, la función de distribución de X se puede describir así:



0 si x = 0;







 1
si x = 1;



2


FX (x ) = 
 5
si x = 2;



6







1
 si x > 3.

Como quizás ya te hayas dado cuenta, la función de distribución en este ejemplo queda
descrita completamente en los valores que toma la variable aleatoria. Esto sucede
siempre con las variables aleatorias discretas. Por ello, en lugar de FX , se considera la
siguiente función, representada por pX , y que se define únicamente en los valores que
toma X
pX ( x ) = P (X = x ) .

En el caso del último ejemplo, pX se define únicamente para x = 0, x = 1 y x = 3:

1 1 1
pX (0) = P (X = 0) = , pX (1) = P (X = 1) = y pX (3) = P (X = 3) = .
2 3 6

Observa que la función FX se puede describir completamente mediante pX :

FX (1) = pX (0),
FX (2) = pX (0) + pX (1),
FX (3) = pX (0) + pX (1),
FX (x ) = pX (0) + pX (1) + pX (3),

cuando x > 3. No te olvides que no has tomado en cuenta el caso en que x = 2, porque
la variable aleatoria no toma ese valor, y por lo tanto P (X = 2) = 0.

34
Observación

Para el caso de las variables aleatorias discretas, vas a trabajar siempre con la función
pX en lugar de FX .

Definición

Dada una variable aleatoria discreta X asociada a un experimento, donde el conjunto


de valores que X puede tomar se representa por

{x1 , x2 , x3 , . . .},

la función representada por pX y definida por

pX ( x ) = P (X = x ) ,

donde x toma cualquiera de los valores {x1 , x2 , x3 , . . .}, se denomina ley de distribución
de probabilidad de la variable aleatoria X .

Ejemplo

En el experimento del lanzamiento de la moneda dos veces, la ley de distribución de la


variable aleatoria X , “el número de caras que salen”, es:

1 1 1
pX (0) = , pX (1) = y pX (2) = .
4 2 4

Ejemplo

En el caso de la prueba psicológica, la ley de distribución de la variable aleatoria X , “el


número de pares correctos”, es:

1 1 1
pX (0) = , pX (1) = y pX (3) = .
2 3 6

Como puedes ver, si sumas todos los valores que toma pX , el resultado siempre es 1. En
efecto, para el caso del lanzamiento de la moneda dos veces:

1 1 1
pX (0) + pX (1) + pX (2) = + + = 1.
4 2 4

Y para el caso de la prueba psicológica:

1 1 1
pX (0) + pX (1) + pX (3) = + + = 1.
2 3 6

35
Esta propiedad tiene sentido, porque la suma de todos los posibles valores que toma pX
representa la probabilidad del espacio muestral Ò , que es 1.

Propiedad

Dada una variable aleatoria discreta X , donde

V = {x1 , x2 , x3 , . . .}

es el conjunto de todos los valores que toma X , la ley de distribución de X , la función pX ,


satisface las siguientes dos propiedades:

• Para todo x ∈ V :
0 6 pX (x ) 6 1.

• px (x1 ) + pX (x2 ) + pX (x3 ) + · · · = 1.

Definición

Dada una variable aleatoria discreta X , donde {x1 , x2 , x3 , . . .} es el conjunto de valores


que toma X , y pX es la ley de distribución de X , la esperanza de la variable aleatoria
X, representada por ÞX y también por E (X ), se define de la siguiente manera:

ÞX = E (X ) = x1 pX (x1 ) + x2 pX (x2 ) + p3 (x3 ) + · · ·

Ejemplo

Considera la situación de la prueba psicológica una vez más. La variable aleatoria X es


“el número de pares correcto”. El conjunto de valores que toma X es: {0, 1, 3}, y la ley de
distribución es
1 1 1
pX (0) = , pX (1) = y pX (3) = .
2 3 6

Si este modelo se utilizara para estimar la media del número de palabras asignadas
correctamente a las imágenes por un grupo de niñas y niños que hubieran hecho la
prueba psicológica descrita, entonces las probabilidades dadas por pX serían
aproximaciones de las frecuencias relativas en la población.

En efecto, supón que 10 000 niñas o niños realizan la prueba. Entonces, esperaríamos
que:

• El número de las examinadas y examinados que no consiguieron asignar ninguna

36
de las palabras a las imágenes correctamente sería, aproximadamente

1
pX (0) × 10 000 = × 10 000 = 5 000.
2

• El número de niñas y niños que solo asignaron una de las tres palabras a la imagen
correcta sería, aproximadamente

1
pX (1) × 10 000 = × 10 000 ≈ 3 333.
3

• El número de niñas y niños que harían la prueba correctamente sería,


aproximadamente
1
pX (3) × 10 000 = × 10 000 ≈ 1 667.
6

En este caso, como la variable aleatoria es “el número de pares correctos”, la


población de 10 000 datos no son las niñas ni los niños, sino 10 000 números
distribuidos entre el 0, el 1 y el 3. De hecho, de manera más precisa, la población
estaría constituida teóricamente por:

• 5 000 números 0;

• 3 333 números 1; y

• 1 667 números 3.

Se dice “teóricamente”, porque al momento de hacer el muestreo real, estos valores


serán diferentes, aunque se espera que sean muy similares. Si no fuera así, o el modelo
es incorrecto, o el muestreo no ha sido realizado correctamente.

Ahora bien, calcula la media y la desviación estándar de esta población teórica; estos
dos números describen de manera adecuada la población.

Empieza con la media; nómbrala con la letra griega Þ. Recuerda que se obtiene al sumar
todos los datos y dividir por el número total de ellos: como hay 5 000 números 0, 3 333
números 1 y 1 667 números 3, entonces

5 000 × 0 + 3 333 × 1 + 1 667 × 3


Þ= .
10 000

Antes de calcular el valor de Þ, re-escribe la igualdad anterior de la siguiente manera:

5 000 × 0 + 3 333 × 1 + 1 667 × 3


Þ=
10 000
5 000 × 0 3 333 × 1 1 667 × 3
= + +
10 000 10 000 10 000
5 000 3 333 1 667
= ×0+ ×1+ ×3
10 000 10 000 10 000
1 1 1
= ×0+ ×1+ ×3
2 3 6

37
1 1 5
= + = ≈ 0.8333 ≈ 1;
3 2 6

es decir, se espera que en promedio las niñas y niños identifiquen una imagen con la
palabra correcta.

Aparte del resultado, lo más importante de lo realizado es que Þ se expresa en función


de la ley de distribución de la variable aleatoria X . En efecto, mira:

1 1 1
Þ= × 0 + × 1 + × 3 = pX (0) × 0 + pX (1) × 1 + pX (3) × 3.
2 3 6

Ejemplo

En el caso del lanzamiento de la moneda dos veces y la variable aleatoria “el número de
caras que salen”, la esperanza de esta variable aleatoria es:

E (X ) = 0 × pX (0) + 1 × pX (1) + 2 × pX (2)


1 1 1 1 1
= 0 × + 1 × + 2 × = + = 1.
4 2 4 2 2

Esto quiere decir que

al lanzar una moneda dos veces, se espera que salga una cara.

Observación

Así como la media de una muestra no es suficiente para describir la muestra, la


esperanza de una variable aleatoria tampoco lo es para la población. Se requiere,
además, medir la variabilidad de los datos. Para ello, se recurre a medir “cuán
dispersos o no están los datos” a través de la varianza. La idea es la siguiente.

Supón que X es la variable aleatoria. Entonces se define una nueva aleatoria:

[X − E (X )]2 .

Esta mide el cuadrado de la diferencia entre los valores que toma X y su esperanza; es
decir, mide el cuadrado de la diferencia de los valores que toma X respecto de su centro.

Como recordarás al definir la varianza de una muestra, elevar al cuadrado las


diferencias tiene el efecto de dar una medida más sensible de la variación: si la
diferencia es pequeña, el cuadrado la hace aún más pequeña ; en cambio, si la
diferencia es grande, el cuadrado la hace aún más grande.

Finalmente, se toma la esperanza de esta nueva aleatoria como una medida de la


variabilidad de los valores que toma X .

38
Sin embargo, siguiendo con el paralelismo entre la varianza de una variable aleatoria
y el de una muestra, una mejor medida de esa variabilidad, es la raíz cuadrada de la
varianza, denominada desviación estándar.

Definición

Dada una variable aleatoria X , la varianza de X , representada por V (X ), se define como


la esperanza de la variable aleatoria [X − E (X )]2 :

V (X ) = E ([X − E (X )]2 ).

La raíz cuadrada de V (X ) se denomina desviación estándar de X y se la representa con


ãX :
p
ãX = V (X ).

Propiedad

Dada una variable aleatoria X , donde {x1 , x2 , x3 , . . .} es el conjunto de los valores que
toma X , ÞX es la esperanza de X y pX es la correspondiente ley de distribución, la
varianza de X se calcula mediante la siguiente fórmula:

V (x ) = (x1 − ÞX )2 pX (x1 ) + (x2 − ÞX )2 pX (x2 ) + (x3 − ÞX )2 pX (x3 ) + · · ·

Ejemplo

Considera la variable aleatoria X , “el número de pares es correcto”, en el ejemplo de la


prueba psicológica. Recuerda que X toma los valores 0, 1 y 3, y que

5
ÞX = E ( X ) = .
6

Entonces:

V (x ) = E ([X − ÞX ]2 )

5 2 5 2 5 2
     
= 0− pX (0) + 1 − pX (1) + 3 − pX (3)
6 6 6
 2  2  2
5 1 1 1 13 1
= × + × + ×
6 2 6 3 6 6

≈ 1.1389.

39
Por lo tanto, la desviación estándar de X es aproximadamente:

ã ≈ 1.1389 ≈ 1.0672.

¿Y qué nos dice este número? Igual que en el caso de una muestra: nos da una medida de
cuán dispersos están los valores que toma la variable aleatoria. Y la forma de saberlo es
a través de la regla empírica que también es aplicable a las variables aleatorias, cuando
su ley de distribución tiene también forma de montículo o campana.

¿Y cómo se puede saber si esta es la situación? Realizando un histograma de los valores


que toma X . Igual que antes, puedes suponer que hay 10 000 medidas. Entonces 5 000
serán 0, 3 333 serán 1 y 1 667 serán 0. Con la ayuda de Excel, obtendrás el histograma
siguiente:

Recuerda que la media es


5
.
6
Según la regla empírica, el 68 % de los datos deberán estar en el intervalo

5 5
 
[ÞX − ã, ÞX + ã] = − 1.0672, + 1.0672 ≈ [−0, 2339, 1.9005].
6 6

Este intervalo cubre prácticamente los rectángulos correspondientes a 0 y a 1; en el


primer hay 5 000 datos, en el segundo 3 333. Entonces, hay 8 333 de los 10 000 en esos
dos rectángulos, que representan el

8 333
× 100 ≈ 83.33 %.
10 000

Está claro que si la desviación estándar fuera muy pequeña, el intervalo

[ÞX − 3ã, ÞX + 3ã]

sería pequeño y contendrían la mayoría de los datos, todos ellos muy cerca de la media,
de manera que ésta sería una medida representativa de los datos.

También debe estar claro que si la desviación estándar es grande, dicho intervalo es
grande y, aunque contenga la mayoría de los datos, estos no estarán cerca de ÞX
necesariamente.

40
Ejemplo

Vas a calcular la desviación estándar de la variable aleatoria X , “el número de caras


que salen”, cuando se lanza una moneda dos veces.

Recuerda que en ese caso X toma los valores {0, 1, 2} y

1 1 1
ÞX = 1, pX (0) = , pX (1) = y pX (2) = .
4 2 4

Por lo tanto:

V (x ) = (0 − 1)2 × pX (0) + (1 − 1)2 × pX (1) + (2 − 1)2 × pX (2)


1 1 1
= + = .
4 4 2

Por lo tanto r
1
ãX = ≈ 0.7071.
2

Observación

En la práctica, no vas a utilizar estas fórmulas, pues muchas muestras y las variables
aleatorias correspondientes siguen leyes de distribución conocidas de antemano, de las
cuales se conocen fórmulas para calcular la esperanza y la desviación estándar. Incluso,
estas fórmulas vienen ya incorporadas en las calculadoras electrónicas así como en el
Excel.

Ejercicio

Supón que X es una variable aleatoria y pX , su ley de distribución de probabilidad,


está definida por:
x 1 2 3 4
pX (x ) 0.4 0.3 0.2 0.1
La probabilidad de que X sea menor que 3 es:

A) 0.2

B) 0.7

C) 0.9

Solución. La opción correcta es B). En efecto, recuerda que, por definición de pX , tienes que la
probabilidad de que X tome un valor menor que 3 es igual a

P (X < 3) = pX (X = 1) + pX (X = 2).

41
Y, como
pX (X = 1) = 0.4 y pX (X = 2) = 0.3,

obtienes que
P (X < 3) = 0.4 + 0.3 = 0.7.

Ejercicio

Supón que X es una variable aleatoria y pX , su ley de distribución de probabilidad,


está definida por:
x 1 2 3 4
pX (x ) 0.4 0.3 0.2 0.1
La esperanza de X es:

A) 2

B) 1

C) 0.5

Solución. La opción correcta es A). En efecto, recuerda que la esperanza de la variable X es


igual a

E (X ) = 1 · pX (1) + 2 · pX (2) + 3 · pX (3) + 4 · pX (4)


= 1 · 0.4 + 2 · 0.3 + 3 · 0.2 + 4 · 0.1
= 0.4 + 0.6 + 0.6 + 0.4 = 2.

Ejercicio

Supón que X es una variable aleatoria y pX , su ley de distribución de probabilidad,


está definida por:
x 1 2 3 4
pX (x ) 0.4 0.3 0.2 0.1
Su varianza es:

A) 1

B) 2

C) 2.

42
Solución. La opción correcta es A). En efecto, en el ejercicio anterior obtuviste que

ÞX = E (X ) = 2.

Ahora bien, por definición de varianza de una variable aleatoria, tienes que

V (X ) = E ([X − E (X )]2 ).

Por tanto,

V (X ) = (1 − 2)2 pX (1) + (2 − 2)2 pX (2) + (3 − 2)2 pX (3) + (4 − 2)2 pX (4)


= (−1)2 · 0.4 + 02 · 0.4 + 12 · 0.2 + 22 · 0.1
= 0.4 + 0 + 0.2 + 0.4 = 1.

Ejercicio

La esperanza de la variable aleatoria X “El número que muestra un dado después


de ser lanzado” es igual a:

A) 3

B) 3.5

C) 4

Solución. La opción correcta es B). En efecto, el experimento asociado a la variable aleatoria X


consiste en lanzar un dado y observar el número que muestra luego del lanzamiento. Luego, el
espacio muestral es:
Ò = {1, 2, 3, 4, 5, 6}.

Luego, X toma 6 valores posibles: los números de 1 al 6. Y. bajo el supuesto de que el lado está
balanceado, la probabilidad de cada evento simple es

1 1
= .
|Ò | 6

Por tanto, la ley de distribución de probabilidad de X se puede mostrar a través de la siguiente


tabla:
x 1 2 3 4 5 6
pX (x ) 16 16 61 16 16 16
Y a partir de esta puedes calcular la esperanza de X :

E (X ) = 1 · pX (1) + 2 · pX (2) + 3 · pX (3) + 4 · pX (4) + 5 · pX (5) + 6 · pX (6)


1 1 1 1 1 1
= 1· +2· +3· +4· +5· +6·
6 6 6 6 6 6
1 21 7
= (1 + 2 + 3 + 4 + 5 + 6) · = = .
6 6 2

43
Ejercicio

La desviación estándar de la variable aleatoria X “El número que muestra un dado


después de ser lanzado” es igual a:

A) 1.71

B) 2.92

C) 3.5

Solución. La opción correcta es A). En efecto, en el ejercicio anterior obtuviste que la esperanza
de X es 3.5:
ÞX = E (X ) = 3.5.

Por tanto, la desviación estándar es igual a:


p
ã= V (x )
r
1 1 1 1 1 1
= (1 − 3.5)2 + (2 − 3.5)2 + (3 − 3.5)2 + (4 − 3.5)2 + (5 − 3.5)2 + (6 − 3.5)2
6 6 6 6 6 6
r
1 1 1 1 1 1
= 6.25 · + 2.25 · + 0.25 · + 0.25 · + 2.25 · + 6.25 ·
6 6 6 6 6 6

≈ 2.92 ≈ 1.71.

44

También podría gustarte