Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Distribuciones de probabilidad
para variables aleatorias
3.1 Introducción
Cuando la población es infinita no se puede acceder a los datos de todas las unidades elementales, esto
también sucede cuando la población es finita pero muy grande. En algunas ocasiones el modelo de
comportamiento de la variabilidad de la variable cuantitativa puede describirse a través de considera-
ciones teóricas pero en otras se requiere estudiar el comportamiento de las frecuencias relativas para
muestras de tamaño suficientemente grande, aplicando la propiedad de estabilidad o regularidad de las
frecuencias relativas.
En este capítulo se abordan los modelos o distribuciones de probabilidad para variables aleatorias
discretas y continuas y se muestra cómo estos modelos permiten obtener probabilidades y otros
parámetros de interés.
Toda función Y que asocia a cada unidad de la población un valor numérico, recibe el nombre de
variable aleatoria.
Las formas de los histogramas para las muestras de tamaño 20, 200 y 2000 podrían ser las que se
muestran en la Figura 3.1. respectivamente. Por conveniencia para el desarrollo que sigue, se consideran
histogramas donde el área de la barra asociada a cada intervalo de clase es igual a la frecuencia relativa
de la misma2 y en consecuencia el área total del histograma vale 1.
1 En el contexto de las variables aleatorias el recorrido (imagen de la función) corresponde al conjunto de valores que
puede asumir la variable.
2 Para que el área de cada barra sea igual a la frecuencia relativa de la clase a la que está asociada, la altura de la barra
debe ser igual al cociente entre la frecuencia relativa que representa la barra y el ancho de la misma. Dicho cociente recibe
el nombre de densidad de la frecuencia relativa en dicha clase.
135
Figura 3.1. Histogramas para determinadas muestras de tamaño 20, 200 y 2000 unidades y función f (de arriba
a abajo respectivamente).
Este modelo matemático da una idea aproximada de la variabilidad de los valores de la variable
aleatoria continua Y en la población, ayuda a comprender qué valores de la variable son posibles y con
qué frecuencia relativa aparecen dichos valores en la población, facilitando así la toma de decisiones.
Una función de densidad de probabilidad f es útil para hacer previsiones sobre todas las unidades
de la población. No se puede afirmar que la variabilidad de la variable Y en la población sea exac-
136 Capítulo 3. Distribuciones de probabilidad para variables aleatorias
tamente la implicada por f sino que dicha función describe en forma “razonablemente ajustada” el
comportamiento de dicha variabilidad.
La función de densidad de probabilidad cumple con las siguientes condiciones que se derivan de su
relación con los polígonos de frecuencias:
fY (y) ≥ 0, ∀ y
R∞
−∞ fY (y)dy = 1 (propiedad conocida como condición de cierre: establece que el área del
recinto limitado por la curva que representa la función de densidad de probabilidad y el eje de
las abscisas vale uno).
Se puede decir, entonces, que la probabilidad (P) de que la variable aleatoria Y tome valores en el
intervalo [y1 , y2 ] está dada por el valor de la integral de la función de densidad de probabilidad en
dicho intervalo. En símbolos: P(y1 ≤ Y ≤ y2 ) = yy12 fY (y)dy. En la Figura 3.2. se indica el área que
R
Figura 3.2. Función de densidad de probabilidad de Y y probabilidad de que Y tome valores entre y1 e y2 ,
ambos inclusive.
Una función de densidad de probabilidad f de una variable aleatoria continua Y no informa directa-
mente el valor de la probabilidad de que Y asuma ese valor puntual y. Es necesario integrarla para
obtener las probabilidades. Además, según se definió anteriormente, P(Y = y) = P(Y ∈ {y}) =
P(y ≤ Y ≤ y) = yy fY (s)ds = 0. Es decir que si bien idealmente la variable Y podría tomar el valor y,
R
De lo anterior se deduce que P(y1 ≤ Y < y2 ) = P(y1 < Y ≤ y2 ) = P(y1 < Y < y2 ) = P(y1 ≤ Y ≤ y2 ).
137
La proporción de barras con longitudes entre 249,4 mm y 250,6 mm se calcula de la siguiente forma:
P(249, 4 ≤ Y ≤ 250, 6) = P(249, 4 ≤ Y ≤ 250) + P(250 < Y ≤ 250, 6) =
R 250 R 250,6
= 249,4 (y − 249)dy + 250 (251 − y)dy =
2 2
y 250,6
= ( y2 − 249 · y)|250
249,4 + (251 · y − 2 )|250 =
2 249,4 2 250,6 2 2
= [( 250 250
2 − 249 · 250) − ( 2 − 249 · 249, 4)] + [(251 · 250, 6 − 2 ) − (251 · 250 − 2 )] =
Figura 3.3. Función de densidad de probabilidad de Y y probabilidad de que Y tome valores entre 249,4 mm
y 250,6 mm, ambos inclusive.
La función Y asocia a cada mes un valor numérico del número de fallas y en este caso se trata de una
variable aleatoria discreta.
138 Capítulo 3. Distribuciones de probabilidad para variables aleatorias
Análogamente al caso continuo, a medida que aumenta el tamaño de la muestra, las distribuciones de
frecuencias relativas convergen a una distribución límite, la distribución de probabilidad.
La función de probabilidad puntual verifica las siguientes propiedades que se derivan de su relación
con las frecuencias relativas muestrales:
pY (y) ≥ 0, ∀ y
∑ pY (y) = 1 (propiedad conocida como condición de cierre: establece que la suma de las
y∈RY
probabilidades puntuales asociadas a todos los valores de una variable aleatoria discreta es uno).
Figura 3.4. Función de probabilidad puntual de Y y probabilidad de que Y tome valores entre y1 e y2 , ambos
inclusive.
Note que P(y1 ≤ Y < y2 ), P(y1 < Y ≤ y2 ), P(y1 < Y < y2 ) y P(y1 ≤ Y ≤ y2 ) no son siempre iguales
ya que P(Y = y1 ) y P(Y = y2 ) pueden ser distintas de 0.
Una función de probabilidad puntual, pY , de una variable aleatoria discreta Y , para cada y, indica la
probabilidad de que Y asuma el valor y. Luego, pY (y) = P(Y = y).
139
Figura 3.5. Función de probabilidad puntual de Y y, en rojo, probabilidad de que Y sea mayor a 2.
Con lo visto hasta ahora, se puede resolver hasta la Actividad 2, Sección 3.5.
Para una variable aleatoria Y , tanto discreta como continua, la función de distribución acumulada
FY se define de la siguiente manera: FY (y) = P(Y ≤ y) ∀ y ∈ R.
Esta función especifica para cada valor y, la probabilidad de que la variable Y tome valores menores o
iguales que él. Dependiendo de si la variable aleatoria es continua o discreta, se puede obtener a partir
de su distribución de probabilidad de la siguiente forma:
140 Capítulo 3. Distribuciones de probabilidad para variables aleatorias
Función de distribución
Variable continua Variable discreta
acumulada
Ry
FY (y) fY (s)ds ∑ pY (s)
−∞ s≤y
es monótona no decreciente en y;
su imagen se encuentra en el intervalo [0,1].
Debido a que las funciones de densidad de probabilidad y de probabilidad puntual mantienen una
relación con la función de distribución acumulada, ambas se pueden obtener a partir de esta de la
siguiente manera:
d
Cuando Y es una variable continua: fY (y) = dy FY (y) para todo valor y en el cual F sea derivable.
Cuando Y es una variable discreta: pY (yi ) = FY (yi ) − FY (yi−1 ) para cada i.
Una ventaja de esta función es que permite expresar cualquier probabilidad en términos de la misma
haciendo más sencillo su cálculo. Por ejemplo:
P(Y ≤ y) = FY (y)
P(Y > y) = 1 − P(Y ≤ y) = 1 − FY (y)
P(y1 < Y ≤ y2 ) = P(Y ≤ y2 ) − P(Y ≤ y1 ) = FY (y2 ) − FY (y1 )
Situación Problema 1 (pág. 6) - Ejemplo 3.1 (cont.) Suponiendo que la función de densidad
de probabilidad de la variable aleatoria longitud de una barra es la mencionada en la página 137 se puede
calcular su función de distribución acumulada como:
si y ≤ 249 : FY (y) = 0;
Ry
si 249 < y ≤ 250 : FY (y) = 249 (s − 249)ds =
s2
= ( 2 − 249 · s)|y249 =
2 2 y2 2
= ( y2 − 249 · y) − ( 249 2
2 − 249 ) = 2 − 249 · y + 249
2 ;
R 250 Ry
si 250 < y ≤ 251 : FY (y) = 249 (s − 249)ds + 250 (251 − s)ds =
2 s y 2
= ( s2 − 249 · s)|250
249 + (251 · s − 2 )|250 =
2 2 y 2 2
= ( 250 249 2 250
2 − 249 · 250) − ( 2 − 249 ) + (251 · y − 2 ) − (251 · 250 − 2 ) =
2
2502 2 y 2
= 2 − 249 · 250 − 249 2 250
2 + 249 + 251 · y − 2 − 251 · 250 + 2 =
2
= − y2 + 251 · y − 62999
2 ;
Note que en la función de densidad de probabilidad, P(Y ≤ y) está representada por una área mientras que,
en la función de distribución acumulada esa probabilidad está representada por la ordenada de un punto. A
modo de ejemplo, en la Figura 3.7. se representan P(Y ≤ 250) en las funciones de densidad de probabilidad
y de distribución acumulada.
La probabilidad de que la longitud de una barra se encuentre entre 249,4 mm y 250,6 mm se expresa a través
de la función de distribución hallada de la siguiente manera:
P(249, 4 ≤ Y ≤ 250, 6) = P(Y ≤ 250, 6) − P(Y < 249, 4) = P(Y ≤ 250, 6) − P(Y ≤ 249, 4) =
= FY (250, 6) − FY (249, 4) =
2 2 2
= (− 250,6 6299 249,4 249
2 + 251 · 250, 6 − 2 ) − ( 2 − 249 · 249, 4) + 2 =
= 0, 42 + 0, 42 = 0, 84.
142 Capítulo 3. Distribuciones de probabilidad para variables aleatorias
Note que en la función de probabilidad puntual, P(Y ≤ y) está representada por la suma de las alturas de los
bastones, mientras que en la función de distribución acumulada esa probabilidad está representada por la
ordenada de un punto. A modo de ejemplo, en la Figura 3.9. se presenta la P(Y ≤ 1) en las funciones de
probabilidad puntual y de distribución acumulada.
La probabilidad que la cantidad de fallas en un mes sea mayor a 2 se expresa a través de la función de
distribución hallada de la siguiente manera:
P(Y > 2) = 1 − P(Y ≤ 2) = 1 − FY (2) = 1 − 0, 97 = 0, 03
Con lo visto hasta ahora, se puede resolver hasta la Actividad 7, Sección 3.5.
143
En esta sección se presentan medidas que indican la localización o posición y la dispersión de los
valores de una variable aleatoria obtenidas a partir de su distribución de probabilidad. Algunos de los
parámetros más utilizados que caracterizan a esa distribución son la media y el desvío estándar. Otros
como la mediana y el rango intercuartílico pueden resultar de interés sobre todo cuando la función
resulta asimétrica o presenta valores atípicos. Todas las medidas nombradas en el Capítulo 2 se pueden
calcular a partir de esta distribución. A continuación, se muestra cómo obtener estos parámetros a
partir de la función de densidad de probabilidad o de probabilidad puntual según corresponda.
En el Capítulo 2 también se definió a la mediana muestral como el valor de la variable que acumula el
50 % de las observaciones ordenadas. Cuando se trabaja con poblaciones se define como el valor de
la variable aleatoria tal que la probabilidad de observar valores menores o iguales a él vale 0,5. Para
determinarla es útil contar con la función de distribución acumulada.
En forma análoga al cálculo de la mediana se pueden obtener otros percentiles, como por ejemplo, el
cuartil 1 (Q1Y ) y el cuartil 3 (Q3Y ) que se definen como:
R
cuando Y es continua, Q1Y es el valor de la variable tal que FY (Q1Y ) = y≤Q1Y fY (y)dy = 0, 25;
R
cuando Y es continua, Q3Y es el valor de la variable tal que FY (Q3Y ) = y≤Q3Y fY (y)dy = 0, 75;
cuando Y es discreta, Q1Y es el valor de la variable tal que FY (Q1Y ) = ∑y≤Q1Y pY (y) = 0, 25;
cuando Y es discreta, Q3Y es el valor de la variable tal que FY (Q3Y ) = ∑y≤Q3Y pY (y) = 0, 75.
144 Capítulo 3. Distribuciones de probabilidad para variables aleatorias
En el Capítulo 2 se definió a la moda muestral como el valor de la variable que ocurre con mayor
frecuencia. En la población, la moda se puede pensar de forma similar.
Se denomina moda poblacional de una variable aleatoria Y , y se simboliza µ̂Y , al valor donde la
función de densidad de probabilidad en el caso continuo, o la función de probabilidad puntual en el
caso discreto, asume su valor máximo.
La moda no necesariamente es única, puede haber más de un máximo local dando lugar a más de una
moda. Por ejemplo, si Y tiene dos modas, se dice que tiene una distribución de probabilidad bimodal.
En general, se sugiere que una medida de posición se acompañe de una medida de dispersión que esté
relacionada con la misma para dar idea de la variabilidad de esa variable. La media poblacional se
informa junto al desvío estándar poblacional y la mediana junto al rango intercuartílico. El desvío
estándar indica la dispersión de los valores de Y alrededor de su media. Al igual que la relacion entre
la media muestral y la media poblacional, en el caso del desvío estándar sucede algo similar.
El desvío estándar poblacional de la variable aleatoria Y se simboliza con D(Y ) o σY .
Informalmente, se lo define como la raíz cuadrada de la esperanza matemática de los desvíos con
respecto a la media poblacional elevados al cuadrado, es decir:
p qR
cuando Y es continua, D(Y ) = σY = E(Y − µY )2 = 2
y∈RY (y − µY ) . fY (y)dy =
qR q
= y2 · f (y)d − µ 2 = E(Y 2 ) − µY2 ;
y∈RY Y y Y
p q
cuando Y es discreta, D(Y ) = σY = E(Y − µY )2 = ∑y∈RY (y − µY )2 · pY (y) =
q q
= ∑y∈RY y · pY (y) − µY = E(Y 2 ) − µY2 .
2 2
Situación Problema 1 (pág. 6) - Ejemplo 3.1 (cont.) Suponiendo que la función de densidad
de probabilidad de la variable aleatoria longitud de una barra es la mencionada en la página 137 se puede
calcular su media y su desvío estándar como:
R 251 R 250 R 251
E(Y ) = µY = 249 y · fY (y)dy = 249 y · (y − 249)dy + 250 y · (251 − y)dy =
y3 249·y2 251·y2 y3
=(3 − 2 )|250
249 + ( 2 − 3 )|251
250 = 124, 833 + 125, 167 = 250.
qR qR
251 2 2 250 2 R 251
D(Y ) = σY = 249 y · fY (y)dy − µY = [ 249 y · (y − 249)dy + 250 y2 · (251 − y)dy] − µY2 =
145
q
4 3 251·y3 y4 251 √
= [( y4 − 249·y 250 2
3 )|249 + ( 3 − 4 )|250 ] − 250 = 31166, 75 + 31333, 43 − 62500 = 0, 42.
Luego, la longitud media de las barras que se fabrican en esa empresa metalúrgica es de 250 mm con un
desvío estándar de las longitudes de 0,42 mm.
= 0 · 0, 7 + 1 · 0, 18 + 2 · 0, 09 + 3 · 0, 03 = 0, 45.
s
3
D(Y ) = σY = ∑ y2 · pY (y) − µY2 =
y=0
p
= 02 · 0, 7 + 12 · 0, 18 + 22 · 0, 09 + 32 · 0, 03 − 0, 452 =
√
= 0, 81 − 0, 2025 = 0, 78.
Entonces, la cantidad media de fallas en esa subestación es de 0,45 fallas por mes con un desvío estándar de
0,78 fallas.
Similar a lo que se presentó en el Capítulo 2, Sección 2.3.5, si se conocen la media y el desvío estándar
de una variable aleatoria, se puede utilizar la Desigualdad de Chebyshev para obtener una cota para la
proporción poblacional de valores de la variable que se encuentran en ciertos intervalos.
1. Desigualdad de Chebyshev
Suponga que se estudia una variable aleatoria discreta o continua Y , con media y desvío finitos y
conocidos. Entonces, se puede afirmar que para cualquier c > 1,
1
P(|Y − µY | < c · σY ) = P(µY − c · σY < Y < µY + c · σY ) ≥ 1 −
c2
o equivalentemente,
1
P(|Y − µY | ≥ c · σY ) = 1 − P(µY − c · σY < Y < µY + c · σY ) ≤ .
c2
Situación Problema 1 (pág. 6) - Ejemplo 3.1 (cont.) Recuerde que se tiene interés en
conocer la proporción de barras con longitud entre 249,4 mm y 250,6 mm.
Ahora suponga que no conoce la función de densidad de probabilidad de la variable aleatoria “longitud de
una barra” pero sí que su media y su desvío estándar son 250 mm y 0,42 mm respectivamente.
Si se aplica la Desigualdad de Chebyshev se tiene que:
P(249, 4 < Y < 250, 6) = P(250 − 10 10
7 .0, 42 < Y < 250 + 7 .0, 42) =
= P(|Y − 250| < 10 1
7 .0, 42) ≥ 1 − ( 10 )2 = 0, 51.
7
La proporción de barras de acero fabricadas por la empresa metalúrgica que cumplen con las especificaciones
de la automotriz es mayor a 0,51, si la media y el desvío fueran los que se supusieron.
Suponga que a la variable aleatoria Y se le aplica una transformación lineal tal que X = a + b ·Y , con a
y b pertenecientes a los números reales.
Con lo visto hasta ahora, se puede resolver hasta la Actividad 11, Sección 3.5.
3.4 Síntesis
Definidas las variables aleatorias como funciones que asocian un número real con cada unidad de la
población, las distribuciones de probabilidad constituyen modelos que describen su comportamiento
en esa población y permiten obtener el valor de diferentes parámetros.
Las probabilidades y el resto de las medidas definidas constituyen parámetros ya que son medidas
resumen que se obtienen a partir de información de la población y se pueden utilizar no solo para
describir el comportamiento de la variable en la población sino para tomar decisiones.
En la siguiente tabla se indica cómo obtener probabilidades y algunas medidas de resumen tanto para
el caso de variables continuas como discretas.
147
3. En un laboratorio, las placas petri con cultivos de un cierto tipo se mantienen refrigeradas dentro
de una heladera. Sea T: Temperatura de una placa petri de la heladera de almacenamiento (en
◦ C). Por estudios anteriores, se sabe que f (t) = kt, con 2 ≤ t ≤ 5, modela la función de densidad
4. Considere la variable Y: Número de defectos por rollo de alambre, cuya función de de probabili-
dad puntual es:
2y e−2
P(Y = y) = pY (y) = con y ∈ N0
y!
5. Para la empresa, los rollos de alambre con más de 4 defectos se consideran de segunda calidad,
por lo que se venden a menor precio. Si el porcentaje de rollos de segunda categoría es superior
al 5 % se debe ajustar el proceso de producción ya que la venta a menor precio generaría pérdidas.
¿Qué recomendación daría a la empresa?
6. En una planta química se realizan mediciones de la solubilidad de una determinada sustancia (en
gramos por litro de agua a 25◦ C). Sea Y la variable aleatoria asociada a dichas mediciones, cuya
función de densidad de probabilidad es:
3y2 si 0 < y < 1
f (y) =
0 en otro caso
7. Considere la variable aleatoria: X: Número de chips defectuosos en una caja de 100 unidades,
con la siguiente distribución:
x P(X = x)
0 t
1 0, 05
2 0, 03
3 0, 02
4 o más 0
151
8. Considere la variable aleatoria: W: Número de veces por semana que un proceso de producción
necesita recalibrarse, cuya función de distribución acumulada verifica:
w FW (w)
0 0, 15
1 0, 55
2 0, 85
3 0, 98
4 1
11. Cierto tipo de máquina falla diariamente a lo sumo dos veces. Se conoce que en el 70 % de los
días tiene a lo sumo una falla y que el número promedio de fallas diarias es 0, 85.
a) Indique cómo pudo llegarse a determinar el porcentaje indicado.
b) Se define la variable aleatoria X: Número de fallas por día de la máquina. Indique cuál es
la población en estudio. Obtenga la distribución de probabilidad de X a partir de los datos
dados y represéntela gráficamente.
c) Calcule la mediana de la cantidad de fallas. ¿Es simétrica la distribución? Justifique.
d) Obtenga el desvío estándar de X e interprételo en el contexto del problema. ¿Este valor
corresponde a un parámetro o a un estadístico? Justifique.
12. La velocidad (en km/h) de los autos que pasan por un determinado punto de control de la
autopista Rosario-Córdoba es una variable aleatoria con función densidad de probabilidad:
x
10000
si 0 < x < 100
x
f (x) = 0, 02 − 10000 si 100 < x < 200
0 en caso contrario
velocidad es inferior a 100 km/h el importe de la multa es de $0 (no hay multa), en cambio
si la velocidad está comprendida entre 100 y 120 km/h la multa es de $8500 y si la velocidad
supera los 120 km/h la multa es de $12000. Halle la distribución de probabilidades de la
variable aleatoria: I: Importe de la multa que tiene que pagar un vehículo elegido al azar
(en pesos).
d) Calcule e interprete el valor de la esperanza matemática y de la desviación estándar de la
variable aleatoria I.
154 Capítulo 3. Distribuciones de probabilidad para variables aleatorias
En R es posible definir funciones de densidad para variables aleatorias. Una vez definida la función de
densidad, se puede integrar a fin de obtener probabilidades. Así mismo, se la puede graficar utilizando
ggplot2. Por ejemplo, si se está trabajando con una variable X con la distribución presentada en el
Ejemplo 3.1, su función de densidad se puede expresar como:
f <- function(x) {
ifelse(x < 249 | x > 251,0,
ifelse(x >= 249 & x <= 250, x-249, 251-x))
}
Con ifelse(x < 249 | x > 251,0) se indica que fuera del intervalo [249 ; 251], la función de
densidad f toma el valor cero, mientras que con ifelse(x >= 249 & x <= 250, x-249, 251-x)
se indica que en el intervalo [249 ; 250] la función f es x-249
Para verificar que efectivamente se trata de una función de densidad, se puede calcular el área del
recinto limitado por la curva que representa la función de densidad de probabilidad y el eje de las
abscisas y corroborar si vale uno. Para ello, se ejecuta:
Si, por ejemplo, se pretende obtener P(249, 4 < X < 250, 6), se podrá ejecutar:
Esto resulta igual a 0,84. Para realizar la gráfica de la función de densidad, se trabaja en forma similar
a lo visto para otras distribuciones continuas, indicando en stat_function(fun= ) el nombre de la
función creada. Por ejemplo:
theme_classic()+
#Fuente para los ejes
theme(axis.title.x = element_text(face="bold", colour="black", size = 12),
axis.title.y = element_text(face="bold", colour="black", size = 12))+
scale_y_continuous(expand=c(0,0),
labels = scales::label_number(accuracy = 0.01,
decimal.mark = ',')) +
scale_x_continuous(expand=c(0,0),
labels = scales::label_number(accuracy = 1,
decimal.mark = ','))
De manera similar a lo actuado para la función de densidad, es posible trabajar con la función de
distribución acumulada. Para el ejemplo 3.1, la función acumulada resulta:
a <- 249
b <- 251
c <- 250
F <- function(x) {
ifelse(x <= a, 0,
ifelse(x > a & x <= c, ((x-a)^2)/((b-a)*(c-a)),
ifelse(x > c & x < b, 1-((b-x)^2)/((b-a)*(b-c)), 1)))
}
stat_function(fun = F)+
#Nombre de los ejes
labs(x = "X", y = "F(x)") +
#Configuraciones de formato
#Estilo
theme_classic()+
#Fuente para los ejes
theme(axis.title.x = element_text(face="bold", colour="black", size = 12),
axis.title.y = element_text(face="bold", colour="black", size = 12))+
scale_y_continuous(expand=c(0,0),
labels = scales::label_number(accuracy = 0.01,
decimal.mark = ',')) +
scale_x_continuous(expand=c(0,0),
labels = scales::label_number(accuracy = 1,
decimal.mark = ','))
|
Figura 3.11. Función de distribución acumulada para el Ejemplo 3.1.
2. Medidas de resumen
Teniendo en cuenta las definiciones dadas para la media, la varianza y el desvío estándar de variables
aleatorias, es posible definirlas como funciones en R y trabajar adecuadamente para obtener sus valores
a partir de la función de densidad.
Para el ejemplo 3.1, la forma de obtener la media, la varianza y el desvío estándar es la siguiente:
print(Media)
Siempre es importante definir correctamente los límites de integración lower y upper, de acuerdo al
recorrdio de la variable en cuestión. Si la variable está definida para todos los reales, se puede indicar
lower = -Inf y upper = Inf.
Para encontrar la moda poblacional de la variable aleatoria en estudio, se debe conocer el valor donde
la función de densidad alcanza su máximo. Una posible manera de realizar esto es creando un vector
que contenga el valor que toma dicha función para distintos valores de la variable, generados mediante
una secuencia dentro del correspondiente recorrido. Por ejemplo:
x <- seq(249,251,by=0.000001)
p <- f(x)
En el vector x se incluyen todos los valores entre 249 y 251 cada 0,000001 unidades, y en p se calcula
el valor que toma f en cada uno de ellos. Luego, resta buscar el valor de la variable para el cual la
función de densidad toma su máximo, para esto:
Q1 <- x[which(facum>=0.25)][1]
print(Q1)
158 Capítulo 3. Distribuciones de probabilidad para variables aleatorias
Q3 <- x[which(facum>=0.75)][1]
print(Q3)
En el ejemplo anterior, en el vector facum se generan las probabilidades acumuladas para los distintos
valores del vector x, a partir de la función de distribución acumulada F. Luego, para calcular el valor
de la mediana, se busca el valor de x tal que facum asuma un valor igual o superior a 0,5 por primera
vez. De manera análoga se buscan los cuartiles.
y <- seq(0,3,by=1)
p <- c(0.7, 0.18, 0.09, 0.03)
acum <- cumsum(p)
ggplot(data=tabla) +
geom_hline(aes(yintercept=0)) +
geom_segment(aes(y,p,xend=y,yend=p-p)) +
geom_point(aes(y,p),size=1.5) +
labs(x = "\n y", y = expression(p[Y](y))) +
theme_classic()+
scale_x_continuous(expand=c(0,0), limits = c(-0.1,3.5)) +
scale_y_continuous(expand=c(0,0), limits = c(0,0.75), breaks=seq(0.1,0.7,0.1),
labels = scales::label_number(accuracy = 0.01, decimal.mark = ','))+
theme(axis.title.x = element_text(face="bold", colour="black", size = 11,
hjust = 1, vjust=10),
axis.title.y = element_text(face="bold", colour="black", size = 11,
angle = 0, vjust = 1))
159
ggplot(data=tabla) +
geom_hline(aes(yintercept=0)) +
geom_segment(aes(y,acum,xend=y+1,yend=acum)) +
geom_segment(aes(-0.1,0,xend=0,yend=0)) +
geom_segment(aes(3,1,xend=3.5,yend=1)) +
geom_point(aes(y,acum),size=1.5, shape=1) +
labs(x = "\n y", y = expression(F[Y](y))) +
theme_classic()+
scale_x_continuous(expand=c(0,0), limits = c(-0.1,3.5)) +
scale_y_continuous(expand=c(0,0), limits = c(0,1.05), breaks=seq(0.1,1,0.1),
labels = scales::label_number(accuracy = 0.01, decimal.mark = ','))+
theme(axis.title.x = element_text(face="bold", colour="black", size = 11,
hjust = 1, vjust=10),
axis.title.y = element_text(face="bold", colour="black", size = 11,
angle = 0, vjust = 1))
También es posible utilizar la tabla de distribución y consultar probabilidades de interés. Por ejemplo,
para obtener P(Y ≤ 1) basta con utilizar la sentencia acum[which(y==1)]. Si se quiere obtener
P(Y > 2) se hace 1 - acum[which(y==2)].
2. Medidas de resumen
Para obtener las medidas de resumen de una variable aleatoria discreta, se procede de manera similar
a lo visto en el caso continuo, solo que en este caso ya se cuenta con los valores de la función de
probabilidad puntual y de distribución acumulada para los distintos valores de la variable. Entonces, se
hace:
Q1 <- y[which(acum>=0.25)][1]
print(Q1)
Q3 <- y[which(acum>=0.75)][1]
print(Q3)