Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Por ejemplo, recordemos que en el data frame heights tenemos las estaturas de un grupo
de estudiantes de una universidad.
heights %>%
ggplot() +
geom_point(position = position_jitterdodge())
https://bookdown.org/dparedesi/data-science-con-r/probabilidades-continuas.html 1/15
13/5/22, 21:54 Capítulo 6 Probabilidades continuas | Data Science con R
Al graficar la distribución de datos intuitivamente nos damos cuenta que no hace sentido
calcular la proporción de personas que miden exactamente 1.73m porque también nos
serviría el si una persona mide 1.731, 1.729, o cualquier valor cercano que no es
exactamente 1.73 ya se por cómo se midió o cualquier otro tipo de error.
Hace más sentido analizar la data por intervalos, como bien se puede apreciar en este
histograma que agrupa por intervalos de 0.05 metros = 5 cm.
heights %>%
ggplot() +
aes(estatura) +
Es mucho más práctico definir una función que opera en intervalos en vez de valores únicos.
Para ello utilizamos la función de distribución acumulada (FDA).
Cuando utilizamos los datos para analizar su distribución hablamos de una distribución
empírica. Es la distribución real de un sujeto o una opción, y mide las posibilidades reales e
individuales, sobre la medición de la puntuación directa del sujeto, o de una opción de la cual
se ha medido la frecuencia de ocurrencia.
https://bookdown.org/dparedesi/data-science-con-r/probabilidades-continuas.html 2/15
13/5/22, 21:54 Capítulo 6 Probabilidades continuas | Data Science con R
Por ejemplo, para nuestro caso podemos crear el vector hombres conformado por todos los
valores de la estatura de los hombres:
.$estatura
Luego, podemos crear la función FDA que tome como variable x y nos calcule la
proporción de hombres que miden menos o igual a x dentro de los datos encontrados en el
vector hombres .
mean(hombres <= x)
Así, si queremos calcular cuál sería la proporción de estudiantes que miden 1.73m o menos.
FDA(1.73)
Por otro lado, recordemos que la mediana es el valor que divide nuestros datos en dos partes
iguales. Con lo que, si calculamos la mediana:
median(hombres)
Y luego ingresamos el valor 1.7526035 a nuestra función para preguntar cuál es la proporción
de estudiantes que miden 1.7526035 o menos nos debería de salir un valor muy cerca al 50%
por definición de la mediana.
FDA(mediana)
Hasta acá hemos calculado proporciones con la función de distribución acumulada FDA. Sin
embargo, si queremos saber cuánto es la probabilidad de que al escoger un hombre al azar
éste mida 1.9m o menos podríamos utilizar la misma FDA. Dado que cada estudiante tiene
https://bookdown.org/dparedesi/data-science-con-r/probabilidades-continuas.html 3/15
13/5/22, 21:54 Capítulo 6 Probabilidades continuas | Data Science con R
F (1.9) = P (x ≤ 1.9)
FDA(1.9)
Si ahora queremos calcular la probabilidad de que alguien escogido al azar sea más alto que
1.80m primero calculamos la FDA para 1.8 y luego obtenemos el complemento.
1 - prob
Si ahora quisiéramos saber la probabilidad de que al escoger a alguien al azar éste mida más
de 1.6m, pero no más de 1.95m tendríamos.
prob_1 - prob_2
https://bookdown.org/dparedesi/data-science-con-r/probabilidades-continuas.html 4/15
13/5/22, 21:54 Capítulo 6 Probabilidades continuas | Data Science con R
Por otro lado, se le llama distribución teórica a una distribución que se deriva de ciertos
principios o suposiciones por razonamiento lógico y matemático, en oposición a una derivada
de datos del mundo real obtenidos por investigación empírica. Entre ellas tenemos la
distribución normal, la distribución binomial y la distribución de Poisson.
Por ejemplo, si trazamos una línea aproximada de nuestros datos de estaturas de hombres
tendríamos este gráfico:
heights %>%
ggplot() +
aes(estatura) +
Vemos que la distribución tiene una forma aproximadamente simétrica, de campana. Esta
distribución podría modelarse utilizando una distribución normal (también llamada distribución
gaussiana, curva de Gauss o campana de Gauss). Para ello, en R utilizaremos la función
pnorm(x, promedio, desv_est) para estimar la probabilidad pero utilizando una función de
distribución normal con un promedio promedio y una desviación estandar desv_est . De
esta forma, podemos estimar cuál es la probabilidad de que si escogemos un valor al azar
éste sea menor o igual que x .
https://bookdown.org/dparedesi/data-science-con-r/probabilidades-continuas.html 5/15
13/5/22, 21:54 Capítulo 6 Probabilidades continuas | Data Science con R
FDA(1.9)
probabilidad
Obtenemos aproximadamente los mismos resultados. Utilizar una distribución normal nos
facilita el trabajo cuando nuestros datos tiene un comportamiento normal.
normal %>%
as.data.frame() %>%
ggplot() +
aes(sec, valor) +
geom_line() +
theme(axis.text.y = element_blank()) +
xlab("Estatura") +
ylab("") +
ggtitle("Distribución normal") +
xlim(min(sec), max(sec)) +
https://bookdown.org/dparedesi/data-science-con-r/probabilidades-continuas.html 6/15
13/5/22, 21:54 Capítulo 6 Probabilidades continuas | Data Science con R
De la misma forma, podríamos estimar la probabilidad de que una persona escogida al azar
mida más de 1.8m.
1- FDA(1.8)
probabilidad
https://bookdown.org/dparedesi/data-science-con-r/probabilidades-continuas.html 7/15
13/5/22, 21:54 Capítulo 6 Probabilidades continuas | Data Science con R
normal %>%
as.data.frame() %>%
ggplot() +
aes(sec, valor) +
geom_line() +
theme(axis.text.y = element_blank()) +
xlab("Estatura") +
ylab("") +
ggtitle("Distribución normal") +
xlim(min(sec), max(sec)) +
Finalmente, volvamos a calcular la probabilidad de que al escoger a alguien al azar éste mida
más de 1.6m, pero no más de 1.95m tendríamos.
https://bookdown.org/dparedesi/data-science-con-r/probabilidades-continuas.html 8/15
13/5/22, 21:54 Capítulo 6 Probabilidades continuas | Data Science con R
prob_1 - prob_2
probabilidad
normal %>%
as.data.frame() %>%
ggplot() +
aes(sec, valor) +
geom_line() +
theme(axis.text.y = element_blank()) +
xlab("Estatura") +
ylab("") +
ggtitle("Distribución normal") +
geom_area(aes(x = ifelse(sec > 1.6 & sec <= 1.95, sec, 0)), fill = "blue") +
xlim(min(sec), max(sec)) +
https://bookdown.org/dparedesi/data-science-con-r/probabilidades-continuas.html 9/15
13/5/22, 21:54 Capítulo 6 Probabilidades continuas | Data Science con R
Podemos graficar un diagrama Q-Q, el cual es un diagrama de dispersión creado al trazar dos
conjuntos de cuantiles uno contra el otro. La función stat_qq(x) crea un diagrama Q-Q
normal. Esta función traza los datos en orden ordenado frente a los cuantiles de una
distribución Normal estándar. La función stat_qq_line() agrega una línea de referencia. Si
bien entender ello requiere estadística avanzada podemos interpretarlo que si al usar esta
función la correlación es muy cercana a la línea entonces nuestra data es muy probable que
siga una distribución normal.
heights %>%
ggplot() +
aes(sample = estatura) +
stat_qq() +
stat_qq_line()
https://bookdown.org/dparedesi/data-science-con-r/probabilidades-continuas.html 10/15
13/5/22, 21:54 Capítulo 6 Probabilidades continuas | Data Science con R
Los puntos parecen caer sobre una línea recta. Esto nos da un buen indicio que suponer que
nuestra data de estaturas proviene de una población que es distribuida de forma normal es
razonable. Observemos que el el eje-y traza los cuantiles empíricos y eje-x traza los cuantiles
teóricos. Éstos últimos son los cuantiles de la distribución Normal estándar con media 0 y
desviación estándar 1.
Para ello usaremos la función shapiro.test() , la cual realiza un test de normalidad y nos
arroja un valor de p-value^(https://www.investopedia.com/terms/p/p-value.asp). Se basa en la
correlación entre los datos y las puntuaciones normales correspondientes. Si el valor p-value
> 0.05 entonces la distribución de los datos no es significativamente diferente de la
distribución normal. En otras palabras, podemos asumir la normalidad.
shapiro.test(hombres)
#>
El valor de p-value es menor a 0.05 con lo que, si bien nuestra distribución se asemeja a una
normal, no pasa la prueba de significación.
https://bookdown.org/dparedesi/data-science-con-r/probabilidades-continuas.html 11/15
13/5/22, 21:54 Capítulo 6 Probabilidades continuas | Data Science con R
6.3 Ejercicios
Para los siguientes ejercicios supongamos que la distribución de las edades de los
estudiantes del curso de Data Science con R se aproxima a una distribución normal con un
promedio de 24 años y una desviación estándar de 3. Si seleccionamos a un estudiante al
azar:
Solución
Solución
54. ¿Cuál es la probabilidad de que sea mayor de 22, pero como máximo 27 años?
Solución
55. ¿Cuál es la probabilidad de que esté como máximo una desviación estándar alejado del
promedio?
Solución
https://bookdown.org/dparedesi/data-science-con-r/probabilidades-continuas.html 12/15
13/5/22, 21:54 Capítulo 6 Probabilidades continuas | Data Science con R
promedio
desv_est
longitud
hist(normal_aleatorio)
round(sd(normal_aleatorio), 3)
mtext(result,3)
https://bookdown.org/dparedesi/data-science-con-r/probabilidades-continuas.html 13/15
13/5/22, 21:54 Capítulo 6 Probabilidades continuas | Data Science con R
Podemos ejecutar nuevamente el código para verificar que nos genera otra distribución:
hist(normal_aleatorio)
round(sd(normal_aleatorio), 3)
mtext(result,3)
Este experimento de obtener n datos aleatorios que tengan aproximadamente un mismo
promedio y una misma desv_est lo podemos repetir unas 10 mil veces para calcular la
proporción de veces en que un hombre mide más de 1.8m.
https://bookdown.org/dparedesi/data-science-con-r/probabilidades-continuas.html 14/15
13/5/22, 21:54 Capítulo 6 Probabilidades continuas | Data Science con R
})
mean(resultados_simulacion)
Así, hemos obtenido prácticamente el mismo valor que conseguimos en la sección anterior,
pero esta vez estimando utilizando la simulación de Montecarlo.
6.5 Ejercicios
La distribución de las notas del examen de admisión de la Univ. UNISM se distribuye
aproximadamente de manera normal. El promedio es 14.5 y la desviación estándar es 1.
Queremos saber la distribución del primer puesto. Se sabe que postulan una vez al año 5 mil
personas por examen y dan un examen único.
56. Generar 5 mil notas unas 1,000 veces usando simulación de Montecarlo y realizar un
histograma del resultado.
Solución
57. Modifica la simulación anterior para analizar la distribución del promedio de notas de
cada año.
Solución
Solución
https://bookdown.org/dparedesi/data-science-con-r/probabilidades-continuas.html 15/15