Está en la página 1de 37

Probabilidad y Estadística: Laboratorio 04

Felipe Ossa y Pilar Tello

Segundo Semestre 2022

Felipe Ossa y Pilar Tello Probabilidad y Estadística: Laboratorio 04 Segundo Semestre 2022 1 / 37
Modelos de probabilidad

Existen diversos modelos de probabilidad para estudiar. Los modelos más


utilizados son
Modelo Comando
Binomial _binom()
Poisson _pois()
Uniforme _unif()
Normal _norm()
Exponencial _exp()
Gamma _gamma()
Chi Cuadrado _chisq()
t-Student _t()
Fisher _f()

Felipe Ossa y Pilar Tello Probabilidad y Estadística: Laboratorio 04 Segundo Semestre 2022 2 / 37
Modelos de probabilidad

Cada comando puede ser utilizado de 4 formas diferentes:


dDISTR(x,...). En el caso de las variables discretas, entrega P(X = x ),
en el caso de las variables continuas entrega fX (x ).
pDISTR(q,...). Entrega P(X ≤ q).
qDISTR(p,...). Entrega el valor de x tal que P(X ≤ x ) = p.
rDISTR(n,...). Genera una muestra proveniente de un modelo de
distribución.

Felipe Ossa y Pilar Tello Probabilidad y Estadística: Laboratorio 04 Segundo Semestre 2022 3 / 37
Distribución Exponencial

Si X ∼ Exp(ν), x > 0, entonces:

Para obtener la densidad fX (x ) en el punto x se usa el comando


dexp(x, rate=ν).

Para calcular la probabilidad acumulada P(X ≤ q) usamos el comando


pexp(q, rate=ν).

Para calcular cuantiles de la distribución se usa el comando


qexp(p, rate=ν).

Para generar n variables aleatorias provenientes de la distribución se


utiliza el comando rexp(n, rate=ν).

Felipe Ossa y Pilar Tello Probabilidad y Estadística: Laboratorio 04 Segundo Semestre 2022 4 / 37
Distribución Exponencial

Ejemplo:

Si X ∼ Exp(ν = 3):
Calcule fX (1)
dexp(1,rate=3)

## [1] 0.1493612
Calcule P(X ≤ 1.5) = FX (1.5)
pexp(1.5,rate=3)

## [1] 0.988891

Felipe Ossa y Pilar Tello Probabilidad y Estadística: Laboratorio 04 Segundo Semestre 2022 5 / 37
Distribución Exponencial
Ejemplo:

Si X ∼ Exp(ν = 3):
Si P(X ≤ k) = 0.5, obtenga el valor de k.
qexp(0.5,rate=3)

## [1] 0.2310491
Genere una muestra de tamaño n = 1000.
rexp(1000,rate=3)

## [1] 0.5691073608 0.6453860625 0.2333181277


## [4] 0.9724634662 0.0698718387 0.3763841524
## [7] 0.3853771807 0.4262499508 0.2424665022
## [10] 0.1492268951 0.2302289746 0.2688623195
## [13] 0.1942798241
Felipe Ossa y Pilar Tello
0.0258802795 0.0049450123
Probabilidad y Estadística: Laboratorio 04 Segundo Semestre 2022 6 / 37
Distribución Uniforme

Si X ∼ Unif(a, b), a < x < b, entonces:

Para obtener la densidad fX (x ) en el punto x se usa el comando


dunif(x, min=a, max=b).

Para calcular la probabilidad acumulada P(X ≤ q) usamos el comando


punif(q, min=a, max=b).

Para calcular cuantiles de la distribución se usa el comando


qunif(p, min=a, max=b).

Para generar n variables aleatorias provenientes de la distribución se


utiliza el comando runif(n, min=a, max=b).

Felipe Ossa y Pilar Tello Probabilidad y Estadística: Laboratorio 04 Segundo Semestre 2022 7 / 37
Distribución Uniforme

Ejemplo: \ Si X ∼ Uniforme(a = −2, b = 8):

Calcule fX (0)
dunif(0,min=-2,max=8)

## [1] 0.1
Calcule P(X ≤ 0) = FX (0)
punif(0,min=-2,max=8)

## [1] 0.2

Felipe Ossa y Pilar Tello Probabilidad y Estadística: Laboratorio 04 Segundo Semestre 2022 8 / 37
Distribución Uniforme
Ejemplo: Si X ∼ Uniforme(a = −2, b = 8):

Si P(X ≤ k) = 0.3, obtenga el valor de k.


qunif(0.3,min=-2,max=8)

## [1] 1
Genere una muestra de tamaño n = 1000.
runif(1000,min=-2,max=8)

## [1] -0.58106394 6.65611825 1.31735026 1.90088157


## [5] -1.43533290 4.39137212 0.38132412 6.86127888
## [9] 0.35612550 4.56833710 2.00030187 4.16252348
## [13] -0.19725718 4.77734114 0.61784302 4.47009995
## [17] 4.22307626 6.92435988 5.72401828 5.23809832
## [21] -0.10260990 1.72872454 1.39281389 2.42717979
## [25]
Felipe 4.22038356
Ossa y Pilar Tello -0.33846071
Probabilidad 2.97059382
y Estadística: Laboratorio 04 1.35769886
Segundo Semestre 2022 9 / 37
Distribución Normal

Si X ∼ Normal(µ, σ 2 ), x ∈ R, entonces:

Para obtener la densidad fX (x ) en el punto x se usa el comando


dnorm(x, mean=µ, sd=σ).

Para calcular la probabilidad acumulada P(X ≤ q) usamos el comando


pnorm(q, mean=µ, sd=σ).

Para calcular cuantiles de la distribución se usa el comando


qnorm(p, mean=µ, sd=σ).

Para generar n variables aleatorias provenientes de la distribución se


utiliza el comando rnorm(n, mean=µ, sd=σ).

Felipe Ossa y Pilar Tello Probabilidad y Estadística: Laboratorio 04 Segundo Semestre 2022 10 / 37
Distribución Log-Normal

Si X ∼ Log-Normal(λ, ζ), x > 0, entonces:

Para obtener la densidad fX (x ) en el punto x se usa el comando


dlnorm(x, meanlog=λ, sdlog=ζ).

Para calcular la probabilidad acumulada P(X ≤ q) usamos el comando


plnorm(q, meanlog=λ, sdlog=ζ).

Para calcular cuantiles de la distribución se usa el comando


qlnorm(p, meanlog=λ, sdlog=ζ).

Para generar n variables aleatorias provenientes de la distribución se


utiliza el comando rlnorm(n, meanlog=λ, sdlog=ζ).

Felipe Ossa y Pilar Tello Probabilidad y Estadística: Laboratorio 04 Segundo Semestre 2022 11 / 37
La distribución Gamma

Si X ∼ Gamma(k, ν), x > 0, entonces:

Para obtener la densidad fX (x ) en el punto x se usa el comando


dgamma(x, shape=k, rate=ν).

Para calcular la probabilidad acumulada P(X ≤ q) usamos el comando


pgamma(q, shape=k, rate=ν).

Para calcular cuantiles de la distribución se usa el comando


qgamma(p, shape=k, rate=ν).

Para generar n variables aleatorias provenientes de la distribución se


utiliza el comando rgamma(n, shape=k, rate=ν).

Felipe Ossa y Pilar Tello Probabilidad y Estadística: Laboratorio 04 Segundo Semestre 2022 12 / 37
La distribución Chi-cuadrado

Si X ∼ χ2n , x > 0, entonces:

Para obtener la densidad fX (x ) en el punto x se usa el comando


dchisq(x, df=n).

Para calcular la probabilidad acumulada P(X ≤ q) usamos el comando


pchisq(q, df=n).

Para calcular cuantiles de la distribución se usa el comando


qchisq(p, df=n).

Para generar n variables aleatorias provenientes de la distribución se


utiliza el comando rchisq(n, df=n).

Felipe Ossa y Pilar Tello Probabilidad y Estadística: Laboratorio 04 Segundo Semestre 2022 13 / 37
Función curve()

Tal como vimos anteriormente, la función curve sirve para graficar una función con
respecto a x. Es por esto, que podemos graficar las funciones de densidad respecto
a x, de nuestras funciones de densidad contínuas con su respectiva densidad d_(x).
Un ejemplo, graficaremos la densidad de una variable aleatoria X que distribuye
Normal con µ = 550 y σ = 50, entre 400 y 700:
curve(dnorm(x, mean=550, sd=50), from=400, to=700) 0.008
0.006
dnorm(x, mean = 550, sd = 50)

0.004
0.002
0.000

400 450 500 550 600 650 700

Esta curva la podemos añadir sobre otro gráfico con el argumento add=TRUE.

Felipe Ossa y Pilar Tello Probabilidad y Estadística: Laboratorio 04 Segundo Semestre 2022 14 / 37
Ejercicios
1 Simule 100 variables aleatorias provenientes de una distribución
exponencial con tasa 2. Grafique el histograma de densidad empírica
de la muestra junto con la curva de densidad teórica.
muestra <- rexp(100, rate = 2)
hist(muestra, freq=FALSE)
curve(dexp(x, rate = 2), from=0, to=3, lty=2, add=TRUE,
lwd=3, col="red")
Histogram of muestra
1.0
0.8
Density

0.6
0.4
0.2
0.0

0.0 0.5 1.0 1.5 2.0 2.5

Felipe Ossa y Pilar Tello Probabilidad y Estadística:


muestra Laboratorio 04 Segundo Semestre 2022 15 / 37
Ejercicios

2 Simule 100 variables aleatorias provenientes de una distribución log


normal de parámetros 0.5 y 0.02. Grafique su histograma de densidad
empírica junto con la curva de densidad teórica.

3 Simule 100 variables aleatorias provenientes de una distribución normal


de parámetros µ = 100 y σ = 15. Grafique su histograma de densidad
empírica junto con la curva de densidad teórica.

4 Para n=10,100,1000,10000, genere muestras de una distribución


normal µ = 650 y σ = 50 y grafique su histograma de densidad
empírica junto con la curva de densidad teórica dentro de una misma
ventana.

Felipe Ossa y Pilar Tello Probabilidad y Estadística: Laboratorio 04 Segundo Semestre 2022 16 / 37
Semilla

La función set.seed() permite fijar una semilla que establece el número


inicial utilizado para generar una secuencia de números aleatorios, esto sirve
para asegurar obtener el mismo resultado si se comienza con la misma
semilla cada vez que ejecuta el mismo proceso. Ejemplo:

set.seed(1113)
x <- rnorm(10,mean=10,sd=2)
x

## [1] 8.405967 9.814973 9.837625 5.333744 10.531623


## [6] 9.313717 9.656062 10.232297 11.268088 12.033329

Felipe Ossa y Pilar Tello Probabilidad y Estadística: Laboratorio 04 Segundo Semestre 2022 17 / 37
Distribución Hipergeométrica

En un lote de tamaño N tengo m objetos defectuosos y N − m que no son


defectuosos, obtengo una muestra aleatoria de tamaño n y luego la
probabilidad de que x objetos sean defectuosos está dada por la función de
probabilidad de la distribución hipergeométrica. Donde:

X : cantidad de objetos defectuosos de la muestra.


X = 0, 1, . . . , min(m, n)
La función de probabilidad de esta distribución está dada por:
m N−m
x n−x
pX (x ) = N
n

Felipe Ossa y Pilar Tello Probabilidad y Estadística: Laboratorio 04 Segundo Semestre 2022 18 / 37
Distribución Hipergeométrica
En R se define como una urna con m bolas blancas y n bolas negras. Se
realiza una extracción de tamaño k y x representa el número de bolas
blancas extraídas (ver la ayuda ?dhyper). En este caso:
N = m+n
n=k
Aquí el X : cantidad de bolas blancas que obtengo y X = 0, 1, ..., min(m,k).
Los comandos en R correspondientes a esta distribución son:
dhyper(x,m,n,k)
phyper(q,m,n,k)
qhyper(p,m,n,k)
rhyper(nn,m,n,k) # Ojo: nn
m
La media teórica en este caso es E (X ) = k · p, con p = m+n y la varianza
teórica es Var (X ) = k · p · (1-p) · m+n-k
m+n-1 .
Felipe Ossa y Pilar Tello Probabilidad y Estadística: Laboratorio 04 Segundo Semestre 2022 19 / 37
Medidas Descriptivas Teóricas y Empíricas

Una variable aleatoria puede ser descrita totalmente por su función de


distribución de probabilidad o de densidad, o bien por su función de
distribución de probabilidad acumulada.

Sin embargo, en la práctica la forma exacta puede no ser totalmente


conocida.

En tales casos se requieren ciertas “medidas” para tener una idea de la


forma de la distribución:
Medidas Centrales
Medidas de Posición
Medidas de Dispersión
Medidas de Asimetrías y Forma
Felipe Ossa y Pilar Tello Probabilidad y Estadística: Laboratorio 04 Segundo Semestre 2022 20 / 37
Medidas Descriptivas Teóricas y Empíricas

Para este laboratorio trabajaremos con el siguiente ejemplo:

Hay una urna con 17 bolas blancas y 23 negras, si se extraen 15 bolas al


azar, ¿cuál es la distribución de las bolas blancas extraídas?

X ∼ Hipergeométrica(m = 17, n = 23, k = 15)

Vamos a simular una muestra aleatoria de tamaño n = 120 en R.


nmuestra <- 120
m <- 17
n <- 23
k <- 15
set.seed(1113)
X <- rhyper(nn=nmuestra,m=m,n=n,k=k)

Felipe Ossa y Pilar Tello Probabilidad y Estadística: Laboratorio 04 Segundo Semestre 2022 21 / 37
Medidas Descriptivas Teóricas vs Empíricas

En primera instancia vamos a graficar la distribución empírica vs la teórica


de esta variable aleatoria discreta. Esto se hace de manera distinta a lo
visto para las distribuciones contínuas
maximo <- min(m,k); maximo

## [1] 15
table(X)

## X
## 2 3 4 5 6 7 8 9 10 11
## 1 4 6 19 43 22 20 3 1 1

Felipe Ossa y Pilar Tello Probabilidad y Estadística: Laboratorio 04 Segundo Semestre 2022 22 / 37
Medidas Descriptivas Teóricas vs Empíricas

round(prop.table(table(X)),3)

## X
## 2 3 4 5 6 7 8 9 10
## 0.008 0.033 0.050 0.158 0.358 0.183 0.167 0.025 0.008
## 11
## 0.008
proptable <- prop.table(table(X))
sum(proptable)

## [1] 1
La función prop.table(X) divide a la tabla por la suma total de ésta. Así
en este ejemplo sum(proptable) debe ser 1, obteniendo las probabilidades
empíricas.

Felipe Ossa y Pilar Tello Probabilidad y Estadística: Laboratorio 04 Segundo Semestre 2022 23 / 37
Medidas Descriptivas Teóricas vs Empíricas
par(mai = c(1,1,0.1,0.1))
plot(proptable,xlim=c(0,maximo),col="orange",lwd=4)
x <- 0:maximo
axis(side=1,at=x)
# dhyper(x,m=m,n=n,k=k) # Probabilidades teóricas
# sum(dhyper(x,m=m,n=n,k=k))
points(x,dhyper(x,m=m,n=n,k=k),lwd=10,pch=16,col="darkblue")
proptable

0.00 0.20

0 2 4 6 8 10 12 14

X
Felipe Ossa y Pilar Tello Probabilidad y Estadística: Laboratorio 04 Segundo Semestre 2022 24 / 37
Medidas Centrales

Valor esperado (media)

Para una variable aleatoria X se define el valor esperado, µx , como:


 X


 x · pX (x ), caso discreto
µx = E (X ) = Zx ∈ΘX

x · fX (x )dx , caso contínuo



−∞

Felipe Ossa y Pilar Tello Probabilidad y Estadística: Laboratorio 04 Segundo Semestre 2022 25 / 37
Medidas Centrales

En R, la función mean() la calcula de manera empírica.


# Media muestral
mean(X)

## [1] 6.275
# Media teórica
p <- m/(m+n)
k*p

## [1] 6.375
Agregue estas lineas al gráfico
abline(v=mean(X),col="red",lty=2,lwd=2)
abline(v=k*p,col="darkgreen",lty=2,lwd=2)

Felipe Ossa y Pilar Tello Probabilidad y Estadística: Laboratorio 04 Segundo Semestre 2022 26 / 37
Medidas Centrales

Moda: Valor más frecuente o con mayor probabilidad.


# Moda muestral
library(modeest)
mlv(X)

## [1] 6
# Moda teórica
x[which.max(dhyper(x,m=m,n=n,k=k))]

## [1] 6

Felipe Ossa y Pilar Tello Probabilidad y Estadística: Laboratorio 04 Segundo Semestre 2022 27 / 37
Medidas Centrales

Mediana: Sea Xmed el valor que toma la mediana, entonces:

FX (Xmed ) = 0.5

# Mediana muestral
median(X)

## [1] 6
# Mediana teórica
qhyper(0.5,m=m,n=n,k=k)

## [1] 6

Felipe Ossa y Pilar Tello Probabilidad y Estadística: Laboratorio 04 Segundo Semestre 2022 28 / 37
Esperanza matemática
La noción del valor esperado como un promedio ponderado puede ser
generalizado para funciones de la variable aleatoria X .

Dada una función g(x ), entonces el valor esperado de esta puede ser
obtenido como:
 X


 g(x ) · pX (x ), caso discreto
x ∈Θ
E (g(X )) = Z ∞X
g(x ) · fX (x )dx , caso contínuo



−∞

# Esperanza matemática de g(X)=Xˆ2


g <- function(x){
xˆ2
}
mean(g(X))

## [1] 41.50833
Felipe Ossa y Pilar Tello Probabilidad y Estadística: Laboratorio 04 Segundo Semestre 2022 29 / 37
Medidas de Posición
Percentil: Valor en los reales, llamemos Xp , que es superior al p × 100% de
la información.
FX (xp ) = p
En R las siguientes funciones entregan percentiles empíricos.
"quantile": Percentil
"min": Mínimo
"max": Máximo
quantile(X,seq(from=0,to=1,by=0.1)) # Muestrales
qhyper(seq(from=0,to=1,by=0.1),m=m,n=n,k=k) # Teóricos

## 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
## 2 5 5 6 6 6 6 7 8 8 11
## [1] 0 4 5 6 6 6 7 7 8 8 15
Felipe Ossa y Pilar Tello Probabilidad y Estadística: Laboratorio 04 Segundo Semestre 2022 30 / 37
Medidas de Dispersión

Varianza y desviación estándar



P (x −µX )2 ·pX (x ), caso discreto
2 2
σX = Var (X ) = E [(X − µX ) ] = R ∞x ∈ΘX
 2 (x −µX ) ·fX (x )dx , caso contínuo
−∞

En R, la función var() la calcula.


# Varianza muestral
var(X)

## [1] 2.15063
# Varianza teórica
k*p*(1-p)*(m+n-k)/(m+n-1)

## [1] 2.34976

Felipe Ossa y Pilar Tello Probabilidad y Estadística: Laboratorio 04 Segundo Semestre 2022 31 / 37
Medidas de Dispersión

La desviación estándar es la raíz de la varianza que vendría siendo σX y en


R se calcula con sd().
# Desviación estándar muestral
sd(X)

## [1] 1.466503
# Desviación estándar teórica
sqrt(k*p*(1-p)*(m+n-k)/(m+n-1))

## [1] 1.532893

Felipe Ossa y Pilar Tello Probabilidad y Estadística: Laboratorio 04 Segundo Semestre 2022 32 / 37
Medidas de Dispersión
Rango: Max - Min
# Rango muestral
Rango <- function(X){ max(X)-min(X) }
Rango(X)

## [1] 9
range(X)

## [1] 2 11
range(X)[2]-range(X)[1]

## [1] 9
# Rango teórico
maximo-0

## [1] 15
Felipe Ossa y Pilar Tello Probabilidad y Estadística: Laboratorio 04 Segundo Semestre 2022 33 / 37
Medidas de Dispersión

Rango Intercuartil (IQR): X0.75 − X0.25


# Rango intercuartíl muestral
IQR <- function(X){
quantile(X,0.75)-quantile(X,0.25)
}
IQR(X)

## 75%
## 1.25
# Rango intercuartíl teórico
qhyper(0.75,m=m,n=n,k=k)-qhyper(0.25,m=m,n=n,k=k)

## [1] 2

Felipe Ossa y Pilar Tello Probabilidad y Estadística: Laboratorio 04 Segundo Semestre 2022 34 / 37
Medidas de Dispersión
En términos de dimensionalidad, es conveniente utilizar la desviación
estándar, es decir, q
σX = Var (X )
Ahora, si µX > 0, una medida adimensional de la variabilidad es el
coeficiente de variación (COV):
σX
δX =
µX
# Coeficiente de variación muestral
sd(X)/mean(X)

## [1] 0.2337056
# Coeficiente de variación teórico
sqrt(k*p*(1-p)*(m+n-k)/(m+n-1))/(k*p)

## [1] 0.2404537
Felipe Ossa y Pilar Tello Probabilidad y Estadística: Laboratorio 04 Segundo Semestre 2022 35 / 37
Medidas de Asimetría y Forma
Se define una medida de asimetría (skewness) como al tercer momento
central:

P (xi −µX )3 ·pX (xi ), caso discreto
E [(X − µX )3 ] = i x ∈Θ
X
R ∞ (x −µX )3 ·fX (x )dx , caso contínuo
−∞

Una medida conveniente es el coeficiente de asimetría que se define como:


E [(X − µX )3 ]
θX =
σX3
Para el cálculo de skewness en R se utilizará la función skewness de la
librería moments.
#install.packages("moments")
library(moments)
skewness(X)

## [1] -0.001695663
Felipe Ossa y Pilar Tello Probabilidad y Estadística: Laboratorio 04 Segundo Semestre 2022 36 / 37
Medidas de Asimetría y Forma
El cuarto momento central se conoce como la kurtosis:

P (xi −µX )4 ·pX (xi ), caso discreto
3
E [(X − µX ) ] = R ∞xi ∈ΘX
 4
(x −µX ) ·fX (x )dx , caso contínuo
−∞

que es una medida del “apuntamiento” o “achatamiento” de la distribución


de probabilidad o de densidad. Usualmente se prefiere el coeficiente de
kurtosis:
E [(X − µX )4 ]
KX = −3
σX4
Para el cálculo de kurtosis en R se utilizará la función kurtosis de la
librería moments a la que posteriormente hay que restarle 3 por definición.
library(moments)
# Kurtosis muestral
kurtosis(X)-3

## [1] 0.7464909
Felipe Ossa y Pilar Tello Probabilidad y Estadística: Laboratorio 04 Segundo Semestre 2022 37 / 37

También podría gustarte