Está en la página 1de 29

4+5

x<-4+5 # crear un nuevo conjunto de datos con datos


faltantes:
x
y <- c(18, NA, 20, 19, 21, 23, 19, 21, NA)
y<-c(1,4,6,7)
# llamar la función mean para calcular el promedio
y
mean(y)
sum(y)
# incluir el argumento na.rm = TRUE para que
# operaciones básicas
efectivamente calcule el promedio de los datos
5+7 observados

25 / 5 mean(y, na.rm = TRUE)

10 * 55 #directorio de trabajo

5-1 getwd()

x <- 25 setwd("C:\\Users\\USUARIO\\Documents\\bioestadistic
a UN 2022")
print(x)
a. Calcule la suma entre los números 123 y 567, y
y <- 10
guarde el resultado en un objeto con nombre
print(y) “hola”.
b. Se sabe que una aeronave pequeña puede
w <- x*y
cargar como máximo un total de 1500 Kg. A
w/5 continuación, se muestra una lista con los pesos
# operaciones con objetos de tipo vector (Kg) de las personas que pretenden viajar juntas
en dicha aeronave:
a<-c(1,3,5,6,7) 23, 41, 65, 76, 89, 36, 44, 78, 56, 89, 25, 64, 69,
b<-10:14 76, 82, 34, 67, 90, 82, 71, 45, 91, 56, 67, 78, 60,
52.
# ¿cuántos elementos tiene un objeto de tipo vector?
¿Es viable que puedan hacerlo?. Conteste la
length(a) pregunta utilizando una función de R.
length(b)
c. Escriba la instrucción que utilizó para cambiar el
directorio de trabajo a una carpeta de su
a+b computador.
a*b d. Defina el vector x<-10:15, en el objeto “y”
guarde el resultado de multiplicar por 2 cada
# instalación de paquetes
una de las entradas de x.
library() e. Utilice la ayuda de R para describir qué hace la
función “table”.
install.packages("descr")
#ejercicios introducción a R, semana 2
library(descr)
#ejercicio a
#funciones
"hola"<- 123+567
x <- c(20, 21, 23, 19, 18)
#ejercicio b
mean(x)
p<- 1500

v<-c(23, 41, 65, 76, 89, 36, 44, 78, 56, 89, 25, 64, 69, 76, Clase F. Absoluta F. Relativa F.Abs.Acumulada F. Rel.
82, 34, 67, 90, 82, 71, 45, 91, 56, 67, 78, 60, 52) Acumulada

sum(v) Bachillerato 33 66.0% 33 66.0%

g<- p-sum(v) Pregrado 7 14.0% 40 80.0%

#directorio de trabajo,ejercicio c Maestría 8 16.0% 48 96.0%

getwd() Doctorado 2 4.0% 50 100%

setwd("C:/Users/USUARIO/Documents/bioestadistica Total 50 100% N.A. N.A.


UN 2022")
# datos
# vector, ejercicio d edu <- c("B", "D", "M", "B", "B", "P", "B"
, "M", "B", "B", "B", "P", "B", "M",
x<-10:15 "B", "B", "M", "B", "M", "B", "B"
, "B", "B", "B", "B", "B", "P", "B",
"y"<-x*2 "B", "B", "B", "M", "B", "P", "B"
, "B", "M", "B", "B", "B", "D", "B",
#funcion de table, ejercicio e "M", "B", "P", "B", "B", "B", "P"
, "P")
help("table") # tamaño de la muestra
n <- length(edu)
Para planear la demanda de los servicios de salud y print(n)
adicionalmente hacer una detección temprana de la
## [1] 50
enfermedad, el gerente de una EPS quiere saber cuál es
el resultado de la mamografía de las mujeres afiliadas y # frecuencias absolutas
nj <- table(edu)
que tienen más de 50 años.
nj <- nj[c(1, 4, 3, 2)]
print(nj)
Pregunta de investigación ¿Cuál es la prevalencia de
BIRADS 4,5 y 6 en las mujeres mayores de 50 años, en ## edu
dicha EPS? ## B P M D
## 33 7 8 2
nj<-c(145,2415,3456,852, 459,157,130)
names(nj)<-0:6 # frecuencias relativas
barplot(nj) hj <- nj/n
print(hj)
# Para graficar las frecuencias relativas
hj<-prop.table(nj) ## edu
barplot(hj)
## B P M D
## 0.66 0.14 0.16 0.04
Considerar el siguiente conjunto de datos asociados con # frecuencias absolutas acumuladas
el nivel educativo de una muestra de empleados Nj <- cumsum(nj)
(Bachillerato (B), Pregrado (P), Maestría (M), y Doctorado print(Nj)
(D)). Elaborar la tabla de frecuencias correspondiente.
## B P M D
B, D, M, B, B, P, B, M, B, B, B, P, B, M, B, B, M, B, M, B, B, ## 33 40 48 50
B, B, B, B, B, P, B, B, B, B, M, B, P, B, B, M, B, B, B, D, B, M,
B, P, B, B, B, P, P # frecuencias relativas acumuladas
Hj <- cumsum(hj)
print(Hj)
## B P M D
## 0.66 0.80 0.96 1.00
Considerar el siguiente conjunto de datos asociados con print(hj)
el peso (en kg) de la cosecha en un mes determinado en ##
una muestra de cultivos. Elaborar la distribución de
frecuencias correspondiente. ## [60.4,74] (74,87.7] (87.7,101] (101,
115] (115,129] (129,142]
103.1, 82.1 , 106.2, 100.9, 91.8, 96.1 , 126.9, 119.8, 93.1 ,
86.8, 75.2 , 93.0, 82.3 , 94.8, ## 0.14285714 0.25714286 0.28571429 0.1714
2857 0.08571429 0.05714286
64.2 , 105.3, 108.0, 86.3 , 81.8, 138.1, 92.5, 66.3 , 66.6 ,
142.2, 96.5 , 74.8, 95.4 , 100.1, 81.9 , 112.0, 116.8, 103.2, # frecuencias absolutas acumuladas
66.1, 60.4 , 78.7 Nj <- cumsum(nj)
print(Nj)
# datos ## [60.4,74] (74,87.7] (87.7,101] (101,
peso<- c(103.1, 82.1, 106.2, 100.9, 91.8, 115] (115,129] (129,142]
96.1, 126.9, 119.8, 93.1, 86.8, 75.2, 93.
0, ## 5 14 24
82.3, 94.8, 64.2, 105.3, 108.0, 30 33 35
86.3, 81.8, 138.1, 92.5, 66.3, 66.6, 142
# frecuencias relativas acumuladas
.2,
Hj <- cumsum(hj)
96.5, 74.8, 95.4, 100.1, 81.9,
print(Hj)
112.0, 116.8, 103.2, 66.1, 60.4, 78.7)
# tamaño de la muestra ## [60.4,74] (74,87.7] (87.7,101] (101,
n <- length(peso) 115] (115,129] (129,142]
print(n)
## 0.1428571 0.4000000 0.6857143 0.857
## [1] 35 1429 0.9428571 1.0000000
# numero de intervalos
m <- floor(1 + 3.3*log(n, base = 10)) Los siguientes datos correponden al IMC (kg/m22) de
print(m) 20 estudiantes:
## [1] 6 21.1, 22.5, 20.1, 23.4, 21.8, 20.3, 24.7, 20.9, 18.9, 22.0,
22.2, 20.8, 17.9, 19.0, 20.3, 16.9, 22.4, 21.2, 21.2, 21.5
# rango
R <- max(peso) - min(peso) Calcular el IMC promedio para estos 20 estudiantes.
print(R)
En este caso se tiene que n=20n=20
## [1] 81.8
# amplitud
a <- R/m # Datos (IMC)
print(a) x <- c(21.1, 22.5, 20.1, 23.4, 21.8, 20.3,
24.7, 20.9, 18.9, 22.0,
## [1] 13.63333
22.2, 20.8, 17.9, 19.0, 20.3, 16.9,
# limites 22.4, 21.2, 21.2, 21.5)
lim <- min(peso) + (0:m)*a # tamaño de la muestra
print(lim) length(x)

## [1] 60.40000 74.03333 87.66667 101.3 ## [1] 20


0000 114.93333 128.56667 142.20000
# media
# frecuencias absolutas mean(x)
nj <- table(cut(x = peso, breaks = lim, in
clude.lowest = T)) ## [1] 20.955
print(nj) # otra manera
sum(x)/length(x)
##
## [60.4,74] (74,87.7] (87.7,101] (101, ## [1] 20.955
115] (115,129] (129,142]
## 5 9 10
6 3 2
# frecuencias relativas
hj <- nj/n
De 500 estudiantes cuya estatura promedio es 1.57 El rector de universidad quiere saber qué tan buenos
metros, 150 son mujeres. Si la estatura promedio de las hábitos alimencios y de estilo de vida tienen sus
mujeres es 1.52 metros, ¿cuál es la estatura promedio de estudiantes, para lo cuál seleccionó una muestra de los
los hombres? mismos y les midió el peso y la talla, entre otras cosas.
Pregunta de investigación: ¿Cuál es el valor promedio del
# promedio de los hombres IMC en los estudiantes de la muestra?, ¿la media es un
(1.57*500 - 150*1.52)/350 buen indicador del centro del IMC de los estudiantes?
## [1] 1.591429 Una vez se observó la muestra, se obtuvieron los
siguientes resultados:
Suponga que a un grupo de 2002 estudiantes se le
(y′j−1−y′j] yj nj
indagó sobre el número de hermanos (y). Los resultados
fueron los siguientes: 15−16 15.5 2

yj nj 16−17 16.5 5 hjhj


0 38
17−18 17.5 29
1 67
18−19 18.5 76
2 44
19−20 19.5 118
3 32
4 11 20−21 20.5 96

5 8 21−22 21.5 83
Total 200
22−23 22.5 37
# número de hermanos
y <- c(0, 1, 2, 3, 4, 5) 23−24 23.5 4
# frecuencia absoluta
nj <- c(38, 67, 44, 32, 11, 8) # limite inferior de los intervalos
# tamaño de la muestra li <- 15:23
sum(nj) # limite superior de los intervalos
## [1] 200 ls <- 16:24
# marca de clase
# frecuencia relativa yj <- (li+ls)/2
hj <- nj/sum(nj) print(yj)
print(hj)
## [1] 15.5 16.5 17.5 18.5 19.5 20.5 21.5
## [1] 0.190 0.335 0.220 0.160 0.055 0.040 22.5 23.5
# promedio # numero de intervalos
sum(nj*y)/sum(nj) length(yj)
## [1] 1.675 ## [1] 9
# otra manera # frecuencia absoluta
sum(hj*y) nj <- c(2, 5, 29, 76, 118, 96, 83, 37, 4)
# tamaño de la muestra
## [1] 1.675 sum(nj)
## [1] 450
# frecuencia relativa
hj <- nj/sum(nj)
print(hj)
## [1] 0.004444444 0.011111111 0.064444444
0.168888889 0.262222222 0.213333333
## [7] 0.184444444 0.082222222 0.008888889 ## [1] 21.15
# media # otra manera
sum(nj*yj)/sum(nj) quantile(x, probs = 0.5)
## [1] 20.01556 ## 50%
# otra manera ## 21.15
sum(hj*yj)
## [1] 20.01556 el 50% de los IMCs son menores (mayores) o iguales
que 7.7.
Las calificaciones de un estudiante están conformadas Los datos de la siguiente tabla corresponden al
de acuerdo con la información que se presenta en la número de hijos de una muestra de empleados de una
siguiente tabla. Calcular la calificación promedio del empresa. Calcular e interpretar la mediana.
estudiante.

Actividad Calificación Valor


Número de hijos0 1 2 3 4 Total
Examen 4.5 40%
F. Absoluta 12 12 6 4 6 40
Trabajo 1.0 10%

Investigación 3.5 50% # numero de hijos


y <- 0:4
# frecuencia absoluta
# calificacion nj <- c(12, 12, 6, 4, 6)
x <- c(4.5, 1.0, 3.5) # tamaño de la muestra
# valor n <- sum(nj)
w <- c(40, 10, 50)/100 print(n)
print(w)
## [1] 40
## [1] 0.4 0.1 0.5
# posiciones centrales
# promedio n/2
sum(w*x)/sum(w)
## [1] 20
## [1] 3.65
n/2 + 1
Calcular e interpretar la mediana del IMC de los 20 ## [1] 21
estudiantes.
# frecuencias acumuladas
cumsum(nj)
# Datos (IMC)
x <- c(21.1, 22.5, 20.1, 23.4, 21.8, 20.3, ## [1] 12 24 30 34 40
24.7, 20.9, 18.9, 22.0, 22.2, 20.8, 17.9, # mediana, promedio de los datos en las po
19.0, 20.3, 16.9, 22.4, 21.2, 21.2, 21.5) siciones n/2 y n/2 + 1
# tamaño de la muestra (y[2] + y[2])/2
n<-length(x)
n ## [1] 1
## [1] 20 # en este caso no se debe utilizar las fun
ciones median y quantile dado que los
#posiciones # datos estan agrupados en una tabla
pos1<-n/2
pos2<-n/2+1
# ordenar datos ascendentemente
x <- sort(x, decreasing = FALSE)
# mediana, dato en la posicion (n+1)/2
(x[pos1]+x[pos2])/2
## [1] 21.15
# otra manera
median(x)
El intervalo que acumula el 50%50% es (19,20](19,20], Calcular e interpretar los cuartiles del conjunto
por lo tanto la mediana del IMC de los 450 estudiantes de datos no agruapdos del IMC.
es:
# Datos (IMC)
x <- c(21.1, 22.5, 20.1, 23.4, 21.8, 20.3,
# limite inferior de los intervalos 24.7, 20.9, 18.9, 22.0, 22.2, 20.8, 17.9,
li <- 15:23 19.0, 20.3, 16.9, 22.4, 21.2, 21.2, 21.5)
# limite superior de los intervalos # percentiles 25 y 75
ls <- 16:24 quantile(x, probs = c(0.25, 0.75))
# marca de clase
yj <- (li+ls)/2 ## 25% 75%
print(yj)
## 20.25 22.05
## [1] 15.5 16.5 17.5 18.5 19.5 20.5 21.5
22.5 23.5
# numero de intervalos
length(yj) Considere los datos que se presentan a continuación
asociados con los salarios anuales (en millones de
## [1] 9
pesos) de una muestra de enfermeros recién
# frecuencia absoluta egresados, que trabajan en dos hospitales.
nj <- c(2, 5, 29, 76, 118, 96, 83, 37, 4)
# tamaño de la muestra Hospital 1: 34.5, 30.7, 32.9, 36.0, 34.1, 34.0, 32.3
n <- sum(nj)
print(n) Hospital 2: 34.0, 27.5, 31.6, 39.7, 35.3, 34.7, 31.7
## [1] 450
Calcular e interpretar el rango para cada hospital.
# frecuencia relativa
hj <- nj/sum(nj) Se observa que el recorrido de los salarios del
print(hj) segundo hospital es mayor en compración con el
primero.
## [1] 0.004444444 0.011111111 0.064444444
0.168888889 0.262222222 0.213333333
# datos hospital 1
## [7] 0.184444444 0.082222222 0.008888889 x_1 <- c(34.5, 30.7, 32.9, 36.0, 34.1, 34.
0, 32.3)
# frecuencia relativa aucumulada # datos hospital 2
Hj <- cumsum(hj) x_2 <- c(34.0, 27.5, 31.6, 39.7, 35.3, 34.
print(Hj) 7, 31.7)
## [1] 0.004444444 0.015555556 0.080000000 # rango
0.248888889 0.511111111 0.724444444 max(x_1) - min(x_1)

## [7] 0.908888889 0.991111111 1.000000000 ## [1] 5.3

# frecuencia absoluta acumulada max(x_2) - min(x_2)


Nj <- cumsum(nj)
## [1] 12.2
print(Nj)
# otra manera
## [1] 2 7 36 112 230 326 409 446 450 diff(range(x_1))
# indice primer intervalo tal que Hj > 0.5
## [1] 5.3
k <- 5
# mediana diff(range(x_2))
li[k] + (ls[k]-li[k])*((0.5*n - Nj[k-1])/n
j[k]) ## [1] 12.2

## [1] 19.95763
# en este caso no se debe utilizar las fun
ciones median y quantile dado que los
# datos estan agrupados en una tabla
eniendo en cuenta los datos del Ejemplo 1, calcular e ## [1] 50
interpretar el rango intercuartílico para cada hospital. mean(x_2)

El rango intercuartílico del hospital 1 es: ## [1] 50

Se observa que el recorrido del 50% de los salarios mean(x_3)


intermedios de la segunda empresa es mayor que el ## [1] 50
mismo recorrido de los salarios de la primera en 1.65
millones de pesos. # varianza
var(x_1)
# datos hospital 1 ## [1] 0
x_1 <- c(34.5, 30.7, 32.9, 36.0, 34.1, 34.
0, 32.3) var(x_2)
# datos hospital 2 ## [1] 17
x_2 <- c(34.0, 27.5, 31.6, 39.7, 35.3, 34.
7, 31.7) var(x_3)
# rango intercuartilico
diff(quantile(x = x_1, probs = c(0.25, 0.7 ## [1] 2317
5))) boxplot(x_1, x_2, x_3, names = c("I","II",
## 75% "III") )

## 1.7
Teniendo en cuenta los datos del Ejemplo 1,
diff(quantile(x = x_2, probs = c(0.25, 0.7 estandarizar las observaciones de cada hospital.
5)))
Comentar los resultados obtenidos.
## 75%
## 3.35 # datos empresa 1
x_1 <- c(34.5, 30.7, 32.9, 36.0, 34.1, 34.
0, 32.3)
Se tienen los siguientes conjuntos de datos: # datos empresa 2
x_2 <- c(34.0, 27.5, 31.6, 39.7, 35.3, 34.
Conjunto de datos I: 50, 50, 50, 50 , 50 7, 31.7)
# promedio y desviacion estandar empresa 1
Conjunto de datos II: 45, 50, 55, 47 , 53 m_1 <- mean(x_1)
s_1 <- sd(x_1)
Conjunto de datos III: 3, 97, 10, 105, 35 print(m_1)

A continuación se presenta el valor del promedio y de ## [1] 33.5


la varianza para los tres conjuntos de datos, junto con print(s_1)
un diagrama de caja para cada uno.
## [1] 1.707825
Conjunto x¯ s2n # promedio y desviacion estandar empresa 2
m_2 <- mean(x_2)
I 50 0.0 s_2 <- sd(x_2)
print(m_2)
II 50 17.0
## [1] 33.5
III 50 2,317.0
print(s_2)
Para cuál de los tres conjuntos la media resulta ser
## [1] 3.790778
una buena representación de los datos?, ¿para cuál la
peor?, ¿por qué? # datos estandarizados empresa 1
(x_1 - m_1)/s_1
# datos ## [1] 0.5855400 -1.6395121 -0.3513240 1
x_1 <- rep(50, 5) .4638501 0.3513240 0.2927700 -0.7026481
x_2 <- c(45, 50, 55, 47, 53)
x_3 <- c(3, 97, 10, 105, 35) # datos estandarizados empresa 2
# promedio (x_2 - m_2)/s_2
mean(x_1)
## [1] 0.1318990 -1.5827884 -0.5012163 1 una partición de los pacientes con base en
.6355480 0.4748365 0.3165577 -0.4748365 su edad: <45, [45-50),>=50
c_aerobica$g_edad<-character(dim(c_aerobic
# promedio y varianza datos estandarizados a)[1])
empresa 1 c_aerobica$g_edad[c_aerobica$edad<45]<-"<4
mean((x_1 - m_1)/s_1) 5 años"
## [1] -3.01354e-16 c_aerobica$g_edad[c_aerobica$edad>=45 & c_
aerobica$edad<50]<-"[45-50) años"
var((x_1 - m_1)/s_1) c_aerobica$g_edad[c_aerobica$edad>=50]<-">
=50 años"
## [1] 1
# promedio y varianza datos estandarizados #Frecuencias absolutas de cada categoría
empresa 2 nj<-as.matrix(table(c_aerobica$g_edad),nc=
mean((x_2 - m_2)/s_2) 1)
nj
## [1] 1.030883e-16
#promedios en cada categoría
var((x_2 - m_2)/s_2) ybarj<-ddply(c_aerobica,.(g_edad), summari
ze,ybar=mean(peso))
## [1] 1
ybarj

La siguiente base de datos contiene la información de un #varianza de cada categoría


grupo de 31 pacientes que pertenecen a un programa de n<-dim(c_aerobica)[1]
pacientes de enfermedades crónicas. Durante una prueba s2j<-ddply(c_aerobica,.(g_edad), summarize
de esfuerzo, se midieron sus pulsaciones (antes, durante ,s2=var(peso))
y después), edad, tiempo de la prueba, peso y
#intravarianza
oxigenación. s2w<-1/(n-1)*sum((nj-1)*s2j$s2)
s2w
# Se deben cargar las librerías necesarias #media total
# El paquete plyr proporciona un conjunto mt<-mean(c_aerobica$peso)
de funciones que encontramos más amigables
# de usar para para resolver el problema #intervarianza
split-apply-combine. s2b<-1/(n-1)*sum(nj*(ybarj$ybar-mt)^2)
library(plyr) s2b

# Los datos vienen un archivo tipo csv, se #varianza total


parado por ";", para leerlos: var(c_aerobica$peso)
c_aerobica<-read.table("capacidad_aerobica s2w+s2b
.csv",h=T, sep=";")
names(c_aerobica) #proporción de variabilidad debida a las d
iferencias entre los grupos
#Varianza del peso s2b/(s2w+s2b)*100
vt<-var(c_aerobica$peso)
vt

#Desviación estándar
sdt<-sqrt(var(c_aerobica$peso))
sdt

#Coeficiente de variación
cvt<-sqrt(var(c_aerobica$peso))/mean(c_aer
obica$peso)*100
cvt

#Rango intercuartílico
ri<-quantile(c_aerobica$peso,0.75)-quantil
e(c_aerobica$peso,0.25)
names(ri)<-"RIC"
ri

#Para ilustrar la forma de calcular la var


iabilidad intra e inter, vamos a construir
DIAGRAMAS print(round(x = addmargins(tabla), digits
= 2))
En la base de datos “births” del paquete “Epi”, se
##
encuentran registrados los datos de 500 nacimientos
en un hospital de Londres, para cada uno de estos ## No Si Sum
500 nacimientos se midieron las siguientes variables:
## Masculino 47.4 5.4 52.8

• id: Identificación. ## Femenino 40.6 6.6 47.2


• bweight: Peso del bebé al nacer. ## Sum 88.0 12.0 100.0
• lowbw: Indicador para nacimientos con peso
menor a 2500 g. # diagrama de barras
• gestwks: Semanas de gestación. barplot(height = tabla,xlab="Bajo peso al
nacer", ylab = "Porcentaje",
• preterm: Indicador para periodo de gestación
legend.text = TRUE, beside = TRUE,
menor a 37 semanas. args.legend = list(x = "topright"))
• matage: Edad de la madre.
• hyp: Indicador de hipertensión materna.
• sex: Sexo del bebé: 1:Masculino, 2:Femenino. A continuación se muestran las medidas de tendencia
centrial y de localización, junto con el histograma y el
diagrama de caja asociados con el peso de los bebés
Para analizar la variable “sex”:
al nacer del ejemplo anterior.
# Los datos se encuentran en el paquete "E
pi" de R, por lo que primero se # medidas de tendencia y localizacion
# debe instalar y cargar dicho paquete. summary(births$bweight)
# De necesitar instalarlo: ## Min. 1st Qu. Median Mean 3rd Qu.
# install.packages("Epi") Max.
library(Epi)
## 628 2862 3188 3137 3551
## Warning: package 'Epi' was built under 4553
R version 4.0.2
# diagramas
# help(births) par(mfrow = c(1,2))
data(births) #freq = FALSE para representar las frecuen
# tamaño de la muestra cias relativas
n <- nrow(births) hist(x = births$bweight, freq = FALSE,
# tabla de frecuencias relativas xlab = "Peso al nacer (gr)", ylab = "
tabla <- 100*table(births$sex)/n Densidad", main = "")
names(tabla) <- c("Masculino","Femenino") boxplot(x = births$bweight, horizontal = T
# addmargins agrega la columna con el tota RUE, xlab = "Peso al nacer (gr)")
l
print(round(x = addmargins(tabla), digits
= 2)) La base de datos sinteticos.txt contiene los datos
de cuatro variables cuantitativas x,y,z,vx,y,z,v para
## Masculino Femenino Sum
una muestra de n=1,000n=1,000 individuos. Estas
## 52.8 47.2 100.0 variables exhiben diferentes características en
# diagramas términos de tendencia, localización, variabilidad, y
par(mfrow = c(1,2)) forma. A continuación se presentan las medidas de
barplot(height = tabla, xlab = "Sexo", yla tendencia centrial y de localización, junto con el
b = "Porcentaje") histograma y el diagrama de caja asociados con estas
pie(x = tabla) variables.
# importar datos
Ahora, de manera conjunta, se caracteriza el sexo y el # recuerden actualizar el directorio de tr
indicador de bajo peso al nacer: abajo
datos <- read.table(file = "sinteticos.txt
# tabla de frecuencias relativas ", header = TRUE)
tabla <- round(100*table(births$sex, birth # medidas de tendencia y localizacion
s$lowbw)/n, 3) summary(datos)
rownames(tabla) <- c("Masculino","Femenino
") ## x y
colnames(tabla) <- c("No","Si") z v
## Min. :-0.5863 Min. : 0.3239 Mi ## Bachillerato Pregrado Posgrado
n. : 0.000 Min. : 2.183
## Hombre 4 9 12
## 1st Qu.: 3.6759 1st Qu.: 2.4776 1s
t Qu.: 7.470 1st Qu.: 4.916 ## Mujer 12 7 2

## Median : 4.9763 Median : 3.5923 Me # agregar totales


dian : 8.955 Median : 6.723 addmargins(A = tabla, margin = c(1,2))

## Mean : 5.0371 Mean : 3.9291 Me ## Bachillerato Pregrado Posgrado S


an : 8.619 Mean : 7.828 um

## 3rd Qu.: 6.4439 3rd Qu.: 5.0778 3r ## Hombre 4 9 12


d Qu.:10.070 3rd Qu.:10.942 25

## Max. :11.4681 Max. :12.5476 Ma ## Mujer 12 7 2


x. :12.224 Max. :13.109 21

# histogramas y diagramas de caja ## Sum 16 16 14


par(mfrow = c(4,2)) 46
hist(x = datos$x, freq = FALSE, xlab = "x" # frecuencias relativas
, ylab = "Densidad", main = "", xlim = ran addmargins(A = 100*prop.table(x = tabla),
ge(datos$x)) margin = c(1,2))
boxplot(x = datos$x, horizontal = TRUE, x
lab = "x", ylim = range(datos$x)) ## Bachillerato Pregrado Posgrado
hist(x = datos$y, freq = FALSE, xlab = "y" Sum
, ylab = "Densidad", main = "", xlim = ran
ge(datos$y)) ## Hombre 8.695652 19.56522 26.086957
boxplot(x = datos$y, horizontal = TRUE, x 54.34783
lab = "y", ylim = range(datos$y)) ## Mujer 26.086957 15.21739 4.347826
hist(x = datos$z, freq = FALSE, xlab = "z" 45.65217
, ylab = "Densidad", main = "", xlim = ran
ge(datos$z)) ## Sum 34.782609 34.78261 30.434783
boxplot(x = datos$z, horizontal = TRUE, x 100.00000
lab = "z", ylim = range(datos$y))
hist(x = datos$v, freq = FALSE, xlab = "v"
, ylab = "Densidad", main = "", xlim = ran X/Y Bachillerato Pregrado Posgrado Total
ge(datos$v))
boxplot(x = datos$v, horizontal = TRUE, x Hombre 8.7% 19.6% 26.1% 54.3%
lab = "v", ylim = range(datos$v))
Mujer 26.1% 15.2% 4.3% 45.7%

Medidas descriptivas para dos variables Total 34.8% 34.8% 30.4% 100.0%

la siguiente tabla corresponde a una tabla de


contingencia en la que se estudia la variable sexo (XX)
y nivel educativo (YY) de una muestra de personas.
Obtener las frecuencias relativas conjuntas y
marginales correspondientes.

X/Y Bachillerato Pregrado Posgrado Total

Hombre 4 9 12 25

Mujer 12 7 2 21

Total 16 16 14 46

# datos
tabla <- rbind(c(4, 9, 12), c(12, 7, 2))
rownames(tabla) <- c("Hombre","Mujer")
colnames(tabla) <- c("Bachillerato","Pregr
ado","Posgrado")
print(tabla)
Elaborar los perfiles fila y los perfiles columna de la ## Hombre 25 56.25 85.71429
muestra para la tabla bidimensional del ejemplo ## Mujer 75 43.75 14.28571
anterior.
## Sum 100 100.00 100.00000
Los perfiles fila y los perfiles columna de la muestra
se las siguientes tablas. Las frecuencias relativas de # perfiles fila
pf <- 100*prop.table(x = tabla, margin = 1
estas tablas se calcularon con las fórmulas
)
hij|i∙=nijni∙yhij|∙j=nijn∙jhij|i∙=nijni∙yhij|∙j=nijn∙j # perfiles columna
pc <-100*prop.table(x = tabla, margin = 2)
para i=1,2i=1,2 y j=1,2,3j=1,2,3. # diagrama de barras perfiles fila
barplot(height = t(pf), ylim = c(0,120), l
Por ejemplo, se observa que de los hombres, tiene
egend.text = TRUE,
posgrado el 48.0%, mientras que de los individuos args.legend = list(x = "top", bty
con posgrado, es hombre el 85.7%. Al interpretar las = "n", ncol = 3),
frecuencias relativas de los perfiles es indispensable main = "Perfil fila", xlab = "Sexo
fijarse cuál es el grupo de individuos de referencia. ", ylab = "Porcentaje (%)")
# diagrama de barras perfiles columna
Perfiles fila: barplot(height = pc, beside = FALSE, las =
1, ylim = c(0, 120),
X/Y Bachillerato Pregrado Posgrado legend.text = TRUE, args.legend =
Total list(x = "top", bty = "n", ncol = 2),
main = "Perfil columna", xlab = "N
Hombre 16.0% 36.0% 48.0% 100.0% ivel educativo", ylab = "Porcentaje (%)")

Mujer 57.1% 33.3% 9.5% 100.0%


En una muestra de n=31n=31 estudiantes de grado
Total 34.8% 34.8% 30.4% 100.0% séptimo se miden el peso (en kilogramos) y la la edad
(en años), obteniéndose los resultados que se
Perfiles columna: presentan a continuación. Elaborar
X/Y Bachillerato Pregrado Posgrado un dispersograma o nube de puntos de la temperatura
Total (YY) frente al peso (XX).

Hombre 25.0% 56.3% 85.7% 54.3% Edad: 12.3, 13.2, 12.5, 13.1, 12.9, 13.1, 12.4, 12.9, 13.2,
12.3, 12.4, 13.0, 12.5, 12.6, 12.8, 12.9, 12.5, 13.1, 13.0,
Mujer 75.0% 43.8% 14.3% 45.7% 12.7, 12.2, 13.3, 12.4, 12.3, 12.6
Total 100.0% 100.0% 100.0% 100.0% Peso: 39.5, 41.0, 39.7, 40.8, 40.7, 41.3, 39.2, 40.4, 41.2,
38.8, 39.4, 40.2, 39.7, 39.8, 40.0, 40.3, 39.6, 41.1, 41.3,
# datos 40.3, 39.4, 41.1, 39.9, 39.6, 40.2
tabla <- rbind(c(4, 9, 12), c(12, 7, 2))
rownames(tabla) <- c("Hombre","Mujer") En la siguiente figura se muestra el diagrama de
colnames(tabla) <- c("Bachillerato","Pregr
ado","Posgrado") dispersión del peso frente a la temperatura de los
# perfiles fila materiales. Se observa que la relación entre las
addmargins(A = 100*prop.table(x = tabla, m variables es directa y aparentemente fuerte.
argin = 1), margin = 2)
## Bachillerato Pregrado Posgrado S # datos
um edad <- c(12.3, 13.2, 12.5, 13.1, 12.9, 13
.1, 12.4, 12.9, 13.2, 12.3, 12.4, 13.0, 12
## Hombre 16.00000 36.00000 48.00000 1 .5,
00 12.6, 12.8, 12.9, 12.5, 13.1, 13
## Mujer 57.14286 33.33333 9.52381 1 .0, 12.7, 12.2, 13.3, 12.4, 12.3, 12.6)
00 peso <- c(39.5, 41.0, 39.7, 40.8, 40.7, 41
.3, 39.2, 40.4, 41.2, 38.8, 39.4, 40.2, 39
# perfiles columna .7,
addmargins(A = 100*prop.table(x = tabla, m 39.8, 40.0, 40.3, 39.6, 41.1, 41
argin = 2), margin = 1) .3, 40.3, 39.4, 41.1, 39.9, 39.6, 40.2)
# dispersograma
## Bachillerato Pregrado Posgrado plot(x = edad, y = peso)
Calcular e interpretar la covarianza entre el peso y la 12.6, 12.8, 12.9, 12.5, 13.1, 13
.0, 12.7, 12.2, 13.3, 12.4, 12.3, 12.6)
edad con el conjunto de datos bivariado del ejemplo
peso <- c(39.5, 41.0, 39.7, 40.8, 40.7, 41
anterior. .3, 39.2, 40.4, 41.2, 38.8, 39.4, 40.2, 39
.7,
Para obtener la covarianza entre la edad y el peso, 39.8, 40.0, 40.3, 39.6, 41.1, 41
primero se deben calcular los promedios de estas .3, 40.3, 39.4, 41.1, 39.9, 39.6, 40.2)
variables. En este caso se tiene # desviaciones estandar
sd(edad)
que x¯=12.728x¯=12.728 y y¯=40.180y¯=40.180. Luego
de calcular los respectivos promedios, se procede a ## [1] 0.3397548
calcular las diferencias y los productos, de tal forma sd(peso)
que la covarianza entre la temperatura y el peso es
## [1] 0.7239936
Dado que la covarianza entre la edad y el peso es # coeficiente de correlacion
positiva, entonces la relación entre las dos variables cor(edad, peso)
es directa, como se aprecia en la Figura. Las unidades
de la covarianza son unidades mixtas que en este ## [1] 0.9204667
caso corresponden a años ×× kilogramo. # otra forma
cov(edad, peso)/(sd(edad)*sd(peso))
# datos
edad <- c(12.3, 13.2, 12.5, 13.1, 12.9, 13 ## [1] 0.9204667
.1, 12.4, 12.9, 13.2, 12.3, 12.4, 13.0, 12
.5,
12.6, 12.8, 12.9, 12.5, 13.1, 13
.0, 12.7, 12.2, 13.3, 12.4, 12.3, 12.6)
peso <- c(39.5, 41.0, 39.7, 40.8, 40.7, 41
.3, 39.2, 40.4, 41.2, 38.8, 39.4, 40.2, 39
.7,
39.8, 40.0, 40.3, 39.6, 41.1, 41
.3, 40.3, 39.4, 41.1, 39.9, 39.6, 40.2)
# promedios
mean(edad)
## [1] 12.728
mean(peso)
## [1] 40.18
# covarianza
cov(edad, peso)
## [1] 0.2264167
# otra manera
n <- length(edad)
sum((edad - mean(edad))*(peso-mean(peso)))
/(n-1)
## [1] 0.2264167

Calcular el coeficiente de correlación con los datos del


ejemplo de la edad y el peso.

Este coeficiente indica que la relación lineal entre la


temperatura y el peso de los materiales es directa y
además fuerte.

# datos
edad <- c(12.3, 13.2, 12.5, 13.1, 12.9, 13
.1, 12.4, 12.9, 13.2, 12.3, 12.4, 13.0, 12
.5,
## [4,] 1 1 4
Guía Parcial numero 2
## [5,] 1 1 5
Probabilidad ## [6,] 1 2 1
dim(lista)
conteo
## [1] 125 3
1. ¿De cuantás maneras se puede ordenar la
secuencia ATGC? 3. ¿De cuántas formas se pueden seleccionar 3
personas en un grupo de 20?
P44=4!0!=24P44=4!0!=24
(203)=20!3!17!=1140(203)=20!3!17!=114
# permutacion 0
factorial(4)/factorial(0)
## [1] 24 # combinación
choose(n = 20, k = 3)
# lista de posibilidades
library(gtools) ## [1] 1140
lista <- permutations(n = 4, r = 4, v = c(
# otra manera
"A", "T", "G", "C"))
factorial(20)/(factorial(3)*factorial(17))
head(lista)
## [1] 1140
## [,1] [,2] [,3] [,4]
# lista de posibilidades
## [1,] "A" "C" "G" "T"
lista <- combinations(n = 20, r = 3, v = 1
## [2,] "A" "C" "T" "G" :20)
head(lista)
## [3,] "A" "G" "C" "T"
## [,1] [,2] [,3]
## [4,] "A" "G" "T" "C"
## [1,] 1 2 3
## [5,] "A" "T" "C" "G"
## [2,] 1 2 4
## [6,] "A" "T" "G" "C"
## [3,] 1 2 5
dim(lista )
## [4,] 1 2 6
## [1] 24 4
## [5,] 1 2 7
## [6,] 1 2 8
2. ¿Cuántas posibles claves de 3 dígitos se
pueden obtener con los números de 1 a 5? dim(lista)
## [1] 1140 3
53=12553=125

# permutación con repetición


5^3
## [1] 125
# lista de posibilidades
lista <- permutations(n = 5, r = 3, v = 1:
5, repeats.allowed = T)
head(lista)
## [,1] [,2] [,3]
## [1,] 1 1 1
## [2,] 1 1 2
## [3,] 1 1 3
Variables aleatorias #valores de la variable
x<-2:12
Variables aleatorias discretas #calculo de la función de probabilidad par
a cada valor de la variable
La siguiente figura presenta el gráfico de la f.m.p de fx<-f(x)
la variable XX. cbind(x, fx)

# valores de la variable ## x fx
x <- 0:3 ## [1,] 2 0.02777778
# f.m.p.
fx <- c(1, 3, 3, 1)/8 ## [2,] 3 0.05555556
# gráfico
plot(x = x, y = fx, xlab = "x", ylab = "f( ## [3,] 4 0.08333333
x)", pch = 15, col = "blue") ## [4,] 5 0.11111111
segments(x0 = x, y0 = 0, x1 = x, y1 = fx,
lwd = 2, col = "blue") ## [5,] 6 0.13888889
## [6,] 7 0.16666667
Dada XX: suma del lanzamiento de dos dados. Se
## [7,] 8 0.13888889
sabe que su f.m.p está dada por:
fX(x)=6−|7−x|36, x=2,3,...,12fX(x)=6−|7−x|36, x=2,3, ## [8,] 9 0.11111111
...,12
## [9,] 10 0.08333333
Calcular: ## [10,] 11 0.05555556
1. P(X=3)=6−|7−3|36=236P(X=3)=6−|7−3|36=236
## [11,] 12 0.02777778
f<-function(x) (6-abs(7-x))/36
f(3) #Función de probabilidad
plot(x = x, y = fx, xlab = "x", ylab = "f(
## [1] 0.05555556 x)", pch = 15, col = "blue")
segments(x0 = x, y0 = 0, x1 = x, y1 = fx,
lwd = 2, col = "blue")
2. P(X≤4.5)=P(X≤4)=P(X=2 o X=3 o X=4)=f
X(2)+fX(3)+fX(4)=136+236+336=16P(X≤4.5) Función de distribución
=P(X≤4)=P(X=2 o X=3 o X=4)=fX(2)+fX(3)+
fX(4)=136+236+336=16
El gráfico de FX está dado por:
f(2)+f(3)+f(4) # valores de la variable
## [1] 0.1666667 x <- 0:3
# f.m.p.
fx <- c(1, 3, 3, 1)/8
# f.d.a.
3. P(3≤X≤6)=fX(3)+fX(4)+fX(5)+fX(6)P(3≤X
Fx <- cumsum(fx)
≤6)=fX(3)+fX(4)+fX(5)+fX(6) plot(x = c(0, x), y = c(0, Fx), type = "s"
, xlab = "x", ylab = "F(x)", col = "blue",
lwd = 2)
f(3)+f(4)+f(5)+f(6)
points(x, Fx, col = "blue", pch = 15)
## [1] 0.3888889

3. P(3≤X<6)=fX(3)+fX(4)+fX(5)P(3≤X<6)=fX(
3)+fX(4)+fX(5)

f(3)+f(4)+f(5)
## [1] 0.25

La distribución de probabilidad completa estaría dada


por
La junta directiva de un hospital quiere mejorar su ## [4,] 3 0.081765416
atención en el horario nocturno de los pacientes que ## [5,] 4 0.172991608
necesitan de atención quirúrgica inmediata. Para esto,
se quiere analizar la variable XX dada por “número de ## [6,] 5 0.300708276
pacientes que requieren de atención quirúrgica ## [7,] 6 0.449711056
inmediata reportados entre las 19:00 y las 5:00”. El
## [8,] 7 0.598713836
analista encargado asegura que la f.m.p. de XX es
fX(x)={7xe−7x!,0,si x=0,1,2,…;en otro ## [9,] 8 0.729091268
caso.fX(x)={7xe−7x!,si x=0,1,2,…;0,en otro caso. ## [10,] 9 0.830495937
Se pide: ## [11,] 10 0.901479206
## [12,] 11 0.946650377
a. Sabiendo que entre las 19:00 y las 5:00 el
hospital solo tiene la capacidad de operar en 5 ## [13,] 12 0.973000227
quirófanos, determinar el porcentaje de ## [14,] 13 0.987188607
jornadas nocturnas en las que se puede
atender a todos los pacientes que lleguen en ## [15,] 14 0.994282798
la noche. ## [16,] 15 0.997593420
## [17,] 16 0.999041817
Para encontrar el porcentaje de noches en las que el
hospital puede atender a todos sus pacientes entre ## [18,] 17 0.999638216
las 19:00 y las 5:00, basta con calcular
## [19,] 18 0.999870149
Pr(X≤5)=∑x=057xe−7x!=0.3007,Pr(X≤5)=∑x=057xe ## [20,] 19 0.999955598
−7x!=0.3007,
## [21,] 20 0.999985505
y por lo tanto solo en el 30% de las noches el
hospital puede atender a todos los pacientes que
llegan en la jornada nocturna. c. Graficar la f.m.p y la función de distribución
de XX.
b. ¿Cuántos pacientes, como máximo, requieren
de atención quirúrgica inmediata, en el 50% # valores de la variable
de las noches el hospital? x <- 0:20
# f.m.p.
En este caso requerimos calcular el percentil fx <- (7^x)*exp(-7)/factorial(x)
50, p50p50. Evaluando en los valores Fx <- cumsum(fx)
# gráficos
de 0,1,2,…0,1,2,… se tiene que par(mfrow = c(1,2))
P(X≤0)=0.0009,P(X≤1)=0.0072,P(X≤2)=0.0296 # f.m.p
,Pr(X≤3)=0.0817,⋮Pr(X≤6)=0.4497,Pr(X≤7)=0.5 plot(x = x, y = fx, xlab = "x", ylab = "f(
x)", pch = 15, col = "blue")
987.P(X≤0)=0.0009,P(X≤1)=0.0072,P(X≤2)=0.0296,Pr(X segments(x0 = x, y0 = 0, x1 = x, y1 = fx,
≤3)=0.0817,⋮Pr(X≤6)=0.4497,Pr(X≤7)=0.5987. lwd = 2, col = "blue")
# f.d.a.
En consecuencia, se obtiene que p50=7p50=7. plot(x = c(0, x), y = c(0, Fx), type = "s"
# valores de la variable , xlab = "x", ylab = "F(x)", col = "blue",
x <- 0:20 lwd = 2)
# f.m.p. points(x, Fx, col = "blue", pch = 15)
fx <- (7^x)*exp(-7)/factorial(x)
Fx <- cumsum(fx)
print(cbind(x,Fx))
## x Fx
## [1,] 0 0.000911882
## [2,] 1 0.007295056
## [3,] 2 0.029636164
Suponga que XX:estancia hospitalaria en días, tiene la ¿En dónde se ubicarían los promedios de las
siguiente función de densidad: siguientes distribuciones?
fX(x)=115e−115xI(0,∞)(x)fX(x)=115e−115xI(0,∞)(x)
par(mfrow=c(1,2))
Calcular la probabilidad de que un paciente tenga curve(dchisq(x, df = 4),col = 3, lwd = 2,
menos de 10 días de estancia hospitalaria. from=0, to=9, ylab="f(x)", ylim=c(0,0.2))
curve(dnorm(x, mean=4, sd=2), col=2, lwd =
Nos piden calcular P(X<10)P(X<10), es decir, el área 2, from=-1, to=9,ylab="f(x)")
bajo la curva de la función de densidad entre 0 y 10:
#función de densidad
fx<-function(x) 1/15*exp(-1/15*x)
curve(expr = fx, from = 0, to = 20, xlab = desviación estándar
"x", ylab = "f(x)", col = "blue", lwd = 2)
abline(v=0, col="light blue") Continuando con el ejemplo en el que XX es el
abline(v=10, col="light blue") “número de caras obtenido” al final de los tres
lanzamientos y su f.d.m está dada por:
Continuando con el ejemplo de estancia hospitalaria, fX(x)=⎧⎩⎨0.125,0.375,0,si x=0,3;si x=1,2;en
grafique la función de distribución. otro caso.fX(x)={0.125,si x=0,3;0.375,si x=1,2;0,en otro
caso.
# f.d.p.
fx<-function(x) 1/15*exp(-1/15*x) El valor de la varianza está dado por:
# función de distribución
Fx <- function(x) 1 - exp(-1/15*x) V[X]=E[X2]−(E[X])2V[X]=E[X2]−(E[X])2
# gráfica
curve(expr = Fx, from = 0, to = 10, xlab = x <- 0:3
"x", ylab = "F(x)", col = "blue", lwd = 2) # f.m.p.
fx <- c(1, 3, 3, 1)/8
#valor esperado
medidas de localización
Ex<-sum(x*fx)
#valor esperado x^2
Retomemos el ejemplo en el que XX es el “número de Ex2<-sum(x^2*fx)
caras obtenido” al final de los tres lanzamientos. Para #varianza
éste encontramos que: Vx<-Ex2-(Ex)^2
fX(x)=⎧⎩⎨0.125,0.375,0,si x=0,3;si x=1,2;en print(Vx)
otro caso.fX(x)={0.125,si x=0,3;0.375,si x=1,2;0,en otro ## [1] 0.75
caso.
#desviación estándar
De tal forma que: print(sqrt(Vx))
E[X]=∑kxkfX(xk)=0×0.125+1×0.375+2×0.375+3 ## [1] 0.8660254
×0.125=1.5E[X]=∑kxkfX(xk)=0×0.125+1×0.375+2×0.3
75+3×0.125=1.5 #coeficiente de variación
print(sqrt(Vx)/Ex*100)
x <- 0:3 ## [1] 57.73503
# f.m.p.
fx <- c(1, 3, 3, 1)/8
#valor esperado
Ex<-sum(x*fx)
print(Ex)
## [1] 1.5
Distribuciones discretas especiales ## [1] 3
# varianza
Distribución Binomial n*p*(1-p)

Una empresa farmacéutica desarrolló un nuevo ## [1] 2.1


medicamento y lo suministró a 10 enfermos elegidos # f.m.p.
aleatoriamente. La experiencia ha demostrado que fx <- dbinom(x = x, size = n, prob = p)
30% de las personas que padecen la enfermedad se # f.d.a.
recupera al tomar dicho medicamento. ¿Cuál es la Fx <- pbinom(q = x, size = n, prob = p)
probabilidad de que por lo menos nueve de las 10 # graficos
personas que toman el medicamento se recuperen? par(mfrow = c(1,2))
# f.m.p
En este caso se tiene que la v.a. de estudio es el plot(x = x, y = fx, xlab = "x", ylab = "f(
“número de personas en la muestra de 10 pacientes x)", pch = 15, col = "blue")
que se recupera de la enfermedad” y el éxito consiste segments(x0 = x, y0 = 0, x1 = x, y1 = fx,
en recuperarse de la enfermedad y esto ocurre con lwd = 2, col = "blue")
# f.d.a.
una probabilidad de 0.30.3. En consecuencia, la plot(x = c(0, x), y = c(0, Fx), type = "s"
f.m.p. de XX es , xlab = "x", ylab = "F(x)", col = "blue",
fX(x;10,0.3)={(10x)(0.3)x(0.7)10−x,0,si x=0,1,…,1 lwd = 2)
points(x, Fx, col = "blue", pch = 15)
0;en otro
caso.fX(x;10,0.3)={(10x)(0.3)x(0.7)10−x,si x=0,1,…,10;0
,en otro caso. Distribución Hipergeométrica

Además, se pide calcular la probabilidad de que por lo Un equipo de trabajo establecido por el Ministerio de
menos nueve de las 10 personas que toman el Medio Ambiente, programó visitas a dos fábricas para
medicamento se recuperen, esto investigar posibles violaciones a los reglamentos para
es, Pr(X≥9)Pr(X≥9). Así, el control de contaminación ambiental. Sin embargo,
Pr(X≥9)=Pr(X=9;X=10)=Pr(X=9)+Pr(X=10)=(1 los recortes presupuestales han reducido
drásticamente el tamaño del equipo de trabajo por lo
09)(0.3)9(0.7)10−9+(1010)(0.3)10(0.7)10−10=0.0 que solamente se podrán investigar cinco de las 25
00144.Pr(X≥9)=Pr(X=9;X=10)=Pr(X=9)+Pr(X=10)=(10 fábricas. Si se sabe que 10 de las fábricas están
9)(0.3)9(0.7)10−9+(1010)(0.3)10(0.7)10−10=0.000144. operando sin cumplir los reglamentos, calcular la
De otra parte, se observa que: probabilidad de que al menos una de las fábricas
muestreadas esté operando en contra del reglamento.
• E[X]=10(0.3)=3E[X]=10(0.3)=3. Este valor Se define la v.a. XX como el “número de fábricas en
indica que se espera la recuperación de 3 la muestra seleccionada que operan sin cumplir los
enfermos de una muestra aleatoria de 10 reglamentos”; de acuerdo con las características del
pacientes. problema se supone que el muestreo se hace sin
• V[X]=10(0.3)(0.7)=2.1V[X]=10(0.3)(0.7)= reemplazo y por lo tanto se sigue
2.1. que X∼H(5,10,25)X∼H(5,10,25). Así, la
probabilidad pedida es
En la siguiente figura se presenta el gráfico de la Pr(X≥1)=∑i=15Pr(X=i)=1−Pr(X=0)=1−(100)(155)
f.m.p. y de la f.d.a. de una variable con distribución (255)=0.9434.Pr(X≥1)=∑i=15Pr(X=i)=1−Pr(X=0)=1−(1
binomial con parámetros n=10n=10 y π=0.3π=0.3. 00)(155)(255)=0.9434.
# parametros
En consecuencia, la probabilidad de que al menos
p <- 0.3
n <- 10 una de las fábricas muestreadas esté operando en
x <- 0:n contra al reglamento es 0.9434.
# P(X >= 9)
# parametros
sum(dbinom(x = c(9, 10), size = n, prob =
n <- 5
p))
M <- 10
## [1] 0.0001436859 N <- 25
# P(X >= 1)
# valor esperado # la parametrizacion de esta rutina es dif
n*p erente a la presentada en la formula
sum(dhyper(x = 1:5, m = M, n = N-M, k = n) que X∼Pois(5)X∼Pois(5), por lo que la f.m.p
)
de XX es
## [1] 0.9434783 fX(x;5)={e−55xx!,0,si x=0,1,2,…;en otro
# otra manera caso.fX(x;5)={e−55xx!,si x=0,1,2,…;0,en otro caso.
1 - dhyper(x = 0, m = M, n = N-M, k = n)
Se pide calcular
## [1] 0.9434783
Pr(X≤3)=Pr(X=0;X=1;X=2;X=3)=Pr(X=0)+Pr(X
La siguiente figura presenta el gráfico de la f.m.p. y =1)+Pr(X=2)+Pr(X=3)=e−5500!+e−5511!+e−5522
de la f.d.a. de una variable con distribución !+e−5533!=0.2650.Pr(X≤3)=Pr(X=0;X=1;X=2;X=3)=Pr
hipergeométrica con (X=0)+Pr(X=1)+Pr(X=2)+Pr(X=3)=e−5500!+e−5511!+e−
parámetros n=5n=5, M=10M=10 y N=25N=25. 5522!+e−5533!=0.2650.

# parametros Se observa además que


n <- 5 Pr(X>3)=1−Pr(X≤3)=1−0.2650=0.7350.Pr(X>3)=
M <- 10 1−Pr(X≤3)=1−0.2650=0.7350.
N <- 25
x <- 0:5 En siguiente figura presenta el gráfico de la f.m.p. y la
# f.m.p. f.d.a. de una variable con distribución de poisson de
fx <- dhyper(x = x, m = M, n = N-M, k = n)
parámetro λ=5λ=5.
# f.d.a.
Fx <- phyper(q = x, m = M, n = N-M, k = n) # parametros
# graficos lambda <- 5
par(mfrow = c(1,2)) x <- 0:20
# f.m.p # P(X <= 3)
plot(x = x, y = fx, xlab = "x", ylab = "f( sum(dpois(x = 0:3, lambda = lambda))
x)", pch = 15, col = "blue")
segments(x0 = x, y0 = 0, x1 = x, y1 = fx, ## [1] 0.2650259
lwd = 2, col = "blue")
# otra manera
# f.d.a.
ppois(q = 3, lambda = lambda)
plot(x = c(0, x), y = c(0, Fx), type = "s"
, xlab = "x", ylab = "F(x)", col = "blue", ## [1] 0.2650259
lwd = 2)
points(x, Fx, col = "blue", pch = 15) # f.m.p.
fx <- dpois(x = x, lambda = lambda)
# f.d.a.
Distribución Poisson Fx <- ppois(q = x, lambda = lambda)
# graficos
par(mfrow = c(1,2))
# f.m.p
Los pacientes que entran a un centro de salud lo plot(x = x, y = fx, xlab = "x", ylab = "f(
hacen a una tasa esperada de 0.50 clientes por x)", pch = 15, col = "blue")
minuto. Hallar la probabilidad de que el número de segments(x0 = x, y0 = 0, x1 = x, y1 = fx,
clientes que entran en un intervalo específico de 10 lwd = 2, col = "blue")
minutos sea a lo más 3. # f.d.a.
plot(x = c(0, x), y = c(0, Fx), type = "s"
Las hipótesis del proceso de Poisson parecen ser , xlab = "x", ylab = "F(x)", col = "blue",
razonables en este contexto. Se da por sentado que lwd = 2)
los pacientes no llegan en grupos (o es posible contar points(x, Fx, col = "blue", pch = 15)
al grupo entero como un solo paciente) y que la
entrada de un paciente no aumenta ni disminuye la
probabilidad de que llegue otro.

Para obtener λλ, se observa que a una tasa media de


0.50 por minuto durante un periodo de 10 minutos,
se sigue
que λ=(0.50)(10)=5λ=(0.50)(10)=5 entradas.
Sea XX la v.a. dada por el “número de pacientes que
entran en un intervalo de 10 minutos”. Así, se tiene
Distribución normal # parámetros
mu <- 106
Entre los diabéticos, el nivel de glucosa en sangre en sigma <- 8
ayunas XX,puede suponerse que tiene distribución #percentil 75
aproximadamente normal, con media 106 mg/100 ml qnorm(p=0.75,mean=mu,sd=sigma)
y desviación estándar 8 mg/100 ml. Con base en lo ## [1] 111.3959
anterior, calcule:

1. Se dice que una persona está controlada si su 4. Grafique las funciones de densidad y de
niveles están por debajo de 100 mg/100 ml. distribución
¿Cuál es la probabilidad de que un paciente
diabético se encuentre controlado?
# parámetros
mu <- 106
En primer lugar, la v.a.c X:“nivel de glucosa en sangre sigma <- 8
en ayunas (mg/100 ml)”, tiene par(mfrow=c(1,2))
distribución N(100,64)N(100,64), adicionalmente, curve(expr = dnorm(x,mean=mu,sd=sigma), fr
nos preguntan: om = 76, to = 136, xlab = "x", ylab = "f(x
)", col = "blue", lwd = 2)
P(X<100)=FX(100)=0.2266P(X<100)=FX(100)=0. curve(expr = pnorm(x,mean=mu,sd=sigma), fr
2266 om = 76, to = 136, xlab = "x", ylab = "f(x
# parámetros )", col = "blue", lwd = 2)
mu <- 106
sigma <- 8 Distribución normal estándar
#P(X<100)
pnorm(q=100,mean=mu,sd=sigma) Estandarización
## [1] 0.2266274
Conteste las preguntas del ejemplo anterior, haciendo
uso de la estandarización.
2. ¿Qué porcentaje de diabéticos tienen niveles
de glucosa comprendidos entre 95 mg/100 1. Se dice que una persona está controlada si su
mly 125 mg/100 ml? niveles están por debajo de 100 mg/100 ml.
¿Cuál es la probabilidad de que un paciente
P(95<X<125)=FX(125)−FX(95)=0.9067P(95<X< diabético se encuentre controlado?
125)=FX(125)−FX(95)=0.9067 Es decir que
el 90.67%90.67% de los pacientes tienen un nivel Sabemos que N(106,64)N(106,64), por lo
de glucosa en ayunas entre 95 mg/100 mly 125 tanto Z=X−1068∼N(0,1)Z=X−1068∼N(0,1), nos
mg/100 ml. preguntan:
# parámetros
P(X<100)=P(Z<100−1068)=Φ(−0.75)=0.2266P(X
mu <- 106 <100)=P(Z<100−1068)=Φ(−0.75)=0.2266
sigma <- 8 # parámetros
#P(95<X<125) mu <- 106
pnorm(q=125,mean=mu,sd=sigma)-pnorm(q=95,m sigma <- 8
ean=mu,sd=sigma) #P(X<450)
## [1] 0.9066598 pnorm(q=(100-mu)/sigma)
## [1] 0.2266274

3. ¿Cuál es el nivel de glucosa máximo del 75%


de los pacientes diabéticos? 2. ¿Qué porcentaje de diabéticos tienen niveles
de glucosa comprendidos entre 95 mg/100
En este caso nos están preguntado por el percentil 75 mly 125 mg/100 ml?
de la distribución π75π75:
π75=111.3959π75=111.3959 P(95<X<125)=P(125−1068<Z<95−1068)=Φ(2.375)
Es decir que el 75% de los pacientes tienen niveles de −Φ(−1.375)=0.9067P(95<X<125)=P(125−1068<Z
glucosa en ayunas de 111.3959 mg/100 ml o menos. <95−1068)=Φ(2.375)−Φ(−1.375)=0.9067 Es decir
que el 90.67%90.67% de los pacientes tienen un
nivel de glucosa en ayunas entre 95 mg/100 mly 125
mg/100 ml.
# parámetros
mu <- 106
sigma <- 8
#P(95<X<125)
pnorm(q=(125-mu)/sigma)-pnorm(q=(95-mu)/si
gma)
## [1] 0.9066598

3. ¿Cuál es el nivel de glucosa máximo del 75%


de los pacientes diabéticos?

Es decir que en este caso nos están preguntado por el


percentil 75 de la distribución. Empezaremos
encontrando el percentil 75 de la normal estándar
(z0.75z0.75):
z0.75=0.6745=π0.75−1068z0.75=0.6745=π0.75−10
68

Así, π0.75=z0.75∗8+106=111.3959π0.75=z0.75∗8+
106=111.3959
Es decir que el 75% de los pacientes tienen niveles de
glucosa en ayunas de 111.3959 mg/100 ml o menos.

# parámetros
mu <- 106
sigma <- 8
#percentil 75 de la normal estándar
z75<-qnorm(p=0.75)
#percentil 75 del volumen de llenado
x75<-z75*sigma+mu
print(x75)
## [1] 111.3959
1. Sea Ω={0,1,2,3,4,5,6,7,8,9}Ω={0,1,2,3, una permutación sin repetición, y por lo tanto
4,5,6,7,8,9} el espacio muestral la cantidad pedida es:
correspondiente a un experimento
aleatorio dado y 6∗P66=6∗6!(6−6)!=4320.6∗P66=6∗6!(6−6)
!=4320.
A={0,1,2,3},B={4,5,6,7},C={2,4,6},D={
1,8,9}.A={0,1,2,3},B={4,5,6,7},C={2,4, 6*factorial(6)
6},D={1,8,9}.
## [1] 4320
eventos incluidos en ΩΩ. Listar los elementos de
los conjuntos que corresponden a los 4. Una caja contiene siete fichas rojas, seis
siguientes eventos: blancas y cuatro azules. ¿Cuántas selecciones
de tres fichas se pueden formar si:
a. (AC∪D)C={1,4,5,6,7,8,9}C={0,2,3}(AC∪D)C
={1,4,5,6,7,8,9}C={0,2,3}. a. las tres deben ser rojas? El número total de
b. B∩CC={4,5,6,7}∩{0,1,3,5,7,8,9}={5,7}B∩C fichas es 7+6+4=177+6+4=17. Aplicando el
C={4,5,6,7}∩{0,1,3,5,7,8,9}={5,7} . principio fundamental del conteo junto con
c. (DC∩A)C∪C=D∪AC∪C={1,8,9}∪{4,5,6,7,8, combinaciones, se tiene que la cantidad
9}∪{2,4,6}={1,2,4,5,6,7,8,9}(DC∩A)C∪C=D pedida es:
∪AC∪C={1,8,9}∪{4,5,6,7,8,9}∪{2,4,6}={1,2,
4,5,6,7,8,9}. (73)∗(60)∗(40)=35(73)∗(60)∗(40)=35
d. (ΩC∩B)C=Ω∪BC=Ω={0,1,2,3,4,5,6,7,8,9}(
ΩC∩B)C=Ω∪BC=Ω={0,1,2,3,4,5,6,7,8,9}.
choose(7,3)
e. B∩C∩DC={4,5,6,7}∩{2,4,6}∩{0,2,3,4,5,6,
7}={4,6}B∩C∩DC={4,5,6,7}∩{2,4,6}∩{0,2,3 ## [1] 35
,4,5,6,7}={4,6}.
Observe que (60)=(40)=1(60)=(40)=1.
2. Los estudiantes de un curso de estadística se
clasifican como estudiantes de administración, b. ninguna puede ser blanca? Usando la misma
economía o ingeniería; como repitente o no metodología, se tiene que la cantidad pedida
repitente y también como hombre o mujer. es:
Encuentre el número total de clasificaciones
posibles para los estudiantes de este curso. (73)∗(60)∗(40)+(72)∗(60)∗(41)+(71)∗(
60)∗(42)+(70)∗(60)∗(43)=165(73)∗(60)∗
Aplicando directamente el principio fundamental del
(40)+(72)∗(60)∗(41)+(71)∗(60)∗(42)+(70)∗(6
conteo, el número total de clasificaciones es:
0)∗(43)=165
3∗2∗2=12.3∗2∗2=12.
3. Siete personas se quieren organizar en una fila. a. choose(7,3) + choose(7,2)*choose(4,1) + ch
oose(7,1)*choose(4,2) + choose(4,3)
¿De cuántas maneras diferentes pueden hacerlo?
Este es un caso de una permutación sin repetición, y ## [1] 165
por lo tanto la cantidad pedida es:
P77=7!(7−7)!=5040.P77=7!(7−7)!=5040. c. las tres deben ser del mismo color? Usando la
misma metodología, se tiene que la cantidad
factorial(7) pedida es:
## [1] 5040
(73)∗(60)∗(40)+(70)∗(63)∗(40)+(70)∗(
60)∗(43)=59.(73)∗(60)∗(40)+(70)∗(63)∗(40
b. ¿De cuántas maneras diferentes pueden )+(70)∗(60)∗(43)=59.
hacerlo si una de ellas no debe estar al
comienzo de la fila? En este caso se aplica el
principio fundamental del conteo junto con choose(7,3) + choose(6,3) + choose(4,3)
## [1] 59 b. Graficar fX(x)fX(x) y FX(x)FX(x).

d. las tres son de colores diferentes? Usando la A continuación se presentan los gráficos
misma metodología, se tiene que la cantidad correspondientes:
pedida es:
# recorrido de X
x <- 0:6
(71)∗(61)∗(41)=168.(71)∗(61)∗(41)=168. # f.m.p.
fx <- c(0.06,0.13,0.20,0.28,0.25,0.05,0.03
1. choose(7,1)*choose(6,1)*choose(4,1) )
Un investigador evalúa habitualmente el # f.d.a.
proceso reproductivo de una especie Fx <- cumsum(fx)
# gráficos
canina determinada. Sea XX el número par(mfrow = c(1,2))
de crías con sobrepeso en un grupo de # f.m.p
animales seleccionado al azar. Se sabe plot(x = x, y = fx, xlab = "x", ylab = "f(
que la función de distribución x)", pch = 16, col = "blue", main="Función
acumulada de XX es: de masa")
segments(x0 = x, y0 = 0, x1 = x, y1 = fx,
lwd = 2, col = "blue")
FX(x)=⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪ # f.d.a.
⎪⎪⎪⎪0.00,x<0;0.06,0≤x<1;0.19,1≤x<2;0 plot(x = c(0, x), y = c(0, Fx), type = "s"
.39,2≤x<3;0.67,3≤x<4;0.92,4≤x<5;0.97,5 , xlab = "x", ylab = "F(x)", col = "blue",
lwd = 2, main="Función de Distribución")
≤x<6;1.00,6≤x;FX(x)={0.00,x<0;0.06,0≤x< points(x, Fx, col = "blue", pch = 16)
1;0.19,1≤x<2;0.39,2≤x<3;0.67,3≤x<4;0.92,
4≤x<5;0.97,5≤x<6;1.00,6≤x;

a. Obtener la función de masa de


probabilidad fX(x)fX(x).

El recorrido de XX es {0,1,2,3,4,5,6}{0,1,2,3,4,5,6}.
Además, teniendo en cuenta
que fX(x)=FX(x)−FX(x−)fX(x)=FX(x)−FX(x−),
donde x−x− es el valor de la variable inmediatamente
anterior a xx, se tiene que
fX(0)fX(1)fX(2)fX(3)fX(4)fX(5)fX(6)=FX(0)=0.06=
FX(1)−FX(0)=0.19−0.06=0.13=FX(2)−FX(1)=0.3
9−0.19=0.20=FX(3)−FX(2)=0.67−0.39=0.28=FX(
4)−FX(3)=0.92−0.67=0.25=FX(5)−FX(4)=0.97−0
.92=0.05=FX(6)−FX(5)=1.00−0.97=0.03fX(0)=FX
(0)=0.06fX(1)=FX(1)−FX(0)=0.19−0.06=0.13fX(2)=FX(2)
−FX(1)=0.39−0.19=0.20fX(3)=FX(3)−FX(2)=0.67−0.39=0
.28fX(4)=FX(4)−FX(3)=0.92−0.67=0.25fX(5)=FX(5)−FX(
4)=0.97−0.92=0.05fX(6)=FX(6)−FX(5)=1.00−0.97=0.03

Observe que,
∑kfX(xk)=fX(0)+fX(1)+…+fX(6)=0.06+0.13+…+0.
03=1∑kfX(xk)=fX(0)+fX(1)+…+fX(6)=0.06+0.13+…+0.
03=1

# f.m.p
fx <- c(0.06,0.13,0.20,0.28,0.25,0.05,0.03
)
sum(fx)
## [1] 1
c. Calcular e xk2fX(xk)=02∗fX(0)+12∗fX(1)+…+62∗fX(6)=02∗0.06+12
interpretar P(X=2)P(X=2), P(X>3)P(X>3), P ∗0.13+…+62∗0.03=9.78
(2≤X≤5)P(2≤X≤5). Por lo tanto, la varianza de XX es
σ2X=E(X2)−(E(X))2=9.78−2.82=1.94.σX2=E(X2)−(
P(X=2)=fX(2)=FX(2)−FX(1)=0.39−0.19=0.20P(X E(X))2=9.78−2.82=1.94.
=2)=fX(2)=FX(2)−FX(1)=0.39−0.19=0.20
Así, el coeficiente de variación de XX está dado por
- Luego, la probabilidad de que el número de crías
CV(X)=100∗σ2X−−−√μX=49.74%CV(X)=100∗σX2μ
con sobrepeso en un grupo de animales X=49.74%
seleccionado al azar sea igual a 2 crías es de 0.20.
P(X>3)=1−Pr(X≤3)=1−FX(3)=1−0.67=0.33P(X> Como el coeficiente de variación de XX es 49.74%,
3)=1−Pr(X≤3)=1−FX(3)=1−0.67=0.33 entonces la variabilidad del número de defectos
importantes es alta respecto al valor esperado.
- Así, la probabilidad de que el número de crías con
sobrepeso en un grupo de animales seleccionado al # recorrido de X
azar sea mayor que 3 crías es de 0.33. x <- 0:6
# f.m.p.
P(2≤X≤5)=FX(5)−FX(1)=0.97−0.19=0.78P(2≤X≤5 fx <- c(0.06,0.13,0.20,0.28,0.25,0.05,0.03
)=FX(5)−FX(1)=0.97−0.19=0.78 )
# valor esperado
- Por lo tanto, la probabilidad de que el número de EX <- sum(x*fx)
crías con sobrepeso en un grupo de animales EX
seleccionado al azar sea mayor o igual que 2 crías, y
## [1] 2.8
menor o igual que 5 crías es de 0.78.
# valor esperado de X^2
EX2 <- sum(x^2*fx)
d. Calcular e interpretar el valor esperado de XX.
EX2

Dado que XX es una v.a.d., se tiene que ## [1] 9.78


μX=∑kxkfX(xk)=0∗fX(0)+1∗fX(1)+…+6∗fX(6)=0∗0 # varianza
.06+1∗0.13+…+6∗0.03=2.8μX=∑kxkfX(xk)=0∗fX(0 VAR <- EX2 - EX^2
)+1∗fX(1)+…+6∗fX(6)=0∗0.06+1∗0.13+…+6∗0.03=2.8 VAR
## [1] 1.94
# recorrido de X
x <- 0:6 # coeficiente de variacion
# f.m.p. sqrt(VAR)/EX*100
fx <- c(0.06,0.13,0.20,0.28,0.25,0.05,0.03 ## [1] 49.74424
)
# valor esperado
sum(x*fx)
2. La variable aleatoria XX que representa el pH
## [1] 2.8 del agua (medido en una escala continua) de
un proceso experimental de limpieza tiene la
Por lo tanto, el número esperado (media) de crías es siguiente función de densidad de
2.8. probabilidad:

e. Calcular e interpretar el coeficiente de fX(x)={38(7−x)2,5<x<7;0,en otro


variación XX. caso;fX(x)={38(7−x)2,5<x<7;0,en otro caso;

Primero, se calcula la varianza de XX, En este caso, se tiene que la función de


σ2X=E(X2)−(E(X))2=E(X2)−2.82σX2=E(X2)−(E(X))2 distribución acumulada es:
=E(X2)−2.82
FX(x)=⎧⎩⎨⎪⎪0,x≤5;1−18(7−x)3,5<x<7;1
donde ,x≥7;FX(x)={0,x≤5;1−18(7−x)3,5<x<7;1,x≥
E(X2)=∑kx2kfX(xk)=02∗fX(0)+12∗fX(1)+…+62∗fX( 7;
6)=02∗0.06+12∗0.13+…+62∗0.03=9.78E(X2)=∑k
a. Graficar fX(x)fX(x) y FX(x)FX(x).
A continuación se presentan los gráficos P(X>6)=1−P(X≤6)=1−FX(6)=1−[1−18(7−6)3]=1
correspondientes en el recorrido (5,7)(5,7): 8=0.125P(X>6)=1−P(X≤6)=1−FX(6)=1−[1−18(7−6)3]=
# f.d.p. 18=0.125
ff <- function(x) (3/8)*(7-x)^2
# f.d.a.
- Por lo tanto, la probabilidad de que el pH del agua
FF <- function(x) 1 - (1/8)*(7-x)^3 tome un valor mayor que 6 es igual a 0.125.
# grafico P(5.5≤X≤6.5)=FX(6.5)−FX(5.5)=[1−18(7−6.5)3]
par(mfrow = c(1,2)) −[1−18(7−5.5)3]=18(1.53−0.53)=0.40625P(5.5≤
# f.m.p X≤6.5)=FX(6.5)−FX(5.5)=[1−18(7−6.5)3]−[1−18(7−5.5)3]
curve(expr = ff, from = 5, to = 7, col = "
=18(1.53−0.53)=0.40625
red", lwd = 2, main = "f.d.p.", ylab = "f
(x)") - Así, la probabilidad de que el pH del agua tome un
# f.d.a.
curve(expr = FF, from = 5, to = 7, col = " valor mayor o igual que 5.5, y menor o igual que
blue", lwd = 2, main = "f.d.a.", ylab = "F 6.5 es igual a 0.40625.
(x)")
c. Calcular e interpretar la mediana de XX.

Se necesita encontrar xx tal


que FX(x)=0.5FX(x)=0.5. Así,
FX(x)1−18(7−x)318(7−x)3(7−x)x=0.5=0.5=0.5=
(8∗0.5)13=7−(8∗0.5)13FX(x)=0.51−18(7−x)3=0.518(7−
x)3=0.5(7−x)=(8∗0.5)13x=7−(8∗0.5)13

Por lo tanto, x=5.41x=5.41, y así, el valor del pH del


agua es de lo más 5.41 el 50% de las mediciones.
7-(8*0.5)^(1/3)
## [1] 5.412599

d. Calcular e interpretar el valor esperado de XX.

Como XX es una v.a.c., entonces


μX=∫∞−∞xfX(x)dx=∫75x∗38(7−x)2dx=5.5μX=∫−∞∞
xfX(x)dx=∫57x∗38(7−x)2dx=5.5
Por lo tanto, el valor esperado (media) del pH del
agua es 5.5.

f <- function(x) x*(3/8)*(7-x)^2


integrate(f, lower = 5, upper = 7)
## 5.5 with absolute error < 6.1e-14

e. Calcular e interpretar el coeficiente de


b. Calcular e variación XX.
interpretar P(X=6)P(X=6), P(X>6)P(X>6), P
(5.5≤X≤6.5)P(5.5≤X≤6.5). Primero, se calcula la varianza de XX,
σ2X=E(X2)−(E(X))2=E(X2)−5.52σX2=E(X2)−(E(X))2
P(X=6)=∫6638(7−x)2dx=0P(X=6)=∫6638(7−x)2dx=0 =E(X2)−5.52
- Luego, la probabilidad de que el pH del agua tome donde
el valor de 6 es igual a 0. E(X2)=∫∞−∞x2fX(xk)dx=∫75x2∗38(7−x)2dx=30.4E
(X2)=∫−∞∞x2fX(xk)dx=∫57x2∗38(7−x)2dx=30.4
Por lo tanto, la varianza de XX es ## [1] 0.07142857
σ2X=E(X2)−(E(X))2=30.4−5.52=0.15.σX2=E(X2)−(
E(X))2=30.4−5.52=0.15. 6. ¿Cuántos números de tres cifras se pueden
Así, el coeficiente de variación de XX está dado por formar con los dígitos 0, 1, 2, 3, 4, 5 y 6 si
puede haber repeticiones? ¿Cuántos son
CV(X)=100∗σ2X−−−√μX=7.04%CV(X)=100∗σX2μX pares? ¿Cuántos son mayores que 330?
=7.04%

Como el coeficiente de variación de XX es 7.04%, a. Si puede haber


entonces la variabilidad del pH del agua es repeticiones: 6∗72=2946∗72=294 (omitiendo
moderada respecto al valor esperado. los números que inicien con 0).

# recorrido de X
# f.m.p. 6*7^2
f <- function(x) x^2*(3/8)*(7-x)^2
integrate(f, lower = 5, upper = 7) ## [1] 294

## 30.4 with absolute error < 3.4e-13


b. De estos números de tres cifras, son
# valor esperado
EX <- 5.5 pares: 6∗7∗4=168.6∗7∗4=168.
EX
## [1] 5.5 6*7*4

# valor esperado de X^2 ## [1] 168


EX2 <- 30.4
EX2
c. De estos número de tres cifras, son mayores
## [1] 30.4 que
# varianza 330: 1∗1∗6+1∗3∗7+3∗7∗7=174.1∗1∗6+1∗
VAR <- EX2 - EX^2 3∗7+3∗7∗7=174.
VAR
## [1] 0.15 1*1*6 + 1*3*7 + 3*7*7
# coeficiente de variacion ## [1] 174
sqrt(VAR)/EX*100
## [1] 7.041788

## [1] 168

5. Un director de personal tiene ocho candidatos


para cubrir cuatro puestos. De éstos, cinco
son hombres y tres, mujeres. Si, de hecho,
toda combinación de candidatos tiene la
misma probabilidad de ser elegido que
cualquier otra, ¿cuál es la probabilidad de que
ninguna mujer sea contratada?

Aplicando el principio fundamental del conteo junto


con combinaciones, y calculando la probabilidad
desde el punto de vista Laplaceano, se tiene que la
probabilidad pedida es:

(54)∗(30)(84)=7.14%.(54)∗(30)(84)=7.14%.

choose(5,4)/choose(8,4)
por lo tanto, la tasa esperada de accidentes
es λ=−ln(0.0821)=2.499817λ=−ln⁡(0.0821)=2.499
817 por semana.
Así, la probabilidad de que, en una semana
1. Si los niños y las niñas tienen la misma seleccionada al azar, se presenten por lo menos dos
probabilidad de nacer, ¿a qué es igual la accidentes de trabajo es:
probabilidad de que en una familia con
tres hijos, exactamente uno sea niña? P(X≥2)=1−P(X≤1)=1−FX(1)=0.712665.P(X≥2)=1
¿Cuál es el número esperado de niñas −P(X≤1)=1−FX(1)=0.712665.
que tendría una familia con tres hijos?
# lambda
Sea XX la v.a. que representa el número de niñas en lambda <- -log(0.0821)
una familia con tres hijos. Dadas las condiciones de la lambda
variable, se tiene que X∼Bin(n,π)X∼Bin(n,π), ## [1] 2.499817
donde n=3n=3 y π=0.5π=0.5; la probabilidad de # Pr(X >= 2)
éxito es 0.5 dado que los niños y las niñas tienen la 1 - ppois(q = 1, lambda = lambda)
misma probabilidad de nacer.
## [1] 0.712665
a. ¿A qué es igual la probabilidad de que en una
familia con tres hijos, exactamente uno sea 3. Se estima que el porcentaje de adultos entre
niña? 40 y 50 años que tienen hipertensión es del
26%. Si se selecciona una muestra aleatoria
P(X=1)=fX(1)=(31)(0.5)1(0.5)2=0.375P(X de 15 personas con edades entre 40 y 50
=1)=fX(1)=(31)(0.5)1(0.5)2=0.375 años, calcule la probabilidad de que:

dbinom(x = 1, size = 3, prob = 0.5) Sea XX la v.a. que representa el número de personas
de una muestra aleatoria de 15 personas con edades
## [1] 0.375 entre 40 y 50 años que tienen hipertensión. Dado que
la probabilidad de éxito (tener hipertensión) se
mantiene constante (esto puede suceder cuando la
b. ¿Cuál es el número esperado de niñas que
muestra se toma con reemplazo o cuando se toma sin
tendría una familia con tres hijos?
reemplazo cuando n<<Nn<<N, donde NN es el
tamaño de la población), se tiene
E(X)=3∗0.5=1.5E(X)=3∗0.5=1.5
que X∼Bin(n,π)X∼Bin(n,π),
con n=15n=15 y π=0.26π=0.26.
2. Sea XX la variable aleatoria que representa el
número de accidentes de trabajo en una
semana en una fábrica. Si para ella se sabe a. Exactamente 3 tengan hipertensión.
que P(X=0)=0.0821P(X=0)=0.0821, calcule
la probabilidad de que, en una semana P(X=3)=fX(3)=(153)(0.26)3(0.74)12=0.2
seleccionada al azar, se presenten por lo 156314P(X=3)=fX(3)=(153)(0.26)3(0.74)12
menos dos accidentes de trabajo. =0.2156314

En este caso la v.a. XX se puede modelar mediante la b. Tres o más tengan hipertensión.
distribución Poisson con parámetro λλ, dado
que XX da cuenta del número de éxitos (accidentes P(X≥3)=1−P(X≤2)=1−FX(2)=0.789861P(
de trabajos) en una unidad de tiempo bien definida, X≥3)=1−P(X≤2)=1−FX(2)=0.789861
en este caso, por semana. Dado
que P(X=0)=0.0821P(X=0)=0.0821, se tiene que c. Entre 4 y 7, inclusive, tengan hipertensión.
P(X=0)=e−λλ00!=e−λ=0.0821P(X=0)=e−λλ00!=e−λ=
0.0821 P(4≤X≤7)=P(X=4)+…+Pr(X=7)=FX(7)−FX
(3)=0.5523283P(4≤X≤7)=P(X=4)+…+Pr(X
=7)=FX(7)−FX(3)=0.5523283
# a. Pr(X = 3) P(X=4)=fX(4)=(104)(0.305)4(0.695)6=0.
dbinom(x = 3, size = 15, prob = 0.26) 2047988P(X=4)=fX(4)=(104)(0.305)4(0.695
)6=0.2047988
## [1] 0.2156314
# b. Pr(X >= 3) b. Si en la muestra hay cuatro personas a las
1 - pbinom(q = 2, size = 15, prob = 0.26) que el test le da positivo, ¿cuál es la
## [1] 0.789861 probabilidad de que, entre estas, exactamente
dos estén sanas?
# c. Pr(4 <= X <= 7)
pbinom(q = 7, size = 15, prob = 0.26) - pb Sea YY la v.a. que representa el número de
inom(q = 3, size = 15, prob = 0.26) estudiantes de los 4 para los que la prueba da
## [1] 0.5523283
positiva.
Así, Y∼Bin(4,π)Y∼Bin(4,π) donde n=4n=4 y
π=P(EC∣P)=P(EC∩P)P(P)=P(P∣EC)P(EC)P(P)=(0.
4. Un médico aplica un test a 10 alumnos de un 25)(0.9)0.305=0.7377049π=P(EC∣P)=P(EC∩P)P(P)
colegio para detectar una enfermedad cuya =P(P∣EC)P(EC)P(P)=(0.25)(0.9)0.305=0.7377049
incidencia sobre una población de niños es del
10%. La sensibilidad del test es del 80% y la y por lo tanto la probabilidad pedida es
especificidad del 75%. P(Y=2)=(42)(0.7377049)2(0.2622951)2=0.224
6451P(Y=2)=(42)(0.7377049)2(0.2622951)2=0.2246451
Sea EE el evento dado por “el alumno tiene la
enfermedad”; se sabe que la incidencia 5. En una cierta población se ha observado un
correspondiente es 10% y por lo número medio anual de muertes por cáncer
tanto P(E)=0.1P(E)=0.1. De otra parte, sea PP el de pulmón de 12.
evento dado por “la prueba es positiva para la
enfermedad de interés”; dado que la sensibilidad de Sea XX la v.a. que representa el número anual de
la prueba de calidad es del 80% y la especificidad del muertes por cáncer de pulmón. Así, XX se puede
75%, se tiene modelar mediante la distribución Poisson con
que P(P∣E)=0.8P(P∣E)=0.8 (sensibilidad) parámetro λλ, dado que XX da cuenta del número de
y P(PC∣EC)=0.75P(PC∣EC)=0.75 (especificidad). Así, éxitos (muertes) en una unidad de tiempo bien
aplicando el teorema de la probabilidad total, se definida, en este caso, por año. Se tiene
deduce que la probabilidad de dar positivo para la que λ=12λ=12.
prueba es
a. ¿Cuál es la probabilidad de que durante el año
en curso: Haya exactamente 10 muertes por
P(P)=P(P∣E)P(E)+P(P∣EC)P(EC)=(0.8)(0.1)+(0.2 cáncer de pulmón?
5)(0.9)=0.305P(P)=P(P∣E)P(E)+P(P∣EC)P(EC)=(0.8)(0.
1)+(0.25)(0.9)=0.305 P(X=10)=fX(10)=e−12121010!=0.104837
Ahora, sea XX la v.a. que representa el número de 3P(X=10)=fX(10)=e−12121010!=0.1048373
estudiantes de los 10 seleccionados para detectar la
enfermedad. Dado que la probabilidad de éxito (la b. ¿Cuál es la probabilidad de que durante el año
prueba da positiva para la enfermedad) se mantiene en curso: 15 o más personas mueran a causa
de la enfermedad?
constante (esto puede suceder cuando la muestra se
toma con reemplazo o cuando se toma sin
reemplazo cuando n<<Nn<<N, donde NN es el P(X≥15)=1−P(X≤14)=1−FX(14)=0.2279
tamaño del lote), se tiene 755P(X≥15)=1−P(X≤14)=1−FX(14)=0.2279
755
que X∼Bin(n,π)X∼Bin(n,π),
con n=10n=10 y π=0.305π=0.305.
c. ¿Cuál es la probabilidad de que durante el año
a. ¿Cuál es la probabilidad de que exactamente a
en curso: 10 o menos personas mueran a
cuatro estudiantes les dé un resultado
causa de la enfermedad?
positivo?

P(X≤10)=FX(10)=0.3472294P(X≤10)=FX(
10)=0.3472294
# a. P(X = 10) P(7000<X<9000)=FX(9000)−FX(7000)=
dpois(x = 10, lambda = 12) 0.2300692P(7000<X<9000)=FX(9000)−FX(
7000)=0.2300692
## [1] 0.1048373
# b. P(X >= 15) c. Calcular la probabilidad de que, en un día
1- ppois(q = 14, lambda = 12) determinado, una familia: Gaste menos de
## [1] 0.2279755 $5,000 en alimentación.

# c. P(X <= 10)


ppois(q = 10, lambda = 12)
P(X<5000)=FX(5000)=0.2520345P(X<50
00)=FX(5000)=0.2520345
## [1] 0.3472294
d. Calcular la probabilidad de que, en un día
determinado, una familia: Gaste entre $3,000
6. En un sector del país los gastos diarios en
y $4500 en alimentación.
alimentación de las familias están distribuidos
normalmente, y además, se sabe que la
probabilidad de que una familia gaste por lo P(3000<X<4500)=FX(4500)−FX(3000)=
menos $4,080 es de 0.90 y la probabilidad de 0.1356339P(3000<X<4500)=FX(4500)−FX(
que gaste máximo $9,000 es 0.9772. 3000)=0.1356339

Sea XX la v.a. que representa los gastos diarios (en # percentil 10


pesos) en alimentación de las familias en un sector qnorm(p = 0.1)
del país. Se sabe que X∼N(μ,σ2)X∼N(μ,σ2) y
## [1] -1.281552
que P(X≥4080)=0.9P(X≥4080)=0.9 y P(X<9000)=
0.9772P(X<9000)=0.9772. Estandarizando se tienen # percentil 97.72
qnorm(p = 0.9772)
las siguientes ecuaciones:
P(Z≥4080−μσ)=0.9yP(Z<9000−μσ)=0.9772P(Z ## [1] 1.999077
≥4080−μσ)=0.9yP(Z<9000−μσ)=0.9772 # desviacion estandar
sigma <- (9000-4080)/(1.999077+1.281552)
por lo tanto sigma
4080−μσ=−1.281552y9000−μσ=1.9990774080
−μσ=−1.281552y9000−μσ=1.999077 ## [1] 1499.712
# media
Despejando μμ y σσ de este sistema de ecuaciones
mu <- 4080+1.281552*sigma
(por ejemplo, despejando μμ de la primera ec. y mu
luego sustituyendo en la segunda para despejar σσ,
## [1] 6001.959
y en seguida usar este valor de σσ para hallar μμ)
con dos incógnitas se obtiene # a. P(X > 8000)
1-pnorm(q = 8000, mean = mu, sd = sigma)
que μ=6001.959μ=6001.959 y σ=1499.712σ=1499.
712. ## [1] 0.09138369
# b. P(7000 < X < 9000)
a. Calcular la probabilidad de que, en un día pnorm(q = 9000, mean = mu, sd = sigma) - p
determinado, una familia: Gaste más de norm(q = 7000, mean = mu, sd = sigma)
$8,000 en alimentación.
## [1] 0.2300692
P(X>8000)=1−FX(8000)=0.09138369P(X # c. P(X < 5000)
>8000)=1−FX(8000)=0.09138369 pnorm(q = 5000, mean = mu, sd = sigma)
## [1] 0.2520345
b. Calcular la probabilidad de que, en un día
determinado, una familia: Gaste entre $7,000 # d. P(3000 < X < 4500)
pnorm(q = 4500, mean = mu, sd = sigma) - p
y $9000 en alimentación.
norm(q = 3000, mean = mu, sd = sigma)
## [1] 0.1356339
7. Supóngase que se van a utilizar 15 ratas en P(X>50)=1−P(X≤50)=1−FX(50)=0.0502
un estudio de agentes coagulantes de la 0625P(X>50)=1−P(X≤50)=1−FX(50)=0.050
sangre. Como primera experiencia, se 20625
suministró un anticoagulante a 8 de estos
especímenes, pero por inadvertencia se
b. ¿En qué proporción de los días la descarga
pusieron todas sin marcas en el mismo
estará entre 29 y 32 miligramos por litro?
recinto. Se necesitaron 10 ratas para la
segunda fase del estudio y se les tomó al azar
sin reemplazamiento. P(29<X<32)=FX(32)−FX(29)=0.0827090
7P(29<X<32)=FX(32)−FX(29)=0.08270907
a. ¿Cuál es la probabilidad de que de las 10
elegidas 6 tengan la droga y 4 no la tengan? c. ¿Cuál es la descarga máxima que se produce
en el 75% de los días? El percentil 75
Sea XX la v.a. que representa el número de ratas a de XX es 36.44286.
las que se les sumistró el anticoagulante entre las 10 # a. P(X > 50)
seleccionadas para la segunda fase del estudio. Dado 1 - pnorm(q = 50, mean = 27, sd = 14)
que el muestreo se hace sin reemplazo, y por lo tanto
la probabilidad de éxito (la rata se le suministró el ## [1] 0.05020625
anticoagulante) no se mantiene constante, entonces # b. P(29 < X < 32)
se tiene que X∼Hg(n,M,N)X∼Hg(n,M,N), pnorm(q = 32, mean = 27, sd = 14) - pnorm(
donde n=10n=10, M=8M=8 y N=15N=15. Por lo q = 29, mean = 27, sd = 14)
tanto, la probabilidad de que de las 10 ratas 6 tengan ## [1] 0.08270907
la droga y 4 no la tengan es:
# c. percentil 75
P(X=6)=(86)(74)(1510)=0.3263403P(X=6)=(86)(74) qnorm(p = 0.75, mean = 27, sd = 14)
(1510)=0.3263403
## [1] 36.44286
b. ¿Cuál es el número esperado de ratas con el
anticoagulante entre las 10 elegidas?

E(X)=10∗815=5.333333E(X)=10∗815=5.3
33333

# a P(X = 6)
dhyper(x = 6, m = 8, n = 7, k = 10)
## [1] 0.3263403
# b. E(X)
10*8/15
## [1] 5.333333

8. La descarga de sólidos de una mina de fosfato


tiene una distribución normal con descarga
media igual a 27 miligramos por litro y una
desviación estándar de 14 miligramos por
litro.

Sea XX la v.a. que representa la descarga (en


miligramos por litro) de sólidos de una mina de
fosfato. Se sabe que X∼N(μ,σ2)X∼N(μ,σ2),
donde μ=27μ=27 y σ=14σ=14.
a. ¿En qué proporción de los días excederá la
descarga diaria supera los 50 miligramos por
litro?

También podría gustarte