Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Desarrollo de la Actividad
1. Un entusiasta de las caminatas tiene una nueva aplicación para su teléfono inteligente
que resume sus caminatas usando un dispositivo GPS. Veamos la distancia recorrida (en
km) y la altitud máxima (en m) durante las últimas 10 caminatas:
Distancia 12,5 29,9 14,8 18,7 7,6 16,2 16,5 27,4 12,1 17,5
Altitud 342 1245 502 555 398 670 796 912 238 466
a) Calcule la media aritmética y la mediana tanto para la distancia como para la altitud.
d) Calcule el rango intercuartı́lico, la desviación media absoluta y la desviación están dar para ambas
variables. ¿Cuál es su conclusión sobre la variabilidad de los datos?
e) Un metro corresponde a aproximadamente 3.28 pies. ¿Cuál es la altitud promedio cuando se mide
en pies en lugar de metros?
f) Dibuje e interprete el diagrama de caja tanto para la distancia como para la altitud.
CODIGO EN R
# problema 1
distancia <-
c(12.5,29.9,14.8,18.7,7.6,16.2,16.5,27.4,12.1,17.5)
altitud <-
c(342,1245,502,555,398,670,796,912,238,466)
desvi_estan = sqrt(sum((x-
mean(x))^2)/(length(x)-1))desvi_estan
}
datos <-
data.frame(distanci
a)datos
sd(datos$distancia)
datos <-
data.frame(altitu
d)datos
sd(datos$altitud)
# e) ¿Cual es la altitud promedio se mide en pies en lugar de
metros)promedio <- data.frame(altitud)
promedio
mean(promedi
o $ altitud)
#promedio
altitud en pies
mean(promedio$altitud*3.281)
#f)Dibuje e interprete el diagrama de caja tanto para la distancia como
para la altitud#diagrama altitud
boxplot(altit
ud)
#diagrama
de distancia
boxplot(dist
ancia)
Datos del alumno Fecha
Nombres: Cesar Eduardo 28 de noviembre de 2022
Apellidos: Montenegro Sangoquiza
2. El conjunto rankingconstruccion.csv contiene los datos del año 2018 de las empresas
que se dedican al sector de la construcción. La revista Vistazo elabora cada año un
ranking de las empresas por cada sector de la producción al que pertenecen las empresas
y un ranking general. Investigue el uso de la función top n y con la ayuda de esta función
seleccione las primeras 500 empresas de acuerdo a la utilidad, almacene estos resultados
en el un conjunto llamado rank500 construcción y de este conjunto de datos, realice los
siguientes ejercicios:
CODIGO EN R
rank500_construccion <- read.csv("rankingconstruccion.csv",header = T,sep =
";",dec = ",")#Elabore una tabla de frecuencia con las utilidades de las empresas
as.data.frame(table(rank500_construccion$UTILIDAD))
#Medidas de dispersion
range(rank500_construccion$VENTAS)
max(rank500_construccion$VENTAS) -
min(rank500_construccion$VENTAS)
var(rank500_construccion$VENTAS)
#Desviacion estandar, dos formulas
(var(rank500_construccion$VEN
TAS))^0.5
sd(rank500_construccion$VENT
AS)
3. En el ejercicio anterior se elaboró´ el ranking de las empresas del sector construcción, la revista
Vistazo publica además un ranking de las mejores 500 empresas de todos los
seco- torés de acuerdo a su utilidad. Elabore el ranking de las 500 mejores
empresas utilizando los archivos de valores separados por comas (cas)
rankingagricultura, rankingcomercio, rankingconstruccion,
rankinginmobiliaria y rankingmanufactura. El flujo de trabajo reco-
mendado para esta actividad es:
a) Cargar cada conjunto de datos por separado, almacenando cada conjunto en una
variable que usted decida.
b) Unir los conjuntos de datos en un solo conjunto, para esto debe utilizar la función brinda () .
Investigue el uso de esta función y utilícela para formar un ú n ico conjunto de
datos.
c) Con ayuda de la función top n () seleccione las primeras 500 empresas de
acuerdo a la utilidad. Guarde este ranking en un conjunto llamado
ranking2018todos. Con el conjunto ranking2018todos se pide:
d) Calcular las medidas de tendencia central y dispersión por sector de las
utilidad- des.
e) Determinar los deciles de las utilidades para todas las empresas.
f) Determinar los deciles de las utilidades por sector.
g) Elaborar tablas de contingencia relacionando el sector y el tamaño de las en- presas.
h) ¿De qué ciudad son la mayoría de empresas del ranking? Elabore una tabla de frecuencia
de las empresas por ciudad.
i) ¿A quésector productivo pertenecen la mayoría de empresas del ranking?
CODIGO EN R
# Cargar cada conjunto de datos por separado, almacenando cada conjunto en una
variable uedecida
rankingconstruccion1 <- read.csv("rankingconstruccion.csv", header = T, dec = ",",
sep = ";")rankinginmobiliaria <- read.csv("rankinginmobiliaria.csv", header = T,dec
= ",", sep = ";") rankingmanufactura <- read.csv("rankingmanufactura.csv", header =
T, dec = ",", sep = ";") rankingagricultura <- read.csv("rankingagricultura.csv",
Datos del alumno Fecha
Nombres: Cesar Eduardo 28 de noviembre de 2022
Apellidos: Montenegro Sangoquiza
sector_utilidades <-
ranking2018todo %>%
group_by(SECTOR)%>%
summarise(
media =
mean(UTILIDAD),
mediana =
median(UTILIDAD),
varianza=
var(UTILIDAD),
desv_standar= sd
(UTILIDAD)
)
sector_utilidades
#2 Determinar los deciles de las utilidades para todas
las empresas. deciles_utilidadeempresas<-
Datos del alumno Fecha
Nombres: Cesar Eduardo 28 de noviembre de 2022
Apellidos: Montenegro Sangoquiza
summarise(
decil_1 =
quantile(ranking2018todo$UTILIDAD,0.10
), decil_2=
quantile(ranking2018todo$UTILIDAD,0.20
), decil_3 =
quantile(ranking2018todo$UTILIDAD,0.30
), decil_4=
quantile(ranking2018todo$UTILIDAD,0.40
), decil_5 =
quantile(ranking2018todo$UTILIDAD,0.50
), decil_6=
quantile(ranking2018todo$UTILIDAD,0.60
), decil_7=
quantile(ranking2018todo$UTILIDAD,0.70
), decil_8=
quantile(ranking2018todo$VENTAS,0.80),
decil_9=
quantile(ranking2018todo$VENTAS,0.90)
)
deciles_utilidadeempresas
deciles_utilidadesector<-
Datos del alumno Fecha
Nombres: Cesar Eduardo 28 de noviembre de 2022
Apellidos: Montenegro Sangoquiza
ranking2018todo %>%
group_by(SECTOR) %>%
summarise(
decil_1 =
quantile(ranking2018todo$UTILIDAD,0.10
), decil_2=
quantile(ranking2018todo$UTILIDAD,0.20
), decil_3 =
quantile(ranking2018todo$UTILIDAD,0.30
), decil_4=
quantile(ranking2018todo$UTILIDAD,0.40
), decil_5 =
quantile(ranking2018todo$UTILIDAD,0.50
), decil_6=
quantile(ranking2018todo$UTILIDAD,0.60
), decil_7=
quantile(ranking2018todo$UTILIDAD,0.70
), decil_8=
quantile(ranking2018todo$VENTAS,0.80),
decil_9=
quantile(ranking2018todo$VENTAS,0.90)
)
deciles_utilidadesector
sector_tamaño<-
ranking2018todo %>%
group_by(SECTOR, TAMA‘
Datos del alumno Fecha
Nombres: Cesar Eduardo 28 de noviembre de 2022
Apellidos: Montenegro Sangoquiza
tabla_frecuencia <-
ranking2018todo %>%
group_by(CIUDAD) %>%
summarise(Frecuencia = n ())
%>% mutate(
porcentaje = round(100* Frecuencia/ sum(Frecuencia),2)
)
print(tabla_frecuencia)
#6 ¿a que sector productivo pertenecen la mayorıa de empresas
del ranking?sector_productivociudad <- ranking2018todo %>%
group_by(SECTOR_PROD)
sector_productivociudad
minutos, se promete a los clientes una botella de vino gratis (aunque no siempre se
entrega). La temperatura de la pizza debe estar por encima de los 65 ◦ en el
momento de la entrega. El análisis de los datos tiene como objetivo determinar los
factores que influyen en el tiempo de entrega y la temperatura de las pizzas.
CODIGO EN R
pizzadelivery <- read.csv("pizza_delivery.csv" , header = T, sep = ",")
median(pizzadelivery$got_wine)
median(pizzadelivery$discount_customer)
quantile(pizzadelivery$free_wine)
quantile(pizzadelivery$got_wine)
quantile(pizzadelivery$discount_customer)