Cesar Montenegro - Es - U2 - T6

Datos del alumno Fecha
Nombres: Cesar Eduardo 28 de noviembre de 2022

Apellidos: Montenegro Sangoquiza
Desarrollo de la Actividad
1. Un entusiasta de las caminatas tiene una nueva aplicación para su teléfono inteligente
que resume sus caminatas usando un dispositivo GPS. Veamos la distancia recorrida (en
km) y la altitud máxima (en m) durante las últimas 10 caminatas:
Distancia 12,5 29,9 14,8 18,7 7,6 16,2 16,5 27,4 12,1 17,5
Altitud 342 1245 502 555 398 670 796 912 238 466
a) Calcule la media aritmética y la mediana tanto para la distancia como para la altitud.
b) Determine el primer y tercer cuartiles para las variables de distancia y altitud.
c) Analice la forma de la distribución dados los resultados de (a) y (b).
d) Calcule el rango intercuartı́lico, la desviación media absoluta y la desviación están dar para ambas
variables. ¿Cuál es su conclusión sobre la variabilidad de los datos?
e) Un metro corresponde a aproximadamente 3.28 pies. ¿Cuál es la altitud promedio cuando se mide
en pies en lugar de metros?
f) Dibuje e interprete el diagrama de caja tanto para la distancia como para la altitud.
CODIGO EN R
# problema 1
distancia <-
c(12.5,29.9,14.8,18.7,7.6,16.2,16.5,27.4,12.1,17.5)
altitud <-
c(342,1245,502,555,398,670,796,912,238,466)
#la media aritmetica de

la distancia
mean(distancia)
#la media aritmetica

de la altitud
mean(altitud)
#mediana de
la distancia
median(dista
ncia)
#mediana de
la altitud
median(altitu
d)
#b) Determine el primer y tercer cuartiles para las variables de
distancia y altitud quantile(distancia)
quantile(altitud)
#d) Calcule el rango intercuartilico, la desviacion media absoluta y la desviacion
estandar. IQR(distancia)
IQR(altitud)
#desviacion media absoluta
?mad
mad(dista
ncia)
mad(altit
ud)
#desviaci
on
estandar
desviacion_estandar <- function(x){
desvi_estan = sqrt(sum((x-
mean(x))^2)/(length(x)-1))desvi_estan
}
datos <-
data.frame(distanci
a)datos
sd(datos$distancia)
datos <-
data.frame(altitu
d)datos
sd(datos$altitud)
# e) Â¿Cual es la altitud promedio se mide en pies en lugar de
metros)promedio <- data.frame(altitud)
promedio
mean(promedi
o $ altitud)
#promedio
altitud en pies
mean(promedio$altitud*3.281)
#f)Dibuje e interprete el diagrama de caja tanto para la distancia como
para la altitud#diagrama altitud
boxplot(altit
ud)
#diagrama
de distancia
boxplot(dist
ancia)
2. El conjunto rankingconstruccion.csv contiene los datos del año 2018 de las empresas
que se dedican al sector de la construcción. La revista Vistazo elabora cada año un
ranking de las empresas por cada sector de la producción al que pertenecen las empresas
y un ranking general. Investigue el uso de la función top n y con la ayuda de esta función
seleccione las primeras 500 empresas de acuerdo a la utilidad, almacene estos resultados
en el un conjunto llamado rank500 construcción y de este conjunto de datos, realice los
siguientes ejercicios:
a) Elabore una tabla de frecuencia con las utilidades de las empresas.

b) Elabore una tabla de frecuencia de las empresas de acuerdo al sector.
c) Elabore una tabla de frecuencia con las ventas de las empresas.
d) Elabore una tabla de contingencia que relacione el tamaño de la empresa con la región a la
que pertenece la empresa.
e) Construya un diagrama de barras de las empresas por tamaño
f) Construya un diagrama de barras de las empresas por tamaño de acuerdo a la región.
g) Determine las medidas de tendencia central y de dispersión de las ventas de acuerdo a la
región, almacene los resultados en una tabla llamada ‘ventas construcción y guarde sus
resultados en una hoja de cálculo.
h) Determine los tres cuartiles de las utilidades de acuerdo al tipo de compañía,
i) Elabore el diagrama de caja de las utilidades
j) Elabore el diagrama de caja de las utilidades de acuerdo al tipo de compañía.
CODIGO EN R
rank500_construccion <- read.csv("rankingconstruccion.csv",header = T,sep =
";",dec = ",")#Elabore una tabla de frecuencia con las utilidades de las empresas
as.data.frame(table(rank500_construccion$UTILIDAD))
#Elabore una tabla de frecuencia de las empresas de acuerdo al sector

as.data.frame(table(rank500_construccion$SECTOR))
#Elabore una tabla de frecuencia con las ventas de

las empresas.
as.data.frame(table(rank500_construccion$VENTAS
))
# Elabore una tabla de contingencia que relacione el tamaÃ±o de la empresa con la

region de laempresa
str(rank500_construccion$TAMAÃ‘ O)
str(rank500_construccion$REGIÃ“ N)
table(rank500_construccion$TAMAÃ‘
O,rank500_construccion$REGIÃ“ N)
#Construya un diagrama de barras de las empresas

por tamaÃ±o x <-
table(rank500_construccion$TAMAÃ‘ O)
x
color=c("blue","orange","yellow
","purple")
barplot(x, xlab = "tipo de empresa", ylab = "# empresas",main = "empresas por
tamaÃ±o",col =color)
#Construya un diagrama de barras de las empresas por tamaÃ±o de acuerdo a

la region. y <- table(rank500_construccion$REGIÃ“ N)
y
color=c("blue","orange","yellow
","purple")
barplot(y, xlab = "Region", ylab = "# empresas",main = "tamaÃ±o empresa por
region",col =color)
#Determine las medidas de tendencia central y de dispersion de las ventas de

acuerdo a la regiÂón, almacene los resultados en una tabla llamada â€ ˜
ventasconstruccionâ€ ˜ y guardesus resultados en una hoja de calculo.
#medidas de tendencia central
ventas_construccion <- read.csv("ventasconstruccion.csv",header = T,sep =
";", dec = ",") mean (rank500_construccion$VENTAS)
median(rank500_construccion$VENTAS)
mode(rank500_construccion$VENTAS)
#Medidas de dispersion
range(rank500_construccion$VENTAS)
max(rank500_construccion$VENTAS) -
min(rank500_construccion$VENTAS)
var(rank500_construccion$VENTAS)
#Desviacion estandar, dos formulas
(var(rank500_construccion$VEN
TAS))^0.5
sd(rank500_construccion$VENT
AS)
#Determine los tres cuartiles de las utilidades de acuerdo al tipo de compaÃ±ia

quantile(rank500_construccion$TIPO)
#Elabore el diagrama de caja de

las utilidades
boxplot(rank500_construccion$U
TILIDAD)
#Elabore el diagrama de caja de las utilidades de acuerdo al tipo de compaÃ±ia.

boxplot(rank500_construccion[,1,12 ], xlab="utilidades", ylab ="tipo de

empresa",main = "boxplot utilidades por tipo de empresa")
3. En el ejercicio anterior se elaboró´ el ranking de las empresas del sector construcción, la revista
Vistazo publica además un ranking de las mejores 500 empresas de todos los
seco- torés de acuerdo a su utilidad. Elabore el ranking de las 500 mejores
empresas utilizando los archivos de valores separados por comas (cas)
rankingagricultura, rankingcomercio, rankingconstruccion,
rankinginmobiliaria y rankingmanufactura. El flujo de trabajo reco-
mendado para esta actividad es:
a) Cargar cada conjunto de datos por separado, almacenando cada conjunto en una
variable que usted decida.
b) Unir los conjuntos de datos en un solo conjunto, para esto debe utilizar la función brinda () .
Investigue el uso de esta función y utilícela para formar un ú n ico conjunto de
datos.
c) Con ayuda de la función top n () seleccione las primeras 500 empresas de
acuerdo a la utilidad. Guarde este ranking en un conjunto llamado
ranking2018todos. Con el conjunto ranking2018todos se pide:
d) Calcular las medidas de tendencia central y dispersión por sector de las
utilidad- des.
e) Determinar los deciles de las utilidades para todas las empresas.
f) Determinar los deciles de las utilidades por sector.
g) Elaborar tablas de contingencia relacionando el sector y el tamaño de las en- presas.
h) ¿De qué ciudad son la mayoría de empresas del ranking? Elabore una tabla de frecuencia
de las empresas por ciudad.
i) ¿A quésector productivo pertenecen la mayoría de empresas del ranking?
CODIGO EN R
# Cargar cada conjunto de datos por separado, almacenando cada conjunto en una
variable uedecida
rankingconstruccion1 <- read.csv("rankingconstruccion.csv", header = T, dec = ",",
sep = ";")rankinginmobiliaria <- read.csv("rankinginmobiliaria.csv", header = T,dec
= ",", sep = ";") rankingmanufactura <- read.csv("rankingmanufactura.csv", header =
T, dec = ",", sep = ";") rankingagricultura <- read.csv("rankingagricultura.csv",
header = T, dec = ",", sep = ";") rankingcomercio <-

read.csv("rankingcomercio.csv", header = T, dec = ",", sep = ";")
#Unir los conjuntos de datos en un solo conjunto, para esto debe utilizar la funcion
unido =
rbind(rankingconstruccion1,rankinginmobiliaria,rankingmanufactura,rankingagricultu
ra, rankingagricultura )
unido
# Unir los conjuntos de datos en un solo conjunto, para esto debe utilizar la
funciÂónranking2018todo <- unido %>%
slice_max ( UTILIDAD , n = 500 )
#1 Calcular las medidas de tendencia central y dispersiÂón por sector de las utilida des
sector_utilidades <-
ranking2018todo %>%
group_by(SECTOR)%>%
summarise(
media =
mean(UTILIDAD),
mediana =
median(UTILIDAD),
varianza=
var(UTILIDAD),
desv_standar= sd
(UTILIDAD)
)
sector_utilidades
#2 Determinar los deciles de las utilidades para todas
las empresas. deciles_utilidadeempresas<-
ranking2018todo %>% group_by(SECTOR_PROD)

%>%
summarise(
decil_1 =
quantile(ranking2018todo$UTILIDAD,0.10
), decil_2=
), decil_3 =
), decil_4=
), decil_5 =
), decil_6=
), decil_7=
), decil_8=
quantile(ranking2018todo$VENTAS,0.80),
decil_9=
quantile(ranking2018todo$VENTAS,0.90)
)
deciles_utilidadeempresas
#3 Determinar los deciles de las utilidades por sector.
deciles_utilidadesector<-
ranking2018todo %>%
group_by(SECTOR) %>%
summarise(
decil_1 =
), decil_2=
), decil_3 =
), decil_4=
), decil_5 =
), decil_6=
), decil_7=
), decil_8=
quantile(ranking2018todo$VENTAS,0.80),
decil_9=
quantile(ranking2018todo$VENTAS,0.90)
)
deciles_utilidadesector
sector_tamaÃ±o<-
ranking2018todo %>%
group_by(SECTOR, TAMA‘
O) %>% summarise(n = n ())

sector_tamaÃ±o
#5 ¿De que ciudad son la mayorÄ±a de empresas del ranking? Elabore una tabla de
frecuencia delas empresas por ciudad.
tabla_frecuencia <-
ranking2018todo %>%
group_by(CIUDAD) %>%
summarise(Frecuencia = n ())
%>% mutate(
porcentaje = round(100* Frecuencia/ sum(Frecuencia),2)
)
print(tabla_frecuencia)
#6 ¿a que sector productivo pertenecen la mayorÄ±a de empresas
del ranking?sector_productivociudad <- ranking2018todo %>%
group_by(SECTOR_PROD)
sector_productivociudad
4. Los datos de entrega de pizzas (pizza delivery.csv) son un conjunto de datos

simulados. Los datos se refieren a un restaurante que ofrece pizza a domicilio.
Contiene los pedidos recibidos durante un periodo de un mes: mayo de 2014. Hay
tres sucursales del restaurante. La entrega de pizzas se gestiona de forma
centralizada: un operador recibe una llamada telefónica y reenvía el pedido a la
sucursal más cercana a la dirección del cliente. Uno de los cinco conductores (dos de
los cuales solo trabajan a tiempo parcial los fines de semana) entrega el
pedido. El conjunto de datos captura la cantidad de pizzas ordenadas, asícomo
la factura final, que también puede incluir bebidas, ensaladas y platos de pasta.
El dueño del negocio observo un mayor número de quejas, principalmente
porque las pizzas llegan demasiado tarde y demasiado frías. Para mejorar la
calidad del servicio de su negocio, el propietario quiere medir (i) el tiempo
desde la llamada hasta la entrega y (ii) la temperatura de la pizza a la llegada
(lo que se puede hacer con un dispositivo especial). Idealmente, una pizza
llega dentro de los 30 minutos posteriores a la llamada; si tarda más de 40
minutos, se promete a los clientes una botella de vino gratis (aunque no siempre se
entrega). La temperatura de la pizza debe estar por encima de los 65 ◦ en el
momento de la entrega. El análisis de los datos tiene como objetivo determinar los
factores que influyen en el tiempo de entrega y la temperatura de las pizzas.
a) Calcule la media, la mediana, el mínimo, el máximo, el primer cuartil y el tercer

cuartil para todas las variables cuantitativas.
b) Determine e interprete el percentil 99 para el tiempo de entrega y la temperatura.
c) Grafique un diagrama de caja para el tiempo de entrega y la temperatura.
d) Construya una tabla de frecuencias para el tiempo de entrega.
e) Construya una tabla de frecuencias para la temperatura.
CODIGO EN R
pizzadelivery <- read.csv("pizza_delivery.csv" , header = T, sep = ",")
#calcular la media de todas las variables

cuantitativas mean(pizzadelivery$time)
mean(pizzadelivery$temperature)
mean(pizzadelivery$bill)
mean(pizzadelivery$pizzas)
mean(pizzadelivery$free_wine)
mean(pizzadelivery$discount_customer)
mean(pizzadelivery$got_wine)
#calcular la mediana de todas las variables

cuantitativas median(pizzadelivery$time)
median(pizzadelivery$temperature)
median(pizzadelivery$bill)
median(pizzadelivery$pizzas)
median(pizzadelivery$free_wine)
median(pizzadelivery$got_wine)
median(pizzadelivery$discount_customer)
#calcular el minimo de las variables

cuantitativas min(pizzadelivery$time)
min(pizzadelivery$temperature)
min(pizzadelivery$bill)
min(pizzadelivery$pizzas)
min(pizzadelivery$free_wine)
min(pizzadelivery$got_wine)
min(pizzadelivery$discount_customer
)
#calcular el maximo de las variables

cuantitativas max(pizzadelivery$time)
max(pizzadelivery$temperature)
max(pizzadelivery$bill)
max(pizzadelivery$pizzas)
max(pizzadelivery$free_wine)
max(pizzadelivery$got_wine)
max(pizzadelivery$discount_customer
)
#calcular primer y tercer cuartil de todas las variables cuantitativas

quantile(pizzadelivery$time)
quantile(pizzadelivery$temperature)
quantile(pizzadelivery$bill)
quantile(pizzadelivery$pizzas)
quantile(pizzadelivery$free_wine)
quantile(pizzadelivery$got_wine)
quantile(pizzadelivery$discount_customer)
#3b Determine e interprete el pOrcentil 99 para el tiempo de entrega y la temperatura.

quantile(pizzadelivery$time, 99/100)
quantile(pizzadelivery$temperature, 99/100)
#3c Grafique un diagrama de caja para el tiempo de entrega y la temperatura.

boxplot(pizzadelivery[,3,7], xlab="temperatura", ylab ="tiempo",main = "boxplot entre tiempo
ytemperatura")
#3d Construya una tabla de frecuencias para el

tiempo de entrega.as.data.frame(pizzadelivery$time)
#3e Construya una tabla de frecuencias para la

temperatura
as.data.frame(pizzadelivery$temperature)

Cesar Montenegro - Es - U2 - T6

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Cesar Montenegro - Es - U2 - T6

Cargado por

Copyright:

Formatos disponibles

Datos del alumno Fecha

Nombres: Cesar Eduardo 28 de noviembre de 2022

b) Determine el primer y tercer cuartiles para las variables de distancia y altitud.

c) Analice la forma de la distribución dados los resultados de (a) y (b).

#la media aritmetica de

#la media aritmetica

a) Elabore una tabla de frecuencia con las utilidades de las empresas.

#Elabore una tabla de frecuencia de las empresas de acuerdo al sector

#Elabore una tabla de frecuencia con las ventas de

# Elabore una tabla de contingencia que relacione el tamaÃ±o de la empresa con la

#Construya un diagrama de barras de las empresas

#Construya un diagrama de barras de las empresas por tamaÃ±o de acuerdo a

#Determine las medidas de tendencia central y de dispersion de las ventas de

#Determine los tres cuartiles de las utilidades de acuerdo al tipo de compaÃ±ia

#Elabore el diagrama de caja de

#Elabore el diagrama de caja de las utilidades de acuerdo al tipo de compaÃ±ia.

boxplot(rank500_construccion[,1,12 ], xlab="utilidades", ylab ="tipo de

header = T, dec = ",", sep = ";") rankingcomercio <-

ranking2018todo %>% group_by(SECTOR_PROD)

#3 Determinar los deciles de las utilidades por sector.

O) %>% summarise(n = n ())

4. Los datos de entrega de pizzas (pizza delivery.csv) son un conjunto de datos

a) Calcule la media, la mediana, el mínimo, el máximo, el primer cuartil y el tercer

#calcular la media de todas las variables

#calcular la mediana de todas las variables

#calcular el minimo de las variables

#calcular el maximo de las variables

#calcular primer y tercer cuartil de todas las variables cuantitativas

#3b Determine e interprete el pOrcentil 99 para el tiempo de entrega y la temperatura.

#3c Grafique un diagrama de caja para el tiempo de entrega y la temperatura.

#3d Construya una tabla de frecuencias para el

#3e Construya una tabla de frecuencias para la

También podría gustarte