Está en la página 1de 14

Datos del alumno Fecha

Nombres: Cesar Eduardo 28 de noviembre de 2022


Apellidos: Montenegro Sangoquiza

Desarrollo de la Actividad
1. Un entusiasta de las caminatas tiene una nueva aplicación para su teléfono inteligente
que resume sus caminatas usando un dispositivo GPS. Veamos la distancia recorrida (en
km) y la altitud máxima (en m) durante las últimas 10 caminatas:

Distancia 12,5 29,9 14,8 18,7 7,6 16,2 16,5 27,4 12,1 17,5
Altitud 342 1245 502 555 398 670 796 912 238 466

a) Calcule la media aritmética y la mediana tanto para la distancia como para la altitud.

b) Determine el primer y tercer cuartiles para las variables de distancia y altitud.

c) Analice la forma de la distribución dados los resultados de (a) y (b).

d) Calcule el rango intercuartı́lico, la desviación media absoluta y la desviación están dar para ambas
variables. ¿Cuál es su conclusión sobre la variabilidad de los datos?

e) Un metro corresponde a aproximadamente 3.28 pies. ¿Cuál es la altitud promedio cuando se mide
en pies en lugar de metros?

f) Dibuje e interprete el diagrama de caja tanto para la distancia como para la altitud.

CODIGO EN R
# problema 1
distancia <-
c(12.5,29.9,14.8,18.7,7.6,16.2,16.5,27.4,12.1,17.5)
altitud <-
c(342,1245,502,555,398,670,796,912,238,466)

#la media aritmetica de


la distancia
mean(distancia)
Datos del alumno Fecha
Nombres: Cesar Eduardo 28 de noviembre de 2022
Apellidos: Montenegro Sangoquiza

#la media aritmetica


de la altitud
mean(altitud)
#mediana de
la distancia
median(dista
ncia)
#mediana de
la altitud
median(altitu
d)
#b) Determine el primer y tercer cuartiles para las variables de
distancia y altitud quantile(distancia)
quantile(altitud)
#d) Calcule el rango intercuartilico, la desviacion media absoluta y la desviacion
estandar. IQR(distancia)
IQR(altitud)
#desviacion media absoluta
?mad
mad(dista
ncia)
mad(altit
ud)
#desviaci
on
estandar
desviacion_estandar <- function(x){
Datos del alumno Fecha
Nombres: Cesar Eduardo 28 de noviembre de 2022
Apellidos: Montenegro Sangoquiza

desvi_estan = sqrt(sum((x-
mean(x))^2)/(length(x)-1))desvi_estan
}
datos <-
data.frame(distanci
a)datos
sd(datos$distancia)
datos <-
data.frame(altitu
d)datos
sd(datos$altitud)
# e) ¿Cual es la altitud promedio se mide en pies en lugar de
metros)promedio <- data.frame(altitud)
promedio
mean(promedi
o $ altitud)
#promedio
altitud en pies
mean(promedio$altitud*3.281)
#f)Dibuje e interprete el diagrama de caja tanto para la distancia como
para la altitud#diagrama altitud
boxplot(altit
ud)
#diagrama
de distancia
boxplot(dist
ancia)
Datos del alumno Fecha
Nombres: Cesar Eduardo 28 de noviembre de 2022
Apellidos: Montenegro Sangoquiza

2. El conjunto rankingconstruccion.csv contiene los datos del año 2018 de las empresas
que se dedican al sector de la construcción. La revista Vistazo elabora cada año un
ranking de las empresas por cada sector de la producción al que pertenecen las empresas
y un ranking general. Investigue el uso de la función top n y con la ayuda de esta función
seleccione las primeras 500 empresas de acuerdo a la utilidad, almacene estos resultados
en el un conjunto llamado rank500 construcción y de este conjunto de datos, realice los
siguientes ejercicios:

a) Elabore una tabla de frecuencia con las utilidades de las empresas.


b) Elabore una tabla de frecuencia de las empresas de acuerdo al sector.
c) Elabore una tabla de frecuencia con las ventas de las empresas.
d) Elabore una tabla de contingencia que relacione el tamaño de la empresa con la región a la
que pertenece la empresa.
e) Construya un diagrama de barras de las empresas por tamaño
f) Construya un diagrama de barras de las empresas por tamaño de acuerdo a la región.
g) Determine las medidas de tendencia central y de dispersión de las ventas de acuerdo a la
región, almacene los resultados en una tabla llamada ‘ventas construcción y guarde sus
resultados en una hoja de cálculo.
h) Determine los tres cuartiles de las utilidades de acuerdo al tipo de compañía,
i) Elabore el diagrama de caja de las utilidades
j) Elabore el diagrama de caja de las utilidades de acuerdo al tipo de compañía.

CODIGO EN R
rank500_construccion <- read.csv("rankingconstruccion.csv",header = T,sep =
";",dec = ",")#Elabore una tabla de frecuencia con las utilidades de las empresas
as.data.frame(table(rank500_construccion$UTILIDAD))

#Elabore una tabla de frecuencia de las empresas de acuerdo al sector


as.data.frame(table(rank500_construccion$SECTOR))
Datos del alumno Fecha
Nombres: Cesar Eduardo 28 de noviembre de 2022
Apellidos: Montenegro Sangoquiza

#Elabore una tabla de frecuencia con las ventas de


las empresas.
as.data.frame(table(rank500_construccion$VENTAS
))

# Elabore una tabla de contingencia que relacione el tamaño de la empresa con la


region de laempresa
str(rank500_construccion$TAMAÑ O)
str(rank500_construccion$REGIÓ N)
table(rank500_construccion$TAMAÑ
O,rank500_construccion$REGIÓ N)

#Construya un diagrama de barras de las empresas


por tamaño x <-
table(rank500_construccion$TAMAÑ O)
x
color=c("blue","orange","yellow
","purple")
barplot(x, xlab = "tipo de empresa", ylab = "# empresas",main = "empresas por
tamaño",col =color)

#Construya un diagrama de barras de las empresas por tamaño de acuerdo a


la region. y <- table(rank500_construccion$REGIÓ N)
y
color=c("blue","orange","yellow
","purple")
barplot(y, xlab = "Region", ylab = "# empresas",main = "tamaño empresa por
region",col =color)
Datos del alumno Fecha
Nombres: Cesar Eduardo 28 de noviembre de 2022
Apellidos: Montenegro Sangoquiza

#Determine las medidas de tendencia central y de dispersion de las ventas de


acuerdo a la regi´on, almacene los resultados en una tabla llamada †˜
ventasconstruccion†˜ y guardesus resultados en una hoja de calculo.
#medidas de tendencia central
ventas_construccion <- read.csv("ventasconstruccion.csv",header = T,sep =
";", dec = ",") mean (rank500_construccion$VENTAS)
median(rank500_construccion$VENTAS)
mode(rank500_construccion$VENTAS)

#Medidas de dispersion
range(rank500_construccion$VENTAS)
max(rank500_construccion$VENTAS) -
min(rank500_construccion$VENTAS)
var(rank500_construccion$VENTAS)
#Desviacion estandar, dos formulas
(var(rank500_construccion$VEN
TAS))^0.5
sd(rank500_construccion$VENT
AS)

#Determine los tres cuartiles de las utilidades de acuerdo al tipo de compañia


quantile(rank500_construccion$TIPO)

#Elabore el diagrama de caja de


las utilidades
boxplot(rank500_construccion$U
TILIDAD)

#Elabore el diagrama de caja de las utilidades de acuerdo al tipo de compañia.


Datos del alumno Fecha
Nombres: Cesar Eduardo 28 de noviembre de 2022
Apellidos: Montenegro Sangoquiza

boxplot(rank500_construccion[,1,12 ], xlab="utilidades", ylab ="tipo de


empresa",main = "boxplot utilidades por tipo de empresa")

3. En el ejercicio anterior se elaboró´ el ranking de las empresas del sector construcción, la revista
Vistazo publica además un ranking de las mejores 500 empresas de todos los
seco- torés de acuerdo a su utilidad. Elabore el ranking de las 500 mejores
empresas utilizando los archivos de valores separados por comas (cas)
rankingagricultura, rankingcomercio, rankingconstruccion,
rankinginmobiliaria y rankingmanufactura. El flujo de trabajo reco-
mendado para esta actividad es:

a) Cargar cada conjunto de datos por separado, almacenando cada conjunto en una
variable que usted decida.
b) Unir los conjuntos de datos en un solo conjunto, para esto debe utilizar la función brinda () .
Investigue el uso de esta función y utilícela para formar un ú n ico conjunto de
datos.
c) Con ayuda de la función top n () seleccione las primeras 500 empresas de
acuerdo a la utilidad. Guarde este ranking en un conjunto llamado
ranking2018todos. Con el conjunto ranking2018todos se pide:
d) Calcular las medidas de tendencia central y dispersión por sector de las
utilidad- des.
e) Determinar los deciles de las utilidades para todas las empresas.
f) Determinar los deciles de las utilidades por sector.
g) Elaborar tablas de contingencia relacionando el sector y el tamaño de las en- presas.
h) ¿De qué ciudad son la mayoría de empresas del ranking? Elabore una tabla de frecuencia
de las empresas por ciudad.
i) ¿A quésector productivo pertenecen la mayoría de empresas del ranking?

CODIGO EN R
# Cargar cada conjunto de datos por separado, almacenando cada conjunto en una
variable uedecida
rankingconstruccion1 <- read.csv("rankingconstruccion.csv", header = T, dec = ",",
sep = ";")rankinginmobiliaria <- read.csv("rankinginmobiliaria.csv", header = T,dec
= ",", sep = ";") rankingmanufactura <- read.csv("rankingmanufactura.csv", header =
T, dec = ",", sep = ";") rankingagricultura <- read.csv("rankingagricultura.csv",
Datos del alumno Fecha
Nombres: Cesar Eduardo 28 de noviembre de 2022
Apellidos: Montenegro Sangoquiza

header = T, dec = ",", sep = ";") rankingcomercio <-


read.csv("rankingcomercio.csv", header = T, dec = ",", sep = ";")
#Unir los conjuntos de datos en un solo conjunto, para esto debe utilizar la funcion
unido =
rbind(rankingconstruccion1,rankinginmobiliaria,rankingmanufactura,rankingagricultu
ra, rankingagricultura )
unido
# Unir los conjuntos de datos en un solo conjunto, para esto debe utilizar la
funci´onranking2018todo <- unido %>%
slice_max ( UTILIDAD , n = 500 )
#1 Calcular las medidas de tendencia central y dispersi´on por sector de las utilida des

sector_utilidades <-
ranking2018todo %>%
group_by(SECTOR)%>%
summarise(
media =
mean(UTILIDAD),
mediana =
median(UTILIDAD),
varianza=
var(UTILIDAD),
desv_standar= sd
(UTILIDAD)
)
sector_utilidades
#2 Determinar los deciles de las utilidades para todas
las empresas. deciles_utilidadeempresas<-
Datos del alumno Fecha
Nombres: Cesar Eduardo 28 de noviembre de 2022
Apellidos: Montenegro Sangoquiza

ranking2018todo %>% group_by(SECTOR_PROD)


%>%

summarise(
decil_1 =
quantile(ranking2018todo$UTILIDAD,0.10
), decil_2=
quantile(ranking2018todo$UTILIDAD,0.20
), decil_3 =
quantile(ranking2018todo$UTILIDAD,0.30
), decil_4=
quantile(ranking2018todo$UTILIDAD,0.40
), decil_5 =
quantile(ranking2018todo$UTILIDAD,0.50
), decil_6=
quantile(ranking2018todo$UTILIDAD,0.60
), decil_7=
quantile(ranking2018todo$UTILIDAD,0.70
), decil_8=
quantile(ranking2018todo$VENTAS,0.80),
decil_9=
quantile(ranking2018todo$VENTAS,0.90)
)
deciles_utilidadeempresas

#3 Determinar los deciles de las utilidades por sector.

deciles_utilidadesector<-
Datos del alumno Fecha
Nombres: Cesar Eduardo 28 de noviembre de 2022
Apellidos: Montenegro Sangoquiza

ranking2018todo %>%
group_by(SECTOR) %>%
summarise(
decil_1 =
quantile(ranking2018todo$UTILIDAD,0.10
), decil_2=
quantile(ranking2018todo$UTILIDAD,0.20
), decil_3 =
quantile(ranking2018todo$UTILIDAD,0.30
), decil_4=
quantile(ranking2018todo$UTILIDAD,0.40
), decil_5 =
quantile(ranking2018todo$UTILIDAD,0.50
), decil_6=
quantile(ranking2018todo$UTILIDAD,0.60
), decil_7=
quantile(ranking2018todo$UTILIDAD,0.70
), decil_8=
quantile(ranking2018todo$VENTAS,0.80),
decil_9=
quantile(ranking2018todo$VENTAS,0.90)
)
deciles_utilidadesector

sector_tamaño<-
ranking2018todo %>%
group_by(SECTOR, TAMA‘
Datos del alumno Fecha
Nombres: Cesar Eduardo 28 de noviembre de 2022
Apellidos: Montenegro Sangoquiza

O) %>% summarise(n = n ())


sector_tamaño
#5 ¿De que ciudad son la mayorıa de empresas del ranking? Elabore una tabla de
frecuencia delas empresas por ciudad.

tabla_frecuencia <-
ranking2018todo %>%
group_by(CIUDAD) %>%
summarise(Frecuencia = n ())
%>% mutate(
porcentaje = round(100* Frecuencia/ sum(Frecuencia),2)
)
print(tabla_frecuencia)
#6 ¿a que sector productivo pertenecen la mayorıa de empresas
del ranking?sector_productivociudad <- ranking2018todo %>%
group_by(SECTOR_PROD)

sector_productivociudad

4. Los datos de entrega de pizzas (pizza delivery.csv) son un conjunto de datos


simulados. Los datos se refieren a un restaurante que ofrece pizza a domicilio.
Contiene los pedidos recibidos durante un periodo de un mes: mayo de 2014. Hay
tres sucursales del restaurante. La entrega de pizzas se gestiona de forma
centralizada: un operador recibe una llamada telefónica y reenvía el pedido a la
sucursal más cercana a la dirección del cliente. Uno de los cinco conductores (dos de
los cuales solo trabajan a tiempo parcial los fines de semana) entrega el
pedido. El conjunto de datos captura la cantidad de pizzas ordenadas, asícomo
la factura final, que también puede incluir bebidas, ensaladas y platos de pasta.
El dueño del negocio observo un mayor número de quejas, principalmente
porque las pizzas llegan demasiado tarde y demasiado frías. Para mejorar la
calidad del servicio de su negocio, el propietario quiere medir (i) el tiempo
desde la llamada hasta la entrega y (ii) la temperatura de la pizza a la llegada
(lo que se puede hacer con un dispositivo especial). Idealmente, una pizza
llega dentro de los 30 minutos posteriores a la llamada; si tarda más de 40
Datos del alumno Fecha
Nombres: Cesar Eduardo 28 de noviembre de 2022
Apellidos: Montenegro Sangoquiza

minutos, se promete a los clientes una botella de vino gratis (aunque no siempre se
entrega). La temperatura de la pizza debe estar por encima de los 65 ◦ en el
momento de la entrega. El análisis de los datos tiene como objetivo determinar los
factores que influyen en el tiempo de entrega y la temperatura de las pizzas.

a) Calcule la media, la mediana, el mínimo, el máximo, el primer cuartil y el tercer


cuartil para todas las variables cuantitativas.
b) Determine e interprete el percentil 99 para el tiempo de entrega y la temperatura.
c) Grafique un diagrama de caja para el tiempo de entrega y la temperatura.
d) Construya una tabla de frecuencias para el tiempo de entrega.
e) Construya una tabla de frecuencias para la temperatura.

CODIGO EN R
pizzadelivery <- read.csv("pizza_delivery.csv" , header = T, sep = ",")

#calcular la media de todas las variables


cuantitativas mean(pizzadelivery$time)
mean(pizzadelivery$temperature)
mean(pizzadelivery$bill)
mean(pizzadelivery$pizzas)
mean(pizzadelivery$free_wine)
mean(pizzadelivery$discount_customer)
mean(pizzadelivery$got_wine)

#calcular la mediana de todas las variables


cuantitativas median(pizzadelivery$time)
median(pizzadelivery$temperature)
median(pizzadelivery$bill)
median(pizzadelivery$pizzas)
median(pizzadelivery$free_wine)
Datos del alumno Fecha
Nombres: Cesar Eduardo 28 de noviembre de 2022
Apellidos: Montenegro Sangoquiza

median(pizzadelivery$got_wine)
median(pizzadelivery$discount_customer)

#calcular el minimo de las variables


cuantitativas min(pizzadelivery$time)
min(pizzadelivery$temperature)
min(pizzadelivery$bill)
min(pizzadelivery$pizzas)
min(pizzadelivery$free_wine)
min(pizzadelivery$got_wine)
min(pizzadelivery$discount_customer
)

#calcular el maximo de las variables


cuantitativas max(pizzadelivery$time)
max(pizzadelivery$temperature)
max(pizzadelivery$bill)
max(pizzadelivery$pizzas)
max(pizzadelivery$free_wine)
max(pizzadelivery$got_wine)
max(pizzadelivery$discount_customer
)

#calcular primer y tercer cuartil de todas las variables cuantitativas


quantile(pizzadelivery$time)
quantile(pizzadelivery$temperature)
quantile(pizzadelivery$bill)
quantile(pizzadelivery$pizzas)
Datos del alumno Fecha
Nombres: Cesar Eduardo 28 de noviembre de 2022
Apellidos: Montenegro Sangoquiza

quantile(pizzadelivery$free_wine)
quantile(pizzadelivery$got_wine)
quantile(pizzadelivery$discount_customer)

#3b Determine e interprete el pOrcentil 99 para el tiempo de entrega y la temperatura.


quantile(pizzadelivery$time, 99/100)
quantile(pizzadelivery$temperature, 99/100)

#3c Grafique un diagrama de caja para el tiempo de entrega y la temperatura.


boxplot(pizzadelivery[,3,7], xlab="temperatura", ylab ="tiempo",main = "boxplot entre tiempo
ytemperatura")

#3d Construya una tabla de frecuencias para el


tiempo de entrega.as.data.frame(pizzadelivery$time)

#3e Construya una tabla de frecuencias para la


temperatura
as.data.frame(pizzadelivery$temperature)

También podría gustarte