Guaman Kelly Estadistica Tarea6 U2T2

Datos del alumno Fecha
Nombres: KELLY MAITE 10/06/2022
Apellidos: GUAMAN CONDO
U2EST_T2
ESTADÍSTICA
UNIDAD 2: TAREA 2
1. Un entusiasta de las caminatas tiene una nueva aplicación para su teléfono inteligente que resume sus
caminatas usando un dispositivo GPS. Veamos la distancia recorrida (en km) y la altitud máxima (en m) durante
las últimas 10 caminatas:
a) Calcule la media y la mediana
## La media de distancia es: 17.32 y la mediana es: 16.35
## La media de altitud es: 612.4 y la mediana es: 528.5
b) Determine el primer y tercer cuartiles
## El primer y tercer cuartil de distancia son: ## 13.075 18.4
## El primer y tercer cuartil de altitud son:

## 415 764.5
c) Analice la forma de la distribucion
Ya que la distancia tiene una media mayor que la mediana, y que ambas están mas cerca del tercr cuartil, se cree
que la distribucion es asimetrica positiva.
De forma similar, la media es mayor que la mediana pero en este caso están mas cercanas al primer cuartil que al
tercero asi que la distribucion es asimetrica negativa. d) Calcule el rango
## [1] "Los estadisticos para distancia son:"
## [1] 5.325
## [1] "desviacion media absoluta"
## [1] 4.844
## [1] 6.790811
## [1] "Los estadisticos para altitud son:"
1
## [1] 349.5
## [1] "desviacion media absoluta"
## [1] 234.68
## [1] 302.4244
e) Un metro corresponde a 3.28 pies.
mean(altitud*3.28)
## [1] 2008.672
f) Dibuje e interprete
0.4
0.2
0.0
−0.2
−0.4
10 15 20 25 30
distancia
2
0.4
0.2
0.0
−0.2
−0.4
250 500 750 1000 1250
altitud
Se nota la presencia de datos atípicos en la distancia, y que la suposición de asimetrias positiva y negativa se cumplen
en ese orden para las variables ■.
2. El conjunto rankingconstruccion contiene los datos del año 2018 de las empresas que se dedican al sector de
la construcción. La revista Vistazo elabora cada año un ranking de las empresas por cada sector de la
producción al que pertenecen las empresas y un ranking general. Investigue el uso de la función top_n y con
la ayuda de esta función seleccione las primeras 500 empresas de acuerdo a la utilidad, almacene estos
resultados en el un conjunto llamado rank500 construccion y de este conjunto de datos, realice los siguientes
ejercicios:
a) Elabore una tabla de frecuencias con las utiliades de las empresas
rank500_construccion$UTILIDAD %>%
fdt(breaks="Sturges") %>% print()
## Class limits f rf rf(%) cf cf(%)

## [84.15,11849876.5255) 513 0.99 98.84 513 98.84
## [11849876.5255,23699668.9009) 2 0.00 0.39 515 99.23
## [23699668.9009,35549461.2764) 0 0.00 0.00 515 99.23
## [35549461.2764,47399253.6518) 1 0.00 0.19 516 99.42
## [47399253.6518,59249046.0273) 0 0.00 0.00 516 99.42
## [59249046.0273,71098838.4027) 1 0.00 0.19 517 99.61
## [71098838.4027,82948630.7782) 0 0.00 0.00 517 99.61
## [82948630.7782,94798423.1536) 1 0.00 0.19 518 99.81
3
## [94798423.1536,106648215.529) 0 0.00 0.00 518 99.81

## [106648215.529,118498007.905) 0 0.00 0.00 518 99.81
## [118498007.905,130347800.28) 1 0.00 0.19 519 100.00
Dado que el 99.84% de los datos se encuentran entre 84.15 y 11849876.5255, se excluyen los valores que esten fuera
de este intervalo. Las exclusiones sucesivas delimitan 411 valores entre 84 y 100, mientras que 108 valores tienen
valores entre 100 y 11917326. Se produce la trabla de distribución para este subconjunto.
dosapost<-rank500_construccion %>%
filter(UTILIDAD<100) %>% select(UTILIDAD) %>% fdt(breaks="Sturges")
dosapost$UTILIDAD$table %>% kable()
Class limits f rf rf(%) cf cf(%)

[84.15,85.734) 22 0.0537897 5.378973 22 5.378973
[85.734,87.318) 62 0.1515892 15.158924 84 20.537897
[87.318,88.902) 24 0.0586797 5.867971 108 26.405868
[88.902,90.486) 23 0.0562347 5.623472 131 32.029340
[90.486,92.07) 63 0.1540342 15.403423 194 47.432763
[92.07,93.654) 38 0.0929095 9.290954 232 56.723716
[93.654,95.238) 68 0.1662592 16.625917 300 73.349633
[95.238,96.822) 30 0.0733496 7.334963 330 80.684597
[96.822,98.406) 52 0.1271394 12.713936 382 93.398533
[98.406,99.99) 27 0.0660147 6.601467 409 100.000000
b) Elabore una tabla de frecuencias de las empresas de acuerdo al sector
Para los datos seleccionados, todos los resultados en SECTOR son SOCIETARIO.
[0.99,0.9918) 0 0 0 0 0
[0.9918,0.9936) 0 0 0 0 0
[0.9936,0.9955) 0 0 0 0 0
[0.9955,0.9973) 0 0 0 0 0
[0.9973,0.9991) 0 0 0 0 0
[0.9991,1.001) 519 1 100 519 100
[1.001,1.003) 0 0 0 519 100
[1.003,1.005) 0 0 0 519 100
[1.005,1.006) 0 0 0 519 100
[1.006,1.008) 0 0 0 519 100
[1.008,1.01) 0 0 0 519 100
c) Elabore una tabla de frecuencias con las ventas de la empresa
rank500_construccion$VENTAS%>%
fdt(breaks="Sturges") %>% print()
## Class limits f rf rf(%) cf cf(%)

## [-1849557.45,47905864.9491) 517 1 99.61 517 99.61
## [47905864.9491,97661287.3482) 1 0 0.19 518 99.81
## [97661287.3482,147416709.747) 0 0 0.00 518 99.81
4
## [147416709.747,197172132.146) 0 0 0.00 518 99.81

## [197172132.146,246927554.545) 0 0 0.00 518 99.81
## [246927554.545,296682976.945) 0 0 0.00 518 99.81
## [296682976.945,346438399.344) 0 0 0.00 518 99.81
## [346438399.344,396193821.743) 0 0 0.00 518 99.81
## [396193821.743,445949244.142) 0 0 0.00 518 99.81
## [445949244.142,495704666.541) 0 0 0.00 518 99.81
## [495704666.541,545460088.94) 1 0 0.19 519 100.00
De forma similar a la tabla en a), los valores se distribuyen mejor entre -1 y 5 millones, pues 510 de los 519 datos se
encuentran en este intervalo. El valor máximo es superior a los 540 millones.
doscpost<-rank500_construccion %>%
filter(VENTAS>-1e6 & VENTAS<5e6) %>%
select(VENTAS) %>% fdt(breaks="Sturges")
doscpost$VENTAS$table %>% kable()
f rf(%) cf
cf(%)
[-821203.73,-277393.975) 4 0.0078431 0.7843137 4 0.7843137
[-277393.975,266415.78) 429 0.8411765 84.1176471 433 84.9019608
[266415.78,810225.535) 47 0.0921569 9.2156863 480 94.1176471
[810225.535,1354035.29) 13 0.0254902 2.5490196 493 96.6666667
[1354035.29,1897845.045) 3 0.0058824 0.5882353 496 97.2549020
[1897845.045,2441654.8) 5 0.0098039 0.9803922 501 98.2352941
[2441654.8,2985464.555) 2 0.0039216 0.3921569 503
98.6274510
[2985464.555,3529274.31) 2 0.0039216 0.3921569 505
99.0196078
[3529274.31,4073084.065) 3 0.0058824 0.5882353 508
99.6078431
[4073084.065,4616893.82) 2 0.0039216 0.3921569 510
100.000000
0
d) Elabore una tabla de contingencia que relacione el tamaño de la empresa con la región a la que pertenece la
empresa.
tab<-rank500_construccion %>%
filter(REGION!=',') %>%
select(TAMANO,REGION) %>% table() tab<-
cbind(tab, Total=rowSums(tab)) tab<-
rbind(tab, Total=colSums(tab)) kable(tab)
SIERRA , COSTA ORIENTE GALAPAGOS Total
GRANDE 12 0 11 0 0 23
MEDIANA 23 0 24 0 0 47
PEQUENA 80 0 98 13 1 192
MICROEMPRESA 112 0 122 21 1 256
Total 227 0 255 34 2 518
e) Construya un diagrama de barras de las empresas por tamaño
5
rank500_construccion %>% ggplot(aes(x=TAMANO,fill=TAMANO))+

geom_bar()+ ylab("frecuencia")+ scale_fill_brewer()+
xlab('')
200
TAMANO
GRANDE
MEDIANA
PEQUENA
100
MICROEMPRESA
GRANDE MEDIANA PEQUENA MICROEMPRESA
f) Construya un diagrama de barras de las empresas por tamaño de acuerdo a la región.

rank500_construccion %>% filter(REGION!=',') %>% ggplot(aes(x=REGION,fill=REGION))+ geom_bar()+
ylab("frecuencia")+ scale_fill_brewer()+
xlab('')
6
200
REGION
SIERRA
COSTA
ORIENTE
100
GALAPAGOS
SIERRA COSTA ORIENTE GALAPAGOS
g) Determine las medidas de tendencia central y de dispersión de las ventas de acuerdo a la región, almacene los
resultados en una tabla llamada ventasconstruccion y guarde sus resultados en una hoja de cálculo.
ventasconstruccion <- rank500_construccion %>%
group_by(REGION) %>% filter(REGION!=",") %>%
summarize( media=mean(VENTAS),
desvest=sd(VENTAS), varianza=var(VENTAS),
IQR=IQR(VENTAS),
CV=sd(VENTAS)/mean(VENTAS),
Q1=quantile(VENTAS,0.25), Q2=median(VENTAS),
Q3=quantile(VENTAS,0.75) )
#write_excel_csv(ventasconstruccion,'ventasconstruccion.csv')
h) Determine los tres cuartiles de las utilidades de acuerdo al tipo de compañía
rank500_construccion %>%
group_by(TIPO) %>% summarize(
7
Q1=quantile(UTILIDAD,0.25), Q2=median(UTILIDAD),
Q3=quantile(UTILIDAD,0.75)
) %>%
kable()
TIPO Q1 Q2 Q3
ASOCIACION O CONSORCIO 129057228.0 129057228 129057228
ANONIMA 89.0 94 98
SUCURSAL EXTRANJERA 93.5 96 6250085
RESPONSABILIDAD LIMITADA 91.0 95 99
i) Elabore el diagrama de caja de las utilidades
rank500_construccion %>% ggplot()+geom_boxplot(aes(x=UTILIDAD))
0.4
0.2
0.0
−0.2
−0.4
0e+00 5e+07 1e+08
UTILIDAD
Se nota que el primer y tercer cuartil se confunden entre sí por la presencia de varios datos atípicos. Al removerlos,
se obtiene el siguiente diagrama de caja.
rank500_construccion %>% filter(UTILIDAD < 100)
%>%
ggplot()+geom_boxplot(aes(x=UTILIDAD))
8
0.4
0.2
0.0
−0.2
−0.4
88
92
96
UTILIDAD
j) Elabore el diagrama de caja de las utilidades de acuerdo al tipo de compañía.
ggplot(aes(x=UTILIDAD, fill=TIPO))+ geom_boxplot()+facet_wrap(~TIPO)
9
Nuevamente, la presencia de datos atípicos en UTILIDAD debe corregirse.

rank500_construccion %>% filter(UTILIDAD < 100)
%>% ggplot(aes(x=UTILIDAD, fill=TIPO))+
geom_boxplot()+
theme(legend.position = "none")+
facet_wrap(~TIPO)
10
ANONIMA SUCURSAL EXTRANJERA RESPONSABILIDAD LIMITADA

0.4
0.2
0.0
−0.2
−0.4
88 92 96 88 92 96 88 92 96
UTILIDAD
Sin embargo, solo existe un registro clasificado como ASOCIACION O CONSORCIO ■.
filter(TIPO=="ASOCIACION O CONSORCIO") %>% select(EXPEDIENTE,TIPO,UTILIDAD)
%>%
kable()
EXPEDIENTE TIPO UTILIDAD
705267 ASOCIACION O CONSORCIO 129057228

3. En el ejercicio anterior se elaboró el ranking de las empresas del sector construcción, la revista Vistazo publica
además un ranking de las mejores 500 empresas de todos los sectores de acuerdo a su utilidad. Elabore el
ranking de las 500 mejores empresas utilizando los archivos de valores separados por comas (csv)
rankingagricultura, rankingcomercio, rankingconstruccion, rankinginmobiliaria y rankingmanufactura. El flujo
de trabajo recomendado para esta actividad es:
a) Cargar cada conjunto de datos por separado, almacenando cada conjunto en una variable que usted decida.
b) Unir los conjuntos de datos en un solo conjunto, para esto debe utilizar la función rbind(). Investigue el uso de
esta función y utilícela para formar un único conjunto de datos.
c) Con ayuda de la función top_n( ) seleccione las primeras 500 empresas de acuerdo a la utilidad. Guarde este
ranking en un conjunto llamado ranking2018todos. Con el conjunto ranking2018todos se pide:
1) Calcular las medidas de tendencia central y dispersión por sector de las utilidades.
11
ranking2018todos %>%
group_by(SECTOR) %>% summarize(
media=mean(UTILIDAD),
desvest=sd(UTILIDAD),
varianza=var(UTILIDAD),
IQR=IQR(UTILIDAD),
CV=sd(UTILIDAD)/mean(UTILIDAD),
Q1=quantile(UTILIDAD,0.25), Q2=median(UTILIDAD),
Q3=quantile(UTILIDAD,0.75)
) %>%
kable()
SECTOR media desvest varianza IQR CV Q1 Q2 Q3
SOCIETARIO 21950731 74110095 5.492306e+15 6250326 3.376202 271359.5 920653.5 6521686

MERCADO DE 223676944 321210265 1.031760e+17284015299 1.436046 9499520.5 63521397.5 293514819 VALORES
2) Determinar los deciles de las utilidades para todas las empresas.

ranking2018todos %>% summarize(
D1=quantile(UTILIDAD,0.1), D2=quantile(UTILIDAD,0.2),
D7=quantile(UTILIDAD,0.7),
D9=quantile(UTILIDAD,0.9)
) %>%
kable()
D1 D2 D3 D4 D5 D6 D7 D8 D9
135616.3 212374.8 369429.7 573516.6 991303.5 2035662 4903296 17924023 59456721

3) Determinar los deciles de las utilidades por sector.
12
ranking2018todos %>% group_by(SECTOR)

%>%
summarize(
D9=quantile(UTILIDAD,0.9)
) %>%
kable()
SECTOR D1 D2 D3 D4 D5 D6 D7 D8 D9
SOCIETARIO 135462.1 208718.8 363368.9 542351.4 920653.5 1851666 4061290 14884681 45329168
MERCADO 1589967.5 4916635.0 27919638.561305359.063521397.5154011840203646330434996659591363580
DE
VALORES
4) Elaborar tablas de contingencia relacionando el sector y el tamaño de las empresas.
tabt<-ranking2018todos %>%
select(SECTOR,TAMANO) %>% table() tabt<-cbind(tabt,
Total=rowSums(tabt)) tabt<-rbind(tabt, Total=colSums(tabt))
kable(tab)
SIERRA , COSTA ORIENTE GALAPAGOS Total
GRANDE 12 0 11 0 0 23
MEDIANA 23 0 24 0 0 47
PEQUENA 80 0 98 13 1 192
MICROEMPRESA 112 0 122 21 1 256
Total 227 0 255 34 2 518
5) ¿De qué ciudad son la mayoría de empresas del ranking?.
Elabore una tabla de frecuencia de las empresas por ciudad.
rank500_construccion %>% count(CIUDAD)
%>%
mutate(
cfr=100*n/519, cfa=cumsum(n),
cfra=100*cumsum(n)/519) %>% kable()
13
CIUDAD n cfr cfa cfra
QUITO 12 24.08477 125 24.084

5 84 78
GUAYAQUIL 18 34.68208 305 58.766
0 09 86
SAMBORONDON 6 1.15606 311 59.922
94 93
DAULE 1 0.19267 312 60.115
82 61
URCUQUI 1 0.19267 313 60.308
82 29
SANTO DOMINGO DE LOS COLORADOS 1 2.11946 324 62.427
1 05 75
CUENCA 2 4.62427 348 67.052
4 75 02
PINAS 1 0.19267 349 67.244
82 70
ELOY ALFARO (DURAN) 2 0.38535 351 67.630
65 06
LOJA 7 1.34874 358 68.978
76 81
SALINAS 1 0.19267 359 69.171
82 48
RIOBAMBA 9 1.73410 368 70.905
40 59
LOS LOJAS (ENRIQUE BAQUERIZO MORENO) 1 0.19267 369 71.098
82 27
AMBATO 1 1.92678 379 73.025
0 23 05
PORTOVIEJO 1 3.27552 396 76.300
7 99 58
JARAMIJO 1 0.19267 397 76.493
82 26
ESMERALDAS 5 0.96339 402 77.456
11 65
LA LIBERTAD 4 0.77071 406 78.227
29 36
QUEVEDO 2 0.38535 408 78.612
65 72
VILLA LA UNION (CAJABAMBA) 1 0.19267 409 78.805
82 40
MANTA 2 0.38535 411 79.190
65 75
PUERTO FRANCISCO DE ORELLANA (COCA) 3 0.57803 414 79.768
47 79
BABAHOYO 3 0.57803 417 80.346
47 82
14
MACHALA 7 1.34874 424 81.695

76 57
TENA 5 0.96339 429 82.658
11 96
PUERTO AYORA 2 0.38535 431 83.044
65 32
VENTANAS 1 0.19267 432 83.236
82 99
LATACUNGA 8 1.54142 440 84.778
58 42
CAYAMBE 2 0.38535 442 85.163
65 78
EL PANGUI 1 0.19267 443 85.356
82 45
NUEVA LOJA 5 0.96339 448 86.319
11 85
PUYO 1 0.19267 449 86.512
82 52
MONTECRISTI 2 0.38535 451 86.897
65 88
SAN JACINTO DE YAGUACHI 1 0.19267 452 87.090
82 56
PABLO SEXTO 1 0.19267 453 87.283
82 24
PAQUISHA 1 0.19267 454 87.475
82 92
LORETO 2 0.38535 456 87.861
65 27
MILAGRO 2 0.38535 458 88.246
65 63
CALDERON (CARAPUNGO) 1 0.19267 459 88.439
82 31
LA JOYA DE LOS SACHAS 3 0.57803 462 89.017
47 34
ALFREDO BAQUERIZO MORENO (JUJAN) 1 0.19267 463 89.210
82 02
SARAGURO 4 0.77071 467 89.980
29 73
PASAJE 3 0.57803 470 90.558
47 77
AZOGUES 1 0.19267 471 90.751
82 45
MONTALVO 1 0.19267 472 90.944
82 12
SANTA ELENA 3 0.57803 475 91.522
47 16
CIUDAD n cfr cf cfra
a
15
SAN FRANCISCO DE CHINIMBIMI 1 0.192678 47 91.714

2 6 84
MOCACHE 1 0.192678 47 91.907
2 7 51
TAISHA 1 0.192678 47 92.100
2 8 19
SANGOLQUI 2 0.385356 48 92.485
5 0 55
TUMBACO 1 0.192678 48 92.678
2 1 23
TARAPOA 1 0.192678 48 92.870
2 2 91
VINCES 1 0.192678 48 93.063
2 3 58
SHUSHUFINDI 4 0.770712 48 93.834
9 7 30
MACARA 1 0.192678 48 94.026
2 8 97
BANOS DE AGUA SANTA 1 0.192678 48 94.219
2 9 65
ZAPOTILLO 1 0.192678 49 94.412
2 0 33
CATAMAYO (LA TOMA) 1 0.192678 49 94.605
2 1 01
CUMBAYA 3 0.578034 49 95.183
7 4 04
GUALE 1 0.192678 49 95.375
2 5 72
VALENCIA 1 0.192678 49 95.568
2 6 40
SANTIAGO DE MENDEZ 1 0.192678 49 95.761
2 7 08
TOSAGUA 2 0.385356 49 96.146
5 9 44
CATACOCHA 1 0.192678 50 96.339
2 0 11
AMALUZA 1 0.192678 50 96.531
2 1 79
ECHEANDIA 1 0.192678 50 96.724
2 2 47
EL PAN 1 0.192678 50 96.917
2 3 15
GONZANAMA 1 0.192678 50 97.109
2 4 83
SANTIAGO 1 0.192678 50 97.302
2 5 50
SIGCHOS 2 0.385356 50 97.687
5 7 86
16
BAHIA DE CARAQUEZ 1 0.192678 50 97.880

2 8 54
CANAR 1 0.192678 50 98.073
2 9 22
LA TRONCAL 3 0.578034 51 98.651
7 2 25
TUTUPALI 1 0.192678 51 98.843
2 3 93
SOZORANGA 1 0.192678 51 99.036
2 4 61
PICHINCHA 1 0.192678 51 99.229
2 5 29
SIGSIG 1 0.192678 51 99.421
2 6 97
BIBLIAN 1 0.192678 51 99.614
2 7 64
GENERAL LEONIDAS PLAZA GUTIERREZ (LIMON) 1 0.192678 51 99.807
2 8 32
PALORA (METZERA) 1 0.192678 51 100.000
2 9 00
La mayoria de las empresas están en GUAYAQUIL. 6) ¿A qué sector productivo pertenecen la mayoría de empresas
del ranking?
count(SECTOR)
## # A tibble: 1 x 2
## SECTOR n
## <fct> <int>
## 1 SOCIETARIO 519
Todos los 519 datos pertenecen al sector SOCIETARIO.

4. Los datos de entrega de pizzas (pizza delivery.csv) son un conjunto de datos simulados. Los datos se refieren a
un restaurante que ofrece pizza a domicilio. Contiene los pedidos recibidos durante un período de un mes:
mayo de 2014. Hay tres sucursales del restaurante. La entrega de pizzas se gestiona de forma centralizada: un
operador recibe una llamada telefónica y reenvía el pedido a la sucursal más cercana a la dirección del cliente.
Uno de los cinco conductores (dos de los cuales solo trabajan a tiempo parcial los fines de semana) entrega el
pedido. El conjunto de datos captura la cantidad de pizzas ordenadas, así como la factura final, que también
puede incluir bebidas, ensaladas y platos de pasta. El dueño del negocio observó un mayor número de quejas,
principalmente porque las pizzas llegan demasiado tarde y demasiado frias. Para mejorar la calidad del servicio
de su negocio, el propietario quiere medir:
i) el tiempo desde la llamada hasta la entrega y

ii) la temperatura de la pizza a la llegada (lo que se puede hacer con un dispositivo especial).
Idealmente, una pizza llega dentro de los 30 minutos posteriores a la llamada; si tarda más de 40 minutos, se promete
a los clientes una botella de vino gratis (aunque no siempre se entrega). La temperatura de la pizza debe estar por
encima de los 65 oC en el momento de la entrega. El análisis de los datos tiene como objetivo determinar los factores
que influyen en el tiempo de entrega y la temperatura de las pizzas.
17
a) Calcule la media, la mediana, el mínimo, el máximo, el primer cuartil y el tercer cuartil para todas las variables
cuantitativas.
ptime<- pizza %>% summarize(
media=mean(time),
mediana=median(time),
min=min(time),
max=max(time),
Q1=quantile(time,0.25),
Q3=quantile(time,0.75)
) ptemperature<- pizza %>%
summarize( media=mean(temperature),
mediana=median(temperature),
min=min(temperature),
max=max(temperature),
Q1=quantile(temperature,0.25),
Q3=quantile(temperature,0.75)
) pbill<- pizza %>%
summarize( media=mean(bill),
mediana=median(bill),
min=min(bill), max=max(bill),
Q1=quantile(bill,0.25),
Q3=quantile(bill,0.75)
) ppizzas<-pizza %>%
summarize( media=mean(pizzas),
mediana=median(pizzas),
min=min(pizzas),
18
max=max(pizzas),
Q1=quantile(pizzas,0.25),
Q3=quantile(pizzas,0.75)
) pfwine <-pizza %>% summarize(
media=mean(free_wine),
mediana=median(free_wine),
min=min(free_wine),
max=max(free_wine),
Q1=quantile(free_wine,0.25),
Q3=quantile(free_wine,0.75)
) pgwine <-pizza %>% summarize(
media=mean(got_wine),
mediana=median(got_wine),
min=min(got_wine),
max=max(got_wine),
Q1=quantile(got_wine,0.25),
Q3=quantile(got_wine,0.75)
) pdc <-pizza %>% summarize(
media=mean(discount_customer),
mediana=median(discount_customer),
min=min(discount_customer),
max=max(discount_customer),
Q1=quantile(discount_customer,0.25),
Q3=quantile(discount_customer,0.75)
) resumen<-rbind(ptime,ptemperature,pbill,ppizzas,pfwine,pgwine,pdc)
resumen<-cbind(colnames(pizza[,c(3,7:12)]),resumen)
kable(resumen)
colnames(pizza[, c(3, 7:12)]) media mediana min max Q1 Q3

time 34.2295515 34.38196 12.26603 53.09626 30.06115 38.57702
temperature 62.8639498 62.92666 41.75872 87.58242 58.24236 67.22863
bill 42.7559242 42.90000 9.10000 75.00000 35.50000 50.50000
pizzas 3.0134281 3.00000 1.00000 11.00000 2.00000 4.00000
free_wine 0.1808847 0.00000 0.00000 1.00000 0.00000 0.00000
got_wine 0.1484992 0.00000 0.00000 1.00000 0.00000 0.00000
discount_customer 0.2180095 0.00000 0.00000 1.00000 0.00000 0.00000
b) Determine e interprete el percentil 99 para el tiempo de entrega y la temperatura.
pizza %>% summarize(
P99time=quantile(time,0.99),
P99temperature=quantile(temperature,0.99)
) %>%
kable()
P99time P99temperature
19
48.61677 79.87
Ambos datos representan el número del que, una vez ordenados de forma creciente, se pueden obtener el 99 de los
datos.
c) Grafique un diagrama de caja para el tiempo de entrega y la temperatura.
pizza %>% ggplot()+geom_boxplot(aes(x=time))
0.4
0.2
0.0
−0.2
−0.4
20 30 40 50
time
pizza %>% ggplot()+geom_boxplot(aes(x=temperature))
20
0.4
0.2
0.0
−0.2
−0.4
40 50 60 70 80
temperature
d) Construya una tabla de frecuencias para el tiempo de entrega.
cuatrod<- pizza %>%

select(time) %>% fdt(breaks="Sturges")
cuatrod$time$table %>% kable()

[12.143,15.6) 5 0.0039494 0.3949447 5 0.3949447
[15.6,19.057) 12 0.0094787 0.9478673 17 1.3428120
[19.057,22.514) 33 0.0260664 2.6066351 50 3.9494471
[22.514,25.971) 81 0.0639810 6.3981043 131 10.3475513
[25.971,29.428) 147 0.1161137 11.6113744 278 21.9589258
[29.428,32.885) 241 0.1903633 19.0363349 519 40.9952607
[32.885,36.342) 270 0.2132701 21.3270142 789 62.3222749
[36.342,39.799) 236 0.1864139 18.6413902 1025 80.9636651
[39.799,43.256) 140 0.1105845 11.0584518 1165 92.0221169
[43.256,46.713) 69 0.0545024 5.4502370 1234 97.4723539
[46.713,50.17) 26 0.0205371 2.0537125 1260 99.5260664
[50.17,53.627) 6 0.0047393 0.4739336 1266 100.0000000
e) Construya una tabla de frecuencias para la temperatura cuatrod<- pizza %>% select(temperature) %>%
fdt(breaks="Sturges")
21
cuatrod$temperature$table %>% kable()

[41.341,45.268) 3 0.0023697 0.2369668 3 0.2369668
[45.268,49.194) 23 0.0181675 1.8167457 26 2.0537125
[49.194,53.12) 85 0.0671406 6.7140600 111 8.7677725
[53.12,57.047) 140 0.1105845 11.0584518 251 19.8262243
[57.047,60.973) 245 0.1935229 19.3522907 496 39.1785150
[60.973,64.9) 290 0.2290679 22.9067930 786 62.0853081
[64.9,68.826) 246 0.1943128 19.4312796 1032 81.5165877
[68.826,72.753) 134 0.1058452 10.5845182 1166 92.1011058
[72.753,76.679) 67 0.0529226 5.2922591 1233 97.3933649
[76.679,80.605) 26 0.0205371 2.0537125 1259 99.4470774
[80.605,84.532) 3 0.0023697 0.2369668 1262 99.6840442
[84.532,88.458) 4 0.0031596 0.3159558 1266 100.0000000
Y con esto, se concluye la tarea ■.
22

Guaman Kelly Estadistica Tarea6 U2T2

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Guaman Kelly Estadistica Tarea6 U2T2

Cargado por

Copyright:

Formatos disponibles

Datos del alumno Fecha

Nombres: KELLY MAITE 10/06/2022

Apellidos: GUAMAN CONDO

a) Calcule la media y la mediana

## La media de distancia es: 17.32 y la mediana es: 16.35

## La media de altitud es: 612.4 y la mediana es: 528.5

b) Determine el primer y tercer cuartiles

## El primer y tercer cuartil de distancia son: ## 13.075 18.4

## El primer y tercer cuartil de altitud son:

c) Analice la forma de la distribucion

## [1] "Los estadisticos para distancia son:"

## [1] "desviacion media absoluta"

Nombres: KELLY MAITE 10/06/2022

Apellidos: GUAMAN CONDO

## [1] "desviacion media absoluta"

e) Un metro corresponde a 3.28 pies.

Nombres: KELLY MAITE 10/06/2022

Apellidos: GUAMAN CONDO

a) Elabore una tabla de frecuencias con las utiliades de las empresas

## Class limits f rf rf(%) cf cf(%)

Nombres: KELLY MAITE 10/06/2022

Apellidos: GUAMAN CONDO

## [94798423.1536,106648215.529) 0 0.00 0.00 518 99.81

Class limits f rf rf(%) cf cf(%)

## Class limits f rf rf(%) cf cf(%)

Nombres: KELLY MAITE 10/06/2022

Apellidos: GUAMAN CONDO

## [147416709.747,197172132.146) 0 0 0.00 518 99.81

SIERRA , COSTA ORIENTE GALAPAGOS Total

Nombres: KELLY MAITE 10/06/2022

Apellidos: GUAMAN CONDO

rank500_construccion %>% ggplot(aes(x=TAMANO,fill=TAMANO))+

GRANDE MEDIANA PEQUENA MICROEMPRESA

f) Construya un diagrama de barras de las empresas por tamaño de acuerdo a la región.

Nombres: KELLY MAITE 10/06/2022

Apellidos: GUAMAN CONDO

SIERRA COSTA ORIENTE GALAPAGOS

h) Determine los tres cuartiles de las utilidades de acuerdo al tipo de compañía

Nombres: KELLY MAITE 10/06/2022

Apellidos: GUAMAN CONDO

rank500_construccion %>% ggplot()+geom_boxplot(aes(x=UTILIDAD))

Nombres: KELLY MAITE 10/06/2022

Apellidos: GUAMAN CONDO

j) Elabore el diagrama de caja de las utilidades de acuerdo al tipo de compañía.

Nombres: KELLY MAITE 10/06/2022

Apellidos: GUAMAN CONDO

Nuevamente, la presencia de datos atípicos en UTILIDAD debe corregirse.

Nombres: KELLY MAITE 10/06/2022

Apellidos: GUAMAN CONDO

ANONIMA SUCURSAL EXTRANJERA RESPONSABILIDAD LIMITADA

Sin embargo, solo existe un registro clasificado como ASOCIACION O CONSORCIO ■.

EXPEDIENTE TIPO UTILIDAD

705267 ASOCIACION O CONSORCIO 129057228

Nombres: KELLY MAITE 10/06/2022

Apellidos: GUAMAN CONDO

SECTOR media desvest varianza IQR CV Q1 Q2 Q3

SOCIETARIO 21950731 74110095 5.492306e+15 6250326 3.376202 271359.5 920653.5 6521686

2) Determinar los deciles de las utilidades para todas las empresas.

135616.3 212374.8 369429.7 573516.6 991303.5 2035662 4903296 17924023 59456721

Nombres: KELLY MAITE 10/06/2022

Apellidos: GUAMAN CONDO

ranking2018todos %>% group_by(SECTOR)