Está en la página 1de 18

Dilan Carlos Carrillo Torres

ESTADISTICA UNIDAD
2: TAREA 6

1. Un entusiasta de las caminatas tiene una nueva aplicación para su teléfono inteligente que
resume sus caminatas usando un dispositivo GPS. Veamos la distancia recorrida (en km)
y la altitud máxima (en m) durante las últimas 10 caminatas.

Distancia 12,5 29,9 14,8 18,7 7,6 16,2 16,5 27,4 12,1 17,5
Altitud 342 1245 502 555 398 670 796 912 238 466

a) Calcule la media aritmética y la mediana tanto para la distancia como para la altitud.

Distancia 7.6 12.1 12.5 14.8 16.2 16.5 17.5 18.7 27.4 29.9
Altitud 238 342 398 466 502 555 670 796 912 1245

Distancia

Mediana = 16.2+16.5 = 32.7/2 = 16.35

Media = 173.20/10 = 17.32

Altitud

Mediana = 502+555=1.057 = 528.5

Media = 6.124 / 10 = 612.40

3
b) Determine el primer y tercer cuartiles para las variables de distancia y altitud.

Distancia

Q1 Q2 Q3
12.5 16.35 18.7

Altitud
Q1 Q2 Q3
398 528.5 796

c) Analice la forma de la distribución dados los resultados de (a) y (b).

La distancia cuenta con datos cuyo promedio es de 17.32 y una mediana de 16.35 mientras en la altitud
podemos decir que el valor promedio se ubica en 612.40 y la mediana 528.50, de los cuartiles
determinados concluimos que en la distancia el 25% de los datos son iguales o inferiores a 12.5, el 50%
iguales o inferiores a 16.35% y el 75% iguales o inferiores a 18.70. En lo que se refiere a la altitud el
25% igual o inferior a 398, el 50% igual o inferior a 528.5, el 75% igual o inferior a 796 y el 25% restante
es superior a 796.

d) Calcule el rango intercuartílico, la desviación media absoluta y la desviación estándar


para ambas variables. ¿Cuál es su conclusión sobre la variabilidad de los datos?

Variable distancia Variable altitud


RIQ RIQ
18.70-12.5 = 6.20 796-398 = 398
Desviación media absoluta Desviación media absoluta
4.844 234.68
Desviación Estándar Desviación estándar
6.7908 302.424

De los datos expuestos nos muestran que tan dispersos se encuentran los datos unos de otros, por
lo cual podemos decir que la distancia no presenta mayor dispersión sin embargo en la altitud existe
mayor dispersión de los datos entre sí.

4
e) Un metro corresponde aproximadamente 3.28 pies. ¿Cuál la altitud promedio
cuando se mide en pies en lugar de metros?

Altitud 780.64 1121.76 1305.44 1528.48 1646.56 1820.4 2197.6 2610.88 2991.36 4083.6

Media = 2008.67

f ) Dibuje e interprete el diagrama de caja tanto para la distancia como para la altitud.
Distancia

Mínimo Q1 Q2 Q3 Máximo
7.6 12.5 16.35 18.7 27.4

IQR=Q3-Q1

IQR= 18.70-12.5
IQR = 6.2

LS= 18.70 + 1.5 X 6.20


LS = 9.3
LS = 28

LI = 12.50 -1.5X6.20
LI = 12.50 -1.5X6.20
LI = 3.2

Caja y Bigotes Distancia

0 5 10 15 20 25 30

5
Altitud

Mínimo Q1 Q2 Q3 Máximo
238 398 528.5 796 1245

IQR=Q3-Q1

IQR= 796-398
IQR = 398

LS= 796 + 1.5 X 398


LS = 597
LS = 1393

LI = 398 -1.5X398
LI = 398 -1.5X398
LI = -199

Caja y Bigotes Altitud

0 200 400 600 800 1000 1200 1400

2. El conjunto rankingconstruccion.csv contiene los datos del año 2018 de las empresas que
se dedican al sector de la construcción. La revista Vistazo elabora cada año un ranking
de las empresas por cada sector de la producción al que pertenecen las empresas y un
ranking general. Investigue el uso de la función top n y con la ayuda de esta función
seleccione las primeras 500 empresas de acuerdo a la utilidad, almacene estos resultados
en el un conjunto llamado rank500 construccion y de este conjunto de datos, realice los
siguientes ejercicios:

a) Elabore una tabla de frecuencia con las utilidades de las empresas

6
Cálculo de intervalos

Número de datos 500

Valor máximo (Xmax) 129,057,228.00

Valor mínimo (Xmin) 23,471.32

Rango (R) 129,033,756.68

Número de intervalos (k) 10 9.97

Amplitud (A) 13,900,000.00 12,903,375.67

Límite
Límite inferior superior Marca de clase fi hi Fi Hi
- 13,000,000.00
6,500,000.00 496 0.992 496 0.992
13,000,001.00 26,000,001.00 19,500,001.00 2 0.004 498 0.996
26,000,002.00 39,000,002.00 32,500,002.00 0 0 498 0.996
39,000,003.00 52,000,003.00 45,500,003.00 0 0 498 0.996
52,000,004.00 65,000,004.00 58,500,004.00 0 0 498 0.996
65,000,005.00 78,000,005.00 71,500,005.00 1 0.002 499 0.998
78,000,006.00 91,000,006.00 84,500,006.00 0 0 499 0.998
91,000,007.00 104,000,007.00 97,500,007.00 0 0 499 0.998
104,000,008.00 117,000,008.00 110,500,008.00 0 0 499 0.998
117,000,009.00 130,000,009.00 123,500,009.00 1 0.002 500 1
Total 500 1

b) Elabore una tabla de frecuencia de las empresas de acuerdo al sector.

Clase fi hi Fi Hi
Mercado de
Valores
7 0.014 7 0.014
Societario 493 0.986 500 1
Total 500 1

7
c) Elabore una tabla de frecuencia con las ventas de las empresas.

Cálculo de intervalos

Número de datos 500

Valor máximo (Xmax) 540,059,494.00

Valor mínimo (Xmin) -

Rango (R) 540,059,494.00

Número de intervalos (k) 10 9.97

Amplitud (A) 54,006,000.00 54,005,949.40


Límite
Límite inferior superior Marca de clase fi hi Fi Hi
- 54,006,000.00
27,003,000.00 492 0.984 492 0.984
54,006,001.00 108,012,001.00
81,009,001.00 6 0.012 498 0.996
108,012,002.00 162,018,002.00 135,015,002.00 0 0 498 0.996
162,018,003.00 216,024,003.00 189,021,003.00 0 0 498 0.996
216,024,004.00 270,030,004.00 243,027,004.00 1 0.002 499 0.998
270,030,005.00 324,036,005.00 297,033,005.00 0 0 499 0.998
324,036,006.00 378,042,006.00 351,039,006.00 0 0 499 0.998
378,042,007.00 432,048,007.00 405,045,007.00 0 0 499 0.998
432,048,008.00 486,054,008.00 459,051,008.00 0 0 499 0.998
486,054,009.00 540,060,009.00 513,057,009.00 1 0.002 500 1
Total 500 1

d) Elabore una tabla de contingencia que relacione el tamaño de la empresa con


la región a la que pertenece la empresa.

Tamaño de la empresa: grande, mediana, microempresa, pequeña


Región: Sierra, Costa, Oriente, Galápagos

8
Cuenta de TAMAÑO Etiquetas de columna
Total
Etiquetas de fila GRANDE MEDIANA MICROEMPRESA PEQUEÑA general
COSTA 40 97 6 103 246
GALAPAGOS 2 2
ORIENTE 1 12 13
SIERRA 45 93 2 99 239
Total general 85 191 8 216 500

e) Construya un diagrama de barras de las empresas por tamaño

Empresas por Tamaño


250

200 216
191
150

100

85
50
8
0
GRANDE MEDIANA MICROEMPRESA PEQUEÑA

f ) Construya un diagrama de barras de las empresas por tamaño de acuerdo a la región.

Empresas por Tamaño y Región


120
100
80
GRANDE
60
MEDIANA
40
MICROEMPRESA
20
PEQUEÑA
0

9
g) Determine las medidas de tendencia central y de dispersión de las ventas de acuerdo
a la región, almacene los resultados en una tabla llamada ‘ventas construccion‘
y guarde sus resultados en una hoja de cálculo.

Costa Sierra Galápagos Oriente


Ventas Columna1 Total General
Límite Inferior Límite Superior
0 54,006,000.00 244 233 2 13 492
54,006,001.00 108,012,001.00 2 4 6
108,012,002.00 162,018,002.00 0
162,018,003.00 216,024,003.00 0
216,024,004.00 270,030,004.00 1 1
270,030,005.00 324,036,005.00 0
324,036,006.00 378,042,006.00 0
378,042,007.00 432,048,007.00 0
432,048,008.00 486,054,008.00 0
486,054,009.00 540,060,009.00 1 1
TOTAL 246 239 2 13 500

Ventas Generadas

Ventas Marca de clase fi Hi Fi Hi


Límite Inferior Límite Superior
0 54,006,000.00 27,003,000.00 492 0.984 492 0.984
54,006,001.00 108,012,001.00 81,009,001.00 6 0.012 498 0.996
108,012,002.00 162,018,002.00 135,015,002.00 0 0 498 0.996
162,018,003.00 216,024,003.00 189,021,003.00 0 0 498 0.996
216,024,004.00 270,030,004.00 243,027,004.00 1 0.002 499 0.998
270,030,005.00 324,036,005.00 297,033,005.00 0 0 499 0.998
324,036,006.00 378,042,006.00 351,039,006.00 0 0 499 0.998
378,042,007.00 432,048,007.00 405,045,007.00 0 0 499 0.998
432,048,008.00 486,054,008.00 459,051,008.00 0 0 499 0.998
486,054,009.00 540,060,009.00 513,057,009.00 1 0.002 500 1
TOTAL 500 1

10
Costa

MEDIA 3,403,142.41

MEDIANA 1,078,182.53

MODA -

RANGO 86,200,565.83
VARIANZA 66,069,253,130,983.50

DESVIACION 8,144,871.00

Sierra

MEDIA 7,106,743.86

MEDIANA 1,097,637.93

MODA -

RANGO 540,055,203.08
VARIANZA 1,556,980,098,510,470.00

DESVIACION 39,541,396.43

Oriente

MEDIA 504,234.24

MEDIANA 322,531.52
MODA #N/A

RANGO 2,697,054.58
VARIANZA 462,561,062,428.50

DESVIACION 707,889.69

11
Galápagos
MEDIA 390,445.87
MEDIANA 390,445.87
MODA -

RANGO 38,796.75
VARIANZA 376,296,952.64

DESVIACION 27,433.45

h) Determine los tres cuartiles de las utilidades de acuerdo al tipo de compañı́a,

Q1 Q2 Q3
35.832,93 58.652,82 149.498,69

Qn = K.n/4
Q1= 1(500) /4
Q1=125 posición que ubica a 35.832,93
Q2 = Media = 58.652,82
Q3 = 3(500) /4 = 1500/4 = 375 posición que ubica a 149.498,69

Tipo: Sociedad Anónima

Q1 Q2 Q3
37.654,85 60.137,90 152.706,65

Tipo: Consorcio
Q1 Q2 Q3
145,261.79 1,604,638.56 129,057,228.00

Tipo: Economía Mixta


Solamente existe 1 empresa

Responsabilidad Limitada

Q1 Q2 Q3
31.920,43 46.837,85 108.587,11

12
Sucursal Extranjera
Q1 Q2 Q3
147,720.58 214,748.78 539,223.86

i) Elabore el diagrama de caja de las utilidades

Cálculo de intervalos

Número de datos 500


Valor máximo (Xmax) 129,057,228.00
Valor mínimo (Xmin) 23,471.32
Rango (R) 129,033,756.68

Número de intervalos (k) 10 9.97


Amplitud (A) 13,000,000.00 12,903,375.67

Límite
Límite inferior superior Marca de clase fi fi hi Fi Hi
- 13,000,000.00 6,500,000.00 471 496 0.992 496 0.996
13,000,001.00 26,000,001.00
19,500,001.00 19 2 0.004 498 0.004
26,000,002.00 39,000,002.00 32,500,002.00 2 0 0 498 0
39,000,003.00 52,000,003.00
45,500,003.00 0 0 0 498 0
52,000,004.00 65,000,004.00 58,500,004.00 2 0 0 498 0.002
65,000,005.00 78,000,005.00 71,500,005.00 1 1 0.002 499 0.002
78,000,006.00 91,000,006.00
84,500,006.00 3 0 0 499 0
91,000,007.00 104,000,007.00
97,500,007.00 0 0 0 499 0
104,000,008.00 117,000,008.00 110,500,008.00 0 0 0 499 0.002
117,000,009.00 130,000,009.00 123,500,009.00 0 1 0.002 500 0.002
Total 498 500 1.0

13
Cajas y Bigotes Utilidades

- 50.000,00 100.000,00 150.000,00 200.000,00

j) ) Elabore el diagrama de caja de las utilidades de acuerdo al tipo de compañı́a.

Sociedad Anónima

(50.000,00) - 50.000,00 100.000,00 150.000,00 200.000,00

Responsabilidad Limitada

0 20000 40000 60000 80000 100000 120000 140000

14
Sociedad Extranjera

- 100.000,02
000.000,03000.000,04000.000,00
500.000,06000.000,07
000.000,00

Suma de
Etiquetas de fila UTILIDAD
ANÓNIMA 152,892,838.90
ASOCIACIÓN O CONSORCIO 130,807,128.35
ECONOMÍA MIXTA 964,706.72
RESPONSABILIDAD LIMITADA 22,070,098.62
SUCURSAL EXTRANJERA 26,650,463.99
Total general 333,385,236.58

3. En el ejercicio anterior se elaboró el ranking de las empresas del sector construcción,


la revista Vistazo publica además un ranking de las mejores 500 empresas de todos los
sec- tores de acuerdo a su utilidad. Elabore el ranking de las 500 mejores empresas
utilizando los archivos de valores separados por comas (csv) rankingagricultura,
rankingcomercio, rankingconstruccion, rankinginmobiliaria y rankingmanufactura. El
flujo de trabajo reco-mendado para esta actividad es:

a) Cargar cada conjunto de datos por separado, almacenando cada conjunto en una
variable que usted decida.
b) Unir los conjuntos de datos en un solo conjunto, para esto debe utilizar la función
rbind( ). Investigue el uso de esta función y utilı́cela para formar un único conjunto
de datos.
c) Con ayuda de la función top n( ) seleccione las primeras 500 empresas de acuerdo
a la utilidad. Guarde este ranking en un conjunto llamado ranking2018todos. Con el
conjunto ranking2018todos se pide:

15
Etiquetas de fila Suma de UTILIDAD
AGRICULTURA 163,602,533.12
COMERCIO 1,022,814,718.00
CONSTRUCCIÓN 283,151,556.52
INMOBILIARIA 90,234,107.46
MANUFACTURA 870,167,286.19
Total general 2,429,970,201.29

1) Calcular las medidas de tendencia central y dispersión por sector de las


utilida- des.
• Sector Agricultura

Media 2,921,473.81

Mediana 1,168,744.58
Moda #N/A
Rango 22,001,909.55
Varianza 1.860574654074E+13
Desviación 4313437.903

• Sector Comercio
Media 4,757,277.76
Mediana 1,729,237.37
Moda #N/A
Rango 153,234,719.64
Varianza 1.478996696219E+14
Desviación 12,161,400.81
• Sector Construcción

Media 8,327,986.96
Mediana 1,480,333.61
Moda #N/A
Rango 128,281,384.94
Varianza 5.870180933627E+14
Desviación 24,228,456.27

• Sector Inmobiliario
Media 2,200,831.89
Mediana 1,455,948.38
Moda #N/A
Rango 6,619,590.91
16
Varianza 3.035695071593E+12
Desviación 1,742,324.62

• Sector Manufactura
Media 5,650,436.92
Mediana 1,841,113.13
Moda #N/A
Rango 113,700,137.37
Varianza 1.949504571647

Desviación 13,962,466.01

2) Determinar los deciles de las utilidades para todas las empresas.

D1 D2 D3 D4 D5
876,186.94 991,855.07 1,163,799.63 1,327,944.84 1,623,890.14

D6 D7 D8 D9
2,184,742.13 2,904,030.92 4,490,390.77 7,573,358.79

Kn/10

D1 = 1(500)/10 = 50 posición del decíl

3) Determinar los deciles de las utilidades por sector

Sector Agricultura
D1 D2 D3 D4 D5

893,004.85 930,634.41 984,402.09 1,062,820.66 1,168,744.58


D6 D7 D8 D9
1,297,100.99 2,355,711.60 3,324,994.18 6,756,459.41

Sector comercio
D1 D2 D3 D4 D5

884,689.81 1,092,575.06 1,237,955.61 1,426,525.01 1,729,237.37


D6 D7 D8 D9
2,205,131.80 3,239,496.82 5,152,543.94 8,054,929.46

17
Sector Construcción
D1 D2 D3 D4 D5

841,930.33 978,365.81 1,205,738.96 1,303,620.57 1,480,333.61


D6 D7 D8 D9
1,782,776.15 2,184,742.13 3,101,272.23 16,406,891.00

Sector Inmobiliario

D1 D2 D3 D4 D5
843,201.21 954,278.02 1,084,775.39 1,218,821.60 1,455,948.38
D6 D7 D8 D9
2,088,599.25 2,896,978.84 3,231,422.32 5,152,411.39

Sector Manufacturero

D1 D2 D3 D4 D5

880,967.42 986,581.24 1,156,740.85 1,444,095.97 1,841,113.13


D6 D7 D8 D9

2,489,453.49 3,251,184.26 5,128,404.95 10,088,086.60

4) Elaborar tablas de contingencia relacionando el sector y el tamaño de las


em- presas.

Cuenta de SECTOR_PROD Etiquetas de columna


Etiquetas de fila AGRICULTURA COMERCIO CONSTRUCCIÓN INMOBILIARIA MANUFACTURA Total general
GRANDE 48 207 32 18 150 455
MEDIANA 6 7 2 21 4 40
MICROEMPRESA 1 1 2
PEQUEÑA 1 1 1 3
Total general 56 215 34 41 154 500

5) ¿De qué ciudad son la mayorı́a de empresas del ranking? Elabore una tabla
de frecuencia de las empresas por ciudad.

18
Ciudad fi hi Fi Hi
AMBATO 11 0.022 11 0.022
AZOGUES 1 0.002 12 0.024
BABAHOYO 2 0.004 14 0.028
BAHÍA DE CARAQUEZ 1 0.002 15 0.03
CALDERÓN (CARAPUNGO) 1 0.002 16 0.032
CAYAMBE 2 0.004 18 0.036
CRNEL. MARCELINO MARIDUEÑA (SAN CARLOS) 2 0.004 20 0.04
CUENCA 27 0.054 47 0.094
DAULE 4 0.008 51 0.102
EL GUABO 1 0.002 52 0.104
ELOY ALFARO (DURAN) 15 0.03 67 0.134
GENERAL VILLAMIL (PLAYAS) 1 0.002 68 0.136
GUAYAQUIL 156 0.312 224 0.448
IBARRA 1 0.002 225 0.45
JARAMIJÓ 3 0.006 228 0.456
JUNÍN 1 0.002 229 0.458
LASSO 1 0.002 230 0.46
LOJA 1 0.002 231 0.462
MACHACHI 4 0.008 235 0.47
MACHALA 10 0.02 245 0.49
MANTA 7 0.014 252 0.504
MONTECRISTI 1 0.002 253 0.506
OTAVALO 1 0.002 254 0.508
POMASQUI 1 0.002 255 0.51
PORTOVIEJO 1 0.002 256 0.512
QUEVEDO 2 0.004 258 0.516
QUITO 213 0.426 471 0.942
SAMBORONDÓN 15 0.03 486 0.972
SAN JACINTO DE YAGUACHI 1 0.002 487 0.974
SANGOLQUÍ 9 0.018 496 0.992
SANTO DOMINGO DE LOS COLORADOS 1 0.002 497 0.994
TABACUNDO 1 0.002 498 0.996
URCUQUI 1 0.002 499 0.998
VELASCO IBARRA 1 0.002 500 1
TOTAL 500 1

La mayoría de empresas pertenecen a la ciudad de Quito

19
6) ¿A qué sector productivo pertenecen la mayorı́a de empresas del ranking?

Cuenta de
Etiquetas de fila SECTOR_PROD
AGRICULTURA 56
COMERCIO 215
CONSTRUCCIÓN 34
INMOBILIARIA 41
MANUFACTURA 154
Total general 500

El sector productivo al que pertenecen en su mayoría las empresas del ranking pertenecen al sector de
comercio.

4. Los datos de entrega de pizzas (pizza delivery.csv) son un conjunto de datos simulados.
Los datos se refieren a un restaurante que ofrece pizza a domicilio. Contiene los pedidos
recibidos durante un perı́odo de un mes: mayo de 2014. Hay tres sucursales del restaurante.
La entrega de pizzas se gestiona de forma centralizada: un operador recibe una llamada
telefónica y reenvı́a el pedido a la sucursal más cercana a la dirección del cliente. Uno
de los cinco conductores (dos de los cuales solo trabajan a tiempo parcial los fines de
semana) entrega el pedido. El conjunto de datos captura la cantidad de pizzas
ordenadas,ası́ como la factura final, que también puede incluir bebidas, ensaladas y
platos de pasta. El dueño del negocio observó un mayor número de quejas,
principalmente porque las pizzas llegan demasiado tarde y demasiado fr´ıas. Para
mejorar la calidad del servicio de su negocio, el propietario quiere medir (i) el tiempo
desde la llamada hasta la entrega (ii) la temperatura de la pizza a la llegada (lo que se puede
hacer con un dispositivo especial). Idealmente, una pizza llega dentro de los 30 minutos
posteriores a la llamada; si tarda más de 40 minutos, se promete a los clientes una botella de
vino gratis (aunque no siempre se entrega). La temperatura de la pizza debe estar por encima
de los 65◦ en el momento de la entrega. El análisis de los datos tiene como objetivo determinar
los factores que influyen en el tiempo de entrega y la temperatura de las pizzas.

a) Calcule la media, la mediana, el mı́nimo, el máximo, el primer cuartil y el tercer


cuartil para todas las variables cuantitativas.
b) Determine e interprete el percentil 99 para el tiempo de entrega y la temperatura.

c) Grafique un diagrama de caja para el tiempo de entrega y la temperatura.

d) ) Construya una tabla de frecuencias para el tiempo de entrega.

e) Construya una tabla de frecuencias para la temperatura.

20

También podría gustarte