Está en la página 1de 31

UNIVERSIDAD PERUANA DE CIENCIAS APLICADAS

DATA SCIENCE II ANALYST

PROFESOR:
Luis Alberto Alcántara Gavidia

GRUPO 3
 
Alumnos:
Saavedra Ramirez Juan Christian – U201201051
Ucañani Dulanto Irma Antuane – U202011025
Zavala Saldaña Sergio Alberto – U201922016

Sección: AP315-2301-SD1A

Sede: Monterrico
Número de avance: I

Fecha de presentación: 27/03/2023

Lima, marzo 2023


1. Describir detalladamente el problema por solucionar explicando el
contexto, cual es la justificación desde el punto de vista de negocios
del proyecto, cuál es el objetivo, que se espera obtener.

Durante el año 2021, el Perú ha experimentado un alarmante aumento en el número de


accidentes de tránsito fatales en comparación con años anteriores. Según la Defensoría del
pueblo (2022), se han registrado 76424 casos en el año 2021, un gran número de accidentes de
tráfico en todo el país a comparación del año 2020 donde ocurrieron 57396 casos, lo que ha
resultado en un aumento significativo de muertes y lesiones graves en las carreteras del Perú.

Accidentes de tránsito entre los años 2020


y 2021
90000
80000
70000 76424
60000
50000 57396

40000
30000
20000
10000
0
2020 2021

Por otro lado, existe una alta relación entre la cantidad de siniestros y la cantidad de fallecidos
por accidentes de tránsito en el 2021. Asimismo, se puede observar, que la cantidad de
fallecidos, refleja un número mayor a la de siniestros, esto debido a que, el número de personas
afectadas es mayor a 1. Por ello, se tiene como resultado, que un accidente puede generar
mayores muertes aparte del piloto.
Sin embargo, en el análisis exploratorio, el equipo de ciencia de datos contabilizó la cantidad de
accidentes de tránsito del año 2021 por departamentos, teniendo como resultado que, Lima tiene
el mayor número de accidentes con un total de 342 y representa un 14% del total de accidentes,
seguido por Puno, con un total de 222. Por otro lado, se observa que Amazonas y Ucayali, son
los departamentos con menor índice de accidentes de tránsito, teniendo como referencia, menos
del 1% del total de accidentes.

Ahora bien, analizando la clase de siniestro de los accidentes de tránsito por zona rural y
urbana, se tiene como resultado lo siguiente:
En la zona rural, se tiene un mayor índice de porcentaje sobre el tipo de siniestro “choque” y
“despiste”, lo cual representan un 35.59 % y 35.31% respectivamente. Asimismo, se ferroviario
e incendios, son el tipo de siniestros con una representación mínima del 0.07% cada uno. Por
otro lado, en la zona urbana, el “choque” y “atropello” representan un mayor índice, teniendo
como resultado un 35.18% y 30.85% respectivamente. Finalmente, se concluye que, el sinistro
“choque” en la zona rural, representa un 21.10% del total de siniestros en las 2 zonas
mencionadas (rural y urbana), seguido del siniestro despiste rural con un valor de 20.94% en la
cantidad general.
Finalmente, se puede apreciar que tipo de vehículo, ha tenido mayores accidentes en el año
2021. Para ello, se detalla lo siguiente:
El tipo de vehículo que mas accidente ha tenido, fue el de motocicletas, seguido de los
automóviles. Finalmente se observa que el triciclo motorizado no tiene accidentes registrados en
el año 2021.

La problemática de combatir los accidentes de tránsito es de gran importancia debido a que


estos representan una de las principales causas de muerte y discapacidad en todo el Perú y el
mundo. Además, los accidentes de tránsito también tienen un gran impacto económico y social,
ya que generan costos significativos para los sistemas de salud, las compañías de seguros, las
empresas y los gobiernos.
Justificación desde el punto de vista de negocios:
Desde un punto de vista empresarial, los accidentes de tráfico pueden tener un impacto negativo
significativo en el rendimiento financiero y operativo de las empresas, así como en la economía
en general. En este sentido, es fundamental abordar el problema del incremento de accidentes de
tráfico fatales en el Perú en el año 2021.
Los accidentes de tráfico pueden generar costos significativos para las empresas, incluyendo
costos directos como reparaciones de vehículos, indemnizaciones por lesiones y costos de
seguros, así como costos indirectos como la pérdida de productividad, por la falta de personal, y
la afectación a la imagen y reputación de la empresa. Además, los accidentes pueden tener un
impacto emocional y económico en las familias de las víctimas, lo que a su vez puede afectar la
calidad de vida de cada uno de los trabajadores y el bienestar social en general de cada área de
una compañía.
En este contexto, es importante que las empresas adopten medidas preventivas para reducir el
número de accidentes de tráfico. Esto puede incluir la implementación de programas de
capacitación para conductores, la mejora de la infraestructura vial, la implementación de
tecnologías avanzadas de seguridad en los vehículos y la promoción de una cultura de seguridad
vial en la empresa.
El Informe sobre la Situación Mundial de la Seguridad Vial 2015 de la OMS indicó que
anualmente se pierden alrededor de 1,25 millones de vidas debido a los accidentes de tráfico en
todo el mundo, y entre 20 millones y 50 millones de personas sufren lesiones no mortales,
muchas de las cuales resultan en discapacidad. Los costos del tratamiento y la pérdida de
productividad debido a lesiones o muertes por accidentes de tráfico representan una carga
económica significativa para las personas, sus familias y los países. Según la OMS, los
accidentes de tráfico cuestan a la mayoría de los países aproximadamente el 3% de su Producto
Interno Bruto (PIB). (Organización Mundial de la Salud (OMS), 2015, como se citó en Galaz,
2017)
Por tanto, la justificación desde el punto de vista de negocios para abordar el problema del
incremento de accidentes de tráfico fatales en el Perú en el año 2021 es clara: reducir el número
de accidentes puede ayudar a las empresas a reducir costos y mejorar su rendimiento financiero
y operativo, así como a mejorar la calidad de vida y el bienestar social en general.
Objetivo:
El objetivo del proyecto es reducir el número de accidentes de tráfico fatales en el Perú,
mejorando la seguridad en las carreteras y promoviendo una cultura de conducción más segura.
Esto, se logrará a través de la construcción de un modelo predictivo que nos permita identificar
las variables críticas que influyen en el aumento de accidentes y de esta manera pueda
prevenirse. Además, de las medidas preventivas y educativas.
Lo que se espera obtener:
Se espera que el proyecto tenga un impacto significativo en la reducción de accidentes de tráfico
fatales en el Perú, mejorando la seguridad en las carreteras y salvando vidas humanas. Además,
el proyecto puede contribuir a la reducción de los costos de la empresa y mejorar la
productividad al reducir los accidentes que resultan en lesiones y tiempo perdido. También se
espera que el proyecto tenga un impacto positivo en la economía en general al reducir los costos
indirectos asociados con los accidentes de tráfico fatales.

2. Identificación de los datos necesarios, recopilación, y presentación de


datasets

2.1. Presentar un cuadro donde indique los datos que necesitaría para
desarrollar el proyecto y justificar cada caso indicando porque los
necesita y que espera obtener de su análisis.
Tabla 1
2.2. Presentar (primera presentación) los datos recopilados (datos brutos), indicando tipos de datos, cantidad de registros,
datos nulos, campos vacíos. Además, presentar el diccionario de datos.

Datos brutos

Tabla conductores:

https://docs.google.com/spreadsheets/d/1L6burfoasJYln1-FJKUSaT3ggJ0PtuYy/edit?usp=share_link&ouid=116393902061479925890&rtpof=true&sd=true

Cantidad de registros: 93044, datos nulos: 0, campos vacíos: 0

Tabla Vehículos:
https://docs.google.com/spreadsheets/d/1CVT-N_mL9edmsrvacFtduYlWu9dfb6eG/edit?
usp=share_link&ouid=116393902061479925890&rtpof=true&sd=true

Cantidad de registros: 75438, datos nulos: 0, campos vacíos: 0


Tabla siniestros:
https://docs.google.com/spreadsheets/d/1m_7l_g2WbUHBWLoIguXNfywmDaF4X-TY/edit?
usp=share_link&ouid=116393902061479925890&rtpof=true&sd=true
Cantidad de registros: 69542, datos nulos: 0, campos vacíos: 0
Leyenda

object letras
Leyenda de int64 números enteros
tipo de datos float decimales
datetime hora fecha
Tabla 2.
Tabla 3
Tabla 4
Tabla 5. Unión de los datos
2.3. Presentar el código utilizado, explicando lo realizado Use gráficos
para presentar las características de los datos recopilados (Puede usar
Power BI y/o Excel si lo desea)

2.3.1. Para tabla Siniestros:

Gráfico 1

Nota. Se importa Pandas, NumPy y Seaborn son bibliotecas de Python utilizadas en ciencia de
datos y análisis de datos. Pandas se utiliza para manipular y analizar datos en estructuras de
datos, NumPy es una biblioteca para trabajar con matrices y cálculos numéricos y Seaborn es
una biblioteca para la visualización de datos.
Gráfico 2

Nota. Se utiliza la biblioteca pandas (pd) para leer el archivo de Excel llamado "BBDD ONSV -
2021 PARA DATOS ABIERTOS - SINIESTROS.xlsx" y específicamente lee la hoja de trabajo
(sheet) llamada "SINIESTROS_FATALES". Los datos se guardarán en un DataFrame llamado
"df_siniestros".

Gráfico 3
Nota. El código df_siniestros.head() muestra las primeras filas del dataframe llamado
df_siniestros. La función head() por defecto muestra las primeras 5 filas del dataframe, aunque
se puede especificar un número diferente de filas.
Gráfico 4

Nota. Se muestra el tamaño total de la matriz de datos contenida en el dataframe "df_siniestros",


es decir, el número total de elementos en la tabla de datos que son 69542.
Gráfico 5

Nota. Aquí se muestra una descripción general del DataFrame, incluyendo el número de filas y
columnas, el nombre de cada columna, el número de valores no nulos y el tipo de datos de cada
columna.
Gráfico 6

Nota. Aquí tenemos una tabla booleana (True o False) del mismo tamaño que el dataframe
df_siniestros, para identificar cada celda si indica si su correspondiente valor es nulo o no. Es
decir, devuelve True en las celdas que contienen un valor nulo (NaN) y False en las que no lo
tienen.
Gráfico 7

Nota. Muestra la cantidad total de valores nulos de la tabla booleana


Gráfico 8

Nota. El código "df_siniestros.dtypes" muestra el tipo de dato de cada columna del DataFrame
"df_siniestros", es decir, si una columna contiene valores numéricos, de texto, fechas, etc. La
salida es una lista que muestra el tipo de dato de cada columna en el DataFrame.
2.3.2. Para tabla Conductores:
Gráfico 9

Nota. Este código se utiliza para llamar a la librería pandas de Python para leer el archivo de
Excel llamado "BBDD ONSV - 2021 PARA DATOS ABIERTOS - CONDUCTORES.xlsx" y
carga los datos en un objeto DataFrame llamado "df_conductores". El archivo Excel se lee
desde la hoja "CONDUCTOR".
Gráfico 10

Nota. Se muestra las primeras filas del DataFrame “df_conductores”. La función head () de
Pandas se utiliza para mostrar por defecto las 5 primeras filas de las 28 columnas del
DataFrame.
Gráfico 11

Nota. Se muestra el número total de elementos de filas x columnas en el Dataframe


“df_conductores”

Gráfico 12
Nota. Se muestra información sobre el DataFrame “df_conductores”, incluyendo el número de
filas y columnas, los nombres y tipos de datos de cada columna, la cantidad de valores no nulos
y la cantidad de memoria utilizada. Se utiliza para entender la estructura del DataFrame y
detectar posibles problemas de tipos de datos o valores faltantes.
Gráfico 13
Nota. Del Dataframe "df_conductores" se aplica el método “.isnull()" para comprobar qué
valores de cada columna son nulos (NaN). El resultado es una matriz de valores booleanos que
indican si cada valor es nulo o no.
Gráfico 14

Nota. Se aplica la función sum() a lo largo del eje de las columnas, lo que devuelve una serie
con la cantidad de valores nulos por columna.
Gráfico 15

Nota. Se muestra los tipos de datos de cada columna del DataFrame “df_conductores”, donde
sale el tipo de dato “object” que es texto.

2.3.3. Para tabla Vehículos:


Gráfico 16

Nota. Este código se utiliza para llamar a la librería pandas de Python para leer el archivo de
Excel llamado "BBDD ONSV - 2021 PARA DATOS ABIERTOS - VEHICULOS.xlsx" y carga
los datos en un objeto DataFrame llamado "df_vehiculos". El archivo Excel se lee desde la hoja
"VEHICULO".
Gráfico 17

Nota. El código df_vehiculos.head() muestra las primeras filas del Dataframe llamado
df_vehiculos. La función head() por defecto muestra las primeras 5 filas del Dataframe, aunque
se puede especificar un número diferente de filas.
Gráfico 18

Nota. Se muestra el número total de elementos de filas x columnas en el Dataframe.


Gráfico 19
Nota. Se muestra información sobre el DataFrame “df_vehiculos”, incluyendo el número de
filas y columnas, los nombres y tipos de datos de cada columna, la cantidad de valores no nulos
y la cantidad de memoria utilizada. Se utiliza para entender la estructura del DataFrame y
detectar posibles problemas de tipos de datos o valores faltantes.

Gráfico 20

Nota. Del Dataframe "df_vehiculos" se aplica el método “.isnull()" para comprobar qué valores
de cada columna son nulos (NaN). El resultado es una matriz de valores booleanos que indican
si cada valor es nulo o no.
Gráfico 21

Nota. Se aplica la función sum() a lo largo del eje de las columnas, lo que devuelve una serie
con la cantidad de valores nulos por columna.
Gráfico 22

Nota. Se muestra los tipos de datos de cada columna del DataFrame “df_vehiculos”, donde sale
el tipo de dato “object” que es texto.
2.3.4. Gráficos de los datos recopilados
Gráfico 23

CANTIDAD DE SINIESTROS Y FALLECIDOS (2021)


400

298
300 274
255 257 255
233
234 214 230 205 211
219 221 201
200 185 184 206 204
192 191 188 183
166 164

100

0
Ene Feb Mar Abr May Jun Jul Ago Set Oct Nov Dic

Qty Siniestro Qty de fallecidos

Nota. Cantidad de siniestros y fallecidos por accidentes de tránsito fatales transcurridos en cada mes en el año 2021
Gráfico 24

CANTIDAD DE SINIESTROS POR DEPARTAMENTO (2021)


342
350
300
222
250 202
179
200 163 154
145
150 110 108 104 99
94 88
100 60 53 50 43 34 34 27 20 20 14 13
50 11 9
0

Nota. Cantidad de accidentes de tránsito fatales ocurridos en el año 2021 por departamento
Gráfico 25

CLASE DE SINIESTROS POR ZONAL (2021)


600 516 512
500
400 303 307
300
131 155
200 112104
63 52 28
100 27 14 21 14 13 10 14 1 1
0
UE TE LO GA GA R A JO RO AL IO DI
O
Q IS EL FU FU DU FI E CI R
O S P P TO AJ PE IA
CE
N
CH DE R O LO E CA
JE PA
S ES OV
AT EL QU OL RR IN
P O V OB DE FE
RO CH N A
AT CO ÍD
UE CA
OQ
CH

RURAL URBANA

Nota. Clase de accidente fatal por zona rural o urbana


Gráfico 26

PICOS DE SINIESTROS POR HORA (2021)


50

45

40

35

30

25

20

15

10

0
00:00 01:10 02:10 03:26 04:22 05:20 06:28 07:27 08:20 09:32 10:40 11:40 12:33 13:30 14:21 15:06 16:05 17:05 17:58 18:50 19:39 20:30 21:23 22:18 23:20

Nota. Cantidad de accidentes de transito fatales ocurridos por hora en el año 2021
Grafico 27

CANTIDAD DE VEHICULOS POR TIPO, EN LOS ACCIDENTES DE TRÁNSITO (2021)


MOTOCICLETA
AUTOMÓVIL
CAMIÓN
VEHÍCULO NO IDENTIFICADO
CAMIONETA PICK UP
TRIMOTO PASAJERO
CAMIONETA RURAL
ÓMNIBUS
REMOLCADOR
REMOLCADOR-SEMIREMOLQUE
TRIMOTO CARGA
BICICLETA
STATION WAGON
OTRO
MINIBÚS
CAMIONETA PANEL
SEMIREMOLQUE
TRICICLO NO MOTORIZADO
REMOLQUE
TRICICLO MOTORIZADO

0 100 200 300 400 500 600 700 800 900

Nota. Cantidad de accidentes de transito ocasionados por tipo de vehículo en el año 2021
Bibliografía

Galaz, O. (2017). OMS: Costo de accidentes de tránsito llega al 3% del PIB en mayoría de los
países del mundo. IPSUSS Instituto de políticas públicas en salud
https://www.ipsuss.cl/analisis-y-estudios/oms-costo-de-accidentes-de-transito-llega-al-3-del-
pib-en-mayoria-de

Defensoría del pueblo (2022) Defensoría del Pueblo: cifra de accidentes de tránsito en 2022
alcanza niveles registrados antes de la pandemia. https://www.defensoria.gob.pe/defensoria-
del-pueblo-cifra-de-accidentes-de-transito-en-2022-alcanza-niveles-registrados-antes-de-la-
pandemia/#:~:text=En%20efecto%2C%20si%20bien%20en,la%20mitad%20de%20las%20cifras

También podría gustarte