Informe5 Figueroa Paulo

Informe 5: Real-time crash prediction in an urban
expressway using disaggregated data*

Paulo Roberto Figueroa Torrez
9 de Junio de 2020
1. Introduccción
La cuarta presentación del Seminario de Investigación fue realizada por el Seminarista

Doctoral Franco Basso en fecha 2 de junio de 2020 y tuvo como tema de estudio los
“Real-time crash prediction in an urban expressway using disaggregated data” (Predic-
ción de choques en tiempo real en una autopista urbana utilizando datos desagregados).
En dicha presentación el profesor mostró modelos de predicción de accidentes para un
tramo de la autopista urbana Autopista Central (60.5 km de largo y tiene una orien-
tación norte-sur) en Santiago, Chile. Se debe tomar en cuenta que los accidentes son
eventos bastante raros. Para la recolección de los datos se utilizó una fuente de datos
proporcionada por los propietaros de la autopista y tienen información de tráfico desde
el 1 de noviembre de 2014 hasta el 30 de abril de 2016.
Para el desarrollo del proyecto se hizo uso de las siguientes metodologı́as:
- Procedimiento forestal aleatorio
- Máquina de vectores de soporte
- Regresión logı́stica
Para la calibración y la validación de datos se realizó 300 repeticiones de particiones
seleccionadas al azar. En base a eso se pudo predecir el 67.89 % de los accidentes, de-
jando solo un 20.94 % de predicciones falsas.
El procedimiento que se llevo a cabo para la aplicación del proyecto de [Basso et al., 2018]
fue:
1. Los datos de tráfico de las puertas AVI se agregan a promedios de cinco minutos,
y luego se usan para calcular variables que son de interés.
2. Luego analizamos estos datos tanto gráfica como estadı́sticamente, utilizando un

bosque aleatorioprocedimiento, con el fin de identificar cuáles son las variables
que parecen ser fuertes precursores de accidentes automovilı́sticos.
3. Los análisis anteriores se utilizan para calibrar dos modelos de clasificación, a

saber, máquinas de vectores de soporte (SVM) y regresión logı́stica.
1
4. Para verificar la robustez de nuestros modelos, se repite lo siguiente 300 veces:
seleccione al azar el 80 % de la base de datos, calibre los modelos SVM y logı́sticos
y luego valide utilizando el 20 % restante.
2. Análisis de la literatura relacionada
En base a la presentación del profesor [Basso, 2018] se seleccionaron las palabras clave
\Crash prediction” (Predicción de choques) y \expressway” (autopista) para realizar
una busqueda de literatura relacionada en la plataforma Scopus. En dicha plataforma
se lograron visualizar 49 documentos, realizados en diferentes idiomas.
Como se podrá ver a continuación en el año 2018 fue el ano en el que segeneraron la
mayor cantidad de documentos referentes al tema de estudio de la exposición realizada.
Figura 1: Documentos realizados por año.
En base a los resultados obtenidos en la plataforma Scopus y utilizando la herramienta

Bibliometrix podemos ver a continuación, en la Figura 2, los paı́ses que poseen mayor
cantidad de documentos realizados. Se debe tomar en cuenta que mientras mayor os-
curidad tenga el color azul, mayor es su cantidad de documentos y en caso de ser gris
no posee documentos o son escasos.
Figura 2: Paı́ses con mayor cantidad de documentos realizados.
Por último, observaremos la Figura 3 la cual realiza un ranking de los 10 autores más
citados según la información obtenida desde la plataforma Scopus.
2
Figura 3: Autores más citados.
3. Marco conceptual
Para el desarrollo del presente punto se verán conceptos necesarios para la compre-
sión de algunos análisis realizados en la presentación.
- Identificación automática del vehı́culo mediante reconocimiento de pla-

ca (AVI)
La identificación automática del vehı́culo es una etapa esencial en sistemas de tráfico
inteligentes. Hoy en dı́a los vehı́culos juegan un papel muy importante en el transporte.
Además, el uso de vehı́culos ha aumentado debido al crecimiento de la población y
las necesidades humanas en los últimos años. Por lo tanto, el control de vehı́culos se
está convirtiendo en un gran problema y mucho más difı́cil de resolver. Los sistemas
automáticos de identificación de vehı́culos se utilizan con el propósito de un control
efectivo.[Ozbay and Ercelebi, 2005]
- Índice de Gini
El ı́ndice de Gini (o su paralelo gráfico la curva de Lorentz) tiene por finalidad medir
el grado de concentración que presenta una variable. El primer problema que se nos
plantea es qué entendemos por concentración y nada mejor que las palabras del propio
Gini para aclarar este concepto: ”Se dice que la riqueza de un paı́s está tanto más
concentrada cuanto mayor es la parte de la riqueza total poseı́da por la parte más rica
de la población. Podemos decir también que la concentración de la riqueza es tanto
mayor cuanto menor es la parte de esta poseı́da por el sector más pobre de dicha po-
blación.[Ruiz-Maya, 1978]
- Regresión logı́stica
Aunque la regresión logı́stica se usa principalmente con variables dependientes dicotómi-
cas, la técnica puede extenderse a situaciones que involucran variables de resultado con
3 o más categorı́as (variables dependientes politómicas o multinomiales) / dar una vi-
sión general del modelo de regresión logı́stica / discutir las principales similitudes y
diferencias entre la regresión logı́stica y la regresión lineal y los supuestos básicos de la
regresión logı́stica / uso de datos de un estudio hipotético para mostrar cómo interpre-
tar un análisis de regresión logı́stica / en particular, [el autor revisa] cómo interpretar
3
los coeficientes del modelo, las hipótesis de prueba,e interpretar los resultados de la cla-
sificación / usar datos de estudios de investigación reales para mostrar cómo interpretar
los análisis de regresión logı́stica que involucran más de 1 variable predictiva / describir
los procedimientos de construcción de modelos para estudios que tienen muchas varia-
bles predictoras potenciales.[Wright, 1995]
- Máquinas de vectores soporte (SVM)

La máquina de vectores de soporte (SVM) es una nueva máquina de aprendizaje univer-
sal propuesta por Vapnik, que se aplica tanto a la regresión, como al reconocimiento de
patrones. Un SVM usa un dispositivo llamado mapeo del núcleo para mapear los datos
en el espacio de entrada a un espacio de caracterı́sticas de alta dimensión en el que el
problema se vuelve linealmente separable. La función de decisión de un SVM está rela-
cionada no solo con el número de SV (vector de soporte) y sus pesos sino también con
el núcleo elegido a priori que se denomina núcleo de vector de soporte. Se pueden usar
muchos tipos de núcleos, como los núcleos gaussianos y polinomiales.[Zhang et al., 2004]
- Técnica de sobremuestreo de minorı́as sintéticas (SMOTE)

Se describe un enfoque para la construcción de clasificadores a partir de conjuntos de
datos desequilibrados. Un conjunto de datos está desequilibrado si las categorı́as de
clasificación no están representadas aproximadamente por igual. A menudo, los con-
juntos de datos del mundo real se componen principalmente de ejemplos “ normales ”
con solo un pequeño porcentaje de ejemplos “ anormales ” o “ interesantes ”. También
es el caso de que el costo de clasificar erróneamente un ejemplo anormal (interesante)
como un ejemplo normal a menudo es mucho mayor que el costo del error inverso. El
submuestreo de la clase mayoritaria (normal) se ha propuesto como un buen medio
para aumentar la sensibilidad de un clasificador a la clase minoritaria. Este documento
muestra que una combinación de nuestro método de sobremuestreo de la clase mi-
noritaria (anormal) y submuestreo de la clase mayoritaria (normal) puede lograr un
mejor rendimiento del clasificador (en el espacio ROC) que solo submuestrear la clase
mayoritaria.[Chawla et al., 2002]
4. Contribución del trabajo
El trabajo de [Basso et al., 2018] presenta un modelo de predicción de accidentes en

tiempo real, que pueda ser utilizado para evitar accidentes automovilı́sticos causados
por el tráfico en las ciudades. Los accidentes implican congestión, demoras y muertes
(1675 personas en Chile en 2016).
Con el modelo presentado las autoridades y propietarios de las autopistas pueden tener
la oportunidad de intervenir para evitar accidentes en base a la comprendión de las
condiciones de tráfico y externas aumentan la probabilidad de un accidente automo-
vilı́stico.
El modelo además de estar enfocado en salvar vidas toma en cuenta también el punto
de vista económico, el cual nos indica que se debe considerar que se requieren hasta
USD 1,300,000 en medidas de seguridad para evitar una muerte en las carreteras in-
terurbanas. Dicha inversión en medidas de seguridad se verı́a afectada si el modelo es
4
aplicado ya que se salvarı́an más vidas al pronosticar los accidentes de manera oportuna.
5. Comentario adicional
El presente proyecto me parece sumamente interesante ya que, en base al modelo,

se podrı́a salvar una cantidad sumamente importante de vidas. Serı́a interesante ver el
avance del proyecto al intentar incorporarlo en otras autopistas y analizar si posee la
misma efectividad, todo eso con el propósito de intentar colaborar no solo a las auto-
pistas y sus propietarios, sino también a la preservación de la vida humana.
Como parte de mi opinión personal estoy interesado en la forma en la que las personas
pueden ser prevenidas de la posibilidad de que ocurra un accidente (dicha información
serı́a proveniente de los datos que brinde el modelo), tomando en cuenta que el mensaje
debe ser lo suficientemente perceptible para que el conductor lo tome en cuenta (cosa
que no pasa siempre con las señales de tránsito en autopistas) pero que al mismo tiempo
no altere al conductor, debido a que esto podrı́a generar inestabilidad en su forma de
conducir aumentando ası́ las posibilidades de que ocurra un accidente.
Referencias
[Basso, 2018] Basso, F. (2018). Real-time crash prediction in an urban expressway
using disaggregated data.
[Basso et al., 2018] Basso, F., Basso, L. J., Bravo, F., and Pezoa, R. (2018). Real-time
crash prediction in an urban expressway using disaggregated data. Transportation
research part C: emerging technologies, 86:202–219.
[Chawla et al., 2002] Chawla, N. V., Bowyer, K. W., Hall, L. O., and Kegelmeyer, W. P.
(2002). Smote: synthetic minority over-sampling technique. Journal of artificial
intelligence research, 16:321–357.
[Ozbay and Ercelebi, 2005] Ozbay, S. and Ercelebi, E. (2005). Automatic vehicle
identification by plate recognition. World Academy of Science, Engineering and
Technology, 9(41):222–225.
[Ruiz-Maya, 1978] Ruiz-Maya, L. (1978). Sobre la metodologı́a del ı́ndice de gini.
[Wright, 1995] Wright, R. E. (1995). Logistic regression.
[Zhang et al., 2004] Zhang, L., Zhou, W., and Jiao, L. (2004). Wavelet support
vector machine. IEEE Transactions on Systems, Man, and Cybernetics, Part B
(Cybernetics), 34(1):34–39.

Informe5 Figueroa Paulo

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Informe5 Figueroa Paulo

Cargado por

Copyright:

Formatos disponibles

Informe 5: Real-time crash prediction in an urban

expressway using disaggregated data*

La cuarta presentación del Seminario de Investigación fue realizada por el Seminarista

- Máquina de vectores de soporte

2. Luego analizamos estos datos tanto gráfica como estadı́sticamente, utilizando un

3. Los análisis anteriores se utilizan para calibrar dos modelos de clasificación, a

Figura 1: Documentos realizados por año.

En base a los resultados obtenidos en la plataforma Scopus y utilizando la herramienta

Figura 2: Paı́ses con mayor cantidad de documentos realizados.

- Identificación automática del vehı́culo mediante reconocimiento de pla-

- Máquinas de vectores soporte (SVM)

- Técnica de sobremuestreo de minorı́as sintéticas (SMOTE)

4. Contribución del trabajo

El trabajo de [Basso et al., 2018] presenta un modelo de predicción de accidentes en

El presente proyecto me parece sumamente interesante ya que, en base al modelo,

[Ruiz-Maya, 1978] Ruiz-Maya, L. (1978). Sobre la metodologı́a del ı́ndice de gini.

[Wright, 1995] Wright, R. E. (1995). Logistic regression.

También podría gustarte