Está en la página 1de 5

Informe 5: Real-time crash prediction in an urban

expressway using disaggregated data*


Paulo Roberto Figueroa Torrez
9 de Junio de 2020

1. Introduccción

La cuarta presentación del Seminario de Investigación fue realizada por el Seminarista


Doctoral Franco Basso en fecha 2 de junio de 2020 y tuvo como tema de estudio los
“Real-time crash prediction in an urban expressway using disaggregated data” (Predic-
ción de choques en tiempo real en una autopista urbana utilizando datos desagregados).
En dicha presentación el profesor mostró modelos de predicción de accidentes para un
tramo de la autopista urbana Autopista Central (60.5 km de largo y tiene una orien-
tación norte-sur) en Santiago, Chile. Se debe tomar en cuenta que los accidentes son
eventos bastante raros. Para la recolección de los datos se utilizó una fuente de datos
proporcionada por los propietaros de la autopista y tienen información de tráfico desde
el 1 de noviembre de 2014 hasta el 30 de abril de 2016.
Para el desarrollo del proyecto se hizo uso de las siguientes metodologı́as:
- Procedimiento forestal aleatorio

- Máquina de vectores de soporte

- Regresión logı́stica
Para la calibración y la validación de datos se realizó 300 repeticiones de particiones
seleccionadas al azar. En base a eso se pudo predecir el 67.89 % de los accidentes, de-
jando solo un 20.94 % de predicciones falsas.
El procedimiento que se llevo a cabo para la aplicación del proyecto de [Basso et al., 2018]
fue:
1. Los datos de tráfico de las puertas AVI se agregan a promedios de cinco minutos,
y luego se usan para calcular variables que son de interés.

2. Luego analizamos estos datos tanto gráfica como estadı́sticamente, utilizando un


bosque aleatorioprocedimiento, con el fin de identificar cuáles son las variables
que parecen ser fuertes precursores de accidentes automovilı́sticos.

3. Los análisis anteriores se utilizan para calibrar dos modelos de clasificación, a


saber, máquinas de vectores de soporte (SVM) y regresión logı́stica.

1
4. Para verificar la robustez de nuestros modelos, se repite lo siguiente 300 veces:
seleccione al azar el 80 % de la base de datos, calibre los modelos SVM y logı́sticos
y luego valide utilizando el 20 % restante.
2. Análisis de la literatura relacionada

En base a la presentación del profesor [Basso, 2018] se seleccionaron las palabras clave
\Crash prediction” (Predicción de choques) y \expressway” (autopista) para realizar
una busqueda de literatura relacionada en la plataforma Scopus. En dicha plataforma
se lograron visualizar 49 documentos, realizados en diferentes idiomas.
Como se podrá ver a continuación en el año 2018 fue el ano en el que segeneraron la
mayor cantidad de documentos referentes al tema de estudio de la exposición realizada.

Figura 1: Documentos realizados por año.

En base a los resultados obtenidos en la plataforma Scopus y utilizando la herramienta


Bibliometrix podemos ver a continuación, en la Figura 2, los paı́ses que poseen mayor
cantidad de documentos realizados. Se debe tomar en cuenta que mientras mayor os-
curidad tenga el color azul, mayor es su cantidad de documentos y en caso de ser gris
no posee documentos o son escasos.

Figura 2: Paı́ses con mayor cantidad de documentos realizados.

Por último, observaremos la Figura 3 la cual realiza un ranking de los 10 autores más
citados según la información obtenida desde la plataforma Scopus.

2
Figura 3: Autores más citados.
3. Marco conceptual

Para el desarrollo del presente punto se verán conceptos necesarios para la compre-
sión de algunos análisis realizados en la presentación.

- Identificación automática del vehı́culo mediante reconocimiento de pla-


ca (AVI)
La identificación automática del vehı́culo es una etapa esencial en sistemas de tráfico
inteligentes. Hoy en dı́a los vehı́culos juegan un papel muy importante en el transporte.
Además, el uso de vehı́culos ha aumentado debido al crecimiento de la población y
las necesidades humanas en los últimos años. Por lo tanto, el control de vehı́culos se
está convirtiendo en un gran problema y mucho más difı́cil de resolver. Los sistemas
automáticos de identificación de vehı́culos se utilizan con el propósito de un control
efectivo.[Ozbay and Ercelebi, 2005]

- Índice de Gini
El ı́ndice de Gini (o su paralelo gráfico la curva de Lorentz) tiene por finalidad medir
el grado de concentración que presenta una variable. El primer problema que se nos
plantea es qué entendemos por concentración y nada mejor que las palabras del propio
Gini para aclarar este concepto: ”Se dice que la riqueza de un paı́s está tanto más
concentrada cuanto mayor es la parte de la riqueza total poseı́da por la parte más rica
de la población. Podemos decir también que la concentración de la riqueza es tanto
mayor cuanto menor es la parte de esta poseı́da por el sector más pobre de dicha po-
blación.[Ruiz-Maya, 1978]

- Regresión logı́stica
Aunque la regresión logı́stica se usa principalmente con variables dependientes dicotómi-
cas, la técnica puede extenderse a situaciones que involucran variables de resultado con
3 o más categorı́as (variables dependientes politómicas o multinomiales) / dar una vi-
sión general del modelo de regresión logı́stica / discutir las principales similitudes y
diferencias entre la regresión logı́stica y la regresión lineal y los supuestos básicos de la
regresión logı́stica / uso de datos de un estudio hipotético para mostrar cómo interpre-
tar un análisis de regresión logı́stica / en particular, [el autor revisa] cómo interpretar

3
los coeficientes del modelo, las hipótesis de prueba,e interpretar los resultados de la cla-
sificación / usar datos de estudios de investigación reales para mostrar cómo interpretar
los análisis de regresión logı́stica que involucran más de 1 variable predictiva / describir
los procedimientos de construcción de modelos para estudios que tienen muchas varia-
bles predictoras potenciales.[Wright, 1995]

- Máquinas de vectores soporte (SVM)


La máquina de vectores de soporte (SVM) es una nueva máquina de aprendizaje univer-
sal propuesta por Vapnik, que se aplica tanto a la regresión, como al reconocimiento de
patrones. Un SVM usa un dispositivo llamado mapeo del núcleo para mapear los datos
en el espacio de entrada a un espacio de caracterı́sticas de alta dimensión en el que el
problema se vuelve linealmente separable. La función de decisión de un SVM está rela-
cionada no solo con el número de SV (vector de soporte) y sus pesos sino también con
el núcleo elegido a priori que se denomina núcleo de vector de soporte. Se pueden usar
muchos tipos de núcleos, como los núcleos gaussianos y polinomiales.[Zhang et al., 2004]

- Técnica de sobremuestreo de minorı́as sintéticas (SMOTE)


Se describe un enfoque para la construcción de clasificadores a partir de conjuntos de
datos desequilibrados. Un conjunto de datos está desequilibrado si las categorı́as de
clasificación no están representadas aproximadamente por igual. A menudo, los con-
juntos de datos del mundo real se componen principalmente de ejemplos “ normales ”
con solo un pequeño porcentaje de ejemplos “ anormales ” o “ interesantes ”. También
es el caso de que el costo de clasificar erróneamente un ejemplo anormal (interesante)
como un ejemplo normal a menudo es mucho mayor que el costo del error inverso. El
submuestreo de la clase mayoritaria (normal) se ha propuesto como un buen medio
para aumentar la sensibilidad de un clasificador a la clase minoritaria. Este documento
muestra que una combinación de nuestro método de sobremuestreo de la clase mi-
noritaria (anormal) y submuestreo de la clase mayoritaria (normal) puede lograr un
mejor rendimiento del clasificador (en el espacio ROC) que solo submuestrear la clase
mayoritaria.[Chawla et al., 2002]

4. Contribución del trabajo

El trabajo de [Basso et al., 2018] presenta un modelo de predicción de accidentes en


tiempo real, que pueda ser utilizado para evitar accidentes automovilı́sticos causados
por el tráfico en las ciudades. Los accidentes implican congestión, demoras y muertes
(1675 personas en Chile en 2016).
Con el modelo presentado las autoridades y propietarios de las autopistas pueden tener
la oportunidad de intervenir para evitar accidentes en base a la comprendión de las
condiciones de tráfico y externas aumentan la probabilidad de un accidente automo-
vilı́stico.
El modelo además de estar enfocado en salvar vidas toma en cuenta también el punto
de vista económico, el cual nos indica que se debe considerar que se requieren hasta
USD 1,300,000 en medidas de seguridad para evitar una muerte en las carreteras in-
terurbanas. Dicha inversión en medidas de seguridad se verı́a afectada si el modelo es

4
aplicado ya que se salvarı́an más vidas al pronosticar los accidentes de manera oportuna.

5. Comentario adicional

El presente proyecto me parece sumamente interesante ya que, en base al modelo,


se podrı́a salvar una cantidad sumamente importante de vidas. Serı́a interesante ver el
avance del proyecto al intentar incorporarlo en otras autopistas y analizar si posee la
misma efectividad, todo eso con el propósito de intentar colaborar no solo a las auto-
pistas y sus propietarios, sino también a la preservación de la vida humana.
Como parte de mi opinión personal estoy interesado en la forma en la que las personas
pueden ser prevenidas de la posibilidad de que ocurra un accidente (dicha información
serı́a proveniente de los datos que brinde el modelo), tomando en cuenta que el mensaje
debe ser lo suficientemente perceptible para que el conductor lo tome en cuenta (cosa
que no pasa siempre con las señales de tránsito en autopistas) pero que al mismo tiempo
no altere al conductor, debido a que esto podrı́a generar inestabilidad en su forma de
conducir aumentando ası́ las posibilidades de que ocurra un accidente.

Referencias
[Basso, 2018] Basso, F. (2018). Real-time crash prediction in an urban expressway
using disaggregated data.

[Basso et al., 2018] Basso, F., Basso, L. J., Bravo, F., and Pezoa, R. (2018). Real-time
crash prediction in an urban expressway using disaggregated data. Transportation
research part C: emerging technologies, 86:202–219.

[Chawla et al., 2002] Chawla, N. V., Bowyer, K. W., Hall, L. O., and Kegelmeyer, W. P.
(2002). Smote: synthetic minority over-sampling technique. Journal of artificial
intelligence research, 16:321–357.

[Ozbay and Ercelebi, 2005] Ozbay, S. and Ercelebi, E. (2005). Automatic vehicle
identification by plate recognition. World Academy of Science, Engineering and
Technology, 9(41):222–225.

[Ruiz-Maya, 1978] Ruiz-Maya, L. (1978). Sobre la metodologı́a del ı́ndice de gini.

[Wright, 1995] Wright, R. E. (1995). Logistic regression.

[Zhang et al., 2004] Zhang, L., Zhou, W., and Jiao, L. (2004). Wavelet support
vector machine. IEEE Transactions on Systems, Man, and Cybernetics, Part B
(Cybernetics), 34(1):34–39.

También podría gustarte