Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Comparacion Algoritmo de Detecion Visual PDF
Comparacion Algoritmo de Detecion Visual PDF
ISSN: 1665-529X
ingenieria@correo.uady.mx
Universidad Autónoma de Yucatán
México
Santos Canul, U.; Bolón Méndez, G.; Moreno Sabido, M.; Hernández López, F.; Castillo
Atoche, A.
Comparación de algoritmos de detección de cambios en videos
Ingeniería, vol. 21, núm. 2, 2017, pp. 11-21
Universidad Autónoma de Yucatán
Mérida, México
RESUMEN
El presente trabajo se centra en la implementación y comparación de cuatro algoritmos de detección
de cambios en videos: PBAS, LBAdaptiveSOM, DPWrenGABGS y MixtureOfGaussianV1BGS.
Mediante la utilización de las librerías de OpenCV, se realizaron comparaciones de estos algoritmos
usando las bases de datos CDNET y BMC con el fin de obtener las características y el desempeño
de cada uno de ellos. Los videos de estas bases de datos contienen diversos retos (cambios de
iluminación, sombras, movimiento de la cámara, entre otros), los cuales hacen difícil la detección
de objetos y personas en movimiento. De acuerdo con los resultados obtenidos en las pruebas, el
algoritmo PBAS es mejor que los otros algoritmos aquí analizados.
___________________________
1
Estudiante de Ingeniería en Sistemas Computacionales del Instituto Tecnológico de Mérida
2
Estudiante de Ingeniería en Sistemas Computacionales del Instituto Tecnológico de Mérida.
3
Profesor-Investigador de Tiempo Completo del Instituto Tecnológico de Mérida.
4
Profesor-Investigador. CONACYT – Centro de Investigación en Matemáticas A.C., CIMAT
Unidad Mérida.
5
Profesor-Investigador en el área de Sistemas Embebidos y Procesamiento en Tiempo Real.
Nota: Este artículo de investigación es parte de Ingeniería–Revista Académica de la Facultad de Ingeniería,
Universidad Autónoma de Yucatán, Vol. 21, No. 2, 2017, ISSN: 2448-8364.
Santos-Canul et al / Ingeniería 21-2 (2017) 11-21
Detección de cambios
Actualización del
modelo de fondo
Imagen binaria
Figura 1. Esquema general de la detección de cambios.
_________________________
1
Background Subtraction, disponible en:
12
Santos-Canul et al / Ingeniería 21-2 (2017) 11-21
http://docs.opencv.org/trunk/d1/dc5/tutorial_background_subtraction.html.
En la actualidad existen bases de datos sobre El bloque de decisiones, como su nombre
la CD, las cuales permiten indagar cual indica, al analizar una imagen con el modelo
método convendría utilizar dependiendo de de fondo, compara los pixeles de la imagen
las necesidades, sin embargo, estas no actual uno por uno con su respectivo pixel en
ofrecen una amplia gama de las situaciones el modelo de fondo; entonces, por cada pixel,
en las que una cámara estaría expuesta. este bloque decide si el pixel pertenece al
fondo 𝐵 𝑥! , o es parte de un objeto en
Con este trabajo de investigación se pretende movimiento; esta decisión se realiza
obtener una base comparativa de los mejores aplicando un valor de umbral 𝑅 𝑥! por cada
métodos para la detección de cambios, lo cual píxel.
permitirá tener un mayor número de opciones
a elegir. En este trabajo se compararon los Luego, el modelo de fondo tiene que ser
siguientes algoritmos: PBAS, actualizado cada determinado tiempo, con el
LBAdaptiveSOM, DPWrenGABGS y fin de agregar los cambios graduales del
MixtureOfGaussianV1BGS, usando las entorno en el fondo, por ejemplo, el
librerías de OpenCV2. Se realizaron las movimiento de los árboles ocasionados por el
comparaciones usando las bases de datos viento. En este modelo, esta actualización
CDNET y BMC, con el fin de obtener las depende de un parámetro de aprendizaje
características y el desempeño de cada uno de 𝑇 𝑥! por cada píxel.
ellos.
La idea esencial y novedosa del enfoque
Segmentación Adaptativa Basada en Pixeles PBAS, es que los valores de los umbrales por
(PBAS): La idea general de este método es pixel, cambian dinámicamente con base en
realizar el proceso de comparación o resta una estimación de la dinámica del fondo (que
entre la imagen actual y el modelo de fondo, tan rápido y que tanto cambia el fondo). El
de manera tal que sea comparada pixel a pixel objetivo de todos los métodos de
en los canales RGB; esto hace que los segmentación de fondo es llegar a una
pequeños cambios como los de iluminación, decisión binaria si un píxel pertenece al
no sean tomados como un objeto en primer plano o al fondo. Este proceso de
movimiento (Martin et al., 2012). A decisión toma la imagen de entrada y la
continuación, se describen algunos de los compara de alguna manera con un modelo de
procesos principales de este método. fondo. En este caso, el modelo de fondo
𝐵 𝑥! se define por un conjunto 𝑁 de valores
de pixel, observados recientemente:
(1)
𝐵 𝑥! = {𝐵! 𝑥! , … 𝐵! 𝑥! , … , 𝐵! 𝑥! }
Un píxel 𝑥! se decide que pertenece al fondo, 𝑁. Por lo tanto, el resultado que define si un
si su valor de píxel 𝐼 𝑥! está más cerca que pixel pertenece a un objeto en movimiento, se
un cierto umbral de decisión 𝑅 𝑥! a al calcula de la siguiente manera:
menos un número #min de los valores de fondo
________________________
13
Santos-Canul et al / Ingeniería 21-2 (2017) 11-21
2
OpenCV (Open Source Computer Vision Library), disponible en: http://opencv.org/
En la parte de actualización del modelo de Entonces, esta distancia mínima se asigna al
fondo, se crea un arreglo 𝐷! (𝑥! ), por lo tanto, se genera una historia de
𝐷 𝑥! = {𝐷! 𝑥! , … , 𝐷! (𝑥! )} de distancias distancias mínimas y el promedio 𝑑! 𝑥! =
mínimas calculadas entre valor actual y el 1/𝑁 ! 𝐷! (𝑥! ) es una medida de que tan
modelo del fondo como sigue: dinámico es el fondo. Con esta medida, el
umbral 𝑅 𝑥! se actualiza con la siguiente
𝑑! 𝑥! = min 𝑑𝑖𝑠𝑡 𝐼 𝑥! , 𝐵! 𝑥! (3) relación:
!
𝑅 𝑥! 1 − 𝑅!/! , 𝑠𝑖 𝑅 𝑥! > 𝑑! 𝑥! 𝑅!
𝑅 𝑥! = (4)
𝑅 𝑥! 1 + 𝑅!/! , 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜,
donde 𝑇! y 𝑇! son parámetros constantes. Los número debe elegirse con cuidado, ya que
valores que toma 𝑇 𝑥! quedan delimitados depende de los primeros frames del video que
en el rango 𝑇! < 𝑇 < 𝑇! , con 𝑇! y 𝑇! también de preferencia no contengan objetos en
parámetros constantes. movimiento.
14
Santos-Canul et al / Ingeniería 21-2 (2017) 11-21
𝛼! − 𝑡
!! !!!
, 𝑠𝑖 0 ≤ 𝑡 ≤ 𝐾! donde 𝑤! es el parámetro de peso del 𝑘 !!
𝛼 𝑡 = !! (8) componente Gaussiano, 𝜂(𝑥! ; 𝜇! , 𝛴! ) es la
𝛼! , 𝑠𝑖 𝑡 > 𝐾! , distribución normal del 𝑘 !! componente,
donde 𝜇! es la media y 𝛴! = 𝜎!! 𝐼 es la matriz
donde 𝛼! y 𝛼! son constantes predefinidas tal
de covarianza del 𝑘 !! componente, con 𝐼 la
que 𝛼! ≤ 𝛼! .
matriz identidad.
Mezcla de Gaussianas para el modelo de
Las distribuciones 𝐾! se ordenan con base al
fondo (MixtureOfGaussianV1BGS): Este
valor de aptitud 𝛴! /𝜎! y las primeras
método modela a cada pixel de fondo
distribuciones 𝐵 se utilizan como modelo de
mediante una mezcla de 𝐾! distribuciones
fondo de la escena, donde 𝐵 se estima como:
Gaussianas (𝐾! es un número pequeño de 3 a
5); por cada Gaussiana, se obtiene un valor !
binario (fondo u objeto), entre los cuales se
determina cual es el más factible; en caso de 𝐵 = argmin 𝑤! > 𝑇 (10)
!
que los valores resultantes de alguna !!!
Gaussiana no sean factibles, esta se
reemplaza por otra nueva Gaussiana. Este con 𝑇 un umbral que representa la fracción
método es muy preciso, pero mínima del modelo de fondo. Entonces, un
contraproducente en la capacidad pixel es clasificado como objeto en
computacional, ya que entre más Gaussianas movimiento, si está a más de 2.5 veces a la
se agreguen, el algoritmo tarda más tiempo desviación estándar de cualquiera de las 𝐵
(KaewTraKulPong et al., 2011). distribuciones Gaussianas. El primer
componente Gaussiano que coincida con el
El método realiza el proceso de modelado de valor de prueba se actualizará mediante las
fondo de la siguiente manera: la probabilidad siguientes ecuaciones:
de que un determinado píxel tenga un valor
!
𝛴!!!! = 1 − 𝛼 𝛴!! + 𝜌 𝑥!!! − 𝜇!!!! 𝑥!!! − 𝜇!!!! (13)
15
Santos-Canul et al / Ingeniería 21-2 (2017) 11-21
1 (15)
𝑃 𝑜 = exp − 𝑜 − 𝜇 ! Σ !! (𝑜 − 𝜇)
𝑧
16
Santos-Canul et al / Ingeniería 21-2 (2017) 11-21
_________________________
3
The Pixel-Based Adaptive Segmenter, disponible en:
https://sites.google.com/site/pbassegmenter/ download-1
4
Disponibles en:
https://github.com/ andrewssobral/bgslibrary
En cada uno de los programas, se agregaron Esta base de datos está compuesta por videos
instrucciones para leer correctamente los reales y sintéticos que representan escenarios
directorios de los videos de las urbanos. Los videos fueron adquiridos a
correspondientes bases de datos. También se partir de cámaras estáticas. Cuenta con videos
agregaron instrucciones para guardar de CGI (imágenes generadas por computadora),
forma adecuada las imágenes binarias con los que es posible tener un conjunto de
resultantes de cada método, con el fin de datos necesarios para la evaluación y
utilizar un programa que evalué los comparación de los algoritmos. La base de
resultados, y de esta manera obtener medidas datos puede ser descargada en la página de
cuantitativas de que tan precisos son cada uno los autores5. En la Tabla 1 se muestran las
de los métodos. A continuación, se describen categorías, el número de videos y la cantidad
cada una de las bases de datos. de frames que se procesaron para cada uno de
los métodos.
Background Modelling Challenge (BMC):
17
Santos-Canul et al / Ingeniería 21-2 (2017) 11-21
Thermal 5 21,065
Turbulence 4 15,672
Total 53 157,121
_______________________
5
http://bmc.iut-auvergne.com/
6
ChangeDetection.net, disponible en: http://changedetection.net/
RESULTADOS resultados de cada método, se observen
En la Figura 2, se muestra una comparación errores en el fondo. Esto es un punto muy
cualitativa entre los cuatro métodos importante por resaltar, ya que cada método
presentados en este trabajo, usando uno de los construye el modelo de maneras distintas. El
videos de la categoría CameraJitter de la Ground Truth sirve de referencia para saber
base de datos CDNET. Este video se qué tan acertado es el método, como se
caracteriza por la constante vibración de las muestra en la Figura 2.
cámaras, lo cual provoca que, en los
Original.
Ground Truth.
DPWrenGABGS.
LBAdaptiveSOM.
MixtureOfGaussianV1BGS.
PBAS.
Figura 2. Resultados de los métodos usando uno de los videos de la categoría CameraJitter.
18
Santos-Canul et al / Ingeniería 21-2 (2017) 11-21
para los datos del modelo de fondo; esto hace (FP), verdaderos negativos (TN) y falsos
que detecte de manera fiable a las personas, negativos (FN) tienen cada uno de los
pero a consecuencia tiene datos extras resultados de los métodos con respecto al
generados por la vibración de la cámara, lo Ground Truth en cada una de las bases de
cual genera muchas detecciones erróneas, y datos. Cada medida está definida de la
esto se puede notar en la secuencia de frames siguiente manera:
del método.
• Exhaustividad:
El método MixtureOfGaussian detecta a las 𝑅𝐸 = 𝑇𝑃/(𝑇𝑃 + 𝐹𝑁)
personas, pero con huecos, así como también • Especificidad:
algunas líneas y parte de la cancha; esto se 𝑆𝑃 = 𝑇𝑁/(𝑇𝑁 + 𝐹𝑃)
debe a la forma de realizar la máscara binaria, • Taza de falsos positivos:
los pixeles dentro del contorno de las 𝐹𝑃𝑅 = 𝐹𝑃/(𝐹𝑃 + 𝑇𝑁)
personas son parecidos al del fondo • Taza de falsos negativos:
ocasionando que los confunda con el fondo; 𝐹𝑁𝑅 = 𝐹𝑁/(𝑇𝑃 + 𝐹𝑁)
esto indica que el método no es robusto en • Porcentaje de clasificaciones incorrectas:
este tipo de situaciones. 𝑃𝑊𝐶 = 100 ∗ (𝐹𝑁 + 𝐹𝑃)/(𝑇𝑃 + 𝐹𝑁
+ 𝐹𝑃 + 𝑇𝑁)
El método PBAS detecta a las personas y
• Precisión:
genera algunas líneas en la escena, sin
𝑃𝑅 = 𝑇𝑃/(𝑇𝑃 + 𝐹𝑃)
embargo, las personas tienen secciones que
• F-Measure:
no detecta, cuando estas deberían estar
detectadas; esto se debe al problema de la 𝐹𝑀 = (2 ∗ 𝑃𝑅 ∗ 𝑅𝐸)/(𝑃𝑅 + 𝑅𝐸)
vibración de la cámara, ya que al evitar
incluir las líneas divisoras de la cancha de Los resultados de los algoritmos usando la
bádminton como parte de lo que se mueve, base de datos CDNET se pueden observar en
ocasiona que las secciones de las personas en la Tabla 3. Los resultados usando la base de
contacto con estas líneas se vuelvan parte del datos BMC se pueden observar en la Tabla 4,
fondo cuando no debería ser así; esto indica y los resultados mostrados en la Tabla 5, son
que puede afrontar situaciones como éstas, tomados de la evaluación realizada por
pero no en su totalidad. (Andrews et al., 2014). En estas tablas, tres
de los métodos han sido renombrados,
A continuación, se muestran las siete medidas quedando de la siguiente manera:
que se obtuvieron utilizando el código DPWrenGABGS (DP), MixtureOfGaussian
disponible7. Dicho código, mide cuantos (Mix) y LBAdaptiveSOM (LBA).
verdaderos positivos (TP), falsos positivos
Tomando en cuenta que el algoritmo con un desempeño es el PBAS, el cual tiene los
valor alto en las medidas 𝑅𝐸, 𝐹𝑀 y 𝑃𝑅 tiene mejores resultados en las medidas 𝐹𝑀 y 𝑃𝑅,
mejor desempeño, y observando los valores mientras que el método con el peor
de la Tabla 3 y la gráfica de la Figura 3, se desempeño es el MixtureOfGaussian.
puede notar que el algoritmo con mejor
19
Santos-Canul et al / Ingeniería 21-2 (2017) 11-21
De la misma manera en que se evaluaron los esto se debe a que los resultados mostrados
algoritmos en el CDNET, aquí también se en la Tabla 4, fueron obtenidos usando una de
compararon los algoritmos con base en las las dos categorías del BMC (la categoría
medidas 𝑅𝐸, 𝐹𝑀 y 𝑃𝑅. Como se puede learnig).
observar en la Tabla 4 y la Tabla 5, hay una
diferencia significativa entre estas medidas;
________________________
7
http://wordpress-jodoin.dmi.usherb.ca/code/
Tabla 4. Resultados generales– BMC.
et. RE SP FPR FNR PWC FM PR
DP 0.71 0.994 0.0053 0.28 0.68 0.65 0.63
Mix 0.40 0.994 0.0052 0.59 0.84 0.39 0.37
LBA 0.85 0.990 0.0091 0.14 0.98 0.59 0.65
PBAS 0.91 0.998 0.0018 0.08 0.23 0.74 0.81
Tabla 5.1 Resultados generales – BMC 2014. Obtenida de (Andrews et al., 2014).
Met. RE PR FM
DP 0.795 0.922 0.853
Mix 0.793 0.912 0.847
LBA 0.838 0.907 0.867
PBAS 0.923 0.852 0.885
Medidas
LBAdap
DPWren
0
0.2
0.4
0.6
0.8
1
Precision F-‐Measure RE
Medidas
PBAS
LBAdap
Mixture
DPWren
0
0.2
0.4
0.6
0.8
1
Precision F-‐Measure RE
20
Santos-Canul et al / Ingeniería 21-2 (2017) 11-21
REFERENCIAS
Sobral, A., & Vacavant, A. (2014). A comprehensive review of background subtraction algorithms
evaluated with synthetic and real videos. Computer Vision and Image Understanding, 122, 4-21.
Maddalena, L., & Petrosino, A. (2008). A self-organizing approach to background subtraction for
visual surveillance applications. IEEE Transactions on Image Processing, 17(7), 1168-1177.
Hofmann, M., Tiefenbacher, P., & Rigoll, G. (2012, June). Background segmentation with
feedback: The pixel-based adaptive segmenter. In Computer Vision and Pattern Recognition
Workshops (CVPRW), 2012 IEEE Computer Society Conference on (pp. 38-43). IEEE.
KaewTraKulPong, P., & Bowden, R. (2002). An improved adaptive background mixture model for
real-time tracking with shadow detection. Video-based surveillance systems, 1, 135-144.
Wren, C. R., Azarbayejani, A., Darrell, T., & Pentland, A. P. (1997). Pfinder: Real-time tracking of
the human body. IEEE Transactions on pattern analysis and machine intelligence, 19(7), 780-785.
_____________________________
Este documento debe citarse como: Santos Canul, U., Bolón Méndez, G., Moreno Sabido, M., Hernández
López, F., Castillo Atoche, A., (2017). Comparación de algoritmos de detección de cambios en videos.
Ingeniería, Revista Académica de la FI-UADY, 21-2, pp. 11-21, ISSN 2448-8364.
21