Está en la página 1de 10

Object Detection

Idea: Localizar y clasificar objetos de interés en una imágen


Aplicaciones
Semaforización inteligente
Tracking de productos en retail
Localización de tumores

Tracking en agro
Intuición sobre la detección de Objetos
• Problema de clasificación:
En clasificación
suponemos que solo hay
una clase en cada imagen
Clasificador 1 → Perro

En detección puede haber


• Problema de Detección: N objetos (No sabemos a
priori cuantos)

Sistema de [1, coordenadas(0.1,0.5,0.7,0.9)


detección 1, coordenadas(0.6,0.9,0.6,0.9)] →
Intuición sobre la detección de Objetos
• Una opción puede ser ventanear la imagen y tratar cada ventana
como una clasificación, es este el objeto?
1. One Shot: Podríamos classificar con las etiquetas finales (Perro,
gato, vehiculo)
2. Two Shot: Classificar si es objeto o no y luego que tipo de objeto es.
Problemas:
• Las etiquetas ya no son sólo categoricas, tambien deben
tener coordenadas (para saber si la ventana se ubicó en un
objeto)
• El tamaño de la ventana debería rodear el objeto (no ser más
pequeño ni más grande y el tamaño de todos los objetos no
es igual)
De etiquetas a anotaciones
• Las anotaciones deben contener la LISTA de categorías y coordenadas
de cada objeto en la imagen, esto debería ser en otro archivo (de
texto)
Pascal VOC (XML), 1 for each image Programa para realizar anotaciones:

https://github.com/tzutalin/labelImg

Las redes neuronales no


entieden categorías en
texto, sino numéricas,
qué hacemos?

Solucion: Diccionario que


mapee texto a un numero
entero (Label Map)
API de detección de objetos de TF
• Implentar y entrenar un modelo de OD puede ser bastante
complicado, incluso utilizando Tensorflow-Keras, por esto se creo la
API de OD:

• https://github.com/tensorflow/models
El Modelo – La Faster R-CNN
• R-CNN (Regional Based Convolutional Neural Network)

Region Proposal Network Y si en vez de tener una sola ventana, tenemos multiples, con varios
tamaños, y aspect ratios
Si lo pasamos por una Fully Connected CNN
podriamos tener que tan probable es que la
ventana sea un objeto (Score)

Y cual CNN utilizamos?


El Modelo – La Faster R-CNN

2. Supresión de no máximos:
Si se detectan dos objetos en el mismo
lugar, nos quedamos con el de mayor score

3. Los proposals con


mayor object score son
nuevamente clasificados

1. Con la intersección entre los Bbox de las 4. Las coordenadas de los


anotaciones y de los proposals, tenemos proposals son corregidas
muestras positivas y negativas para una con una regresión para
clasificación (Objeto, no objeto) acercarce más a las
anotaciones
Y existen muchos más modelos
• https://github.com/tensorflow/models/blob/master/research/object_detection/g3doc/tf2_detec
tion_zoo.md
• Para más información:
https://www.udemy.com/course/deep-learning-para-computer-vision
-con-python-y-tensorflow/?referralCode
=9ECD5F991F5AFC754963

También podría gustarte