Está en la página 1de 14

Proyecto de imagen 2020/2021:

OCR

9/4/21 Sound & Image Fundamentals 1


Imágenes de entrada

• Imágenes de
documentos.
• Solo letras mayúsculas.
• La fuente es siempre
arial.
• Texto organizado en filas
(sin columnas, sin
imágenes, sin
puntuación).
• Objetivo è Reconocer el
texto

9/4/21 Sound & Image Fundamentals 2


Imágenes de entrada

Las imágenes deben ser generadas por los propios alumnos

Escaneado

Fotografía móvil

9/4/21 Sound & Image Fundamentals 3


TAREA 1: binarización
• Objetivo: convertir la imagen en
lógica (falso: negro, verdadero:
blanco).
• Leer imagen (RGB), escala de
grises.
• Aplicar un umbral calculado de
manera razonada
• Invertir la imagen (para obtener
píxeles de caracteres en "activo /
verdadero").

9/4/21 Sound & Image Fundamentals 4


TAREA 2: segmentar filas
• Método: proyección vertical.

• Simplemente sume las filas de la


matriz (o calcule la media por filas).

• Deberíamos obtener un vector que


defina claramente las filas.

9/4/21 Sound & Image Fundamentals 5


TAREA 2: segmentar filas
• Utilice un umbral para "detectar filas".

• Encuentre puntos de inicio y fin (índices) para


filas.

9/4/21 Sound & Image Fundamentals 6


TAREA 2: segmentar filas
Avanzado: use morfología matemática (sección 4.6) para
convertir filas en manchas blancas y luego detectar
manchas con bwlabel.

9/4/21 Sound & Image Fundamentals 7


TAREA 3: segmentar caracteres
• Entrada: puntos de inicio de fila y puntos finales
de fila.

• Extraer filas como imágenes parciales

• Usar una proyección horizontal (suma de columnas)


para segmentar caracteres.

9/4/21 Sound & Image Fundamentals 8


TAREA 3: segmentar caracteres
Avanzado: otros métodos…
“Detectar manchas con bwlabel”. ¿Puede esto ser
suficiente?

Calcular la correlación entre columnas consecutivas


puede ser mejor que la proyección.

9/4/21 Sound & Image Fundamentals 9


TAREA 4: preprocesar caracteres
• Entrada: caracteres segmentados de la tarea 3.
• Convertir en imágenes NxN (digamos N = 32).
• Pasos:
• Calcule el tamaño.
• Agregue columnas (o líneas) en blanco (o negro)
hasta que quede cuadrado.
• Cambie el tamaño al tamaño deseado
(imresize).

9/4/21 Sound & Image Fundamentals 10


TAREA 5: crear alfabeto
• Entrada: imagen con todos los caracteres del
alfabeto
• Aplicar la segmentación y preprocesamiento ...
• Para obtener un alfabeto de caracteres con el que
comparar:

9/4/21 Sound & Image Fundamentals 11


TAREA 6: función de reconocimiento
• Entrada: imagen con caracteres.

• Debe usar imágenes del alfabeto para comparar


con la entrada y seleccionar la más similar.

• Medidas de similitud (promediados de


comparaciones pixel a pixel):
Correlación: suma (suma ((Entrada-0.5). * (Patrón-0.5)))

Otras medidas (u operadores de distancia) ...

9/4/21 Sound & Image Fundamentals 12


TAREA FINAL: COMBINAR TODO

Ejecuciones reales, no siempre perfectas


9/4/21 Sound & Image Fundamentals 13
Discusión
• ¿Puedes mejorar los resultados?

• ¿Cuál es la etapa más propensa a errores?

• ¿Posibles métodos para mejorar?

Entregable
• Código: script final (con funciones), puede ser
un mlx.
• Informe: tareas cumplidas, métodos avanzados
(si los hay), resultados, análisis de errores.

9/4/21 Sound & Image Fundamentals 14

También podría gustarte