Está en la página 1de 26

Universidad Nacional de San Antonio Abad del Cusco

FACULTAD DE CIENCAS QUIMICAS, FISICAS Y MATEMATICAS DEPARTAMENTO ACADEMICO DE INFORMATICA

RECONOCIMIENTO DE CARACTERES EN FOTOGRAFIAS DE SENALES INFORMATIVAS-DIRECCIONALES USANDO CAMPOS ALEATORIOS CONDICIONALES


Temario de Tesis para optar el t tulo profesional de Ingeniero Inform atico y de Sistemas Presentado por: Br. Berthin Sandino Torres Calla naupa Asesor de Tesis: M.C.S. Lauro Enciso Rodas Co-Asesor de Tesis: Ph.D. Rosa Enciso Baca

ii

Indice general
1. Introducci on 2. Aspectos Generales 2.1. Descripci on del Problema . . . 2.2. Antecedentes . . . . . . . . . . 2.3. Justicaci on . . . . . . . . . . . 2.4. Objetivos . . . . . . . . . . . . 2.4.1. Objetivo General . . . . 2.4.2. Objetivos Espec cos . . 2.5. Hip otesis . . . . . . . . . . . . . 2.6. Metodolog a . . . . . . . . . . . 2.6.1. M etodo de Investigaci on 2.6.2. Fuentes de Informaci on . 2.7. Riesgos de la Investigaci on . . . 1 3 3 4 5 6 6 7 7 7 7 7 7 8 8 10 11 11 13 13 13 14 15 15 16 17 19 20

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

3. Marco Te orico 3.1. Procesamiento de Im agenes . . . . . 3.1.1. Colores . . . . . . . . . . . . . 3.1.2. Transformadas . . . . . . . . 3.1.3. Histograma . . . . . . . . . . 3.1.4. Negativos . . . . . . . . . . . 3.1.5. Thresholding . . . . . . . . . 3.1.6. Image Sharpening . . . . . . . 3.1.7. Detecci on de lados . . . . . . 3.2. Algoritmos heur sticos . . . . . . . . 3.3. Machine Learning . . . . . . . . . . . 3.4. Reconocimiento Optico de Caracteres 3.5. Campos Aleatorios Condicionales . . Cronograma de Actividades Bibliograf a

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

iii

Indice de guras
2.1. Letrero de la calle Waynapata . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Fotograf as de las se nales indicando el nombre de las calles de la ciudad de Cusco. a) Alabado. b) Intikijllu. c) Mantas. d) San Bernardo. e)Waynapata 2.3. Fotograf as de las se nales indicando el nombre de las calles de la ciudad de Cusco. (a) Siete Borreguitos. (b) Siete Angelitos. . . . . . . . . . . . . . . . 3.2. Espacio de color RGB, con los colores primarios rojo, verde y azul, colores secundarios amarillo, cian, magenta. Las im agenes en la escala de grises en cualquier intensidad est an a lo largo de la diagonal que conecta los colores blanco y negro del espacio. . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3. (a) Imagen original. (b) Imagen despues del proceso de extensi on. (c) Histograma original. (d) Histograma despu es del proceso de extensi on . . . . 3.4. (a) Histograma original. (b) Histograma compensado. . . . . . . . . . . . 3.5. (a) Imagen original. (b) Sobel. (c) LoG. (d) Thresholding LoG. (e) Zero Cross. Fuente : Digital Image Processing, Dr.Rong Zhang. . . . . . . . . 3.6. La detecci on de lados proporciona una apropiado m etodo para generalizar la informaci on una imagen. (a)La Siesta por Picasso, 1919. (b) Imagen luego de ser aplicado el m etodo de detecci on de lados. . . . . . . . . . . . 3.7. Cronograma de Actividades . . . . . . . . . . . . . . . . . . . . . . . . . 4 5 6

. 10 . 12 . 13 . 14

. 15 . 19

iv

Indice de cuadros
2.1. Resultados obtenidos al someter 5 fotograf as a diferentes motores OCR. (V ease Figura. 2.2.) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

Cap tulo 1 Introducci on


Durante los u ltimos a nos, debido al avance tecnol ogico y cient co, se opt o por asignar a las computadoras trabajos rutinarios. Actualmente, las computadoras no solo desarrollan una gran variedad de secuencias y rutinas, con la intervenci on de conceptos heur sticos, evolutivos y de aprendizaje (tanto como metodolog as y t ecnicas) permiten que se pueda experimentar con algoritmos que antes solo se quedaron en modelos te oricos. Seg un el art culo The Data Deluge: An e-Science Perspective [1, p. 809-824], se espera que en la d ecada comprendida entre los a nos 2003 y 2013, la cantidad de informaci on 1 generada sea de alrededor 100 Terabytes a 10 Petabytes por a no ; informaci on que no llega a ser procesada del todo. Sitios web como Amazon2 , Ebay3 , Rakuten4 , y muchos otros, ofertan una gran cantidad de productos, y la mejor forma para un usuario de tener una referencia de manera r apida es a trav es de una imagen. Si solo consider asemos como ejemplo los discos de vinilo de colecci on, la primera impresi on de un usuario interesado en el productos vendr a a partir de una fotograf a del disco, el estado en el que se encuentre en muchos casos se puede deducir a partir de la imagen. Pr eviamente, para que el usuario haya encontrado el disco de vinilo, debi o de haber realizado una b usqueda, y antes que ello, el vendedor ha debido de subir informaci on al servidor para que d e a conocer el producto que est a ofertando. Todo ello implica, en la gran mayor a de casos, un proceso manual de digitaci on. Estudios dentro del campo de la Computaci on Gr aca e Inteligencia Articial para el problema de reconocimiento de caracteres en im agenes complejas [18, 19], aprovechando la velocidad de procesamiento y tama no de memoria que una computadora puede llegar a tener, se presentaron alternativas que intentan aligerar el proceso mencionado en el p arrafo anterior. Teniendo una imagen fotogr aca del producto (discos de vinilo), se podr a reconocer el t tulo, autor, a no, y en base a estos datos consultar diferentes bases de datos por m as informaci on que puede ser usado para dar a conocer datos relevantes o importantes a los usuarios interesados en el producto. El presente trabajo, est a enfocado en la b usqueda y reconocimiento de caracteres en fotograf as que contengan letreros de se nalizaci on-informaci on de las calles de la ciudad de
1

Considerando u nicamente informaci on de car acter cient co, datos m edicos, de sat elites, de radares,

etc.
2 3

http://www.amazon.com/ http://www.ebay.com/ 4 http://www.rakuten.com/

Cusco; para que, dada una fotograf a, se pueda identicar y mostrar informaci on acerca de la calle donde fue capturada la imagen. La distribuci on de los cap tulos ser a dada de la siguiente forma: Cap tulo I , se presentan aspectos generales de la tesis, planteamiento del problema, antecedentes, hip otesis, objetivos, as como tambi en la metodolog a a seguir. Cap tulo II , se presenta el marco te orico brindando un referencia bibliogr aca a conceptos fundamentales para el desarrollo de la tesis. Cap tulo III , se presenta un estudio de los datos, aprovechando las caracter sticas presentes en los letreros de se nalizaci on-informaci on que indican los nombres de las calles de la ciudad de Cusco. Cap tulo IV , se exponen los m etodos y resultados del pre-procesamiento de las im agenes, para encontrar el texto contenido en la fotograf a realizando procesos de transformaci on y segmentaci on en im agenes. Cap tulo V , se expone el enfoque, los criterios y par ametros del modelo de campos aleatorios condicionales usado para el reconocimiento de caracteres en el problema. Cap tulo VI , se muestra la estructura de la base de datos usada y los conjuntos de datos para las fases de entrenamiento, validaci on y pruebas. Cap tulo VII , se presentan los resultados de los experimentos mediante gr acos y tablas. As como tambi en, se incluyen conclusiones y recomendaciones para trabajos futuros.

Cap tulo 2 Aspectos Generales


2.1. Descripci on del Problema

El manejo de im agenes digitales se ha convertido en las u ltima d ecadas en un tema de inter es extendido en diferentes a reas de las ciencias naturales, ciencias m edicas y las aplicaciones tecnol ogicas. El crecimiento en el poder de c omputo, las capacidades de almacenamiento y los nuevos sistemas de desplegado, captura e impresi on de bajo costo han facilitado el desarrollo de esta disciplina. La investigaci on en el reconocimiento de im agenes en situaciones complejas los algoritmos OCR (Optical Character Recognition, reconocimiento optico de caracteres ) han sido uno de los campos de la computaci on gr aca m as estudiados y sobre los que existen m as publicaciones en la historia del procesado de im agenes. Sin embargo, la gran parte de trabajos est an referidos al reconocimiento de caracteres en documentos de texto. En base a ello, trabajos enfocados al reconocimiento en im agenes complejas 1 son temas donde los investigadores siguen en la b usqueda de la mejor t ecnica para afrontarlos, llevando a cabo estudios comparativos, como se presenta en [9]. En Cusco, una ciudad con un legado hist orico, catalogada como Mejor ciudad de Centro Am erica y Am erica Latina2 en el a no 2012, la Municipalidad Provincial conjuntamente con la gerencia del Ministerio de Transportes y Comunicaciones, con el motivo de conservar el modelo colonial de sus calles, vieron por conveniente la instalaci on de letreros direccionales y/o de informaci on siguiendo el Manual del MTC para se nalizaci on 3 (v ease Figura 2.1).
Donde intervienen texturas, colores, ruido y otros factores que causen distorsi on encontrados en una fotograf a. 2 Por la revista Travel and Leisure http://www.travelandleisure.com/worldsbest/2012/ cities/latin-america-cities/359 3 www.mtc.gob.pe/cnsv/area_legal/Normas\%20Legales/2.-\%20DECRETO\%20SUPREMO\%20N\ %C2\%BA\%20016-2009-MTC.pdf
1

Figura 2.1: Letrero de la calle Waynapata Es de esa imagen donde nace el problema, la voluntad de querer reconocer el nombre de la calle Waynapata y mostrar informaci on al respecto.

2.2.

Antecedentes

Tesseract, descrito en [15], viene a ser un motor OCR desarrollado por HP en el cual se usaron ideas innovadoras para la detecci on de segmentos de texto que contengan un grado de inclinaci on o desplazamiento, como tambi en el enfoque para identicar los caracteres dentro de un segmento de texto. En [6], se habla acerca de algunas formas para clasicar im agenes, sean fotograf as, hechas a mano o por computadora, en las cuales, aplicando m etodos computacionales se puede separar im agenes hechas a mano de im agenes generadas por una computadora. Finalmente, se da a conocer que se implement o un reconocimiento de regiones por color y textura. En [9] se realiza un an alisis comparativo entre diferentes t ecnicas de Machine Learning. En [4], se plantea combinar diferentes t ecnicas de Machine Learning en el problema de reconocimiento o ptico de caracteres usando un modelo de cascada con el objetivo de disminuir el tiempo de respuesta del clasicador e incrementar la precisi on de los resultados. En [19], se describen los pasos a seguir para el reconocimiento de regiones que contienen texto en im agenes, usando el enfoque de variaci on espacial-horizontal horizontal spatial variance segmentando la imagen en componentes, que luego ser an analizadas para buscar componentes que est en conectadas. En [18], al igual que en el anterior trabajo, se describen los pasos para el reconocimiento de im agenes usando algoritmos heur sticos en diversas etapas de segmentaci on, ltro y extensi on de regiones que contienen segmentos de texto.

2.3.

Justicaci on

Pese a encontrarse soluciones al problema de la b usqueda y reconocimiento texto en una imagen, al someter a prueba algunos algoritmos encontrados en la web con un data set de 6 fotograf as 4 , se obtuvieron los siguientes resultados. Fotograf a a b c d e Largo (pixeles) 1582 1120 594 810 159 Ancho (pixeles) 567 472 390 170 37 OCR Engine Tesseract-ocr Wwnapli Asprise-OCR 5 Wayn8p8t 6 Free OCR Mllas W3snaP2c2 7 New OCR Alabado Intikullu antag Sa o un Wjaynapata Cuadro 2.1: Resultados obtenidos al someter 5 fotograf as a diferentes motores OCR. (V ease Figura. 2.2.)

(a)

(b)

(c)

(d)

(e)

Figura 2.2: Fotograf as de las se nales indicando el nombre de las calles de la ciudad de Cusco. a) Alabado. b) Intikijllu. c) Mantas. d) San Bernardo. e)Waynapata De los resultados en la prueba, y de la experiencia obtenida durante la b usqueda de los algoritmos que fueron sometidos al experimento y en la fase de obtenci on de im agenes para formar el data set, se encontraron los siguientes aspectos:
4 5

obtenidas de manera aleatoria de las calles de la ciudad de Cusco http://asprise.com/product/ocr/index.php?lang=java 6 http://www.free-ocr.com/ 7 http://www.newocr.com/

1. 2. El tipo de fuente usado para los letreros de se nalizaci on que indican los nombres de las calles presenta el problema de confundir la letra a con el d gito 8. 3. Muchos algoritmos OCR est an entrenados para diferentes idiomas, pero no se encontr o alguno que tenga como objeto la lengua Quechua. 4. Una foto puede tener un rango amplio y cubrir aspectos que para nuestra nalidad no son necesarios (v ease Figura 2.1). Para las pruebas que se realizaron, se tuvo que hacer un pre-procesamiento y seleccionar una regi on m as espec ca. A pesar de encontrar algoritmos para mejorar el problema del reconocimiento de caracteres, como el GOCR 8 , los cuales pueden ser entrenados, eso requiere de contarse con un data set de fotograf as de los caracteres usados en los letreros de se nalizaci on, lo cual no se tiene, pero se podr a generar, quedando como una alternativa para realizar el an alisis de resultados del la soluci on que se espera encontrar con soluciones ya propuestas. El estado de algunas letreros de se nalizaci on, el nivel de luminosidad/oscuridad de la fotograf a, a ngulo desde el cual se toma la fotograf a ser an algunos factores que se tienen que afrontar para resolver el problema (v ease Figura 2.3).

(a)

(b)

Figura 2.3: Fotograf as de las se nales indicando el nombre de las calles de la ciudad de Cusco. (a) Siete Borreguitos. (b) Siete Angelitos.

2.4.
2.4.1.

Objetivos
Objetivo General

Desarrollar una aplicaci on que lleve a cabo las operaciones de b usqueda y reconocimiento de texto de una fotograf a para mostrar informaci on al concerniente al texto.
8

http://jocr.sourceforge.net/

2.4.2.

Objetivos Espec cos

Investigar e implementar operaciones de transformaci on sobre im agenes para su procesamiento. Investigar, analizar e implementar algoritmos para el reconocimiento de texto en im agenes. Investigar, buscar y recolectar informaci on con respecto a los letreros de se nalizaci on e informaci on de los nombres de las calles, as como tambi en armar un data set para las diversas fases de an alisis, entrenamiento y pruebas de la aplicaci on. Investigar e implementar un algoritmo basado en Campos Aleatorios Condicionales para el reconocimiento optico de caracteres teniendo como prioridad el reconocimiento del lenguaje Quechua. Evaluar y comparar los resultados logrados con otros algoritmos propuestos.

2.5.

Hip otesis

Obtener a lo m as un error de 10 % de los resultados del sistema con respecto a los datos de entrenamiento.

2.6.
2.6.1.

Metodolog a
M etodo de Investigaci on

Dada la naturaleza del trabajo de tesis, se utilizar a el m etodo de investigaci on te orica, comparativa y cuantitativa, adem as se usar a el m etodo deductivo, inductivo y experimental

2.6.2.

Fuentes de Informaci on

Se recurrir a a la b usqueda de informaci on bibliogr aca de diversas bases de datos de art culos cient cos como Springer, ScienceDirect, ACM Digital Library, IEEExplore, art culos de Google Scholar y libros.

2.7.

Riesgos de la Investigaci on

El tema de Campos Aleatorios Condicionales es un tema que requiere un gran fundamento te orico, el desconocimiento de algunos aspectos pueden ser considerados como factores de riesgo a tomar en cuenta.

Cap tulo 3 Marco Te orico


En este cap tulo se describir an algunos temas considerados como material de importancia brindando conceptos claves para el desarrollo del trabajo de tesis, como teor a acerca de Procesamiento Digital de Im agenes, algoritmos heur sticos considerado para el proceso de b usqueda y extracci on de texto,y Machine Learning, en especial, el enfoque de Campos Aleatorios Condicionales para el reconocimiento de caracteres.

3.1.

Procesamiento de Im agenes

El procesamiento de im agenes, seg un del Dr. Brian Mac Namee, viene a ser un conjunto de t ecnicas que son usadas para mejorar la informaci on pictogr aca de una imagen para su posterior interpretaci on, como tambi en viene a ser el proceso de almacenamiento, transmici on y representaci on de im agenes para ser analizados por m aquinas aut onomas. A continuaci on, se mostrar a un ejemplo de algunas transformaciones sobre la im agen de la gura 3.1a, con el objetivo de lograr mejores resultados en la fase de reconocimiento de caracteres. Haciendo un an alisis r apido sobre la mejora de resultados luego de realizar una serie de transformaciones sobre la fotograf a de la gura 3.1a y la gura 3.1i, con elmotor New1 OCR . Para la im agen original, solo modicando el a rea de b usqueda, se obtuvo que la respuesta del motor fue ln, mientras que con la imagen transformada fue Sigiflmhnn. Aunque no se llega a detectar el texto como se desear a, se observa que al menos hay una mejora con respecto a la cantidad de caracteres identicados. En las pr oximas secciones, se presentar an una serie de ideas y fundamentos relacionados a las transformaciones sobre im agenes.
1

Que demostr o mejor aceptaci on seg un la Tabla 2.1

(a)

(b)

(c)

(d)

(e)

(f)

(g)

(h)

(i)

Figura 3.1: Transformaciones sobre la fotograf a del letrero de se nalizaci on de la calle Siete Ventanas. (a) Imagen original. (b) Imagen en escala de grises. (c) Imagen con colores invertidos. (d) Imagen transformada usando Levels. (e) Ventana de GIMP para modicar levels a . (f) Imagen transformada por thresholding. (g) Ventana de GIMP para modicar los niveles de blanco y negro de la imagen b . (h)Regi on de texto contenida en la imagen. (g) Imagen nal luego del proceso de b usqueda de texto.
a b

http://docs.gimp.org/en/gimp-tool-levels.html http://docs.gimp.org/en/gimp-tool-threshold.html 9

3.1.1.

Colores

Desde el principio, las personas han intentado representar los conceptos en la b usqueda de ampliar su conocimiento, es as que a lo largo de la historia, diferentes personajes propusieron modelos de representaci on de los colores. Como es de imaginarse, los modelos fueron cambiando y adapt andose conforme el avance de ciencia y tecnolog a. Por ende, solo se hace menci on a los siguientes modelos: RBG2 . En 1802, T. Young encontr o que la combinaci on de 3 colores independientes puede producir todos los colores visibles. Los colores permisibles por el ojo humano pueden ser descritos por tres componentes, rojo, verde y azul (Red, Green and Blue). En 1931, el International Comity for Light CIE(Commission Internationale de IEclairage) standariz o el modelo RGB. Un m etodo usado para representar el modelo RGB es mediante el Cubo RGB (v ease Figura ??). CMYK3 . Usado por la m aquinas de impresi on. (Cian, Magenta, Yellow, Black(K)). Escala de Grises (grayscale o greyscale). Modelo donde cada pixel solo almacena informaci on de la intensidad. Blanco y Negro4 . Modelo donde los pixeles almacenan informaci on para determinar si debe de ser pintado como blanco o negro

Figura 3.2: Espacio de color RGB, con los colores primarios rojo, verde y azul, colores secundarios amarillo, cian, magenta. Las im agenes en la escala de grises en cualquier intensidad est an a lo largo de la diagonal que conecta los colores blanco y negro del espacio.
Llamado tambi en modelo aditivo, puesto que, el color resultante es obtenido como la suma de los 3 colores b asicos. 3 Llamado tambi en modelo de 4 canales. 4 Llamado tambi en modelo binario
2

10

3.1.2.

Transformadas

RGB a GRAY Muchas veces se require transformar una imagen de color RGB a escala de grises (grayscale). Sabiendo que la escala de grises est a sobre la diagonal principal del cubo de color, nosotros podemos realizar una proyecci on sobre esta diagonal considerando como la escala de grises una variante del color usado. GRAY = RED2 + GREEN 2 + BLU E 2 Otra forma, y a un m as usada para convertir de RGB a GRAY, es mediante la media de los tres valores, es decir: GRAY = RED + GREEN + BLU E 3

Imagen Binaria Una imagen binaria consta de solo 2 colores, usualmente blanco y negro, valores que pueden ser representados como 0 y 1. Usualmente esta imagen se obtiene a partir de una que se encuentre en la escala de grises usando un umbral, dicho de otra forma, dado un pixel de la posici on x,y, se dene lo siguiente: b(x, y ) = 1 g (x, y ) T 0 g (x, y ) < T

donde b(x, y ) es el pixel binario, g (x, y ) el pixel en escala de grises, y T es el umbr al. Las im agenes binarias son usadas para el proceso de detecci on de lados.

3.1.3.

Histograma

Un histograma es una herramiente que provee un puente natural entre im agenes y una descripci on probabil stica, viene a ser denido como: hf (z ) = n umero de pixeles con luminancia z . El histograma es usado para tener una representaci on global de la imagen, de la cual se obtiene informaci on cuando se buscan condiciones de iluminaci on optima en la captura de im agenes, transformaciones a escala de grises, y segmentaci on de im agenes (los objetos del fondo). Extensi on del histograma Debido a que los sensores o pticos usualmente son concentrados en regiones con estrecha luminancia, se usan los histogramas para resolver este problema (v ease gura 3.3). Denition 3.1.1. Sea una imagen cuya luminancia est e contenida dentro del dominio de [A, B ], la estimaci on de A y B puede ser realizada usando informaci on del histograma. Por ejemplo, asumamos que nosotros queremos extender el histograma a un dominio de 8-bit usando la escala de grises f (X ) = 255A 255 X BA BA

donde X es el valor de luminancia de la imagen original, f (X ) representa la luminancia de la imagen sometida a la extensi on de histograma. 11

(a)

(b)

(c)

(d)

Figura 3.3: (a) Imagen original. (b) Imagen despues del proceso de extensi on. (c) Histograma original. (d) Histograma despu es del proceso de extensi on Compensaci on de Histograma Es una de las operaciones en histogramas m as conocidas, cuya meta es tener una imagen que tenga aproximadamente el mismo n umero de pixeles para todas las luminancias (v ease gura 3.4). Las im agenes compensadas presentan un buen contraste, caracter stica principal para el desarrollo de esta operaci on Tomando en cuenta el concepto de compensaci on de histograma, podemos considerar el siguiente problema: Dada una variable aleatoria X con funci on de densidad fX (X ) (gura 3.4a), deseamos transformar Y = g (X ) produciendo una funci on de densidad fY (Y ), en este caso proporcional al histograma compensado (gura 3.4b).. Aplicaciones del Histograma Todos los m etodos que usan una funci on de distribuci on de densidades est an basados en histogramas. En el proceso de mejoramiento del constraste de una imagen. Emparejamiento de histogramas (Histogram matching). Modicaci on de colores. 12

(a)

(b)

Figura 3.4: (a) Histograma original. (b) Histograma compensado. Puede ser usado para hacer resaltar a ciertas partes de la imagen.

3.1.4.

Negativos

Una de las aplicaciones a la luminancia de una imagen, tiene que ver con la aplicaci on independiente a cada pixel, llamada operaciones punto (point operations). Por ejemplo, el transformar una im agen a su negativo (o viceversa) puede ser desarrollada de diferentes formas, como: Imagen Binaria N egativo(x, y ) = Original(x, y )
5

Escala de grises N egativo(x, y ) = 2k 1 Original(x, y )6 RGB La operaci on para escala de grises se aplica a cada canal de la imagen.

3.1.5.

Thresholding

Es un m etodo usado en la segmentaci on de im agenes cuyo objetivo es crear una im agen binaria a partir de una imagen en escala de grises.

3.1.6.

Image Sharpening

T ecnica para detectar lados y resaltar detalles (ver Fig. 3.5). Dentro de los cuales podemos encontrar los siguiente m etodos: Sobel LoG Thresholded LoG Zero Cross
5 6

representa la operaci on l ogica negaci on . k es el n umero de bits usados de memoria para la representaci on de un pixel.

13

(a)

(b)

(c)

(d)

(e)

Figura 3.5: (a) Imagen original. (b) Sobel. (c) LoG. (d) Thresholding LoG. (e) Zero Cross. Fuente : Digital Image Processing, Dr.Rong Zhang.

3.1.7.

Detecci on de lados

La detecci on de lados es uno de los m etodos de pre-procesamientos en im agenes m as importantes, usado para localizar los cambios en la funci on de intensidad, los lados son pixeles donde la funci on en menci on (brillo) cambia abruptamente. Estudios en neurolog a y psico-f sica sugieren que en una imagen donde los cambios de la funci on de intensidad tienen cambios radicales son importantes para la percepci on de la imagen. Si u nicamente los lados de mayor magnitud son considerados, dicha informaci on es suciente para tener un entendimiento de la imagen. Gracias a ello, podemos reducir signicativamente la informaci on de la imagen, como se observa en la gura 3.6.

14

(a)

(b)

Figura 3.6: La detecci on de lados proporciona una apropiado m etodo para generalizar la informaci on una imagen. (a)La Siesta por Picasso, 1919. (b) Imagen luego de ser aplicado el m etodo de detecci on de lados.

3.2.

Algoritmos heur sticos

Dentro de computaci on, los t opicos m as importantes comprenden la validaci on de algoritmos, estimaci on de complejidad y optimizaci on. La complejidad algor tmica es un a rea muy estudiada cuya relevancia yace en la ejecuci on del algoritmo con respecto al tiempo y espacio empleado. Muchas veces se tiene que buscar soluciones a problemas cuyas cotas son bastante grandes, donde un algoritmo que calcule resultados o ptimos globales no es aceptable, para lo cual se buscan algoritmos calculen soluciones aproximadas o parciales. Los algoritmos heur sticos, son aquellos que sugieren soluciones aproximadas a los problemas de optimizaci on, donde el objetivo es buscar la soluci on optima sobre todas las posibles soluciones (la cual se puede denir como una funci on objetivo).7

3.3.

Machine Learning

Machine Learning, denido como: The el of computing which gives the ability to learn without being explicitly programmed. (Arthur Samuel, 1959) Actualmente, el campo de Machine Learning est a orientado a brindar a las computadoras la posibilidad de modicar o adaptar sus acciones para lograr mayor exactiduad y precisi on, donde ambas caracter sticas vienen siendo medidas de acuerdo a c uan bien sean las acciones tomadas por la m aquina. Otra denici on un poco m as t ecnica, A computer program is said to learn from experience E with respect to some task T and some perfomance P, if its perfomance on T, as measured bt P improves with experience E (Tom Mitchell, 1996).
7

Mayormente se usan algoritmos heur sticos en problemas de la clase NP.

15

Para un mejor entendimiento, sup ongase que nosotros tenemos una computadora que identica una tarea de clasicaci on (sea clasicar correos electr onicos como SPAM o NO SPAM), para ello, el programa revisa todos los correos que hayan sido marcados como SPAM por el usuario con la nalidad de aprender a tomar decisiones acerca del proceso de selecci on. De este ejemplo, podemos obtener las siguientes caracter sticas: Task (T), clasicar correos electr onicos como SPAM o NO SPAM Experience (E), revisar los correos marcados por el usuario como SPAM o NO SPAM Performance (P), el n umero (o fracci on) de correos que fueron clasicados corr ectamente como SPAM o NO SPAM Los m etodos de clasicaci on basados en aprendizaje han sido a mpliamente utilizados en el reconocimiento de caracteres desde 1990 dando como resultado mejoras signicantes, todo esto involucra m etodos como: redes neuronales, m aquinas de soporte vectorial, la combinaci on de m ultiples clasicadores, entre otros. Por mucho tiempo, la comunidad relacionada al proceso de clasicaci on y reconocimiento de caract eres vino sufriendo cambios debido al crecimiento de la data que va ganando con el paso del tiempo, nuevos m etodos son estudiados para tomar ventaja de la gran cantidad de informaci on que se posee. Aunque este tipo de proceso de mejora es favorable para la clasicaci on de caracteres, el problema est a lejos de ser resuelto, principalmente debido a los caracteres impresos o caracteres libremente escritos a mano. La existencia de m etodos aun no es suciente para afrontar de una manera eciente bajo un sample data grande y creciente. Los errores en el reconocimiento de caracteres aun no son totalmente evitados, pero se tiende a usar de mejor forma el conocimiento que se adquiere de la data.

3.4.

Reconocimiento Optico de Caracteres

OCR (Optical Character Recognition), es una tecnolog a donde los datos e informaci on de documentos son extraidos y almacenados en formatos electr onicos. El procesamiento de im agenes representa un pre-c alculo para obtener mejores resultados al aplicar un OCR. El proceso normal al cual una imagen es sometida por un algoritmo OCR es el siguiente: 1. Identicar gr afos estad sticos, dibujos y logos, con la nalidad de que no intereran en la imag en, la cual deber a quedarse con texto, lo dem as no ser a interesante por el momento. 2. Captura de segmentos de texto. Para mejores resultados, los algoritmos identican orientaci on, tablas, palabras, textos, y patrones que previamente fueron establecidos. 3. Por u ltimo, se procede con el an alisis y detecci on de texto.

16

3.5.

Campos Aleatorios Condicionales

http://link.springer.com/article/10.1007/BF02626996 [2] [3] [4] [5] [20] [7] [8] [10] [9] [13] [12] [15] [16] [18] [17] [19] [1] [14] [11]

17

18

Cronograma de Actividades

Figura 3.7: Cronograma de Actividades 19

Bibliograf a
[1] Fran Berman, Georey Fox, and Anthony J. G. Hey. Grid Computing: Making the Global Infrastructure a Reality. John Wiley & Sons, Inc., New York, NY, USA, 2003. [2] Battista Biggio, Giorgio Fumera, Ignazio Pillai, and Fabio Roli. Image spam ltering using visual information. Image Analysis and Processing, International Conference on, 0:105110, 2007. [3] Leo Breiman. Random forests. Machine Learning, 45(1):532, October 2001. [4] Kumar Chellapilla, Michael Shilman, and Patrice Simard. Combining multiple classiers for faster optical character recognition. In Proceedings of the 7th international conference on Document Analysis Systems, DAS06, pages 358367, Berlin, Heidelberg, 2006. Springer-Verlag. [5] Thomas H. Cormen, Cliord Stein, Ronald L. Rivest, and Charles E. Leiserson. Introduction to Algorithms. McGraw-Hill Higher Education, 2nd edition, 2001. [6] Charles Frankel, Michael J Swain, and Vassilis Athitsos. Webseer: An image search engine for the world wide web. Technical report, Chicago, IL, USA, 1996. [7] Sathiya Keerthi. CRF versus SVM-Struct for Sequence Labeling. Technical report, Yahoo Research, 2007. [8] Huiping Li, D. Doermann, and O. Kia. Automatic text detection and tracking in digital video. Image Processing, IEEE Transactions on, 9(1):147156, 2000. [9] Cheng-Lin Liu and Hiromichi Fujisawa. Classication and learning methods for character recognition: Advances and remaining problems. In Simone Marinai and Hiromichi Fujisawa, editors, Machine Learning in Document Analysis and Recognition, volume 90 of Studies in Computational Intelligence, pages 139161. Springer Berlin Heidelberg, 2008. [10] Cheng-Lin Liu, Hiroshi Sako, and Hiromichi Fujisawa. Performance evaluation of pattern classiers for handwritten character recognition. International Journal on Document Analysis and Recognition, 4(3):191204, 2002. [11] Liliana Lo Presti and Marco Cascia. Entropy-based localization of textured regions. In Giuseppe Maino and GianLuca Foresti, editors, Image Analysis and Processing ICIAP 2011, volume 6978 of Lecture Notes in Computer Science, pages 616625. Springer Berlin Heidelberg, 2011. 20

[12] Norman Matlo. The art of R programming tour of statistical software design. No Starch Press, 2011. [13] Andrew McCallum and Kamal Nigam. A comparison of event models for naive bayes text classication. In IN AAAI-98 WORKSHOP ON LEARNING FOR TEXT CATEGORIZATION, pages 4148. AAAI Press, 1998. [14] Upkar Varshney Georey Knoerzer Sasha Dekleva, J. P. Shim. Evolution and emerging issues in mobile wireless networks. Communications of the ACM, International Conference on, 0:105110, 2007. [15] R. Smith. An overview of the tesseract ocr engine. In Proceedings of the Ninth International Conference on Document Analysis and Recognition - Volume 02, ICDAR 07, pages 629633, Washington, DC, USA, 2007. IEEE Computer Society. [16] Milan Sonka, Vaclav Hlavac, and Roger Boyle. Image Processing, Analysis, and Machine Vision. Thomson-Engineering, 2007. [17] V. Wu, R. Manmatha, and E.M. Riseman. Textnder: an automatic system to detect and recognize text in images. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 21(11):12241229, 1999. [18] Victor Wu, R. Manmatha, and Edward M. Riseman. Finding text in images. In Proceedings of the second ACM international conference on Digital libraries, DL 97, pages 312, New York, NY, USA, 1997. ACM. [19] Yu Zhong, K. Karu, and A.K. Jain. Locating text in complex color images. In Document Analysis and Recognition, 1995., Proceedings of the Third International Conference on, volume 1, pages 146149 vol.1, 1995. [20] ivind Due Trier, Anil K. Jain, and Tornn Taxt. Feature extraction methods for character recognition-a survey. Pattern Recognition, 29(4):641 662, 1996.

21

También podría gustarte