Está en la página 1de 8

EL RECONOCIMIENTO DE TEXTOS

Federico Debandi Miriam Redi


100082589 100078831
Estudiante Erasmus Estudiante Erasmus
Torino - Italia Torino - Italia

debbands@tiscali.it mirrys@libero.it

la l (ele minúscula) y la I (la i mayúscula), o en la minimización


1. INTRODUCCIÓN de los errores debidos por polvo o por falsificación.
La sigla ingles OCR es el acrónimo de Optical Character
Recognition, ósea Reconocimiento Óptico de Carácter.
Un programa para el OCR es un sistema experto en condición de
convertir una imagen textual digitalizada de un documento de
texto, sea él en un formato digital o manuscrito, reconociendo la
disposición en líneas de caracteres alfabéticos y señas diacríticas, Figura 1. El character MICR.
para producir un fichero, en qué ellos son traducios en un formato
ASCII o Unicode que cualquier ordenador puede editar.
Es justo a través de algoritmos de inteligencia artificial que se El principal inconveniente del font MICR residía en el facto que
volvió posible esto diálogo entre las dos líneas de búsqueda, casi ninguna de las maquinas de escribir de la época eran en grado
implementando programas para los más variados usos. de generar los caracteres relativos y además un sujeto humano
podía leer los textos escritos con esto carácter con relativa
dificultad.
2. MENCIÓNES HISTÓRICAS
Los estudios sobre el reconocimiento de los caracteres Por lo tanto, pos la realización de otros estándares más intuitivos,
empezaron hace más de un siglo y desde entonces la tecnología como por ejemplo el OCR-A (ANSI – 1966) y OCR-B
empleada siempre usó como modelo primario los qué se retiene (desarrollado en Europa), durante los años Setenta fueron
ser los mecanismos del ser humano en la lectura: los ojos conducidas búsquedas fundamentales en el campo del omnifont,
escanden el texto según líneas horizontales siguientes, la lens del ósea maquinas en grado de descifrar todos los tipos de escritura.
cristalino enfoca la luz incidente sobre la retina y el nuestro Por la primera vez fueron afrontadas problemáticas relativas al
cerebro puede traducir el mensaje escrito. reconocimiento de caracteres no latines (como los chinos,
japoneses, indianos, coreanos, judíos, etc.) y aparecieron también
Justo por esto motivo muchos de los primeros desarrollos en el los primeros tentativos significativos de reconocimiento óptico ce
reconocimiento de los caracteres se consiguieron en el curso de caracteres manuscritos.
búsquedas directas en la construcción de auxilios de lectura para
los ciegos o sin embargo para individuos afectos de defectos de Entre el fin de Setentas y el inicio de Ochentas el gran publico
vista: hablamos de patentes que se atestan ya ante de 1809. vino a contacto con el OCR por causa de la rapidísima difusión de
un dispositivo sencillo y barato para la lectura óptica, llamado
En séquito de los resultados conseguidos gracias a los primordios bar-code reader (lector de códigos de barras).
de algunas maquinas - como el primero escáner a retina de C.R.
Carey de 1870, el disco para escansiones de imágenes de P. In un lector de códigos de barras, un sensor de luz explora un área
Nikpkow de 1890, la herramienta de transposición de textos en constituida de bandas blancas i negras en alternación, que según
código Morse de E. Goldberg y el robot lector-escritor GISMO de sus anchos, componen un código con el cual se pueden
M. Sheppard de 1954 – las técnicas de reconocimiento conocieron representar informaciones (como el nombre del producto, el
rápidos progresos, sobre todo porque muchas entre las grandes precio o el número de inventario).
empresas, entre que IBM y Bell Laboratories, se percataron de los El lector puede elaborar estos datos in tiempo real consintiendo
potenciales conectados a la tecnología OCR, constituyendo así de suministrar, por ejemplo, el recibo de pagamiento para un
apropiados grupos de búsqueda. cliente y los datos de trasferencia al ordenador dedicado a la
En el 1956 la American Banker’s Association estandardizó un contabilidad.
font de caracteres especial, llamado MICR (Magnetic Ink Tras la primera “traducción”, los siguientes lectores se basan
Character Recognition, Fig.1), para el empleo sobre las solamente sobre el código de barras, bajando drásticamente la
asignaciones bancarias, para aplicaciones con requisitos posibilidad de error.
apremiantes de lectura en alta velocidad.: adecuadas bandas de
tintas simplificaban el compito del lector de caracteres, o en la Actualmente las metodologías de reconocimiento son muy
discriminación de caracteres símiles, como por ejemplo el 1 (uno) progresadas respeto de las técnicas primitivas y llegaron a la
aplicación de técnicas sofisticadas para el reconocimiento de una entry (como por ejemplo le lectura electrónica de paginas en el
grande variedad de complejos caracteres manuscritos, símbolos e trato automático de gran cantidades de correo) y en general a la
ideogramas incluidos también los caracteres chinos y japoneses. transformación de textos y grafica en formatos que leíbles para un
ordenador: el ordenador se porta en manera automática y
solamente supervisada para el hombre. En esto modo, la enorme
cantidad de datos para ser adquiridos toma ventaja para la
3. APLICACIONES velocidad y la infatigabilidad que tiene el ordenador trabajando.
Esta tecnología tiene un enorme número de usos prácticos. Desgraciadamente no es siempre posible tener surgentes de
El uso que históricamente dio por primer lugar impulso a óptima calidad, a veces mas bien se recurre a programas OCR
búsquedas en esto campo es el del auxilio a los ciegos e a las muy en caso de textos gravemente estropeados, difíciles para ser
personas afectadas para limitaciones o patologías al sistema interpretados también para el ojo humano.
visual: la lectura del testo se va a ejecutar mediante sensores Es el caso de la utilización de OCR en sectores de arqueología e
ópticos y el texto reconocido va a ser restituido como estimules historia. En esto, obviamente, el ordenador es solamente un
táctiles o como ondas sonoras. instrumento de soporte, un ojo mucho mas preciso y objetivo de
Otros sistemas podían leer y traducir originales en alfabeto lo humano.
Braille. Esta, luego, un otro sector muy reciente donde OCR se revela
Primero entre todos y arquetipo de la búsqueda para como indispensable: en la utilización de palmares o dispositivos
algoritmos OCR, permanece de todas maneras seguramente el muy pequeños que no integran un teclado. Por estos pero están un
reconocimiento óptico de las direcciones para la clasificación del par de diferencias: en primero lugar non es una tradicional
correo. Ya desde el 1965, en efecto, en los Estados Unidos se adquisición de la imagen, pero l os caracteres son directamente
utiliza esta tecnología: en las oficinas de correo cada carta o interpretados para el movimiento del bolígrafo sobre una
paquete esta escandido para un lector óptico que interpreta la superficie sensible; además, ahora no es el ordenador que tiene
dirección y el código postal, que sean ellos impresos o escritos a que ser adiestrado, pero el hombre.
mano, y genera un correspondiente código de barras, impreso en Para escribir sobre un palmar hay que re-aprender un alfabeto mas
el sobre con una tinta especial notable solamente con el uso de estilizado y atenerse escrupulosamente a ella grafía para pretender
rayos ultravioletas. parecido ocurre en los terminales portuarios
Un procedimiento de ser comprendidos.
donde los sistemas OCR se implementan para identificar mas Otras aplicaciones OCR segundarias como difusión pero no
rápidamente y con una cierta fiabilidad los containers y las por supuesto como importancia son las siguientes:
matriculas de vehículos.
- la medida y la análisis de la calidad de impresión de los
El sistema que ves el mayor empleo de estos sistemas, caracteres;
además, es precisamente el reconocimiento de matriculas para el
control de carreteras y de autopistas. - las operaciones de reservación de plazas en vuelos
aéreos;
Los radares son dispositivos capaces de reconocer la velocidad de
los autos vehículos. Si por una parte, como estos se van a accionar - la lectura automática de los contadores para la
no nos interesa, porque es pertinente a otras tecnologías, podemos facturación de consumes, por ejemplo en servicios
encontrar la presencia de sistemas de reconocimiento de - telefónicos;
la lectura de tarjetas como las de crédito en los sistemas
caracteres inmediatamente después que la foto esta sacada: esta de identificación del personal;
maquina es capaz de reconocer entre la imagen la matricula del
- la optimización de las estrategias de ordenamiento y
coche, seccionándola, agrandándola oportunamente y haciendo
archivo de asignaciones bancarias;
operaciones que vayan a rendir los caracteres más evidentes.
Luego el reconocimiento de la secuencia de números y letras, el - la lectura de etiquetas de presencia para el calculo
puede enviar los datos a las centrales o a otros dispositivos. automático de sueldos y la contabilidad de empresa;
Esto ultimo es el caso del sistema de controlo de velocidad Tutor, - la lectura automática de telegramas.
gracias al cual dos puentes posicionados en una autopista
registran in continuación (en una distancia de muchos
kilómetros) la matricula de los vehículos, teniendo en memoria el
instante exacto del paso y haciendo una media entre tiempo y
4. ARQUITECTURA DE SISTEMAS OCR
La estructura funcional de un típico sistema OCR es en gran
distancia que notificaría la velocidad: donde resulta que el
medida independiente por el hardware sobre lo cual esta
conductor ha cometido una infracción, los datos van a ser
implementada, porque la secuencia de operaciones pedidas para la
entregados a las centrales para el controlo del trafico.
conversión desde una pagina empresa presenciada al lector es
Esto sistema de todas maneras no es solamente útil para hacer igual in casi todos los sistemas, de cualquier grado de
daño a los automovilistas, pero también puede ser un buen medio sofisticación; la estandardización de la secuencia de operaciones
para reconocer matriculas en otras situaciones. Esto es el caso de es debida también al suporte que das el ordenador en todos los
Reader Plate de FAAC que permite el acceso a los vehículos sistemas OCR.
autorizados en determinadas áreas (oficinas, cocheras,...).
Después una fase preliminar para poner en punto el sistema y
Otras aplicaciones muy comunes son las atadas a la plantear los parámetros operativos, la pagina que contiene el texto
elaboración directa de documentos de papel en la fase de data que va a ser convertido, se somete a escansión óptica mediante un
dispositivo de input, el escáner, capaz de digitalizar la imagen
presente sobre el papel convirtiéndola en una matriz de valores
numéricos asociados a la intensidad de la luz refleja para cada 4.2.1 Binarizacion
punto del papel. La mayor parte de los algoritmos para reconocer escritura
están escritos a partir de imágenes binarias, por esto, se convierte
Para analizar una matriz así obtenida hay que tener en cuentas las una imagen en niveles de gris (o color) a una binaria.
características fundamentales de esto tipo de imágenes.
Además esto permite reducir el volumen de los datos a tratar sin
quitar las propiedades esenciales de la imagen.
4.1 Problemas
4.1.1 El ruido del dispositivo 4.2.2 Segmentacion
Las imágenes reales no son perfectas, sobre todo cuando estas
Una vez obtenida la imagen binaria se deberá fragmentar en
imágenes son escaseadas introducen algunas alteraciones.
entidades lógicas invariables y significativas para su
El dispositivo que obtiene la imagen, puede introducir niveles de reconocimiento.
grises en el fondo de la imagen dando lugar a niveles de grises no
Estas unidades corresponden a las letras, y el sistema tiene que
pertenecientes a la imagen real o, peor, el scanner puede añadir
localizarlas dentro de la imagen, operación que se queda más
regiones negras dentro de las áreas que deberían ser blancas.
sencilla después de la binarizacion de la imagen.
Además, la resolución finita de estos dispositivos puede afectar a
los píxeles que deben ser evaluados. No hay métodos estándar que se puedan aplicar siempre,
porque más comúnmente se asocia la segmentación a un estudio
del contexto.
4.1.2 La natura textual
Los símbolos alfabéticos son uno de los conjuntos de entrada
más complejos por lo que concierne los estudios de 4.2.3 Mapatura
reconocimiento de patterns. Trazar el mapa en este caso tiene el sentido de convertir los
objetos detectados en la imagen en matrices de píxel que puedan
Esto ocurre porque la natura de su representación pictórica es
ser leídas por un sistema estándar.
impredecible, y no tiene nada a que ver con la secuencia de los
caracteres. Esto es decir, tamaño y resolución iguales o similares por todas
las letras encontradas.

4.2.4 Un ejemplo en Matlab


Un ejemplo básico de segmentación de una imagen que puede
contener texto, construido con las funciones de las librerías de
Figura 2. Un ejemplo de caótico y no caótico Matlab.
Limpio la imagen: la convierto en niveles de gris, y la paso en
Además, tan en la escritura de maquina como en la escritura un filtro que haga la media por cada sección 3*3. Esto permite de
manual se puede verificar la conexión de dos o más caracteres por reducir el ruido salt and pepper si desenfocar demasiado la
píxeles comunes. Por ejemplo, cuando dos caracteres estén unidos imagen.
provocan que existan píxeles que pertenezcan tanto a uno como a
otro carácter, esta se llama inseparabilidad ortogonal.
También puede ocurrir que no exista un espacio fijo entre
caracteres: esto provoca errores a la hora del reconocimiento del
Figura 3. La imagen limpiada
perímetro de las letras.

Individuo los objetos que hay en la imagen, primero usando la


4.2 Procesamiento de imágenes función bwlabel, que determina el numero de los objetos
Antes de empezar la verdadera búsqueda de la letra mas separados que hay, asignando a los píxeles del mismo objeto
cercana a nuestro trozo de imagen, tenemos que preparar dichos detectado el mismo numero.
segmentos para su lectura.
La matriz va a ser somita por algoritmos de segmentación, que
proceden para la identificación y la clasificación de bloques de
texto siempre más pequeños en el interior de la pagina y tienen
como objetivo final el aislamiento de una serie de sub-matrices
cada una continente la imagen digitalizada de cada carácter; casa Figura 4. Individuación de los objetos
de estas sub-matrices se va luego a someter por un proceso de
Ahora, conociendo el numero de los objetos que hay en mi
clasificación mediante el cual el carácter en ella contenido se
imagen, puedo empezar un ciclo que por cada objeto, busque las
puede analizar y identificar.
coordinadas de sus píxeles, y las use para colorar en negro los
mismos píxeles de una matriz blanca tan grande como la imagen pattern prototipos: el prototipo que presenta el mayor grado de
inicial. correlación se va a asumir como ejemplar del carácter incógnito.
Una vez obtenida una matriz grande por cada carácter, hago En el caso de que ningún prototipo dé lugar a un grado de
un clip de todo lo que no es información evidente y paso esta correlación suficiente, el pattern incógnito se retiene no
nueva matriz en función que redimensione la matriz a un tamaño clasificable o desconocido. Cuando, en vez, se obtiene un grado
estándar. de correlación bastantemente alto con dos o más prototipos, el
sistema envía la decisión a la fase de post-processing.
En este algoritmo, el aprendizaje es muy sencillo: se basa
substancialmente en el almacenamiento de los datos de ejemplo, y
de su estructura de entradas y salidas, y es el algoritmo del vicino
mas cercano.
Figura 5. Obtengo cada letra Una vez creada una instancia con una forma parecida a esa de las
informaciones de entrada del sistema, se encuentran los ejemplos
mas parecidos, a través de la distancia euclìdea (Fig. 6), y se
4.3 Inteligencia artificial en OCR toman las mismas salidas de ellos.
Después una oportuna re-agregación de las informaciones
sacadas mediante la segmentación y la clasificación, en fin se van
a generar uno o más ficheros en salida, que tengan oportuno
formato y que contengan el texto basto, que sea depurado por las
informaciones no relevantes para el reconocimiento, como por
ejemplo la forma y la dimensión de los caracteres, la forma y la
posición del bloqueo de texto y así por el estilo. Figura 6. La formula de la distancia de Euclide
Una vez que la sub-imagen que contiene cada carácter sea
identificada y extraída, el lector sigue con la clasificación del
relativo pattern, ósea la configuración de píxel binarios que Una vez encentradas estas salidas, se puede elegir la medida
constituyen la sub-imagen. con la cual calcular la salida correcta por la instancia de las
entradas, por ejemplo, haciendo la media o tomando el valor mas
Para que un sistema OCR vaya a llevar a cabo este objetivo, frecuente.
como por todos los otros sistemas de inteligencia artificial,
tenemos que dotarlo con la cualidad humana del aprendizaje, ósea Presentamos ahora un ejemplo de un algoritmo de OCR
que se vuelva capaz de adquirir nuevos conocimientos a partir de construido con el concepto del vecino más cercano.
las experiencias que ha vivido, las relaciones con el entorno. Cuando ya el fichero que contiene texto escrito a mano ha sido
Esto significa que el sistema tiene que incrementar su procesado a través de funciones de Matlab, encontramos un ciclo
conocimiento adquirido en sus fases de trabajo para que pueda que por cada carácter encontrado, busca la salida más probable, y
realizar todos sus deberes con mayor eficiencia cada vez que se la escribe en un fichero.
vayan presentando in diferentes ocasiones. Para hacer esto, tengo unos ficheros en los cuales son
Para actuar esto aprendizaje el sistema tiene que dialogar con un almacenadas letras mas o menos parecidas a las letras del alfabeto
medio o con un otro sistema teniendo, así, una relación con el y a los dígitos. Estos ficheros son guardados, al inicio del
entorno que pueda ser memorizada y incorporada en su conocidos programa, en una matriz tridimensional, que entonces contiene, en
y en fin saber como comportarse en otros momentos. orden, todas las letras y todos los dígitos.
Principalmente están dos tipos de metodologías para la Es decir, ponemos que esta matriz se llame “3Dletras”.
clasificación del carácter y ellos son distintos entre dos clases: Entonces, 3dletras(1,:,:) será la imagen correspondiente a
- template matching (usada para lectores más baratos) la letra A, 3dletras(2,:,:) será la B etc.
- feature analysis (que es mas sofisticadas)
Vamos a ver en el detallo que características diferentes ellos
tengan y que ventajas y cual es el nivel de dificultad que
implementan.
Figura 7. El vector memorizado para las letras a, b y c

4.3.1 Template matching: Nearest Neighbour


El método de template matching prevé la presencia en Por cada letra que me sale del procesamiento, veo la correlación
memoria de una serie de prototipos (templates), uno por cada con cada una de estas,
carácter que va a ser reconocido, en forma de pattern incluidos en - la función corr2 me restituye un coeficiente de
sub-imágenes. correlación por cada letra con la mía. Este paso se
La clasificación del pattern relativo a un carácter incógnito podría hacer también tomando la distancia euclidea de
consiste en la ejecución de correlación con cada uno de los mi instancia con la matriz correspondiente a cada letra;
- guardo un index en un array correspondiente a cada
coeficiente de correlación; reconocimiento, pero solamente los de los cuales la descripción
- lo mas alto, o sea, lo que indica cual imagen es la mas estructural no parezca bastante semejante.
parecida a mi imagen, me sirve para determinar la letra El sistema puede así reconocer los caracteres también fuertemente
de salida, para poderla escribir en el fichero textual; distorsionados o con ruido, siempre que la deterioración del
- una vez obtenido el index, simplemente lo traduzco en pattern no conduzca a una alteración excesiva de su descripción
la letra correspondiente gracias al hecho que los estructural. Si el conjunto de los templates y de las características
patrones están ordenados secuenciamente con el orden que intervienen en la descripción estructural es elegido con
alfabético. Entonces, el index 4 significará la letra D etc. sagacidad, el sistema puede clasificar virtualmente cualquier
carácter de cualquier estilo con cualquier dimensión; desde aqui la
La operación de correlación entre el pattern incógnito y el definición de omnifont por esta tipología de técnica e por los
pattern prototipo presenta una cierta complejidad computacional, sistemas que la utilizan.
pero puede ser ejecutada en tiempos razonablemente breves si se
implementa adecuadamente. Siguen unos ejemplos de los algoritmos de aprendizaje
inductivo que se aplican a este tipo de analysis.
Sin embargo, cuando el número de prototipos se pone muy alto –
cuando por ejemplo el sistema tiene que reconocer un gran
numero de estilos (font) y/o un gran numero de cuerpos
(dimensiones) – los tiempos de clasificación se mutan mucho y
Árboles
Los árboles de decisión son técnicas que permiten de analizar
intolerablemente largos.
decisiones basadas en el uso de los resultados y probabilidades
Esta técnica resulta relativamente insensible al ruido, con tal asociadas, y describen las relaciones entre entradas y salidas a
que esto sea presente en cantidad limitada, pero presenta un grave través de una forma ramificada.
inconveniente, porque es incapaz de “generalizar”. En otras
En estos sistemas, se modela una estructura donde las entradas
palabras el template impone una estructura bien precisa para cada
y sus valores son los nodos y las ramas del árbol, y las hojas
carácter y puede pasar que ligeras variaciones a la forma del
finales son las salidas del sistema. Los nodos que están mas arriba
prototipo, como la inclinación o el aumento de las dimensiones o
representan las cuestiones más importantes sobre las cuales tomar
distorsiones estilísticas, rendan el carácter irreconocible.
una decisión.
En general, los lectores que utilizan esta técnica pueden reconocer
Entonces, ¿cómo se define el orden correcto de los atributos?
solamente un numero limitado de font y cuerpos, pero siempre
especificado con precisión. Para ello se emplean funciones de evaluación, donde se determina
la relevancia de cada atributo de acuerdo con algún criterio
Ellos ofrecen las mejores prestaciones para textos a espaciado
específico de cada algoritmo.
constante, como los escritos a maquina, mientras difícilmente
pueden evitar errores en textos con espaciado proporcional. Dicha función se calcula evaluando el atributo que, puesto en el
punto considerado, permite una reducción de la entropía, o sea, de
la cantidad de información necesaria para exprimir los datos.
4.3.2 Feature analysis
En la Fig.8 presentamos un ejemplo de una implementación
La técnica de la feature analysis consiste, en vez, en la
de un árbol ocr, y los criterios en los cuales se basa el desarrollo
extracción de una serie de features, o características, que tienen
de la estructura de ramas y nodos.
un pattern incógnito (por ejemplo, la presencia de tractos
horizontales o verticales o inclinados, ellos punto de encuentro, la
presencia de curvas o cúspides y así por el estilo), en la
descripción de sus relaciones (cercanía, contacto, atravesamiento,
etc.) y en el confronto de esta descripción estructural con la de los
caracteres prototipos.
Un carácter se va así a clasificar por un criterio de máxima
semejanza entre la su descripción estructural y la de uno de los
prototipos.
La operación de generación de descripción estructural puede sin
embargo ser muy larga y compleja, porque el único factor
verdaderamente crítico de esta técnica es constitutito muy por la
elección de las features y por las relaciones que constituyen la
descripción estructural.
En contra de lo que pasa en el pattern matching, de todas
maneras, el conjunto de elementos que constituyen la descripción
es en general bastante pequeño y por lo tanto la operación de
comparación con las descripciones de los templates puede ser Figura 8. Ejemplo de albor OCR
rendidos muy rápidos.
Además, el feature matching es capaz por su naturaleza de
generalizar; como consecuencia no es necesario incluir en el set Después de haber limpiado la imagen original, llegando a una
de templates todos los estiles de los que se desea el matriz de puntos negros y blancos, las características que
ponemos como entrada, o sea, nodos, de nuestro árbol, son las El cerebro humano trabaja en paralelo, aunque a una velocidad
intersecciones con los ejes x/y que pasan por el centro de la mas baja que la del ordenador, que tiene una natura secuencial:
imagen de los píxeles negros, es decir, lo que describen la letra. por esto, aunque Las redes neuronales artificiales sean hoy en día
implementadas en tradicionales ordenadores seriales, simulan el
poder paralelo del cerebro para producir salidas mas razonadas.
1. Entonces, el primer nivel de decisiones se basa en el
numero de intersecciones con el eje x, y el según sobre Estos sistemas aprendes con ejemplos: desde conjuntos de
el mismo valor referido al eje y. datos, a través de algoritmos de entrenamiento, entienden la
estructura de los datos, o sea la relación entre sus entradas y sus
salidas.
¿Cómo puede un sistema hacer esto?
Un ejemplo es el perceptron (Fig.10), la red neuronal más
sencilla:
una neurona artificial recibe en ingreso unas entradas, y con cada
entrada llega también un peso, positivo o negativo que sea, que
seria la eficaz sináptica en una neurona biológica.

Figura 9. Las intersecciones de los ejes x e y

2. La segunda característica que vamos a tratar es si


existen agujeros en la imagen. Esta característica es muy
Figura 10. El modelo de perceptron
importante ya que divide muy claramente la imagen
dentro de una clase u otra. Un agujero es identificado Cada neurona tiene también un valor umbral que es substraído a
como presencia de mas de una área extensa de puntos la suma pesada de las entradas. Esta operación equivale a buscar
blancos. la señal de activación de la neurona.
3. El tercero atributo es el resultado del calculo del Una función de activación filtra dicho señal, y produce la salida
numero de píxeles que definimos “finales”, o sea los de la neurona.
píxeles que hay cuando se acaba de escribir. En este Las neuronas para trabajar en red tienen que ser conectadas, es
atributo se añade también los números de píxeles decir, que cada entrada de una neurona corresponda a una salida
internos al carácter, es decir, los que describen la letra. de una otra. Perceptron es una típica red feedforward, y como tal,
4. Para su cálculo se examinan las 8 adyacencias de cada vea sus neuronas organizadas por niveles, o capas.
píxel y según este dato se determina si son puntos de El nivel de input no es exactamente neuronal: estas unidades
árbol, finales, o nada. Si el número de píxeles simplemente sirven para introducir los valores de las variables.
adyacentes con valor negro es igual a 1, entonces será Además, hay la capa de output y los niveles centrales, o
un punto final. Por otro lado si este numero es mayor o escondidos, en las cuales todas las neuronas de una capa anterior
igual a 3 será un punto interior. vean conectada su salida con cada una de las neuronas de la capa
5. Como ultimo, por cada carácter, el calculo del perímetro posterior.
se toma como cuarta característica bajo la cual sacar El numero de los niveles y de las neuronas es proporcional a la
conclusiones. complejidad de la función que la red es capaz de modelar
6. Las clases finales son elegidas a través de una
comparación del carácter que ha llegado al nodo con
todos los patrones o modelos de letras que satisfacen las
características de dicha rama del árbol.

Redes neuronales
Las redes neuronales traen sus bases de la manera en la cual
las neuronas celébrales comunican una con la otra: son modeles
matemáticos que intentan de recrear las propiedades del
pensamiento del ser humano y de su razonamiento.
Figura 12. El proceso escondido de Markov

¿Cómo se traduce todo esto en un OCR?


Cada machina es un carácter. Si vemos este carácter como una
Figura 11. Los niveles de procesamiento matriz de arrays verticales, podemos definir cada estado como
una columna de la matriz del patrono de la letra.
En este ejemplo de red neuronal, se implementan tres niveles En este sentido, el pasaje de un estado al otro ocurre con
de procesamiento: el input, el output, y uno escondido. probabilidad igual a 1 y cada estado, como vector vertical, puede
asumir mas o menos los mismos valores.
La capa de entrada es constituida por 150 neuronas, y esto es
porque cada carácter identificado en la imagen surgente, llega en Cada combinación de valores, en fin, es un símbolo conectado al
la red bajo la forma de una matriz 10*15 de puntos binarios: cada estado y tiene su propia probabilidad de ocurrir.
neurona permitirá la entrada de un píxel de la imagen. Cuando tenemos una nueva imagen que tiene que ser traducida en
Cada entrada llega con un peso que ha sido inicializado por una caracteres, simplemente se busca la correspondencia de cada
función aleatoria que saca un numero comprendido entre dos vector vertical de la nueva imagen con unos de los símbolos de la
extremos. librería que hemos memorizados con los vectores conectados a los
estados de los caracteres, y luego se deduce el carácter
En el segundo nivel hay 250 neuronas, cuyos numero ha sido
correspondiente, a través de calculo de probabilidad y evaluando
decidido a través de estudios de optimización y evaluaciones
las transacciones.
estadísticas del error.
La capa de salida es un nivel de 16 unidades, una por cada bit de
la codifica unicode del carácter correspondiente a la imagen de
entrada.

Un otro ejemplo: Los proceses de Markov


Un proceso markoviano es muy parecido a una maquina a
estados que funciona a través de arcos que corresponden a una
probabilidad.
Es decir que la transacción entre estados según la distribución de
probabilidad de que el sistema, tomado el estado corriente, pueda
pasar a otro nuevo. Si añadimos lo que se llama proceso
escondido de Markov (Fig. 12), podemos extender esta propiedad
a un dominio más ancho, incluyendo por cada estado, la
probabilidad que un símbolo conectado con el estado ocurra. Figura 13. El proceso de reconocimiento

5. CONCLUSIONES
Cuando las operaciones de reconocimiento de caracteres se
sean completadas, el usuario puede intervenir manualmente sobre
las informaciones extraídas por el sistema, o para corregir los
eventuales errores generados durante el proceso o para la
manipulación y la adaptación de del texto extraído.
En el campo de campo de archivo de documentos algunos
sistemas OCR son capaces de extraer también informaciones
relativas a lo estilo de carácter (cursivo, negrita, subrayado, etc.) 6. REFERENCIAS
usado en cada porción de texto; es evidente que, en caso de que el [1] http://www.ing.unife.it/elettr/IntelligenzaArtificiale/Lucidi/1
usuario tenga intención de reutilizar en un programa word 8-k-NN.pdf
processor el texto extraído, estas informaciones suplementarias, si
organizadas en manera adecuada, pueden tener muchísima [2] http://www.pmar.it/pmag/ocr/ocr.htm
importancia en fines de productividad. [3] http://www.itl.nist.gov/iad/894.03/nn/finnc.pdf
A inconvenientes como lo que hemos citado para el template [4] http://www.codeproject.com/KB/recipes/UnicodeOCR.aspx
matching e a otros se ha intentado de eludir, in estos últimos anos, [5] http://alojamientos.us.es/gtocoma/pid/pid10/OCRarbolbinari
con paquetes mas sofisticados que tienen el nombre de Intelligent o.htm
Character Recognition (ICR), en los cuales el titulo de inteligente
viene da la asociación con los sistemas de Inteligencia Artificial, [6] http://www.inf.u-
que basan sus procedimientos también sobre un patrimonio de szeged.hu/~ssip/2001/handouts/hajdua/sld016.htm
conocimientos capaz de crecer en manera automática durante la [7] http://cslu.cse.ogi.edu/HLTsurvey/ch2node6.html
realización de los mismos procedimientos.
[8] http://kt.ijs.si/jan_rupnik/Slides/Optical%20Character%20Re
En particular, los ICR se equiparon de diccionarios para la cognition%20using%20Hidden%20Markov%20Models.pptx
verificación según los cuales reconocer letras como licitas, y
[9] http://www.mathworks.com/
reconstruir entre ellos cada letra no reconocida.
[10] http://www.eqbyte.com/
En consecuencia de esta experiencia ellos pueden aprender las
idiosincrasias de los estiles con los cuales son confrontados.
Además los ICR pueden analizar mejor la imagen digitalizada, en
manera de reconocer algunas estructuras del diseño de los textos,
excluyendo por ejemplo las imágenes, ósea tratando aparte
ventanas extrañas al texto principal; y pueden también insertar en
el fichero producido elementos de codifica que adviertan de la
existencia de estas particularidades.
Un procedimiento muy eficaz para esto puede ser el de las
redes neuronales, por la capacidad que estas tienen en probar
simultáneamente muchas alternativas de soluciones y también por
la poca interferencia que el ruido genera en estas funciones.
Además, puesto que una sola y mecanicista búsqueda de
semejanzas no es bastante, se potencia el algoritmo sin analizar
cada carácter, pero las enteras palabras o incluso los conjuntos de
palabras que en confronto con un diccionario digital ponen más
inmediata la elección de algunos términos, descartando los más
improbables.
Como todos los sistemas expertos estos últimos pasajes necesitan
de un real adiestramiento, durante el cual el ordenador aprende
como asociar las imágenes raster y las vectoriales a segunda de la
frecuencia con la cual se presentan ciertas características. Podría
ser considerada como parte del adiestramiento también la
contextualización del texto para traducirlo. Esto en efecto permite
en la fase de comparación con un diccionario o con una base da
datos análoga, de focalizarse sobre los que pueden ser los
términos de real interés.
Si por ejemplo se va a digitalizar un texto medico, tendré la
prioridad termines médicos mas que jurídicos o económicos.
Por supuesto además, tanto mas está precisa la transposición,
como más alta será la calidad del texto para adquirirlo.
En porcentuales hoy somos cercanos a un 100% en el
reconocimiento de textos escribidos a maquina en alfabeto latino
y no más de 98% para textos impresos pero in caracteres cursivos,
y en cerca de 80-90% para textos escritos a mano.

También podría gustarte