Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Ocr PDF
Ocr PDF
debbands@tiscali.it mirrys@libero.it
Redes neuronales
Las redes neuronales traen sus bases de la manera en la cual
las neuronas celébrales comunican una con la otra: son modeles
matemáticos que intentan de recrear las propiedades del
pensamiento del ser humano y de su razonamiento.
Figura 12. El proceso escondido de Markov
5. CONCLUSIONES
Cuando las operaciones de reconocimiento de caracteres se
sean completadas, el usuario puede intervenir manualmente sobre
las informaciones extraídas por el sistema, o para corregir los
eventuales errores generados durante el proceso o para la
manipulación y la adaptación de del texto extraído.
En el campo de campo de archivo de documentos algunos
sistemas OCR son capaces de extraer también informaciones
relativas a lo estilo de carácter (cursivo, negrita, subrayado, etc.) 6. REFERENCIAS
usado en cada porción de texto; es evidente que, en caso de que el [1] http://www.ing.unife.it/elettr/IntelligenzaArtificiale/Lucidi/1
usuario tenga intención de reutilizar en un programa word 8-k-NN.pdf
processor el texto extraído, estas informaciones suplementarias, si
organizadas en manera adecuada, pueden tener muchísima [2] http://www.pmar.it/pmag/ocr/ocr.htm
importancia en fines de productividad. [3] http://www.itl.nist.gov/iad/894.03/nn/finnc.pdf
A inconvenientes como lo que hemos citado para el template [4] http://www.codeproject.com/KB/recipes/UnicodeOCR.aspx
matching e a otros se ha intentado de eludir, in estos últimos anos, [5] http://alojamientos.us.es/gtocoma/pid/pid10/OCRarbolbinari
con paquetes mas sofisticados que tienen el nombre de Intelligent o.htm
Character Recognition (ICR), en los cuales el titulo de inteligente
viene da la asociación con los sistemas de Inteligencia Artificial, [6] http://www.inf.u-
que basan sus procedimientos también sobre un patrimonio de szeged.hu/~ssip/2001/handouts/hajdua/sld016.htm
conocimientos capaz de crecer en manera automática durante la [7] http://cslu.cse.ogi.edu/HLTsurvey/ch2node6.html
realización de los mismos procedimientos.
[8] http://kt.ijs.si/jan_rupnik/Slides/Optical%20Character%20Re
En particular, los ICR se equiparon de diccionarios para la cognition%20using%20Hidden%20Markov%20Models.pptx
verificación según los cuales reconocer letras como licitas, y
[9] http://www.mathworks.com/
reconstruir entre ellos cada letra no reconocida.
[10] http://www.eqbyte.com/
En consecuencia de esta experiencia ellos pueden aprender las
idiosincrasias de los estiles con los cuales son confrontados.
Además los ICR pueden analizar mejor la imagen digitalizada, en
manera de reconocer algunas estructuras del diseño de los textos,
excluyendo por ejemplo las imágenes, ósea tratando aparte
ventanas extrañas al texto principal; y pueden también insertar en
el fichero producido elementos de codifica que adviertan de la
existencia de estas particularidades.
Un procedimiento muy eficaz para esto puede ser el de las
redes neuronales, por la capacidad que estas tienen en probar
simultáneamente muchas alternativas de soluciones y también por
la poca interferencia que el ruido genera en estas funciones.
Además, puesto que una sola y mecanicista búsqueda de
semejanzas no es bastante, se potencia el algoritmo sin analizar
cada carácter, pero las enteras palabras o incluso los conjuntos de
palabras que en confronto con un diccionario digital ponen más
inmediata la elección de algunos términos, descartando los más
improbables.
Como todos los sistemas expertos estos últimos pasajes necesitan
de un real adiestramiento, durante el cual el ordenador aprende
como asociar las imágenes raster y las vectoriales a segunda de la
frecuencia con la cual se presentan ciertas características. Podría
ser considerada como parte del adiestramiento también la
contextualización del texto para traducirlo. Esto en efecto permite
en la fase de comparación con un diccionario o con una base da
datos análoga, de focalizarse sobre los que pueden ser los
términos de real interés.
Si por ejemplo se va a digitalizar un texto medico, tendré la
prioridad termines médicos mas que jurídicos o económicos.
Por supuesto además, tanto mas está precisa la transposición,
como más alta será la calidad del texto para adquirirlo.
En porcentuales hoy somos cercanos a un 100% en el
reconocimiento de textos escribidos a maquina en alfabeto latino
y no más de 98% para textos impresos pero in caracteres cursivos,
y en cerca de 80-90% para textos escritos a mano.