Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Escritura Manuscrita
Writer ID
Tabla de Contenidos
reas relacionadas
Grafstica Forense
Caractersticas Computacionales
Otros trabajos relevantes
Ejemplo de Aplicacin de Identificacin
reas relacionadas
Tratamiento Digital de Imgenes (Digital Image Processing)
-Fundamentos de Imgenes Digitales
Elementos de la Percepcin Visual, Muestreo y Captura de imgenes, Geometra de
Imgenes, etc.etc.
-Transformaciones de Imgenes
Transformada de Fourier, FFT, DFT, Trasformada Coseno, etc.etc.
-Mejora de Imgenes
Dominio espacial, dominio frecuencial, filtros, histogramas, mscaras, uso del color,
etc.etc.
-Restauracin de Imgenes
Modelos de degradacin, diagonalizacin de matrices, aprox. algebricas, filtros
inversos, etc.etc.
reas relacionadas
Tratamiento Digital de Imgenes (Digital Image Processing)
-Compresin de Imgenes
Estndares, teora de la informacin, compresin con/sin prdida de informacin,
etc.etc.
-Segmentacin de Imgenes
Deteccin de discontinuidades, enlace de bordes, deteccin de lmites, umbrales,
regiones, etc.etc.
-Representacin y Descripcin
Esquemas de representacin, descriptores de bordes, descriptores regionales, morfologa,
etc.etc.
-Reconocimiento e Interpretacin
Anlisis de imgen, Reconocimiento de Patrones, Mtodos estructurales, Redes Neuronales,
etc.etc.
reas relacionadas
Reconocimiento de Escritura (Handwriting Recognition)
-Tienen como objetivo transformar textos manuscritos o mecnicos desde su formato 2D
espacial en papel a una forma simblica i.e. a un formato digital til para el ordenador. Se
busca que el ordenador reconozca las palabras del texto, no identificar al autor.
-La principal aplicacin de estas tcnicas es el desarrollo de sistemas de Reconocimiento
ptico de Caracteres (OCR, Optical Character Recognition) para convertir la escritura
manuscrita en texto digital.
-Mdulos bsicos de un OCR:
-Preprocesamiento.
-Segmentacin de Caracteres.
-Reconstruccin de segmentaciones.
-Reconocimiento de caracteres.
-Construccin de palabras o frases.
reas relacionadas
Reconocimiento de Escritura (Handwriting Recognition)
-El National Institute of Standards and Technology (NIST) empez a testear large-scale OCRs en
1989, y los resultados de la primera conferencia de sistemas OCR mostr ya la aplicabilidad de un gran
nmero de tcnicas de reconocimiento de patrones para solucionar el problema del reconocimiento de
caracteres. Algunas como las Redes Neuronales Artificiales son los sistemas ms comunes y de mayor
precisin.
-Clases de sistemas de reconocimiento de escritura segn el tipo de dispositivo de adquisicin de
datos:
-Sistemas On-line basados en tabletas digitalizadoras normalmente
-Sistemas Off-line basados en escner normalmente <<<<<<<<<<<< Writer ID (uso forense)
-Re-utilizacin con Writer ID:
-Tcnicas de representacin del conocimiento o caractersticas (features)
-Tcnicas de preprocesamiento
-Tcnicas de reconocimiento de patrones
Experiencia previa:
El proyecto RAMA
Reconocimiento de caracteres manuscritos
espaoles.
Base de datos de mas de 300.000 caracteres.
Palabras segmentadas mediante casillas.
Redes neuronales para clasificacin.
Diccionarios asociados.
Instalado en numerosas aplicaciones.
Grafstica Forense
La grafstica es la disciplina forense que tiene como objetivo la identificacin o autenticacin de los
autores de manuscritos. Se centra por tanto en el anlisis de documentos escritos a mano por el
individuo utilizando algn tipo de utensilio de escritura (lpiz, bolgrafo, pluma, ...). La biometra de
la escritura o identificacin de escritor tiene como objetivo el desarrollo de sistemas informticos que
puedan desempear esta tarea de manera automtica.
Nota: no confundir grafstica con grafologa que es la extraccin de conclusiones sobre el perfil
psicolgico del autor de la escritura.
La identificacin grafstica es un mtodo comnmente utilizado por los cuerpos policiales y fuerzas
del orden pblico a lo largo y ancho de todo el mundo, datndose las primeras utilizaciones de estas
tcnicas desde el ao 1600. Diferentes tcnicas han sido desarrolladas por los cientficos forenses con
el objetivo de verificar o identificar criminales y terroristas usando multitud de diferentes
caractersticas de la escritura reflejada en manuscritos. Los aspectos metodolgicos de la
identificacin grafstica han sido ampliamente estudiados desde hace tiempo por los expertos forenses
(examinadores) como por ejemplo en los trabajos de:
1.H.HardyandW.Fagel,Methodologicalaspectsofhandwritingidentification,
JournalofForensicDocumentExamination,Fall,1995.
2.R.A.HuberandA.M.Headrick,Handwritingidentification:factsandfundamentals.
Ed.CRCPress,1999.
Grafstica Forense
Inters policial y judicial desde dos enfoques: verificacin e identificacin.
La verificacin se refiere a los casos en los que los cientficos forenses tienen que trabajar con pruebas
en forma de documentos manuscritos que deben comparar uno frente a otro para contrastar su
autenticidad.
1 doc. dubitado vs. 1 doc. indubitado
Tipos de documentos dubitados:
- contratos,
- testamentos,
-firmas,
- annimos,
- Etc. etc.
Se pretende averiguar si son autnticos comparndolos con una muestra validada del autor original del
que se supone que proceden i.e. un documento indubitado. Tpicamente dicha muestra validada es
tomada por un agente de polica o judicial al sujeto en cuestin y se compone de diferentes elementos
de escritura: firma, nombre y apellidos, escritura natural en maysculas, en minsculas y distintos
nmeros.
Grafstica Forense
Por otro lado, la identificacin se refiere a
comparar un documento (dubitado) frente a N
documentos (indubitados, autenticados) i.e. N
ser un nmero elevado, tpicamente la poblacin
total o grupo de individuos sobre el que queremos
identificar al individuo dubitado. Este podra ser
el caso de intentar identificar a un criminal o
terrorista entre un grupo de sospechosos,
suponiendo que disponemos de muestras
indubitadas de escritura de los mismos.
1 doc. dubitado vs. N doc. indubitados
Grafstica Forense
Caractersticas Forenses de los Documentos
Ejemplo, los 21 Elementos Discriminantes de Huber & Headrick:
A.
2.
3.
4.
5.
6.
7.
Grafstica Forense
Caractersticas Forenses de los Documentos
B.
9.
Alineamiento base.
10.
11.
12.
Embellecimientos.
13.
14.
Continuidad de lneas.
15.
Calidad de lneas.
16.
17.
Grafstica Forense
Caractersticas Forenses de los Documentos
C.
D.
19.
21.
Grafstica Forense
Tcnicas de Identificacin por Formulacin Grafonmica
Formas de Algrafos (allographs) = diseo o forma de la letra
Caractersticas Computacionales
CEDAR
Center of Excellence for Document Analysis and Recognition
Handwriting Identification: Research to Study Validity of
Individuality of Handwriting & Develop Computer-Assisted
Procedures for Comparing Handwriting.
Sargur N. Srihari.
Technical Report CEDAR-TR-01-1. Center of Excellence on
Document Analysis and Recognition (CEDAR). State University of
New York at Buffalo. February 26, 2001.
Caractersticas Computacionales
Base de Datos:
Datos muestra representativa de la poblacin de EE.UU.
constituida por 1.128 voluntarios, que hicieron 3 repeticiones sobre un
folio en blanco de un mismo texto fijo, la CEDAR letter.
letter
Diferentes edades, grupos tnicos, sexo, nivel cultural y estudios.
La CEDAR letter tena 156 palabras cubriendo los diferentes
caracteres del alfabeto latino, en minsculas al inicio, fin o medio de
palabras y con maysculas de inicio de palabra.
Se bas en la london letter y la dear sam letter.
Ejemplo:
3. Nivel de palabra:
2. Nivel de Prrafo:
4. Nivel de carcter:
Ejemplos: Contornos
Contornos Exteriores (color rosa) e interiores (color negro):
Componentes conexas
G
GSC Features
SSu objetivo es detectar caractersticas multi-resolucin i.e. se fijan en el pixel (x,y) y luego en relaciones de este con
sus vecinos de menor a mayor proximidad (de local a global, distancias). GSC features viene de Gradient (gradiente),
Structural (estructural) y Concavity (concavidad).
1.
2.
3.
CComo unidad de rea se utiliza una estrategia de malla i.e. la imgen de la letra (independientemente de su tamao) se
divide en una malla de 4x4 celdas sobre las que computar o contabilizar las features.
Se convolucionarn dos operadores de Sobel de 3x3, los cuales aproximarn las derivadas parciales de x
& y en la posicin del pixel en la imgen. Fijado un pixel se consideran sus vecinos de la siguiente
manera:
z1 z2 z3
z4 z5 z6
z7 z8 z9
cCon wi los coeficientes de la mscara espacial a aplicar y z i los valores de los pixels.
OObservacin: es un derivative filter. La idea es que:
1.
2.
Nota: La tabla indica los vecinos de 0-7, y en este ejemplo igual pero de 1-8.
As la regla 1, considera los vecinos 1 y 5 del pixel. La idea es que si por estos y el pixel pasa una lnea
horizontal, los valores del gradiente en ellos sern perpendiculares y por tanto sern en direccin vertical (3), o
casi (2,4).
Cada regla se cumplir o no, y se indicar con un bit a 1 0, de manera que se generar un vector de features de
12 bits que indica que reglas se cumplen en cada celda de la malla 4x4. De nuevo se calcular en todos los pixels
y se harn histogramas por celda de las reglas que se cumplen, generando el vector binarizado mediante un umbral
como se hizo anteriormente.
De esta manera se construir un vector de structural features total de 12x4x4 = 192 bits.