Está en la página 1de 44

Tecnologa Biomtrica:

Escritura Manuscrita
Writer ID

Juan Alberto Sigenza


j.alberto.siguenzar@uam.es

Tabla de Contenidos

reas relacionadas
Grafstica Forense
Caractersticas Computacionales
Otros trabajos relevantes
Ejemplo de Aplicacin de Identificacin

reas relacionadas
Tratamiento Digital de Imgenes (Digital Image Processing)
-Fundamentos de Imgenes Digitales
Elementos de la Percepcin Visual, Muestreo y Captura de imgenes, Geometra de
Imgenes, etc.etc.
-Transformaciones de Imgenes
Transformada de Fourier, FFT, DFT, Trasformada Coseno, etc.etc.
-Mejora de Imgenes
Dominio espacial, dominio frecuencial, filtros, histogramas, mscaras, uso del color,
etc.etc.
-Restauracin de Imgenes
Modelos de degradacin, diagonalizacin de matrices, aprox. algebricas, filtros
inversos, etc.etc.

reas relacionadas
Tratamiento Digital de Imgenes (Digital Image Processing)
-Compresin de Imgenes
Estndares, teora de la informacin, compresin con/sin prdida de informacin,
etc.etc.
-Segmentacin de Imgenes
Deteccin de discontinuidades, enlace de bordes, deteccin de lmites, umbrales,
regiones, etc.etc.
-Representacin y Descripcin
Esquemas de representacin, descriptores de bordes, descriptores regionales, morfologa,
etc.etc.
-Reconocimiento e Interpretacin
Anlisis de imgen, Reconocimiento de Patrones, Mtodos estructurales, Redes Neuronales,
etc.etc.

reas relacionadas
Reconocimiento de Escritura (Handwriting Recognition)
-Tienen como objetivo transformar textos manuscritos o mecnicos desde su formato 2D
espacial en papel a una forma simblica i.e. a un formato digital til para el ordenador. Se
busca que el ordenador reconozca las palabras del texto, no identificar al autor.
-La principal aplicacin de estas tcnicas es el desarrollo de sistemas de Reconocimiento
ptico de Caracteres (OCR, Optical Character Recognition) para convertir la escritura
manuscrita en texto digital.
-Mdulos bsicos de un OCR:
-Preprocesamiento.
-Segmentacin de Caracteres.
-Reconstruccin de segmentaciones.
-Reconocimiento de caracteres.
-Construccin de palabras o frases.

reas relacionadas
Reconocimiento de Escritura (Handwriting Recognition)
-El National Institute of Standards and Technology (NIST) empez a testear large-scale OCRs en
1989, y los resultados de la primera conferencia de sistemas OCR mostr ya la aplicabilidad de un gran
nmero de tcnicas de reconocimiento de patrones para solucionar el problema del reconocimiento de
caracteres. Algunas como las Redes Neuronales Artificiales son los sistemas ms comunes y de mayor
precisin.
-Clases de sistemas de reconocimiento de escritura segn el tipo de dispositivo de adquisicin de
datos:
-Sistemas On-line basados en tabletas digitalizadoras normalmente
-Sistemas Off-line basados en escner normalmente <<<<<<<<<<<< Writer ID (uso forense)
-Re-utilizacin con Writer ID:
-Tcnicas de representacin del conocimiento o caractersticas (features)
-Tcnicas de preprocesamiento
-Tcnicas de reconocimiento de patrones

Experiencia previa:
El proyecto RAMA
Reconocimiento de caracteres manuscritos
espaoles.
Base de datos de mas de 300.000 caracteres.
Palabras segmentadas mediante casillas.
Redes neuronales para clasificacin.
Diccionarios asociados.
Instalado en numerosas aplicaciones.

Grafstica Forense
La grafstica es la disciplina forense que tiene como objetivo la identificacin o autenticacin de los
autores de manuscritos. Se centra por tanto en el anlisis de documentos escritos a mano por el
individuo utilizando algn tipo de utensilio de escritura (lpiz, bolgrafo, pluma, ...). La biometra de
la escritura o identificacin de escritor tiene como objetivo el desarrollo de sistemas informticos que
puedan desempear esta tarea de manera automtica.
Nota: no confundir grafstica con grafologa que es la extraccin de conclusiones sobre el perfil
psicolgico del autor de la escritura.
La identificacin grafstica es un mtodo comnmente utilizado por los cuerpos policiales y fuerzas
del orden pblico a lo largo y ancho de todo el mundo, datndose las primeras utilizaciones de estas
tcnicas desde el ao 1600. Diferentes tcnicas han sido desarrolladas por los cientficos forenses con
el objetivo de verificar o identificar criminales y terroristas usando multitud de diferentes
caractersticas de la escritura reflejada en manuscritos. Los aspectos metodolgicos de la
identificacin grafstica han sido ampliamente estudiados desde hace tiempo por los expertos forenses
(examinadores) como por ejemplo en los trabajos de:
1.H.HardyandW.Fagel,Methodologicalaspectsofhandwritingidentification,
JournalofForensicDocumentExamination,Fall,1995.
2.R.A.HuberandA.M.Headrick,Handwritingidentification:factsandfundamentals.
Ed.CRCPress,1999.

Grafstica Forense
Inters policial y judicial desde dos enfoques: verificacin e identificacin.
La verificacin se refiere a los casos en los que los cientficos forenses tienen que trabajar con pruebas
en forma de documentos manuscritos que deben comparar uno frente a otro para contrastar su
autenticidad.
1 doc. dubitado vs. 1 doc. indubitado
Tipos de documentos dubitados:
- contratos,
- testamentos,
-firmas,
- annimos,
- Etc. etc.
Se pretende averiguar si son autnticos comparndolos con una muestra validada del autor original del
que se supone que proceden i.e. un documento indubitado. Tpicamente dicha muestra validada es
tomada por un agente de polica o judicial al sujeto en cuestin y se compone de diferentes elementos
de escritura: firma, nombre y apellidos, escritura natural en maysculas, en minsculas y distintos
nmeros.

Grafstica Forense
Por otro lado, la identificacin se refiere a
comparar un documento (dubitado) frente a N
documentos (indubitados, autenticados) i.e. N
ser un nmero elevado, tpicamente la poblacin
total o grupo de individuos sobre el que queremos
identificar al individuo dubitado. Este podra ser
el caso de intentar identificar a un criminal o
terrorista entre un grupo de sospechosos,
suponiendo que disponemos de muestras
indubitadas de escritura de los mismos.
1 doc. dubitado vs. N doc. indubitados

Ejemplo de Doc. Indubitado

Grafstica Forense
Caractersticas Forenses de los Documentos
Ejemplo, los 21 Elementos Discriminantes de Huber & Headrick:
A.

Elementos de Estilo (caractersticas lcidas o explcitas)


1.

Alineacin. Mrgenes, separacin de lneas, paralelismo, indentaciones, etc.

2.

Clase de letra. Cursiva, manuscrito, impreso, composicin, etc.

3.

Conexiones. Entre palabras, entre letras dentro de palabras.

4.

Diseo de alfabeto/letras & construccin. Sistema de escritura extranjero, local,


particular, tipo de numeracin, naturaleza, posicin, direcciones de trazos, ligaduras,
etc. Variaciones y desviaciones respecto del estndar, combinaciones, etc.

5.

Dimensiones (horizontal y vertical). Proporciones dentro del mismo carcter, tamao


relativo entre diferentes caracteres, tamao absoluto, etc.

6.

Inclinacin. De toda la escritura, de letras o de partes de letras.

7.

Espaciado. Entre-palabras y dentro-de-palabras (entre letras).

Grafstica Forense
Caractersticas Forenses de los Documentos
B.

Elementos de ejecucin (caractersticas subyacentes, implcitas u ocultas)


8.

Abreviaturas. Eliminacin de letras acortando palabras, combinaciones de letras, etc.

9.

Alineamiento base.

10.

Trazos iniciales & finales.

11.

Puntuacin. Presencia, estilo, colocacin.

12.

Embellecimientos.

13.

Legibilidad & calidad de la escritura.

14.

Continuidad de lneas.

15.

Calidad de lneas.

16.

Control de la pluma/lpiz. Presin, sujeccin, decaida tinta.

17.

Movimientos decorativos de la escritura. Direccin de reloj o inversa, arqueado,


angular, interminable.

Grafstica Forense
Caractersticas Forenses de los Documentos
C.

D.

Atributos de todos los tipos de hbitos de escritura


18.

Variaciones naturales y Consistencia. Precisin con que los hbitos son


ejecutados y repetidos.

19.

Persistencia. Frecuencia con que determinados hbitos se usan.

Combinaciones de hbitos de escritura


20.

Expansin lateral. Contraccin/expansin de letras y espacios blancos.

21.

Proporciones de las palabras. Relacin alto por ancho de palabra.

Grafstica Forense
Tcnicas de Identificacin por Formulacin Grafonmica
Formas de Algrafos (allographs) = diseo o forma de la letra

Caractersticas Computacionales
CEDAR
Center of Excellence for Document Analysis and Recognition
Handwriting Identification: Research to Study Validity of
Individuality of Handwriting & Develop Computer-Assisted
Procedures for Comparing Handwriting.
Sargur N. Srihari.
Technical Report CEDAR-TR-01-1. Center of Excellence on
Document Analysis and Recognition (CEDAR). State University of
New York at Buffalo. February 26, 2001.

Caractersticas Computacionales
Base de Datos:
Datos muestra representativa de la poblacin de EE.UU.
constituida por 1.128 voluntarios, que hicieron 3 repeticiones sobre un
folio en blanco de un mismo texto fijo, la CEDAR letter.
letter
Diferentes edades, grupos tnicos, sexo, nivel cultural y estudios.
La CEDAR letter tena 156 palabras cubriendo los diferentes
caracteres del alfabeto latino, en minsculas al inicio, fin o medio de
palabras y con maysculas de inicio de palabra.
Se bas en la london letter y la dear sam letter.

Ejemplo:

Proceso de Digitalizacin & Segmentacin:

Proceso de Digitalizacin & Segmentacin:

Diferentes Niveles de Caractersticas Estudiados

Diferentes Niveles de Caractersticas Estudiados


1. Nivel de Documento:

3. Nivel de palabra:

Entropa de niveles de gris.


Umbral de nivel de gris.
Nmero de pxeles negros.

Nmero de contornos interiores y


exteriores.
Nmero de componentes de curvatura de 4
direcciones.
Altura media.
Inclinacin media.

Nmero de pxeles negros.


Nmero de contornos interiores y exteriores.
Nmero de componentes de curvatura de 4 direcciones.
Altura media.
Inclinacin media.
Longitud.
Ratio entre la zona superior y la inferior

2. Nivel de Prrafo:

Nmero de pxeles negros


Ratio de aspecto
Ratio de altura y anchura del centroide.
Caractersticas espaciales.
Caractersticas GSC (Gradient, Structural, Concavity)

Nmero de pixeles negros.

Nmero de contornos interiores y


exteriores.
Nmero de componentes de curvatura de 4
direcciones.
Altura media.
Inclinacin media.
Ratio de aspecto.
Ancho de margen.

4. Nivel de carcter:

Rendimiento de Diferentes Niveles de Caractersticas

Ejemplos: Binarizacin (Algoritmo de Otsu)

Ejemplos: Contornos
Contornos Exteriores (color rosa) e interiores (color negro):

Dos ejemplos distintos de letra O:

Ejemplos: Nivel de Prrafo


Proporciones del Prrafo de direccin: (address, hay 2 por letter)

Ejemplos: Nivel de Palabra

Zonas y lneas clave de Palabra:

Ejemplos: Nivel de Caracter


Caractersticas GSC de Carcter: Gradient, Structural, Concavity

Otros Trabajos Relevantes


Tan, Baker et al (2000) : sistema independiente del texto
en concreto que se utilice. Trabajaban con textos escritos
sobre hojas en blanco por individuos, de manera que las
palabras habitualmente aparecan con distintas
inclinaciones y separaciones en el mismo texto (p.e.
lneas torcidas). Tomaron para ello una aproximacin
basada en anlisis de texturas.
El trabajo de Tan y Baker estuvo basado en los
experimentos de Kuckuck (1980) donde se utilizaba una
tcnica de Fourier. Los autores utilizaron tcnicas de
filtros multicanal espaciales para extraer las
caractersticas de la textura de las imgenes de escrituras.
En la investigacin Tan y Baker usaron filtros de Gabor.
Tambin utilizaron matrices de co-ocurrencia de escalas
de grises (Gray Scale Co-ocurrence Matrices, GSCM)
para la extraccin de caractersticas y dos tcnicas
diferentes de clasificacin para identificar escritores:
distancias eucldeas ponderadas (Weighted Euclidean
Distances, WED) y el tradicional clasificador de Kvecinos prximos (K-Nearest Neighbor, K-NN).

Otros Trabajos Relevantes


Las normalizaciones fueron realizadas
utilizando los perfiles de proyeccin
horizontal y vertical, los cuales no son ms
que histogramas del nmero de pxeles
negros que corresponden a un determinado
punto sobre la horizontal / vertical. Con los
mximos y picos de dichos histogramas de
proyeccin se puede estimar la ubicacin e
inclinacin de las lneas de palabras
(vertical). Dentro de una lnea en concreto se
puede estimar la posicin de las palabras
(horizontal) para aislarlas y procesarlas.
Los dos clasificadores considerados, WED y
K-NN, fueron ampliamente testados con
diferentes experimentos llevados a cabo para
10 escritores voluntarios. Se consigui una
precisin de identificacin del 96% con 150
documentos de test.

Ejemplo de Aplicacin de Identificacin


Objetivo: eliminar los problemas de la subjetividad de formulacin

Ejemplo de Aplicacin de Identificacin


Digitalizacin & Segmentacin

Componentes conexas

Ejemplo de Aplicacin de Identificacin


Explotacin intensiva de Caractersticas de Nivel Caracter

G
GSC Features

SSu objetivo es detectar caractersticas multi-resolucin i.e. se fijan en el pixel (x,y) y luego en relaciones de este con
sus vecinos de menor a mayor proximidad (de local a global, distancias). GSC features viene de Gradient (gradiente),
Structural (estructural) y Concavity (concavidad).
1.
2.
3.

Nivel local: Gradient features. Forma de los trazos, bajo tamao.


Nivel intermedio: Structural features. Trayectoria de los trazos.
Nivel global: Concavity features. Relacin entre trazos, cross-image. Deteccin de concavidades en la letra.

CComo unidad de rea se utiliza una estrategia de malla i.e. la imgen de la letra (independientemente de su tamao) se
divide en una malla de 4x4 celdas sobre las que computar o contabilizar las features.

Ejemplo de Aplicacin de Identificacin


Gradient Features
Las gradient features sern un vector de features cuyo clculo se basa en calcular el gradiente (derivada)
en la imgen de la letra. Para cada punto (x,y) tendremos un valor de imgen f(x,y), el valor del vector
gradiente en ese punto ser un vector cuyas componentes sern las derivadas parciales de f(x,y) respecto
de cada componente x e y..
Se utiliza una aproximacin del clculo del gradiente mediante operadores de Sobel.

Se convolucionarn dos operadores de Sobel de 3x3, los cuales aproximarn las derivadas parciales de x
& y en la posicin del pixel en la imgen. Fijado un pixel se consideran sus vecinos de la siguiente
manera:

Ejemplo de Aplicacin de Identificacin


LLos operadores de Sobel se enmarcan dentro del campo de los filtros espaciales, que a diferencia de los filtros
espectrales basados en descomposicin de frecuencias de Fourier, son filtros que se realizan aplicando mscaras
de coeficientes sobre pixels y sus vecinos. En concreto los operadores de Sobel se refieren a filtros lineales i.e.
que su resultado es una combinacin lineal de los valores de los pixels y los coeficientes de la mscara espacial.
ww1 w2 w3
ww4 w5 w6
ww7 w8 w9

z1 z2 z3
z4 z5 z6
z7 z8 z9

dar como resultado R = 9i=1 ( wi zi )

cCon wi los coeficientes de la mscara espacial a aplicar y z i los valores de los pixels.
OObservacin: es un derivative filter. La idea es que:
1.
2.

promediar es una aproximacin a integrar que equivale a difuminar la imgen.


diferenciar es una aproximacin a derivar que equivale a definir la imgen.

Ejemplo de Aplicacin de Identificacin

Ejemplo de Aplicacin de Identificacin


Para la malla de 4x4 celdas en que se divide la imgen de la
letra, se calcula el gradiente en cada celda, hacindose un
histograma de cuntas veces se da cada regin de direccin
posible. Para cada celda se genera un vector de features
consistente en 12 bits asociados a las 12 direcciones posibles.
Sobre el histograma de direcciones de la celda se calcula un
umbral como se describi anteriormente para la binarizacin,
de manera que se decide si la direccin en la celda est
(bit=1) o no (bit=0).
El vector de gradient features total es de 12x4x4 = 192 bits.

Ejemplo de Aplicacin de Identificacin


Structural features
Estas features revelan patrones en el mapa de gradiente de la imgen bitmap (mini-trazos).
Se calculan aplicando a cada pixel un conjunto de 12 reglas que operan sobre los 8 pixels prximos
(vecinos). Cada regla busca un patrn determinado en los vecinos respecto a su gradiente.

Ejemplo de Aplicacin de Identificacin


Para que se cumpla la regla deben verificarse el rango del vecino 1 y el rango del vecino 2. Para que se verifique
un rango debe cumplirse que el gradiente del vecino indicado tenga una de las direcciones indicadas.
Ejemplo:

Nota: La tabla indica los vecinos de 0-7, y en este ejemplo igual pero de 1-8.
As la regla 1, considera los vecinos 1 y 5 del pixel. La idea es que si por estos y el pixel pasa una lnea
horizontal, los valores del gradiente en ellos sern perpendiculares y por tanto sern en direccin vertical (3), o
casi (2,4).
Cada regla se cumplir o no, y se indicar con un bit a 1 0, de manera que se generar un vector de features de
12 bits que indica que reglas se cumplen en cada celda de la malla 4x4. De nuevo se calcular en todos los pixels
y se harn histogramas por celda de las reglas que se cumplen, generando el vector binarizado mediante un umbral
como se hizo anteriormente.
De esta manera se construir un vector de structural features total de 12x4x4 = 192 bits.

Ejemplo de Aplicacin de Identificacin


Concavity Features
Se dividen en tres subclases:
Coarse Pixel
Large stroke
U/D/L/R/H Concavities

Coarse pixel density features


Densidad de pixel grueso. Capturan las agrupaciones de pixels en la imgen i.e. se aplica la malla de 4x4 a la
imgen y se hace el histograma para cada celda del nmero de pixels negros. Se mide este nmero en las 16
celdas y se toma un umbral para hacer una binarizacin que indique en cada celda si predominan los puntos
negros o no.
Queda as un vector de features de 4x4 = 16 bits.

Ejemplo de Aplicacin de Identificacin


Large-stroke features
Caractersticas de trazo-largo. Detectan trazos largos en horizontal o en vertical en la imgen. Para esto se computan los
valores de pixels negros y blancos en run-length sobre filas trazos horizontales- o columnas trazos verticales-.
La idea es para cada fila y columna, formularla en trminos de secuencias de pixels negros. Se hace as un histograma
sobre toda la imgen de los posibles valores de longitud de los trazos y se fija un umbral ptimo. En cada celda habr
trazos horizontales, si hay alguno de longitud mayor que el umbral determinaremos que en la celda hay trazos largos
horizontales, y lo mismo en la celda para el caso vertical. Estos dos indicadores, sobre la malla total nos da un vector total
de features de 4x4x2 = 32 bits.
U/D/L/R/H concavity features
Se calculan convolucionando la imgen con un operador en estrella i.e. el operador lanza rayos desde el pixel central
en 8 direcciones equidistantes en estrella y detecta con qu colisiona: borde de la imgen o con algn trazo de la letra.
Se hace una tabla con el estado de terminacin del recorrido de cada rayo desde cada pixel. Se usa un algoritmo
eficiente similar run-length encoding. La clase de cada pixel se determina aplicando reglas a los patrones del estado de
terminacin de los pixels.
As se detectan concavidades arriba (U,up), abajo (D, down), izquierda (L, left), derecha (R, right) y agujeros (H,
holes). Las reglas se relajan lo suficiente como para que sean capaces de detectar como H los broken-holes i.e.
valos no cerrados completamente en su trazado.
En un mismo pixel puede haber ms de una de estas features, de manera que necesitamos 5 bits por pixel (U/D/L/R/H),
y considerando la malla de celdas queda as un vector de features total de 4x4x5 = 80 bits.

Ejemplo de Aplicacin de Identificacin


Geometric Features
Miden caractersticas geomtricas de la letra. Su forma.
Son 5 features f1,f2,f3,f4, y f5. Denotamos cada pixel en el bitmap binarizado como B(i,j)

B(i,j) = 0 white pixel (fondo).


B(i,j) = 1 black pixel (trazo).

La primera de estas features es


f1 (#black pixels) = i j B(i,j)
Sean l (left), r (right), t (top) y b (bottom) los pixels negros extremos por las cuatro
direcciones que sus nombres indican tenemos
f2 (height-width ratio) = ( r l + 1 ) / ( b t + 1)

Ejemplo de Aplicacin de Identificacin


Se define la centroide como centroid(mi,mj) con componentes sobre las columnas y filas:
mi = i j [ i B(i,j) ] / i j B(i,j)
mj = i j [ j B(i,j) ] / i j B(i,j)
As tenemos las features
f3 (centroid height ratio) = ( mi l + 1 ) / ( b t + 1 )
f4 (centroid width ratio) = ( mj l + 1 ) / ( r l + 1 )
Y finalmente se forma un 9-sensor espacial en la forma de una rejilla de 3x3 puntos equidistantes sobre el
carcter, y centrado en
center(ci,cj) = ( (b t + 1) / 2 , (r l + 1) / 2 )
La feature mide la distancia entre el pixel negro ms cercano y los 9 puntos del sensor:
f5 (9 spatial sensor distance) = S9S1 d( Sx , B(i,j) )

Ejemplo de Aplicacin de Identificacin


Identificacin mediante k-Nearest Neighbour (k-NN)

También podría gustarte