Está en la página 1de 136

ALINE MARIA MALACHINI MIOTTO AMARAL

IDENTIFICAO DE AUTORIA DE
DOCUMENTOS MANUSCRITOS UTILIZANDO
CARACTERSTICAS GRAFOMTRICAS

Tese apresentada ao Programa de Ps-Graduao em


Informtica da Pontifcia Universidade Catlica do
Paran como requisito parcial para obteno do ttulo
de Doutor em Informtica.

CURITIBA
2014
ALINE MARIA MALACHINI MIOTTO AMARAL

IDENTIFICAO DE AUTORIA DE
DOCUMENTOS MANUSCRITOS
UTILIZANDO CARACTERSTICAS
GRAFOMTRICAS

Tese apresentada ao Programa de Ps-Graduao em


Informtica da Pontifcia Universidade Catlica do
Paran como requisito parcial para obteno do ttulo
de Doutor em Informtica.

rea de Concentrao: Cincia da Computao

Orientadora: Profa. Dra. Cinthia Obladen de


Almendra Freitas

Coorientador: Prof. Dr. Flvio Bortolozzi

Co-orientador:
CURITIBA Prof. Dr.Flvio Bortolozzi
2014
Dados da Catalogao na Publicao
Pontifcia Universidade Catlica do Paran
Sistema Integrado de Bibliotecas SIBI/PUCPR
Biblioteca Central

Amaral, Aline Maria Malachini Miotto


A485i Identificao de autoria de documentos manuscritos utilizando
2014 caractersticas grafomtricas / Aline Maria Malachini Miotto Amaral ;
orientadora, Cinthia Obladen de Almendra Freitas ; coorientador, Flvio
Bortolozzi. 2014.
133 f. : il. ; 30 cm

Tese (doutorado) Pontifcia Universidade Catlica do Paran,


Curitiba, 2014
Bibliografia: f. 127-132

1. Autoria - Identificao. 2. Escrita - Identificao. 3. Lingustica forense.


4. Informtica. I. Freitas, Cinthia Obladen de Almendra. II. Bortolozzi, Flvio. III.
Pontifcia Universidade Catlica do Paran. Programa de Ps-Graduao em
Informtica. IV. Ttulo.

CDD 20. ed. 004


i

Dedico este trabalho aos dois grandes amores da minha vida, minha filha Marcela e
meu marido Marcelo, sem os quais eu no teria nem fora nem motivao para
continuar.
ii

O dever de um perito dizer a verdade; no entanto, para isso necessrio: primeiro


saber encontr-la e depois querer diz-la. O primeiro um problema cientfico, o
segundo um problema moral". Nerio Rojas
iii

Agradecimentos

Primeiramente a Deus, porque sem ele nada seria possvel.


A minha grande incentivadora e orientadora Profa. Dra Cinthia Obladen de
Almendra Freitas, por todos os ensinamentos e pela orientao segura.
Ao prof. Dr. Flvio Bortolozzi pelas orientaes e importantes contribuies
dadas realizao deste trabalho.
Aos meus pais Laert e Lourdinha pelo amor e confiana a mim dedicados.
Ao meu querido marido Marcelo Augusto pelo amor, pela fora e pela
compreenso.
A minha pequena grande menina Marcela, por me mostrar o que realmente
importa na vida.
Ao meu amigo Arthur, pela amizade sincera e constantes incentivos.
Ao UniCesumar pelo apoio recebido durante a realizao deste trabalho.
Ao PPGIa pela oportunidade e suporte oferecidos ao desenvolvimento deste
trabalho.
A CAPES pelo apoio financeiro.
A todos que direta ou indiretamente colaboraram na execuo deste trabalho.
iv

SUMRIO

CAPTULO 1 .............................................................................................................................. 15
INTRODUO .......................................................................................................................... 15
1.1. OBJETIVOS .................................................................................................................... 16
1.2. JUSTIFICATIVA .............................................................................................................. 17
1.3. INEDITISMO DO TRABALHO .......................................................................................... 18
1.4. MOTIVAO .................................................................................................................. 19
1.5. CONTRIBUIES............................................................................................................ 19
1.6. HIPTESE DE PESQUISA ................................................................................................ 20
1.7. ESCOPO DO TRABALHO ................................................................................................. 20
1.8. METODOLOGIA CIENTFICA .......................................................................................... 21
1.9. ESTRUTURA DO TRABALHO .......................................................................................... 22
CAPTULO 2 .............................................................................................................................. 23
PRESSUPOSTOS TERICOS ................................................................................................... 23
2.1 CONSIDERAES INICIAIS.............................................................................................. 23
2.2. ESCRITA HUMANA ........................................................................................................ 23
2.2.1. reas de Estudo da Escrita................................................................................ 24
2.2.2. A Fisiologia da Escrita ...................................................................................... 26
2.2.3. Sistemas de Escrita ............................................................................................ 35
2.2.4. Classes de Caractersticas ................................................................................. 37
2.2.5. Individualidade e Caractersticas Individuais ................................................... 39
2.2.6. Leis e Princpios Fundamentais da Escrita ....................................................... 43
2.2.7. Elementos Grficos da Escrita .......................................................................... 46
2.2.8. Consideraes Finais sobre a Escrita Humana ................................................ 52
2.3. AUTORIA EM DOCUMENTOS MANUSCRITOS ................................................................ 53
2.3.1. Classificaes para Autoria em Documentos Manuscritos ............................... 54
2.3.2. Abordagens para Identificao de Autoria em Documentos Manuscritos ........ 55
2.3.3. Identificao de Autoria Online......................................................................... 56
2.3.4. Identificao de Autoria Offline ........................................................................ 58
2.3.5. Resumo das Abordagens para Identificao de Autoria offline ........................ 66
2.3.6. Sistemas para Identificao de Autoria ............................................................. 69
2.3.7. Consideraes Finais sobre Autoria em Documentos Manuscritos .................. 71
2.4. PROBLEMA E SOLUO PROPOSTA ............................................................................... 72
2.5. CONSIDERAES FINAIS ............................................................................................... 74
CAPTULO 3 .............................................................................................................................. 76
MTODO PROPOSTO .............................................................................................................. 76
3.1. CONSIDERAES INICIAIS............................................................................................. 76
3.2. BASES DE DADOS .......................................................................................................... 76
3.2.1 Bases de Cartas Forenses Internacionais........................................................... 77
3.2.2. Base de Cartas Forenses Modelo PUCPR ........................................................ 79
3.2.3. Consideraes Finais sobre Bases de Dados .................................................... 82
3.3. MTODO DE IDENTIFICAO DE AUTORIA UTILIZANDO CARACTERSTICAS
GRAFOMTRICAS .............................................................................................................. 83
v

3.3.1. Viso Geral ........................................................................................................ 83


3.3.2. Pr-processamento ............................................................................................ 84
3.3.3. Extrao de Caractersticas .............................................................................. 90
3.3.4. Seleo de Caractersticas............................................................................... 100
3.3.5. Mtodo de Classificao .................................................................................. 102
3.4. EXPERIMENTOS ........................................................................................................... 103
3.4.1. Protocolo dos Experimentos ............................................................................ 103
3.4.2. Resultados dos Experimentos .......................................................................... 105
3.5. CONSIDERAES FINAIS ............................................................................................. 108
CAPTULO 4 ............................................................................................................................ 109
ANLISE E DISCUSSO DOS RESULTADOS ................................................................... 109
4.1. CONSIDERAES INICIAIS........................................................................................... 109
4.2. ANLISE CRTICA DOS RESULTADOS POR GRUPO DE CARACTERSTICAS
GRAFOMTRICAS ............................................................................................................ 109
4.2.1. Hbitos de Uso de Espao Grfico.................................................................. 110
4.2.2. Tamanho das Palavras .................................................................................... 112
4.2.3. Inclinao Axial ............................................................................................... 114
4.2.4. Hbitos do Traado dos Laos Ascendentes e Descendentes .......................... 116
4.3. ANLISE CRTICA DAS CARACTERSTICAS GRAFOMTRICAS DE ACORDO COM SEU
NVEL DE GRANULARIDADE ........................................................................................... 117
4.4. ANLISE CRTICA SOBRE O USO EXCLUSIVO DE CARACTERSTICAS GRAFOMTRICAS...... 118
4.5. COMPARAO DOS RESULTADO OBTIDOS COM OUTROS TRABALHOS APRESENTADOS
NA LITERATURA .............................................................................................................. 120
4.6. CONSIDERAES FINAIS ............................................................................................. 122
CAPTULO 5 ............................................................................................................................ 123
CONCLUSO .......................................................................................................................... 123
REFERNCIAS ........................................................................................................................ 126
APNDICE A ........................................................................................................................... 132
RESULTADOS DE EXPERIMENTOS INICIAIS COM KNN............................................... 132
vi

LISTA DE FIGURAS

FIGURA 2.1. ASSINATURA DE JOHN HANCOCK .............................................................. 32


FIGURA 2.2. SISTEMA DE PALMER ..................................................................................... 36
FIGURA 2.3. EXEMPLO DE CARACTERSTICAS INDIVIDUAIS ...................................... 42
FIGURA 2.4. CLASSIFICAO PARA ABORDAGENS DE IDENTIFICAO DE
AUTORIA ................................................................................................................................... 56
FIGURA 2.5. ESQUEMA DE ABORDAGEM PARA IDENTIFICAO DE AUTORIA
ADOTADO NO MTODO PROPOSTO ................................................................................... 74
FIGURA 3.1. CARTA FORENSE DE LONDRES .................................................................... 77
FIGURA 3.2. CARTA FORENSE DO EGITO .......................................................................... 77
FIGURA 3.3. CARTA FORENSE DE IDAHO.......................................................................... 78
FIGURA 3.4. CARTA FORENSE DE CEDAR ......................................................................... 78
FIGURA 3.5. CARTA FORENSE PUCPR ................................................................................ 80
FIGURA 3.6. CARTA PUCPR CF00001_01 ............................................................................. 82
FIGURA 3.7. VISO GERAL DO MTODO PROPOSTO ..................................................... 84
FIGURA 3.8. EXEMPLO DE CARTA PUCPR ORIGINAL .................................................... 85
FIGURA 3.9. EXEMPLO DE CARTA PUCPR BINARIZADA ............................................... 85
FIGURA 3.10. EXEMPLO DE CARTA PUCPR APS O PROCESSO DE SEPARAO DE
LINHAS ................................................................................................................................... 86
FIGURA 3.11. EXEMPLO DE CARTA PUCPR APS O PROCESSO DE SEPARAO
DAS PALAVRAS ....................................................................................................................... 87
FIGURA 3.12. EXEMPLO DE CARTA PUCPR APS O PROCESSO DE DIVISO EM 24
FRAGMENTOS .......................................................................................................................... 88
FIGURA 3.13. EXEMPLO DE CARTA PUCPR APS O PROCESSO DE EXTRAO DE
CONTORNOS E BORDAS ........................................................................................................ 89
FIGURA 3.14. REGIES EM UMA PALAVRA ...................................................................... 90
FIGURA 3.15. LAO NA REGIO ASCENDENTE ............................................................... 90
FIGURA 3.16. VISO GERAL DO PROCESSO DE EXTRAO DE CARACTERSTICA
(F1-F7) ................................................................................................................................... 99
FIGURA 3.17. VISO GERAL DO PROCESSO DE EXTRAO DE CARACTERSTICA
(F8-F12) ................................................................................................................................... 99
FIGURA 3.18. PROCESSO GERAL DE SELEO DE CARACTERSTICAS ................... 100
FIGURA 3.19. PROTOCOLO DOS EXPERIMENTOS .......................................................... 104
FIGURA 4.1. USO DA CARACTERSTICA F6 PARA A TOMADA DE DECISO ........... 111
FIGURA 4.2. USO DA CARACTERSTICA F2 PARA A TOMADA DE DECISO ........... 112
vii

FIGURA 4.3. DEMARCAO DAS PRIMEIRAS PALAVRAS DE CADA LINHA EM UM


EXEMPLAR DE CARTA PRESENTE NA BASE DE CARTAS FORENSES PUCPR ........ 113
FIGURA 4.4. EXEMPLOS DE DIFERENTES NGULOS DE ESCRITA (ESQUERDA,
DIREITA, VERTICAL) PARA A CARACTERSTICA F8 .................................................... 115
FIGURA 4.5. EXEMPLOS DE LAOS ASCENDENTES E DESCENDENTES EM
DIFERENTES PALAVRAS E CARACTERES DE EXEMPLARES DE CARTAS DA BASE
DE CARTAS FORENSES PUCPR .......................................................................................... 117
viii

LISTA DE TABELAS

TABELA 2.1. ELEMENTOS BSICOS DA GRAFIA ............................................................. 47


TABELA 2.2. REAS DE POSICIONAMENTO DAS LETRAS ............................................ 48
TABELA 2.3. RESUMO ESTADO DA ARTE DAS ABORDAGENS DE IDENTIFICAO
DE AUTORIA OFFLINE ........................................................................................................... 67
TABELA 3.1. FREQUNCIA POSICIONAL DE OCORRNCIAS DAS LETRAS. FONTE
[(FREITAS ET AL., 2008)] ........................................................................................................ 80
TABELA 3.2. RESULTADOS DE EXPERIMENTOS INDIVIDUAIS COM AS
CARACTERSTICAS GRAFOMTRICAS ............................................................................ 105
TABELA 3.3. RESULTADOS DOS EXPERIMENTOS COM AGRUPAMENTOS
EMPRICOS DE CARACTERSTICAS .................................................................................. 106
TABELA 3.4 RESULTADOS DOS EXPERIMENTOS COM O MELHOR GRUPO DE
CARACTERSTICAS - GS ...................................................................................................... 107
TABELA 4.1. RESULTADOS DE EXPERIMENTOS COM AS CARACTERSTICAS
GRAFOMTRICAS: HBITOS DE USO/POSICIONAMENTO DO TEXTO NA FOLHA 110
TABELA 4.2. RESULTADOS DE EXPERIMENTOS COM AS CARACTERSTICAS
GRAFOMTRICAS: TAMANHO DAS PALAVRAS............................................................ 112
TABELA 4.3. RESULTADOS DE EXPERIMENTOS COM A CARACTERSTICA
INCLINAO AXIAL............................................................................................................. 114
TABELA 4.4. RESULTADOS DE EXPERIMENTOS COM AS CARACTERSTICAS
GRAFOMTRICAS: ALTURA, LARGURA, TAMANHO E NGULO DE INCLINAO
DOS LAOS ASCENDENTES E DESCENDENTES ............................................................ 116
TABELA 4.5. COMPARAO DOS RESULTADOS OBTIDOS COM OUTROS
APRESENTADOS NA LITERATURA ................................................................................... 120
TABELA A.1. RESULTADOS DOS EXPERIMENTOS REALIZADOS COM KNN .......... 132
ix

LISTA DE GRAFICOS

GRFICO 3.1. RELAO ENTRE O NMERO DE ESCRITORES E AS TAXAS DE


ACERTO ................................................................................................................................. 108
x

LISTA DE QUADROS

QUADRO 3.1. CARACTERSTICAS GRAFOMTRICAS DO MTODO PROPOSTO ...... 91


xi

LISTA DE ABREVIATURAS E SMBOLOS

Ageral O ngulo mdio de todos os laos ascendentes e descendentes do


documento em anlise
alturaDocumento Altura do documento em anlise
AlturaLaco Altura de um lao
alturaPalavra Altura da primeira palavra de cada linha do documento em anlise
ALVOT Votacion Algorithm
AMfragmento Angulo mdio dos laos de um fragmento
AMlaco Angulo de cada lao de cada fragmento
CEDAR Center of Excellence for Document Analysis and Recognition
DPAgeral Desvio padro mdio do ngulo de todos os laos ascendentes e
descendentes do documento em anlise
DPHgeral Desvio padro mdio da altura de todos os laos ascendentes e
descendentes do documento em anlise
DPTgeral Desvio padro mdio do tamanho de todos os laos ascendentes e
descendentes do documento em anlise
DPWgeral Desvio padro mdio da largura de todos os laos ascendentes e
descendentes do documento em anlise
EMD Empirical Mode Decomposition
FISH Forensic Information System for Handwriting
GS Goodness Subset
hmax Valor da altura mxima de uma palavra, empiricamente definido
Hmfragmento Altura mdia dos laos de um fragmento
HMgeral Altura mdia de todos os laos ascendentes e descendentes do
documento em anlise
Hmlaco Altura mdia dos laos de cada fragmento
HMM Hidden Markov Models
HMT Hidden Markov Tree
IAM Informatik und Angewandte Mathematik
KAS K-Adjacent Segments
KNN K Nearest Neighborhood
larguraDocumento Largura do documento em anlise
LarguraLaco Largura de um lao
xii

NLPR National Laboratory of Pattern Recognition


nrolinhasCarta Identificador que contm o nmero total de linhas de um
documento
nroPixelsPretos Identificador que contm o nmero de pixels pretos de uma linha
do documento
NumeroPixelsLaco Nmero de pixels de um lao
PDM Distribution Point Model
posicaoMargemDireita Identificador que contm a distncia da margem direita do
documento em anlise
posicaoMargemEsquerda Menor distncia da margem esquerda do documento em anlise
posicaoMargemInferior Posio do ultimo pixel preto da ltima palavra do documento em
anlise
posicaoMargemSuperior Posio do primeiro pixel preto da primeira palavra do documento
em anlise
RIMES Reconnaissance et Indexation de donnes Manuscrites et de fac
similS / Recognition and Indexing of handwritten documents and
faxes
SVM Support Vector Machine
TMfragmento Tamanho mdio dos laos de um fragmento
TMgeral Tamanho mdio de todos os laos ascendentes e descendentes do
documento em anlise
TMlao Tamanho mdio dos laos de cada fragmento
VSM Vector Space Model
WANDA Forensic Information System Handwriting
WED Weigthed Euclidean Distance
WMfragmento Largura mdia dos laos de um fragmento
WMgeral Largura mdia de todos os laos ascendentes e descendentes do
documento em anlise
WMlao Largura mdia dos laos de cada fragmento
X Largura da caixa (bounding box) na qual a 1 palavra do
documento inserida
XML Extensible Markup Language
Y Altura da caixa (bounding box) na qual a 1 palavra do documento
inserida
xiii

Resumo

A escrita como elemento biomtrico tem sido alvo de muitas pesquisas. Neste
contexto, diferentes solues computacionais para identificao de autoria em
documentos manuscritos vm sendo apresentadas na literatura, cada uma delas focando
em aspectos especficos da escrita, bem como em aspetos referentes imagem dos
manuscritos. Esta pesquisa prope um mtodo computacional baseado em
caractersticas grafomtricas que visa auxiliar e agilizar o processo, realizado pelos
peritos, de identificao de autoria em manuscritos. O estudo conta com uma base de
cartas forenses (modelo PUCPR) as quais so pr-processadas para extrair-se um
conjunto de caractersticas grafomtricas para que subsequentemente o processo de
identificao de autoria seja realizado. Foram realizados dois grupos de experimentos, o
primeiro grupo teve como objetivo selecionar e validar as caractersticas grafomtricas
implementadas (anlises individuais e em grupo foram realizadas). Com a melhor
combinao de caractersticas selecionada, taxas de acerto de 84% para um grupo de
100 diferentes escritores foram obtidas. O segundo grupo de experimentos teve como
foco principal identificar o nmero de escritores que atinge uma convergncia
assinttica dos resultados dos experimentos. Pode-se observar que com 200 diferentes
escritores nenhum ganho ou perda pode ser observado nos resultados obtidos
considerando as caractersticas grafomtricas utilizadas.

Palavras-chave: identificao de autoria, caractersticas grafomtricas, classificadores,


cartas forenses.
xiv

Abstract

Handwriting as a biometric element has been the subject of researches. In this


context, different computational solutions of writer identification have been described in
the literature, each focusing on specifics aspects of handwriting as well as aspects
relating to the manuscript image. The objective of this PhD project is defining a method
that aims to assist and improve the process of writer identification held by the experts
through a computational solution. This study uses forense letters (in the PUCPR forense
letter database format) which are preprocessed and a set of graphometric features is
extracted. Subsequently, the process of writer identification is performed. It were
realized two groups of experiments, the first aimed at selecting and validating the
implemented graphometry features (individual and combining analyses were realized).
With the best ensemble of features, accuracy of 84% was obtained whit 100 different
writers. The second group of experiments has with objective to obtain the number of
writers which stabilizes the results of the experiments. It can be observed that gradually
the relation between the number of writers and accuracy is stabilized, and with 200
writers the results are maintained.

Keywords: writer identification, graphometric features, classifier, forensic letter.


15

Captulo 1

Introduo

De acordo com Mendes (2003), a documentoscopia a parte da criminalstica


que estuda os documentos para verificar se so autnticos e, em caso contrrio,
determinar a sua autoria. Observa-se nesta rea um grau elevado de subjetividade, uma
vez que diferentes peritos podem chegar a diferentes concluses sobre os mesmos
documentos. Dessa forma, o uso de ferramentas computacionais que automatizem e
padronizem todo ou parte do processo de identificao adotado pelos peritos tem se
tornado campo de interesse da computao.
Em relao a identificao de autoria, esta pode ser dividida em duas grandes
reas de pesquisa sendo elas: verificao e identificao de autoria. A verificao tem
como objetivo principal avaliar dadas duas amostras de manuscrito, se as mesmas so
ou no de um mesmo escritor (1:1). Enquanto a identificao tem como objetivo, dentre
um conjunto de escritores candidatos, identificar o autor de um documento questionado
(1:N).
No contexto da identificao de autoria vrias pesquisas (LUNA et al., 2011,
HELLI; MOGHADDAM, 2010; SIDDIQI; VICENT, 2008; HE et al., 2008;
BENSEFIA et al., 2005; BLANKERS et al., 2007; BULACU et al., 2007;
PERVOUCHINI; LEEDHAM, 2007; SCHOMAKER et al., 2007) foram propostas com
o objetivo de apresentar mtodos que automatizam todo ou parte do processo de
extrao, anlise das caractersticas e classificao da escrita humana. Os principais
aspectos que diferenciam tais pesquisas so: a natureza das caractersticas utilizadas, as
bases de dados aplicadas, os mtodos de classificao e por fim as taxas de acerto
obtidas. Pode-se destacar dois principais grupos de caractersticas, aquelas que utilizam
em sua definio os mesmos aspectos utilizados pelos peritos, chamadas de
16

caractersticas grafomtricas (LUNA et al., 2011; CHEN et al., 2010; PERVOUCHINI;


LEEDHAM, 2007; BLANKERS et al., 2007; SCHLAPBACH; BUNKE, 2004;
HERTEL; BUNKE, 2003; ZOIS; ANASTASSOPOULOS, 2000), e aquelas que
utilizam informaes da imagem do documento, normalmente informaes relativas
textura do documento ou gerao de codebooks. Caractersticas texturais e codebooks
(HELLI; MORGHADDAM, 2010; HE et al., 2008; SIDDIQI; VICENT, 2008;
BULACU et al., 2007; SCHOMAKER et al., 2007) normalmente apresentam taxas de
acerto melhores do que caractersticas grafomtricas. No entanto, seu processo de
extrao no natural a um perito, e as mesmas tm aceitao limitada nos tribunais de
justia.
Dessa forma, o desafio desta Tese de doutorado propor um mtodo, suportado
por uma soluo computacional, para o problema de identificao de autoria de
documentos manuscritos que utilize apenas caractersticas grafomtricas (que possam
ser aceitas, entendidas e utilizadas pelos peritos e demais operadores da Justia). Deve-
se destacar que os resultados esperados a partir do mtodo proposto tem como meta
atingir taxas comparveis com aquelas apresentadas em mtodos que utilizam
caractersticas no grafomtricas, isto levando-se em considerao o nmero de
escritores para treinamento e teste do mtodo proposto.

1.1. Objetivos
Este trabalho tem como objetivo geral propor um mtodo para identificao de
autoria em cartas forenses utilizando caractersticas grafomtricas.
Como objetivos especficos pode-se destacar:
realizar um levantamento bibliogrfico acerca dos seguintes temas: escrita
humana e autoria de documentos manuscritos;
estender a base de cartas forenses PUCPR para 600 diferentes escritores;
propor um mtodo de modo a selecionar um conjunto de primitivas, mtodo de
classificao e, ainda, tcnicas de extrao de primitivas em cartas forenses;
implementar um cenrio de teste como prova de conceito para avaliar e validar o
mtodo proposto, analisando os resultados obtidos.
17

1.2. Justificativa
Como j destacado anteriormente, diferentes abordagens para identificao de
autoria em documentos manuscritos vm sendo apresentadas na literatura cada uma
delas focando em aspectos especficos da escrita, bem como em aspetos referentes
imagem dos manuscritos.
Levando-se em considerao a relao entre nmero de escritores/taxa de acerto
(ver Tabela 2.3 Captulo 02) pode-se observar que normalmente os trabalhos que
utilizam apenas caractersticas grafomtricas apresentam taxas de identificao menores
que os trabalhos que utilizam caractersticas no grafomtricas.
Diante do exposto, entende-se que desenvolver um mtodo confivel, que utilize
apenas caractersticas grafomtricas, e que obtenha resultados comparveis com
mtodos que no utilizam caractersticas grafomtricas apresenta-se como um campo de
investigao em aberto. Acredita-se que com o desenvolvimento do mtodo proposto
torna-se possvel diminuir o espao de busca a um autor de um documento questionado
por um perito. Isto porque, num espao amostral muito grande, mesmo que o ndice de
acerto oferecido pelo mtodo no seja de 100%, pode-se reduzir consideravelmente este
espao, uma vez que possvel eliminar um grande grupo de escritores que no so
autores do documento em anlise, deixando para a anlise manual apenas um pequeno
grupo de escritores.
Tambm importante ressaltar que desde 1997 a Pontifcia Universidade
Catlica do Paran - PUCPR, por meio do Programa de Ps-Graduao em Informtica
- PPGIa, vem desenvolvendo pesquisas em Anlise e Reconhecimento de Documentos,
e este trabalho de doutorado visa contribuir com a evoluo destas pesquisas. Tais
pesquisas vm ao longo desses anos, contribuindo significativamente para a elevao da
qualidade e produo cientfica gerada pelos Grupos de Pesquisa associados ao tema.
Em 2001 foi criado o Laboratrio de Computao Forense e Biometria vinculado ao
Grupo de pesquisa de mesmo nome, pertencente ao PPGIa. Em 2005, com a evoluo
das pesquisas do Grupo na rea de Cincias Forenses e com o intuito de integrar as duas
reas de conhecimento relacionadas com o tema (Direito e Informtica), foi criado
tambm o Laboratrio de Direito e Tecnologia - LADITEC, junto ao Programa de Ps-
Graduao em Direito PPGD. Os grupos de pesquisa envolvidos so: Direito do
Consumo e Sociedade Tecnolgica (PPGD) e Computao Forense e Biometria
(PPGIa).
18

Com a criao deste Laboratrio foi possvel integrar os Grupos de Pesquisa do


PPGIa e do PPGD. Hoje o laboratrio atende aos alunos oriundos dos dois Programas
de Ps-Graduao (Informtica e Direito, ambos da PUCPR). Essa integrao vem
propiciando a ampliao dos temas de pesquisa, assim como criando a sinergia
necessria entre os professores dos diferentes Programas de Ps-Graduao.
Alm dos Programas de Ps-Graduao, o Laboratrio possui uma forte
integrao com os Cursos de Graduao da PUCPR, destacando os Cursos de Cincia
da Computao, Engenharia da Computao e Direito. Essa integrao abre espaos aos
alunos de graduao para participar dos Projetos de Pesquisa desenvolvidos pelos
grupos de pesquisa. Os alunos de graduao so integrados ao laboratrio em duas
modalidades: os Projetos de Iniciao Cientfica e Projetos de Concluso de Curso.
Deve-se destacar tambm a integrao dos alunos de ps-graduao por meio de
projetos de pesquisa que contemplam reas de estudo e desenvolvimento da Informtica
e do Direito.

1.3. Ineditismo do Trabalho


Este trabalho apresenta um mtodo confivel, resultante de uma combinao de
caractersticas grafomtricas, para o problema de identificao de autoria. Este mtodo
atingiu resultados comparveis a mtodos que utilizam caractersticas texturais e/ou de
codebooks, que normalmente apresentam resultados superiores. A confiabilidade do
mtodo proposto concentra-se no fato que experimentos com diferentes nmeros de
escritores foram realizados de forma a obter o nmero mximo de escritores que so
necessrios para estabilizar as taxas de identificao obtidas.
Alm disto, no foram identificadas outras pesquisas envolvendo uma base de
cartas forenses na lngua Portuguesa contendo 600 autores, a qual possibilitou a
realizao de testes como prova de conceito, variando o nmero de escritores de 20 a
200 autores.
19

1.4. Motivao
A principal motivao deste trabalho encontra-se na definio de um mtodo
suportado por uma soluo computacional para o problema de identificao de autoria
em manuscritos utilizando apenas caractersticas grafomtricas.
Deve-se ressaltar que a identificao de autoria em manuscritos um problema
extremamente desafiador, uma vez que o desenvolvimento de solues computacionais
que alm de produzirem resultados estatisticamente comprobatrios (ou seja, taxas de
identificao compatveis com as encontradas na literatura) ofeream procedimentos e
resultados que sejam aceitos pela comunidade jurdica, um campo de investigao em
aberto. Nesse contexto, o uso exclusivo de caractersticas grafomtricas pelo mtodo
proposto possibilita tal aceitao.
As caractersticas grafomtricas embutem em sua formao aspectos que so
nicos de cada escritor, ou seja, aspectos que permitem a individualizao da escrita
humana. Um fator extremamente desafiador entender a relao entre a variabilidade
na escrita da escrita de uma pessoa (ou seja, as variaes presentes na escrita de um
indivduo) e os elementos grficos que permitem identificar tal pessoa como nica.
Outro aspecto muito interessante investigado neste trabalho refere ao fato de que
cada pessoa, mesmo que inconscientemente, deixa suas marcas ao escrever. O estudo
destes aspectos foi objetivo desta pesquisa, uma vez que o perito, assim como o mtodo
proposto, utiliza tais marcas para realizar o processo de identificao de autoria.

1.5. Contribuies
Pode-se destacar como contribuio deste trabalho o desenvolvimento de um
mtodo confivel, composto por uma combinao de caractersticas grafomtricas,
que atingiu resultados comparveis com mtodos de identificao de autoria que
utilizam caractersticas no grafomtricas.
Uma vez que as caractersticas que compem tal mtodo so puramente
grafomtricas, foi necessrio um entendimento profundo dos elementos que afetam a
escrita de um indivduo, e consequentemente dos aspectos que promovem a
individualizao da sua escrita. Tais aspectos permitem a identificao, por mtodos
manuais ou computacionais, da escrita humana.
20

Deve-se ressaltar tambm como contribuio relevante desta pesquisa o uso de


uma base de cartas forense com foco na Lngua Portuguesa, a base PUCPR
(FREITAS et al., 2008). Esta base foi estendida neste trabalho de doutorado e
atualmente contm 1800 exemplares de 600 diferentes escritores (03 exemplares por
escritor).
Outra importante contribuio foi a definio do nmero de escritores que atinge
uma convergncia assinttica dos resultados, ou seja, as taxas de identificao
obtidas com o uso do mtodo proposto. Pode-se observar que com uma amostra
composta por 200 escritores nenhum ganho ou perda so observados nos resultados. Em
trabalhos como o descrito nesta tese, uma das variveis que afetam diretamente os
resultados das solues computacionais desenvolvidas o nmero de escritores usados
para treinamento e teste.
Deve ressaltar tambm, que para garantir a consistncia matemtica e estatstica
dos resultados obtidos, todas as caractersticas implementadas passaram por um
processo de normalizao.

1.6. Hiptese de Pesquisa


A hiptese bsica desta pesquisa, comprovada com os resultados apresentados
pelo mtodo proposto, que possvel desenvolver um mtodo confivel, composto por
uma combinao de caractersticas grafomtricas, que produza resultados comparveis
aos apresentados por mtodos que utilizam caractersticas no grafomtricas.

1.7. Escopo do Trabalho


O mtodo proposto neste trabalho apresenta uma abordagem para identificao
de autoria em documentos manuscritos escritos no Alfabeto Latino, no podendo ser
aplicado a outros Alfabetos como, por exemplo, o Alfabeto Grego. Deve-se destacar
que os caracteres (smbolos) presentes nestes alfabetos so muito diferentes, e o mtodo
proposto se baseou em caractersticas que so fortemente influenciadas pelo sistema de
escrita do escritor, ou seja, levam em considerao os smbolos presentes em um
Alfabeto.
21

Para a validao da soluo computacional que suporta o mtodo proposto foi


utilizada a base de cartas forenses PUCPR. O formato de carta padro desta base foi
concebido para a Lngua Portuguesa. Dessa forma, os resultados obtidos com a
utilizao do mtodo proposto so restritos a esta base de cartas forenses. No entanto,
todas as caractersticas foram normalizadas o que torna possvel a utilizao deste
mtodo com outras bases de cartas (forenses ou no) que sejam escritas no Alfabeto
Latino. Isto porque, a nica limitao para aplicao deste mtodo que cada escritor
redija trs exemplares do mesmo padro de carta, independente da Lngua.

1.8. Metodologia Cientfica


Este trabalho consiste de uma pesquisa exploratria de natureza aplicada, pois
tem como objetivo estudar a escrita humana e gerar conhecimento para a soluo de um
problema especfico desta rea que a identificao de autoria em manuscritos.
Como mtodo cientfico adotou-se o mtodo dedutivo, uma vez que com base
em um conhecimento tcnico e cientfico j formalmente conhecido pelos peritos
possvel desenvolver e avaliar uma soluo computacional que oferea suporte de
maneira consistente com tais conhecimentos (ou seja, com tais premissas).
Trata-se de uma pesquisa quantitativa, uma vez que a abordagem adotada para
anlise do mtodo proposto ocorrer por meio dos resultados mensurveis obtidos com
os experimentos realizados.
Com relao aos procedimentos tcnicos, foram realizados levantamentos
bibliogrficos, que fundamentaram o desenvolvimento do mtodo proposto. Atividades
experimentais foram realizadas subsequentemente neste mtodo para anlise do mesmo.
Como passos adotados para o desenvolvimento deste trabalho, inicialmente
foram realizados estudos com o objetivo de entender os aspectos que influenciam a
escrita humana. Tambm foram realizados estudos sobre mtodos que automatizam o
processo de identificao de autoria com o objetivo de definir as metas a serem
atingidas nesta pesquisa, principalmente com relao s taxas de identificao de autoria
que poderiam e deveriam ser obtidas pelo mtodo proposto.
Como segunda etapa desta pesquisa, o mtodo proposto foi definido e as
caractersticas grafomtricas que o compem foram selecionadas, estudadas e
implementadas.
22

Tambm, a base de cartas forenses utilizada para validao do mtodo foi


estendida e o protocolo dos experimentos a ser adotado foi especificado, incluindo a
escolha do mtodo de classificao.
Sequencialmente, anlises individuais e em grupo das caractersticas
implementadas foram realizadas, por meio de experimentos, e uma abordagem formal
de seleo de caractersticas foi aplicada com o objetivo de identificar a combinao
para o melhor conjunto de caractersticas que levasse as melhores taxas de identificao.

1.9. Estrutura do Trabalho


Este trabalho est organizado em 05 (cinco) captulos. O Captulo 02 apresenta
os princpios bsicos da escrita humana, destacando as caractersticas que fazem da
escrita um elemento biomtrico. Neste captulo tambm se discute algumas das
principais pesquisas sobre abordagens automticas para identificao de autoria. Tais
pesquisas foram fundamentais para a realizao de uma anlise crtica do mtodo
proposto neste trabalho, bem como para avaliarmos os resultados obtidos. No Captulo
03 apresentado o processo adotado para o desenvolvimento deste trabalho, que inclu a
apresentao de algumas bases de cartas forenses, bem como a base PUCPR utilizada
neste trabalho. E, ainda, detalha-se o mtodo proposto, o protocolo adotado para a
realizao dos experimentos de validao deste mtodo, bem como, os resultados
obtidos com tais experimentos. O Captulo 04 aborda uma anlise e discusso dos
resultados destacando aspectos grafotcnicos da escrita humana. Finalmente, no
Captulo 05 so apresentadas as concluses e trabalhos futuros decorrentes desta
pesquisa.
23

Captulo 2

Pressupostos Tericos

2.1 Consideraes Iniciais


Este captulo apresenta uma reviso bibliogrfica de dois tpicos fundamentais
da pesquisa desenvolvida. O primeiro trata da escrita humana e o segundo da autoria em
documentos manuscritos. Na primeira parte so abordadas diversas caractersticas da
escrita humana e analisadas de diferentes ngulos, tais como: as reas de estudo da
escrita humana, a fisiologia da escrita, os sistemas de escrita, classes e caractersticas,
leis e princpios da escrita e seus elementos grficos. A segunda parte visa entender os
aspectos intrnsecos da autoria em documentos manuscritos, tais como: abordagens para
identificao de autoria em documentos manuscritos e sistemas para identificao de
autoria em documentos manuscritos. Finalizando este captulo apresenta o problema
abordado nesta pesquisa bem como uma proposta de soluo.

2.2. Escrita Humana


De acordo com Mendes (2003), graflogos, psiclogos, pedagogos e outros
especialistas definiram a escrita. Alguns destes conceitos so: a escrita existe para
perpetuar o pensamento; a escrita a arte de traduzir palavras ou ideias por sinais
convencionais; a escrita uma harmonia da qual o graflogo decompe os acordes para
reconstitu-los sob outra forma; e a escrita a representao dos sons, nas palavras, com
absoluta exatido, da palavra material, a parte do significado que contm.
24

No entanto, do ponto de vista da grafotcnica1, nenhum destes conceitos


satisfatrio. Assim, de acordo com Mendes (2003), a escrita um gesto grfico
psicossomtico que contm um nmero mnimo de elementos que possibilitam sua
individualizao. Outra definio de escrita relevante ao presente trabalho a escrita
ou grafismo um conjunto de gramas2 e de traados, no subordinados
obrigatoriamente s formas convencionais dos alfabetos (CAVALCANTI; LIRA,
1996).
Dessa forma, nas prximas sees so apresentados alguns dos aspectos
fundamentais que caracterizam a escrita como um elemento biomtrico e que servem de
base para a realizao de anlises grafoscpicas.

2.2.1. reas de Estudo da Escrita


A escrita humana vem sendo alvo de pesquisa em diferentes reas, cada qual
com foco e objetivos distintos. Neste contexto, abaixo so apresentadas suas principais
reas de estudo.

Grafologia
Segundo Cavalcanti e Lira (1996), durante muitos anos, a grafologia, cincia que
estuda os traos do temperamento, carter e inteligncia por meio da escrita, estiveram
restritas a apenas algumas reas como a medicina. Mais atualmente, essa cincia passou
a ser utilizada nas mais diversas reas como, por exemplo, na rea de recursos humanos
de empresas. O primeiro livro editado sobre grafologia foi em Capri, no ano de 1622,
por Camilo Baldi, mdico de Bolonhe. Em seu livro, Baldi iniciou a pratica da anlise
da escrita, procurando conhecer o indivduo com base nos elementos da mesma.
Ainda segundo Cavalcanti e Lira (1996), o primeiro trabalho amplo sobre
grafologia foi escrito por Jean-Hyppolyte Michon na Frana o que lhe atribuiu o ttulo
de precursor da grafologia. Enquanto que se considera o pai da Grafologia moderna o
psiclogo alemo Ludwing Klags. Seus trabalhos datam de 1910, quando a grafologia
alem havia se desenvolvido bastante, ao contato com a psicologia vigente.

1
Parte da Documentoscopia que estuda as escritas com a finalidade de verificar se so autnticas e, em
caso contrrio, determinar a sua autoria (CAVALCANTI; LIRA, 1996).
2
Grama a unidade grfica. o registro resultante da execuo de um gesto grfico realizado sem
mudana brusca de sentido (CAVALCANTI; LIRA, 1996).
25

A grafologia no s permite conhecer o indivduo, mas, tambm, possibilita


avaliar seu desenvolvimento psquico. Esta cincia pode auxiliar mdicos, psiclogos,
juristas, peritos criminais, empresrios, etc. Dentro deste contexto, a anlise da letra
encarada sobre doze perspectivas da escola simblica da grafologia, sendo elas:
tamanho, inclinao, largura, zonas, simetria, conexo das letras nas palavras, formas de
conexo, presso, linhas, espaos, margens e assinaturas (OLIVEIRA et al., 2005).
Ressalta-se que o foco deste trabalho no recai sobre a grafologia no que diz
respeito ao estudo da psique humana por meio da escrita, mas sim lana-se mo das 12
(doze) perspectivas como elementos relevantes identificao de autoria em
manuscritos.

Grafoscopia
De acordo com Cavalcanti e Lira (1996), a grafoscopia a parte da
Documentoscopia que se encarrega da verificao da autenticidade e da autoria dos
grafismos.
Segundo Oliveira et al., (2005), a grafoscopia envolve o estudo da origem de um
documento grfico, ou seja, a partir de que punho escritor foi gerada uma escrita.
De acordo com Mendes (2003), a grafoscopia tradicional foi concebida com o
objetivo de esclarecer questes criminais. Tratando-se de um campo da criminalstica,
ela tem sido conceituada como a rea cuja finalidade a verificao da autenticidade da
autoria de um documento a partir de caractersticas grficas utilizadas na elaborao de
um documento.
Como a escrita est sujeita a inmeras mudanas, decorrentes de causas
variadas, ela exige conveniente interpretao tcnica para o completo xito dos exames
grafoscpicos periciais (MENDES, 2003). Para a correta anlise do perito grafotcnico,
tanto para a identificao quanto para a autenticao de autoria, existe a necessidade de
se entender os princpios bsicos, ou seja, os elementos bsicos do processo de
aprendizado da escrita e tambm as Leis do Grafismo.
Ressalta-se que o foco do presente trabalho a grafoscopia por meio da extrao
de caractersticas que decorrem do trato tradicional dos peritos com os documentos
manuscritos questionados.

Paleografia
26

Segundo Berwange e Leal (2008), a Paleografia o estudo de textos manuscritos


antigos e medievais, independentemente da lngua veicular do documento. Nesse
contexto, a paleografia estuda a origem, a forma e a evoluo da escrita,
independentemente do tipo de suporte fsico onde foi registrada, do material utilizado
para proceder o registo, do lugar onde foi utilizada, do povo que a utilizou e dos sinais
grficos que adotou para exprimir a linguagem.
A paleografia de fundamental importncia para o entendimento da histria e
cultura das civilizaes antigas. Por meio da decifrao obtida pelos palegrafos, os
historiados e arquelogos conseguem obter dados importantes a partir de documentos
escritos. Ressalta-se que tais aspectos no fazem parte do foco deste trabalho de
pesquisa.

2.2.2. A Fisiologia da Escrita


Conhecendo-se as trs reas de estudo da escrita pode-se passar ao entendimento
da fisiologia da escrita, pois a partir do seu estudo que se pode compreender desde a
formao dos traos at elementos mais complexos como letras e palavras.
Assim, deve-se considerar o exposto por Morris (2000), o qual explica que os
estudantes jovens aprendem a construir letras individuais desenhando uma linha por
vez, enquanto que os estudantes mais velhos aprendem a conectar letras individuais e
manter a legibilidade. Isto no uma tarefa fcil. Em parte, o sucesso deste exerccio
depende do sistema de alfabetizao e dos estilos de escrita ensinados, sua ateno nos
detalhes, alm de muitas horas para dominar a tarefa de escrever. Com o passar do
tempo a ao de escrita individual de letras e conexo de traos torna-se habitual e o
escritor atinge um aumento de velocidade enquanto mantm a legibilidade.
Um escritor com habilidade possui maturidade grfica que envolve movimentos
combinados dos dedos, punhos e braos (SAUDEK, 1978). Um escritor no produz uma
letra ou grupo de letras exatamente da mesma forma toda vez, ou seja, normal se
esperar variaes nas escritas dos escritores (variao intrapessoal).
Considerando-se o exposto, apresenta-se a seguir os princpios fisiolgicos da
escrita humana, bem como, os fatores que influenciam a formao das letras. Alm
disto, descrevem-se os princpios do movimento de escrita, visando o entendimento da
complexidade do ato de escrever. Trata-se tambm da escrita natural e automtica, ou
27

seja, aquela escrita que o autor apresenta depois de muito treino, pois se deve lembrar
que a escrita um gesto aprendido, no se nasce sabendo escrever.

I. Os Sete Princpios Fisiolgicos da Escrita Humana


A escrita normalmente feita com os dedos e mos conectados ao corpo pelo
brao3. Como os dedos e mo, o punho e braos possuem muitos nervos e msculos que
podem afetar o escritor antes, durante e aps a ao da escrita propriamente dita. Dessa
forma, torna-se importante examinar os sete princpios fisiolgicos da escrita descritos
no trabalho de Saudek (1978). A seguir so apresentados tais princpios com base na
discusso descrita no trabalho de Morris (2000), sendo a traduo livre indireta e de
responsabilidade desta autora.

Princpio 01
A escrita uma forma de se expressar e para o escritor graficamente maduro os
movimentos envolvidos so habituais. Na maioria dos escritores, seus dedos, mos e
braos movem-se em aes rtmicas e irrestritas para acompanhar as instrues do
crebro. Se o escritor graficamente maduro, ele ser capaz de se concentrar no
contedo em que est escrevendo e no em como cada movimento da caneta deve ser
feito. Seu crebro conhece cada movimento necessrio para escrever uma letra,
combinaes de letras, conexes de traados, etc., e como o resultado de tal escrita
deveria parecer. No final do processo de escrita, o escritor capaz de comparar
conscientemente ou inconscientemente a imagem mental com o que realmente foi
escrito.

Princpio 02
Os msculos da mo funcionam melhor quando fazem contraes rtmicas e
movimentos relaxados. Eles tornam-se fatigados quando algum movimento
dominante. Assim, a escrita normal e natural ocorre quando os msculos no esto
fatigados, mas sim esto funcionando de uma maneira rtmica. Aes de contrao
musculares so mais desenvolvidas do que aes de relaxamento musculares. Isto faz
com que a fora da mo do escritor na caneta seja mais forte nos traados descendentes

3
No se pode esquecer das pessoas que utilizam os ps ou a boca para escrever. Disponvel em:
<http://www.apbp.com.br/> Acesso 09 dez. 2013.
28

do que nos ascendentes quando o escritor est segurando a caneta na chamada posio
normal de escrita (SAUDEK, 1978). medida que o escritor aumenta a presso da
caneta e move a caneta em direo a ele (traado descendente), ele gradualmente aplica
mais fora na ponta da caneta em direo ao papel, resultando na escrita de uma linha
mais escura. Quando traados ascendentes so escritos, a presso da caneta
gradualmente diminui, e a ponta da caneta no forada contra a superfcie do papel
com muita presso, assim resultando na escrita de uma linha mais clara.
Existem excees, mas estas no so resultado de nenhuma exceo a este
conceito. Existem escritores que escrevem traados ascendentes que so mais escuros
que traados descendentes, mas isto acontece em funo do escritor segurar a caneta em
uma posio diferente da chamada posio normal de escrita.

Princpio 03
Normalmente, o relaxamento do msculo requer mais tempo do que sua
contrao quando o escritor est fatigado, porque o relaxamento torna-se mais difcil.
Contraes de msculos fatigados no aparecem em curto prazo, porque os msculos
so mais fortes. No entanto, com o passar do tempo, contraes tambm so afetadas.

Princpio 04
Se a habilidade de relaxar o msculo do dedo perdida, e a habilidade de
contra-lo no perdida, os movimentos do dedo tornam-se limitados e espasmdicos.
Esta condio de movimentos espasmdicos pode fazer com que o dedo atinja
eventualmente a caneta. Se esta condio ocorrer no dedo indicador, resultando em uma
variao de presso da fora da mo isto pode causar ocorrncias no usuais de linhas
claras e escuras em um nico traado manuscrito.

Princpio 05
Durante a ao de escrita, fatiga espasmdica pode ser localizada como definida
no Princpio 04 ou os dedos, mos e brao podem estar envolvidos. Isto no ocorre
durante a constante alternncia rtmica das contraes e relaxamentos musculares,
exceto aps perodos muito longos de escrita. Este ritmo idealmente controlado afeta a
presso da fora na caneta e simultaneamente a presso da escrita. Quando fatiga
espasmdica ocorre, um ou mais dos hbitos de presso podem ser afetados.
29

Princpio 06
Quando os primeiros sinais de fatiga ou cimbras ocorrem, os escritores
normalmente fazem algum tipo de ajuste. Eles podem alterar a forma com que seguram
a caneta, mudar o seu ngulo, etc.. Qualquer mudana afetar a escrita.

Princpio 07
necessrio estudar a forma com que a tenso e o relaxamento muscular se
sucedem. Quando a contrao e o relaxamento so rtmicos, a escrita provavelmente
mais normal. Se eles no so, precisa-se verificar se a ateno desviada, mesmo se
apenas momentaneamente.

A partir destes princpios, que relacionam a fisiologia da escrita, pode-se


entender que existem diferentes fatores que influenciam a formao das letras. Este
estudo importante, devido ao fato de que qualquer anlise grafoscpica deve
considerar a existncia destes fatores.

II. Fatores que Influenciam a Formao das Letras


De acordo com Saudek (1978), um escritor aprende a escrever pelo mtodo do
impulso. Os diferentes impulsos de escrita descritos no trabalho de Saudek (1978) so o
impulso do (a):
traado - o escritor aprende a escrever desenhando traos individuais que
quando conectadas juntas formam uma letra;
letra - o escritor escreve letras inteiras como um nico ato de escrita;
slaba - o escritor escreve slabas ou vrias letras conectadas juntas;
palavra ou do nome - o escritor escreve palavras completas ou nomes como
um simples ato de escrita e
frase ou sentena - quando o escritor atinge maturidade grfica, ele pensa e
tenta escrever sentenas/frases como um nico ato.
De acordo com Morris (2000), aps praticar a formao de letras utilizando uma
srie de traados individuais, o escritor aumenta a velocidade de escrita. Ele aprende a
escrever letras inteiras, e ento vrias letras juntas em combinao, ou seja, palavras e,
finalmente, consegue construir sentenas sem pensar em como desenhar cada traado ou
cada letra.
30

No trabalho de Saudek (1978), so apresentados doze fatores que influenciam a


formao das letras.
O primeiro fator est associado aos instrumentos e materiais utilizados para a
escrita, que exceto em casos extremos, o instrumento e o material utilizados para a
escrita (tais como: caneta, tinta, papel, superfcie do papel no qual a escrita ocorreu,
etc.) tornam a escrita no identificvel. Um escritor usando material e instrumento de
escrita satisfatrios, juntamente com uma superfcie para a escrita lisa, deveria ser capaz
de escrever de uma forma natural e normal. Em raras ocasies quando uma combinao
de um ou mais destes fatores no adequada, o ato de escrita pode ser afetado.
O segundo fator o Grau de maturidade grfica do escritor, visto que o escritor
amadurece, ele se afasta do sistema ou estilo de caderno de caligrafia de escrita e
incorpora mais individualidades em sua escrita. Independentemente da individualidade
de escrita do escritor, deve-se destacar que o princpio da legibilidade sempre governa a
escrita, ou seja, o escritor quer ser capaz de se comunicar com a pessoa que ler o que
ele escreveu, dessa forma, o que ele escreveu deve ser legvel. Existem diferentes nveis
de maturidade grfica, cada uma, regida por um nmero de diferentes fatores
trabalhando juntos. O sistema de impulso o conceito bsico para o entendimento da
maturidade grfica. Um escritor imaturo, ou seja, uma criana aprendendo a escrever
usa traados separados de caneta/lpis para desenhar uma letra. medida que seu nvel
de maturidade aumenta, ele passa a escrever com o impulso da letra. Neste nvel, cada
letra uma unidade completa, porque no existe nenhuma dvida sobre como esta letra
deve parecer ou como ela deve ser escrita. O prximo nvel so os impulsos das slabas
e palavras. Nesta fase o escritor sabe como escrever combinaes de letras e slabas
como unidades nicas. Eventualmente ele aprende como escrever palavras completas e
uma combinao limitada de palavras. Ele sabe como soletrar as palavras e a
combinao de letras necessrias para escrev-las. Ele escreve as palavras
confortavelmente porque ele no precisa pensar em quais letras compem uma palavra
ou slaba. O nvel mais alto o impulso da sentena ou frase. O escritor neste nvel
pensa e procura escrever sentenas/frases completas.
O terceiro fator a velocidade relativa de escrita do escritor, pois no possvel
escrever rapidamente na maioria dos sistemas. A maioria dos sistemas necessita de
presso uniforme de escrita. Quando um escritor aumenta sua velocidade de escrita, ele
percebe que no pode escrever traos ascendentes e descendentes com uma presso
31

uniforme. Um aumento na velocidade de escrita tipicamente resulta em hbitos de


presso relativos. Hbitos de presso relativa so diferentes nos traos ascendentes e
descendentes. Eles so resultantes da alterao normal rtmica entre contraes e
relaxamentos musculares. Hbitos de presso relativa no so parte da maioria dos
sistemas de escrita humana. Alm disso, letras no estilo de caderno de caligrafia so
redigidas de tal forma que no podem ser feitas sem parar em algum ponto durante sua
escrita, ou redesenhando algum trao que j foi feito. Sempre que um escritor para ou
redesenha alguma linha, ele perde tempo. Ningum escreve na mesma velocidade, assim
a velocidade de escrita deve ser um elemento significante no processo de identificao
do escritor.
O quarto fator o sistema de escrita aprendido (descrito em mais detalhes na
prxima Seo) e o quinto fator a nacionalidade do escritor, uma vez que embora
muitos pases utilizem smbolos do alfabeto iguais, poucos tm projetos de letras
idnticos (HILTON, 1982).
J o sexto fator o grau de sensibilidade visual e impressionabilidade do
escritor que esta relacionada ao que um escritor conhece, ou seja, uma letra ou como
uma composio de letras deve parecer. Sua viso confirma que a imagem no papel est
de acordo com a que estava em sua mente. Se uma pessoa pde ver durante seus anos de
formao, e logo aps atingir maturidade grfica perder sua viso, durante um tempo
esta pessoa ainda consegue escrever neste nvel de maturidade. A medida que o escritor
fica mais velho, gradualmente perde sua viso, e passa a no ser mais capaz de
relacionar o que escreveu com sua imagem mental, sua escrita ir mudar. Outros fatores
no processo de envelhecimento iro afetar a maturidade grfica.
O stimo fator o poder de expresso grfica do escritor e o oitavo so as
caractersticas pessoais do escritor, tais como vaidade, afetividade, e desejo de imitar
outros. A personalidade e caractersticas pessoais de um escritor podem influenciar
como uma pessoa escreve. Por exemplo, autoconfiana, sinceridade, falta de cuidado,
imaginao e gosto esttico, podem ter um impacto na natureza artstica do escritor.
Alguns exemplos disto so assinaturas estilizadas, desenhos, embelezamentos, detalhes
em letras individuais para garantir legibilidade. Um exemplo muito interessante disto
a assinatura de John Hancock (Figura 2.1) na Declarao de Independncia Americana.
Tambm, deve-se considerar caractersticas referentes a fatores psicopatolgicos. Um
escritor que sofre de problemas psicopatolgicos severos pode produzir textos que
32

contm caractersticas e elementos que possuem significado apenas para ele, por
exemplo: no usuais e bizarros formatos de texto e letras, pontuaes no usuais, etc.
Alm disso, quando uma pessoa est temporariamente excitada ou sobre estresse
emocional, sua escrita pode ser adversamente afetada. Normalmente quando uma pessoa
est excitada, ela no tem o mesmo nvel de controle sobre a caneta e a escrita aparece
mais randmica, maior e possivelmente menos legvel.

Figura 2.1. Assinatura de John Hancock


[Fonte: http://www.americaslibrary.gov/jb/colonial/jb_colonial_hancock_2.html]

Os ltimos quatro fatores so: o conhecimento do escritor em linguagens


estrangeiras, treinamento especial, etc.; as condies fisiolgicas do escritor;
impedimentos fsicos crnicos que o escritor possa ter e finalmente se a forma da letra
permanece sozinha, ou no incio, meio ou final da palavra.
Percebe-se que todos estes fatores vo fazer com que um escritor produza
traados diferentes de outro escritor, por exemplo, para uma mesma letra ou palavra.
Alm disto, um escritor poder escrever uma mesma letra ou palavra de modo diferente
(forma, inclinao, tamanho, etc.) dependendo dos fatores apresentados anteriormente.
Assim, percebe-se que a escrita complexa e que qualquer trabalho, seja pericial ou de
desenvolvimento de sistemas computacionais, enfrentar diversos desafios. Tais fatores
atuam diretamente sobre o resultado, ou seja, o trao, a escrita.
Neste contexto, cabe apresentar os princpios do movimento de escrita para que
se possa entender como tais fatores atuam no movimento realizado durante a escrita.

Princpios do Movimento de Escrita


De acordo com Morris (2000), para a escrita normal e natural, algumas regras de
execuo da escrita devem ser destacadas, pois tais regras so observadas de perto pelos
peritos diante da anlise de escritas questionadas. As regras so as seguintes:
33

cada escritor adota um relativamente constante e distinguvel grau de inclinao


na sua escrita;
quando o ngulo mdio de inclinao alterado at certos limites, o seguinte pode
acontecer:
a simetria da estrutura da curva pode ser comprometida;
a uniformidade do tamanho da letra pode ser destruda;
cada escritor tem uma velocidade mdia de escrita. Ele pode mudar arbitrariamente
sua velocidade mdia, mas sua escrita ir apresentar traos desta mudana de
velocidade;
lentido induzida artificialmente diagnosticada por uma reduo na firmeza e
harmonia durante a execuo do ato de escrita. Uma indicao desta mudana est
no tamanho de exemplos recorrentes da mesma letra;
para um determinado conjunto de condies de escrita, todo escritor tem um
determinado tamanho mdio das letras. Normalmente, ele no desvia deste tamanho
mdio sem um esforo deliberadamente consciente;
qualquer tentativa deliberada de variao do tamanho mdio de uma letra
acompanhada por inconsistncia no tamanho dos exemplos sucessivos da mesma
letra;
quanto maior a velocidade de escrita, maior a dificuldade de formar ngulos agudos
entre dois traados sucessivos executados perto e em direes opostas;
para cada escritor, a localizao de pontos de presso relativa involuntria;
nenhum escritor pode deliberadamente alterar a localizao de hbitos de presso
relativa exceto em detrimento da velocidade de escrita, simetria e qualidade das
linhas.
Assim, observa-se que qualquer modificao voluntria ou involuntria da
escrita deixar marcas e, portanto, despertar o interesse dos peritos durante a anlise
grafoscpica. Cabe ao perito, identificar os elementos da grafia que permitem
estabelecer que uma escrita natural e automtica. Neste contexto, um dos elementos da
grafia que deve ser observado, pois apresenta um alto poder discriminatrio a
inclinao axial. Esta caracterstica foi includa em nossa base de caractersticas
grafomtricas e apresentou um grande impacto no processo de identificao de autoria,
como pode ser observado na Tabela 3.2.
34

Escrita Natural e Automtica


Segundo Morris (2000), a escrita natural e automtica qualquer escrita
executada normalmente sem uma tentativa de controlar ou alterar seus hbitos de
identidade e sua qualidade usual de execuo. Dessa forma, pode-se observar que um
escritor que escreve natural e automaticamente possui maturidade grfica.
Neste sentido, existem algumas condies que devem ser atingidas antes que um
escritor possa escrever naturalmente e automaticamente, so elas:
o escritor no tem nenhuma dvida sobre a forma e os movimentos
necessrios para escrever uma letra;
o escritor tem um controle completo da caneta e da superfcie de escrita e
no existe nenhum problema mecnico relacionado a tal controle;
no existe nenhum fator transitrio, ou permanente, afetando a habilidade de
escrita do escritor;
no existem dvidas do escritor com relao legibilidade da escrita, hbitos
de presso relativa usados para escrever as letras, hbitos de espao relativo
entre letras, palavras, sentenas, linhas, pargrafos, e tamanho do espao das
margens, etc.;
o escritor encontra-se confortvel com a linguagem e o sistema de escrita no
qual ele escreve;
o escritor no muda de uma linguagem ou sistema de escrita para outro
dentro de um mesmo texto.
Resumindo, qualquer ato ou ocorrncia de qualquer evento que faa com que o
escritor preste mais ateno na sua forma de escrita, configura um situao na qual seu
nvel de maturidade grfica encontra-se comprometido.
Pode parecer que este conjunto configura muitas exigncias, pois o escritor no
est atento a todos estes elementos a cada instante. Isto faz do escritor um agente natural
e automtico quando decide ou necessita escrever. Quando o escritor precisa prestar
ateno a estes elementos, sua escrita deixar de ser natural e automtica, portanto, cabe
estudar os sistemas de escrita, pois o autor somente atingir a maturidade grfica a partir
do esforo e treino necessrios para apreender o sistema de escrita a que for submetido.
35

2.2.3. Sistemas de Escrita


De acordo com Morris (2000), linguagens so sistemas de smbolos, e a escrita
o sistema para representar estes smbolos. Assim, um sistema de escrita pode ser
definido como qualquer sistema convencional de marcas ou sinais que representam os
enunciados da linguagem. Pode-se dizer que todos os sistemas de escrita representam
algum estgio em uma direo progressiva para o sistema de escrita ideal, o alfabeto.
Ainda de acordo com Morris (2000), a escrita humana pensada e aprendida,
por uma pessoa usando ou um padro de caligrafia, ou observando e adotando uma
letra, combinao de letras, ou smbolos escritos por algum.
Hilton (1982) define formato de uma letra de caderno de caligrafia como o
projeto de letras que fundamental para o sistema de escrita. Ao invs do termo
caderno de caligrafia Hilton (1982) utiliza o termo estilo de caractersticas e
caractersticas nacionais. Ento, estilo de caractersticas pode ser definido como o estilo
de escrita manual que adquirido pelo aprendiz e praticado em um determinado local
e em um determinado momento.
De acordo com Hilton (1982), embora muitos pases utilizem smbolos do
alfabeto iguais, poucos tm projetos de letras idnticos. Isto significa que embora os
estilos de caractersticas no sejam teis para a identificao de escrita, eles podem ser
utilizados para determinar a nacionalidade do escritor, ou mais corretamente o pas de
origem do mesmo. No entanto de acordo com Morris (2000), isto no mais uma
declarao verdadeira, pois em funo do grande influxo de imigrantes, por exemplo,
nos Estados Unidos e a integrao de muitas culturas na sociedade americana, as
pessoas assimilaram aspectos de outras culturas. Por exemplo, com a integrao das
escolas americanas nos anos de 1960, muitos estudantes brancos e negros comearam a
frequentar as mesmas escolas. Antes disso, existiam formatos de letras frequentemente
encontrados na escrita dos americanos africanos e raramente encontrados na escrita de
outros grupos raciais.
Segundo Morris (2000), os sistemas de escrita so valorosos porque pessoas que
falam a mesma linguagem tambm desejam ser capazes de se comunicar por meio da
escrita. Para atingir este objetivo, elas devem ter um alfabeto de smbolos que possam
ser reconhecidos. Com o passar do tempo, muitos sistemas de escrita humana foram
desenvolvidos, e com isto muitos dos formatos de letras usados hoje podem ser
encontrados presentes no mundo ocidental.
36

Na regio da sia, o formato da linguagem de escrita muito diferente do


sistema romano usado em muitos pases do Ocidente e frequentemente nico para um
pais ou grupo tnico particular.
Alm disto, existem sistemas de escrita, como por exemplo, o sistema de Palmer
(PALMER, 1935). O Mtodo de Palmer (Figura 2.2) priorizava o domnio do ritmo da
escrita, para o que ele chamava de the writing machine, e para isso usava os tradicionais
adestramentos com ovais e retas ascendentes e descendentes. O sistema de Palmer se
tornou o principal sistema de escrita norte-americano do sculo XX (VILLELA, 2009).

Figura 2.2. Sistema de Palmer


Fonte: [(VILLELA, 2009)]

Cada um destes sistemas construdo em funo da cultura de comunicao


desejada. O sistema de escrita manual permite que esta comunicao de escrita seja
realizada, ou seja, os estudantes primeiramente aprendem a escrever de acordo com as
regras definidas para os formatos das letras em um determinado sistema de escrita.
Logo, eles variam de um sistema para alguma extenso ou eles praticam a escrita de
letras conforme aquelas escritas por algum que eles admiram e que vive em sua
sociedade (MORRIS, 2000).
Para o perito os sistemas so a base sobre a qual pessoas aprendem a escrever.
Estes devem saber que escritores no iro aderir fielmente aqueles sistemas por um
longo perodo de tempo, pois estes normalmente so impacientes e desejam completar a
tarefa de escrita to logo possvel. Quando fazem isto, sua escrita passa a ter uma
especial singularidade conhecida como individualidade (MORRIS, 2000). Neste
contexto, cabe entender o que so classes de caractersticas e como estas classes podem
ser trabalhadas pelos peritos e, tambm, como os sistemas computacionais podem
extrair elementos que possam auxiliar nas anlises grafoscpicas.
37

2.2.4. Classes de Caractersticas


O estudo das classes de caractersticas til ao perito visto que este precisa
conhecer este conceito para no considerar um traado como individualidade sendo que
este traado nada mais do que um elemento de classe de caractersticas que ele, por
inexperincia ou desconhecimento, nunca observou antes.

Definio de Classe de Caractersticas


De acordo com Hilton (1982), nem todas as caractersticas encontradas em um
exame de documento questionado so particulares a uma nica pessoa, e quelas que
so comuns a um grupo podem ser descritas como classe de caractersticas.
Segundo Morris (2000), a escrita de qualquer pessoa consiste de uma
combinao de classes e caractersticas individuais, sendo que a extenso e a
combinao so dependentes de cada indivduo. Esta uma das razes bsicas pela qual
a escrita manual identificvel, ou seja, pode-se atribuir autoria a um manuscrito. A
literatura sobre a identificao de escrita humana no possui informaes sobre o
tamanho da populao de escritores que aprende um sistema de escrita humana e quais
variaes comuns na forma padro das letras so frequentemente encontradas em
escritas randmicas. Observa-se que a maioria dos sistemas de escrita na Amrica
Latina, em particular, a lngua portuguesa, deriva do brao lingstico Indo-Europeu e
subseqentemente do Latim, tambm chamadas de idiomas/lnguas Itlicas ou
Romnticas, visto serem originariamente utilizadas para escrever os romances
(FREITAS et al., 2004). No obstante sua fonte comum, a principal diferena observada
nos sistemas hoje em dia, so detalhes nas letras. Estes detalhes so resultado de
preferncias estticas e na confiana de que a escrita da letra mais fcil com
determinadas alteraes do que no formato padro do sistema de origem.
Ainda segundo Morris (2000), classes de caractersticas aprendidas pelo escritor
so importantes porque elas, em parte, determinam, ou tm certa influncia, sobre como
a pessoa escreve. Assim, cabe dar continuidade ao estudo por meio da construo das
letras e de como as letras podem ser conectadas, formando palavras.

Como as Letras so Construdas e Conectadas


De acordo com Morris (2000), as letras so construdas de acordo com:
instrues dadas sobre o formato padro das letras (tal como definida em um
caderno de caligrafia);
38

as instrues do(a) professor(a);


a influncia de amigos ou membros da famlia do estudante, entre outros.
Como pode ser observado, o estudante recebe muitas influncias e instrues
distintas e tenta satisfaz-las. A construo de letras seguindo alguma sequncia de
instrues (como a realizada em cadernos de caligrafia) ensina o estudante sobre como
escrever em um determinado estilo de caligrafia, ou seja, em uma determinada classe de
caracterstica.
Nesse contexto, uma questo que precisa ser discutida se as classes de
caractersticas no formato que seguem o padro de caderno de caligrafia so as
mesmas para pessoas que escrevem com a mo direita (destras) e para pessoas que
escrevem com a mo esquerda (canhotas). Ensinar canhotos a escrever, especialmente
se o(a) professor(a) destro(a), pode ser um desafio muito grande.
Segundo Morris (2000), estudantes canhotos precisam de necessidades especiais
que requerem ateno do(a) professor(a). Se tais necessidades no forem atendidas, ou
se alguma inconsistncia no ensino da caligrafia ocorrer durante os anos de formao de
tais estudantes, o que deveria ser uma classe de caractersticas acaba sendo uma
caracterstica individual.
Parte da pesquisa de Zaner-Bloser (2010), desenvolvida nos Estados Unidos,
envolve o processo de seleo de um programa de escrita para todos os estudantes. Para
isto foram definidas 06 (seis) questes, que devem ser respondidas antes da escolha de
um programa de ensino de escrita, a saber:
1. Qual alfabeto apropriado de acordo com o nvel de desenvolvimento mental?
2. Qual alfabeto mais fcil de escrever?
3. Qual alfabeto mais fcil de ler?
4. Qual alfabeto mais facilmente integrado?
5. Qual alfabeto mais fcil de ensinar
6. Os manuscritos com letras inclinadas ajudam os estudantes na transio para
letras cursivas?
Uma classe de caractersticas de um sistema a direo da escrita, ou seja, a
direo que ele deseja seguir quando escreve. Por exemplo, o escritor move a caneta,
mo e brao da esquerda para a direita, porque assim que a escrita e a leitura
acontecem, ou ele move da direita para a esquerda como no sistema de escrita Arbico
ou Hebreu. Outro aspecto que uma classe de caractersticas o comprimento das
39

hastes/projees inferiores/superiores. Alguns sistemas de caligrafia declaram que as


projees inferiores devem ser aproximadamente dois teros da altura das projees
superiores. Em outro sistema de caligrafia, o comprimento das projees inferiores deve
ser o mesmo da altura das letras minsculas que possuem loops superiores, tais como a
letra h (MORRIS, 2000).
Isto no to simples assim, pois alm da construo das letras, deve-se levar
em considerao a forma como as letras so conectadas. Basicamente existem trs tipos
de conexes: traos que conectam as letras na posio de baixo (como nas slabas,
de e er), traos que conectam as letras na posio de cima (como nas slabas,
bu e ou) e traos que conectam as letras em uma combinao de posies (como
nas slabas, ea e ma).
Todos estes elementos faro com que a escrita de cada pessoa seja
individualizada e, portanto, passvel de identificao.

2.2.5. Individualidade e Caractersticas Individuais


A individualidade da escrita importante, pois caber ao perito apontar o
conjunto de elementos grficos que caracterizam tal propriedade a cada escrita sob
suspeita ou questionamento. Portanto, deve-se entender as caractersticas
individualizadoras da escrita, bem como, a influncia em destas sobre a construo das
letras, dos traos de conexo e, ainda, sobre os traos iniciais (ataques) e traos finais
(remates).

Definio
Hilton (1982) define caractersticas individuais de escrita como: ... mais ou
menos peculiar a um especfico escritor... constituem os elementos fundamentais de
uma identificao ....
De acordo com Morris (2000) apud Osborne (1929), qualquer caracterstica na
escrita ou qualquer hbito de escrita pode ser modificado e individualizado por
diferentes escritores de muitas diferentes formas e em uma grande variedade de
intensidade. E, assim, a individualidade de escrita de qualquer escritor particular
composta de todas estas caractersticas e hbitos comuns e incomuns. Como no
processo de identificao de uma pessoa, sempre se deve levar em considerao uma
combinao de particularidades que permitem a identificao, e necessariamente quanto
40

mais numerosos e no usuais forem os elementos e caractersticas desta pessoa, mais


certeza se ter na identificao, ou seja, quanto maior o nmero de particularidades de
uma pessoa com maior preciso ser possvel identificar sua escrita.
Para Saudek (1978), individualidade faz parte do ritmo do escritor e est
associado a isto o desenvolvimento da sua maturidade grfica. O ritmo de uma escrita
manual caracterizado pela individualidade formada pelas variaes entre movimentos
e imobilizaes durante o ato da escrita.
De acordo com Morris (2000), individualidade tambm est relacionada com o
nvel de maturidade grfica do escritor. Isto no significa que quanto maior o nvel de
maturidade grfica maior a individualidade de um escritor. Embora exista uma relao
entre estes dois aspectos, uma pessoa com baixo nvel de habilidades de escrita pode ter
tanto quanto, ou at mais individualidade em sua escrita do que um escritor com um alto
nvel de maturidade grfica. Uma pessoa que escreve com um nvel alto de maturidade
grfica, por exemplo, no nvel de impulso da sentena/frase, deve escrever com um
determinado grau de legibilidade ou sua escrita ir consistir de uma srie de linhas sem
sentido ou movimentos de caneta.
De acordo com o Grupo de Trabalhos Cientficos em Documentos (Scientific
Working Group for Questioned Documents - http://www.swgdoc.org/), caractersticas
de identificao so marcos ou propriedades que servem para individualizar a escrita,
tais como: formataes e tamanhos relativos das letras.
medida que um escritor amadurece graficamente, ele se afasta de algumas
classes de caractersticas que aprendeu e introduz em sua escrita sua individualidade.
Com o passar do tempo, estas caractersticas individuais tornam-se parte natural de sua
escrita porque seus punhos, braos e dedos repetem movimentos que se tornaram
habituais. por meio da combinao destes dois elementos, classes de caractersticas e
caractersticas individuais, que a escrita torna-se identificvel (MORRIS, 2000).
Deve-se destacar que por meio da implementao de uma combinao de
caractersticas individuais possvel desenvolver abordagens computacionais que
ofeream suporte ao processo de identificao de autoria. Cabe, portanto, apresentar
algumas dessas caractersticas individuais estudadas pela grafoanlise e pertinentes ao
estudo de identificao de autoria (MORRIS, 2000):
nvel de habilidade: definido como sendo uma avaliao de beleza aplicada na
formao da letra;
41

inclinao axial: o ngulo de inclinao da escrita, em relao ao eixo vertical de


um sistema de eixos cartesianos, onde o eixo horizontal representado por uma
linha de base imaginria;
forma caligrfica: a representao pictrica da escrita;
movimento: a direo do movimento dos instrumentos de escritura (lpis ou caneta)
pode ser determinada, atravs da observao das variabilidades na densidade da tinta
ou trao do lpis;
propores: refere-se geralmente simetria das letras individualmente;
relaes de altura: so comparaes ou correlaes da altura de uma letra ou
segmento de letra em relao outra letra, normalmente dentro da mesma palavra;
mnimos grficos: so formados pelos pontos finais, vrgulas, os pingos nos is,
acentos (crase, circunflexo, til e agudo) e cedilhas. Essa caracterstica de grande
relevncia para os grupos de escritores da lngua portuguesa;
corte da letra t: podem contribuir mais significativamente na caracterizao do
escritor que o pingo da letra i;
ascendentes e descendentes: so laadas comuns nas letras cursivas. Podem
apresentar formas arredondadas ou pontiagudas, simtricas ou assimtricas;
presso: representa a variabilidade de largura do traado e a deposio de material
em uma dada regio do trao que pode ser tinta ou grafite;
alinhamento em relao linha de base: est associada capacidade do escritor
produzir linhas de textos alinhadas com uma linha guia horizontal fictcia (texto no
pautado) ou real (texto pautado);
velocidade: frequentemente uma caracterstica essencial para a identificao do
autor, pois os movimentos rpidos do objeto de escrita so difceis de ser duplicados
por um falsificador;
embelezamento: localiza-se usualmente no comeo de uma letra, mas pode estar
presente ao longo do material escrito;
entradas e golpes de sada: podem ser movimentos habituais, podendo representar
caractersticas identificadoras de um escritor;
retrao: considerada uma caracterstica do escritor, enquanto representa um
comportamento natural da experincia de escrita;
42

erros de ortografia e espaamento: escrever incorretamente as palavras pode ser um


indicativo de uma caracterstica individual do escritor. Existem escritores que
interrompem o curso da escrita entre combinaes de letras especficas;
formato: o formato de um documento questionado pode conter adicionalmente uma
caracterstica identificadora.
A Figura 2.3, abaixo apresentada, exemplifica alguns exemplos de classes de
caractersticas.

Figura 2.3. Exemplo de caractersticas individuais


43

Observa-se que a lista de caractersticas individuais no pequena e que


medida que cada autor lana mo destes elementos, a escrita humana se torna mais
complexa e desafiadora. Alm disto, no se pode deixar de lado a influncia da
individualidade sobre a construo das letras, dos traos de conexo, dos ataques 4 e
remates.

Influncia na Construo das Letras, Traos de Conexo, Ataques e Remates


De acordo com Morris (2000), a individualidade e o ato de escrita so
inseparveis. Nem todas as escritas tm um alto grau de individualidade, tal como uma
assinatura, mas a maioria tem pelo menos algumas caractersticas perceptveis do
escritor. Durante o processo de identificao de autoria de um documento manuscrito, o
trabalho do perito determinar quais caractersticas, quando tomadas coletivamente
correspondem individualidade do escritor. Ento, a maneira como o escritor constri
suas letras uma caracterstica que deve ser considerada. Assim se, por exemplo, a letra
legvel ou o leitor tem que supor qual letra baseado no contexto da palavra ou da
frase. Ocasionalmente, o perito ter que determinar qual caracterstica, ou combinao
de caractersticas um acidente e no a escrita normal do escritor.
Ainda segundo Morris (2000), uma vez que movimentos de escrita so
atividades habituais, os hbitos de escrita de um escritor definem como uma letra
redigida e como as letras de uma palavra so conectadas. Dependendo destes hbitos,
traos de conexo podem ser individuais ou muito comuns, pois traos de conexo
assim como a formao de letras possuem padres. Dentro deste contexto, traos
iniciais (ataques) ou finais (remates) podem ser muito simples ou embelezados. O
embelezamento dos traos iniciais no algo que se aprende na escola, e sim definido
por hbitos de escrita individuais do escritor.
Entende-se com o exposto que o gesto grfico complexo, mas passvel de
anlise. Neste sentido, as leis e princpios fundamentais da escrita permitem estabelecer
referenciais para as anlises grafoscpicas.

2.2.6. Leis e Princpios Fundamentais da Escrita


Solange Pellat em seu livro La lois de Lcriture (PELLAT,1927), ditou dois
princpios fundamentais da grafia e quatro leis do grafismo que regem o gesto grfico.

4
Todo lanamento tem um incio (ataque) e um fim (remate) (MENDES, 2003).
44

Princpios Fundamentais da Escrita


De acordo com Mendes (2003), existem dois princpios fundamentais da grafia.
O primeiro princpio a escrita individual, ou seja, resultante de estmulos cerebrais
que determinam movimentos e estes criam as formas grficas. Dentro deste contexto,
muito embora os crebros de todos sejam anatomicamente iguais, a sua funo varia de
pessoa para pessoa. J o segundo princpio afirma que as leis da escrita independem do
alfabeto utilizado. A escrita resultante de estmulos cerebrais que determinam a
criao de frmulas alfabticas. Dentro deste contexto, os estmulos so particulares a
cada punho e, por isso, os movimentos tambm so. As formas alfabticas variam de
tipo para tipo. Nessas condies, o que interessa ao perito a movimentao do punho e
no a forma grfica.
Cabe comentar que tais princpios regem as anlises realizadas pelos peritos,
sejam estas realizadas sobre textos ou assinaturas manuscritas.

Leis do Grafismo
Ainda de acordo com Mendes (2003) e Cavalcanti e Lira (1996), existem quatro
leis do grafismo.
A Primeira Lei, esta relacionada ao O gesto grfico est sob a influncia
imediata do crebro. Sua manifestao no modificada pelo rgo escritor, se este
funcionar normalmente e estiver suficientemente adaptado sua funo. Dentro deste
contexto, todas as atividades humanas tm sua origem no crebro que por sua vez
recebe informaes por meio dos sentidos, armazenando-as e processando-as. Para
produzir o grafismo a pessoa passa por trs fases: a evocao, a ideao e a execuo.
Segundo Cavalcanti e Lira (1996), evocao significa buscar informaes, imagens,
sons ou emoes dentro da memria. Ideao a fase em que o escritor, aps ter
evocado a ideia, pe em funcionamento a sua criatividade, acrescentando simbologia
sua caracterstica individual. Enquanto que execuo a emisso da ordem do crebro
para que o rgo que porta o instrumento escritor execute os movimentos sobre o papel,
j evocados e ideados. Se o escritor no possui boa evocao, no poder idear bem e,
portanto, no far boa execuo. Tudo isso depende de vrios fatores, inclusive da
memria.
A segunda Lei refere-se a Quando algum escreve, o seu eu est em ao, mas
o sentimento quase inconsciente dessa ao passa por alternativas contnuas de
intensidade entre o mximo, onde existe um esforo a fazer, e o mnimo, quando este
45

esforo segue o impulso adquirido. Segundo Cavalcanti e Lira (1996), esta lei a que
regula o automatismo do gesto grfico. Inicialmente a escrita o ato consciente, mas a
seguir os movimentos se sucedem sem requerer a ateno do escritor. O mximo de
intensidade se refere ao do consciente, e o mnimo, expresso do subconsciente
(MENDES, 2003).
A terceira Lei refere-se ao fato de que No se pode modificar voluntariamente
a escrita em dado momento, seno introduzindo no traado a prpria marca do esforo
despendido para obter a modificao. De acordo com Mendes (2003), como a escrita
produto do subconsciente, no pode ser controlada pelo consciente. Quando o
escritor procura, conscientemente, alterar a sua escrita, provocar um conflito, e esse
conflito deixar no registro a marca dessa luta, seja em um pequeno desvio de trao,
seja numa hesitao, ou em uma parada anormal do instrumento escrevente ou em um
tremor. Complementando Cavalcanti e Lira (1996) afirmam que sendo o grafismo
natural produto das trs fases do mecanismo fundamental do gesto grfico, a
interferncia dolosa da ateno representa uma violncia que inevitavelmente ficar
registrada no traado.
Finalmente a quarta Lei esta relacionada a Quando, por qualquer motivo, o ato
de escrever se torna particularmente difcil, o escritor instintivamente d s letras as
formas que lhe so mais familiares e mais simples, esquematizando-as de modo que lhe
seja mais fcil executar. De acordo com Mendes (2003), esta a lei do mnimo
esforo, que pode ocorrer em qualquer outro gesto do homem, uma vez que um
recurso ditado pelo subconsciente.
Assim, cabe ressaltar os comentrios feitos por Volpi e Freitas (2013) sobre tais
leis, a saber:
deve-se lembrar de que o ato de escrever exige uma harmonia entre crebro, cabea,
pescoo, brao, mo e, finalmente, dedos. Todo este sistema, tal qual uma orquestra,
precisa aprender a escrever, ou seja, dominar a escrita como forma, como gerao de
formas e, ainda, de significados. Assim, uma leso, ou falta de um dos instrumentos
na orquestra, pode acarretar a no realizao do gesto grfico;
o eu escritor passa por uma evoluo, desde os primeiros rabiscos, at a formao
das primeiras letras isoladamente do alfabeto. Esta evoluo comprova que a escrita
um ato aprendido, o qual segue nos primeiros anos um modelo apresentado pelo
professor ou pais, seja na escola ou em casa. Este aprendizado segue um sinuoso
46

caminho, entre diferentes estilos, tamanhos e inclinaes; at que na fase adulta cada
pessoa estabelece um padro grfico. Este padro memorizado, armazenado no
crebro, e a partir deste momento passa a ser executado sem dificuldades. No
mais necessrio lembrar o modelo aprendido na escola, nem mesmo ficar em dvida
como realizar tal letra ou conjunto de letras, o modelo est automatizado;
deste modo, de to automtico que se torna o ato de escrever que no se pode fugir
ou fingir ser outro EU sem que se deixem marcas grficas dessa tentativa. Pois,
no se est tentando somente movimentar a mo e os dedos de forma diferente, para
gerar outro traado, mas sim, se est exigindo do crebro que no produza o modelo
automtico;
finalmente o ltimo comentrio que este modelo automtico, aceita variaes e
simplificaes, quando por diferentes motivos, o escritor est impedido de realizar o
modelo completamente. Um exemplo disto a rubrica, simplificao da assinatura.
Por sua vez, estas variaes e simplificaes no so executadas aleatoriamente, elas
possuem uma lgica intrnseca ao ato de escrever particularizado de cada pessoa.
Neste ponto, Volpi e Freitas (2013) apontam que somente o entendimento
destes elementos permite ao perito capturar no somente a complexidade, mas tambm
a beleza da escrita humana.

2.2.7. Elementos Grficos da Escrita


Existem basicamente dois tipos principais de elementos grficos, os estticos e
dinmicos. A grande maioria dos autores da rea de grafoscopia apresenta discusses
levando em considerao esta classificao. No entanto, em trabalhos como de
Plamondon e Lorrete (1989) e Oh e Suen (2002) os elementos estticos se referem e so
nomeados como caractersticas globais de um documento questionado, enquanto que os
elementos dinmicos se referem e so nomeados com as caractersticas locais do
mesmo. Nesse contexto, as abordagens relacionadas identificao de autoria de
manuscritos podem ser divididas em: globais (utilizam caractersticas globais, feita a
partir de segmentos do manuscrito, como pargrafos, linhas, ou simplesmente pedaos
da imagem); e locais (utilizam caractersticas locais, feita a partir de letras e palavras,
segmentadas do documento manuscrito). Uma discusso mais detalhada sobre esta
diviso apresentada na Seo 2.3, bem como o posicionamento adotado neste trabalho
perante tal classificao.
47

Outra nomenclatura que tambm pode ser encontrada na literatura a de


elementos genricos e elementos genticos. A anlise dos atributos genticos e
genricos feita tendo como base a dinmica do traado da escrita. Esta dinmica
representa um conjunto de fenmenos grficos, usualmente produzidos de forma
inconsciente pelo escritor, muitas vezes denominados de gestos caractersticos
(MENDES, 2003).
A seguir so apresentados os elementos bsicos da grafia, pois deles decorrem as
primitivas que os sistemas computacionais buscam extrair dos documentos manuscritos.

Elementos Bsicos da Grafia


De acordo com Cavalcanti e Lira (1996); Mendes (2003); Oliveira et al. (2005);
Freitas e Volpi Neto (2007), existe um conjunto de elementos bsicos da grafia que so
importantes para a identificao de autoria, tal qual apresentado na Tabela 2.1.

Tabela 2.1. Elementos bsicos da grafia


Elemento Descrio
Campo grfico Corresponde ao espao bidimensional onde a escrita feita.
Corresponde a todo o movimento de dedos que o indivduo faz para
Movimento grfico
escrever, sendo que cada movimento grfico gera um trao grfico.
Corresponde ao trajeto que o objeto da escrita descreve em um nico
Trao
gesto executado pelo autor.
Trao descendente,
fundamental, pleno, ou Corresponde a todo o trao descendente e grosso de uma letra.
grosso
Trao ascendente ou perfil Corresponde ao trao ascendente e fino de uma letra.
Corresponde aos elementos em formas de crculo das letras a, o, g, q,
Ovais
dentre outras.
Corresponde a todos os traos plenos (movimento de descanso) das
letras l, t, b, f, etc. at a base da zona mdia. Tambm so
Hastes
consideradas hastes os traos verticais do m e do n maisculo e
minsculo.
Corresponde a todos os plenos (descendentes) do g, j,y, f, etc.
Laadas inferiores
a partir da zona mdia at embaixo.
Corresponde a todos os traos ascendentes (perfis) das hastes das
Bucles laadas inferiores e, por extenso, todo o movimento que ascende
cruzando a haste e unindo-se a ela formando crculo.
Corresponde ao esqueleto da letra, a parte indispensvel da sua
Partes essenciais
estrutura.
Parte secundria ou Corresponde ao revestimento ornamental ou parte no necessria sua
acessria configurao.
48

Ainda de acordo com Cavalcanti e Lira (1996), tais elementos podem estar
posicionados em zonas distintas e denominados de acordo com a Tabela 2.2. Esta
classificao das zonas ou regies facilita o processo de extrao de primitivas quando
se pretende desenvolver um sistema computacional, seja para identificao de autoria,
seja para reconhecimento de palavras manuscritas.

Tabela 2.2. reas de posicionamento das letras


Posicionamento Descrio
Zona inicial Corresponde a rea onde se encontra o ponto no qual se inicia a letra.
Zona final Corresponde a rea onde se encontra o ponto no qual termina a letra.
Corresponde a rea onde se encontra o ponto mais alto ocupado pelas
Zona superior hastes, pelos pontos e acentos, pelas barras do t e parte das letras
minsculas.
Corresponde a rea central ocupada por todas as vogais minsculas (a, e, i,
o, u) e pelas letras m e n, r, etc, cuja altura toma-se como base para
Zona mdia
medir o nvel de elevao das hastes e o nvel de descanso das laadas
inferiores.
Zona inferior Corresponde a zona baixa da escrita a partir da base de todos os ovais.

Cabe, portanto, estudar e distinguir os elementos dinmicos dos elementos


estticos da grafia, visto que isto possibilita a categorizao das primitivas a serem
extradas pelos diferentes autores que j desenvolveram estudos relacionados ao tema
tratado neste trabalho.

Elementos Dinmicos da Escrita


Pode-se descrever a gnese grfica como sendo a sequncia de movimentos
determinados pelos impulsos cerebrais que do origem a forma. Dessa maneira, a
gnese grfica materializao dos impulsos que emanam do centro nervoso da escrita,
e, portanto o elemento dinmico, especfico e inerente de cada pulso (MENDES,
2003).
Assim, de acordo com os trabalhos de Mendes (2003) e Calvacanti e Lira
(1996); os elementos dinmicos da escrita podem ser descritos pela presso, gesto
grfico ou caracterstico, movimento, mnimos grficos e velocidade, descritos a seguir;
Presso: corresponde a fora ou intensidade do trao, por sua caracterstica
dinmica, possui estreita relao com a rapidez, com a continuidade e com a
irradiao do impulso grfico. A presso pode ser resumida em quatro
caractersticas:
49

escrita tensa: na qual os movimentos grficos so retos, firmes e seguros; e


escrita frouxa: na qual existe um dficit de tenso nos movimentos, os quais
so mais ou menos sinuosos, ondulados ou torcidos em qualquer de seus
sentidos direcionais;
deposio de tinta de caneta esferogrfica e
deposio de grafite;
Gesto grfico ou caracterstico: na escrita existem modalidades de traos ou
letras que chamam a ateno, pois imprimem ao traado uma fisionomia especial
que nenhuma outra pessoa poderia reproduzir da mesma maneira. Os elementos
grficos que podem formar o gesto caracterstico so:
gancho: consiste de um movimento de regresso encontrado nos finais das
letras ou na barra da letra t;
clave: carrega todo o golpe de energia sobre a zona final do traado que fica
em forma de ponta quebrada;
golpe de sabre: refere-se ao movimento promovido por um impulso da
caneta, que pode afetar as barras da letra t e as partes inferiores das letras
(lanadas inferiores);
movimento em tringulo: so produzidos principalmente nas laadas
inferiores dos t, g, y e na barra da letra t, podem tambm aparecer
na circunferncia das letras da zona mdia;
bucle: se apresenta na circunferncia das letras da zona mdia, nas
maisculas e nas ligaes;
guirlanda: consiste num movimento em forma de arco aberto para cima,
presente nos traos iniciais e finais e nas barras das letras t;
arco: encontrado preferencialmente nas zonas inicial, superior e mdia (nas
ligaes);
espiral: est presente nas letras maisculas;
inflao: apresenta um tamanho exagerado, presente nas maisculas;
lao: uma espcie de movimento de retorno ao ponto de partida e
serpentina: afeta especialmente os traos iniciais e finais e as letras m e
n;
Movimento: duas escritas que apresentam semelhanas nas formas podem ser
diferentes quando analisadas sob a tica do movimento da caneta. A direo do
50

movimento dos instrumentos de escrita (lpis ou caneta) pode ser determinada,


frequentemente, atravs da observao das variabilidades na densidade da tinta
ou trao do lpis;
Mnimos Grficos: so formados pelos pontos finais, vrgulas, os pingos nas
letras i, acentos (crase, circunflexo, til e agudo) e cedilhas e, ainda, por algum
tipo de embelezamento ou gesto caracterstico ao escrever. Uma pequena poro
de escritura como um mnimo grfico pode, em alguns casos, se tornar uma
caracterstica identificadora relevante;
Velocidade: frequentemente uma caracterstica essencial para a identificao
do autor. Um movimento rpido do objeto de escrita difcil de ser duplicado
por um falsificador. Os seguintes elementos de anlise descrevem alguns
indicadores da escrita, podendo classific-la em rpida e lenta. A classificao
rpida esta relacionada ao traado tenso, sem tremor; ao alongamento na
finalizao das letras e e corte das letras t; as palavras ou letras conectadas;
a aparncia aplainada do texto, a reduo da legibilidade. J a classificao lenta
aponta para a vacilao, o tremor, a escrita mais angular; o cruzamento da letra
t em posio correta; a parada e o recomeo abrupto (clave); a escrita feita
de letras individuais e legveis; o movimento pode apresentar ornamentos.

Alguns destes elementos podem ser claramente observados na Figura 2.3.


importante observar que os elementos dinmicos da escrita contribuem para que a
gnese seja um elemento especfico da escrita, visto que depende das condies
psicossomticas de cada indivduo. Assim como as caractersticas fsicas, fisiolgicas e
qumicas variam de indivduo para indivduo, o gesto grfico tambm sofre esta
variao. Uma vez que no existem duas pessoas de movimentos iguais, no podem
existir grafismos idnticos.

Elementos Estticos da Escrita


Segundo discusses apresentadas no trabalho de Mendes (2003), a forma
grfica o desenho, o feitio da escrita criado pelo movimento a gnese. Em razo
disso, o elemento esttico do grafismo.
Ainda segundo Mendes (2003), a forma pode ser considerada o elemento
genrico, uma vez que comum a todos que escrevem usando o mesmo tipo de
alfabeto. A forma no um elemento individualizador, mas sim as alteraes a que esta
51

est sujeita (seja qual for a razo da alterao, tais como modificaes para imitar uma
pessoa, modificaes para disfarar a prpria escrita, etc.).
No se deve confundir a gnese com a forma grfica. Dentro deste contexto,
Sderman e OConnell (1953) em seu livro Manuel denqute criminelle modern
afirmam que um falsificador imita a forma e no a gnese, ou seja, imita o desenho e
no o movimento.
Considerando-se o exposto, pode-se mencionar como elementos estticos todas
as formas geradas pelos movimentos durante o ato de escrever.

Elementos Formais da Escrita


De acordo com Mendes (2003), os elementos formais da escrita podem ser
classificados em objetivos e subjetivos. Nesse contexto, os elementos objetivos so:
calibre: se refere ao tamanho das letras (por exemplo: macrografia - letras grandes,
micrografia letras pequenas de difcil leitura, alterao do calibre, gladiolagem
reduo do tamanho das letras a medida que estas so escritas);
inclinao axial: como j descrito anteriormente, o comportamento dos eixos
gramaticais (por exemplo: verticalizada, inclinada direita, inclinada esquerda,
reverso de eixo quando a inclinao das letras sofre uma mudana no sentido);
espaamentos grficos: se referem s distncias que guardam entre si os gramas,
letras, vocbulos e linhas de escrita (por exemplo: intergramaticais, interliterais,
intervocabulares, interlineares);
andamentos grficos: se referem aos momentos grficos, ou seja, so os grupos de
letras, de um mesmo vocbulo, que se interligam, separando-se de outros que lhe
seguem. As silabaes possuem normas gramaticais e, no andamento grfico, so
divises arbitrrias, adotadas pelo escritor por fora do habito sem obedecer a
qualquer norma. Cada grupo de letras constitui um momento grfico (por exemplo:
um momento, dois momentos, trs momentos);
alinhamentos grficos: corresponde ao comportamento da escrita em funo de uma
linha de pauta, ideal ou impressa (por exemplo: ascendente, descendente, acima da
linha, apoiado na linha, sobre a linha de pauta, irregular);
valores angulares e curvilneos: se referem predominncia dos ngulos ou das
curvas no grafismo (por exemplo: valores angulares, valores curvilneos, misto)
relaes de proporcionalidade gramatical representam a relao do tamanho que as
letras de uma palavra guardam entre si.
52

Pode-se observar que alguns dos elementos acima expostos podem ser
observados na Figura 2.3. Os elementos formais objetivos no so identificadores. No
entanto, alguns deles podem ter alguma significao (MENDES, 2003). Tambm deve-
se destacar, que alguns elementos formais objetivos revelam hbitos inconscientes do
escritor que os falsificadores, s vezes, no reproduzem nas imitaes, pois se prendem
a detalhes no aparentes.
Segundo Mendes (2003), os elementos subjetivos, no podem ser demonstrados,
embora percebidos pelo perito. Dentro deste contexto, os elementos subjetivos mais
apontados pelos especialistas consistem no aspecto geral da escrita, representada pela
qualidade do trao, que por sua vez, depende do grau de habilidade de punho, do ritmo
de escrita, da velocidade e do dinamismo grfico.
Os elementos formais objetivos so de ordem genrica, por isso, comum a
muitos grafismos, e consequentemente no so decisivos quando da concluso sobre a
autoria da escrita. No entanto, eles podem apresentar alguns aspectos que assumem
maior significao, como por exemplo, o calibre dos traados e a inclinao axial (ver
Tabela 3.2, na qual pode-se observar a importncia discriminatria da caracterstica
inclinao axial nos resultados obtidos pelo mtodo proposto neste trabalho). Algumas
vezes determinado grama grafado em calibre maior que os demais. Os falsrios podem
no perceber esse detalhe ao reproduzir o modelo de calibre predominante. Na
inclinao axial, tambm, as reverses de alguns passantes nem sempre so imitadas
pelos falsificadores (MENDES, 2003).
Dentro deste contexto, os elementos formais subjetivos so mais importantes, do
ponto de vista da identificao de autoria, uma vez que normalmente, os elementos
formais objetivos so de mais fcil reproduo, pelos falsrios, do que os elementos
subjetivos.

2.2.8. Consideraes Finais sobre a Escrita Humana


A Seo 2.2 apresentou uma fundamentao terica da escrita humana e dos
elementos que fazem desta um elemento biomtrico. Ao longo da fundamentao
apresentada foram descritos aspectos que levam em considerao elementos fisiolgicos
do escritor, ou seja, que so natos a cada escritor, bem como elementos obtidos durante
seu processo de formao. Ambos os elementos so importantes para o processo de
individualizao da escrita. Tambm foram abordados os principais aspectos que
53

influenciam a construo do traado de um escritor. Uma discusso sobre os elementos


bsicos da grafia tambm foi apresentada, uma vez que estes elementos so avaliados
pelos peritos durantes suas anlises grafotcnicas.
Esta fundamentao foi necessria para entender o mecanismo da escrita
humana, os quais sero os pilares para a definio do mtodo computacional que tem
como objetivo automatizar o processo de identificao de autoria. Deve-se ressaltar
tambm, que no mtodo proposto so utilizadas caractersticas grafomtricas, o que
refora a necessidade por um conhecimento profundo dos aspectos discutidos ao longo
deste captulo.
Para complementar a fundamentao necessria para o desenvolvimento deste
trabalho, a prxima Seo apresenta um levantamento sobre mtodos computacionais
propostos na literatura que tem como objetivo, tal como neste trabalho, auxiliar e
agilizar o processo de identificao da escrita humana. Deve-se ressaltar que trabalhos
como de Hertel e Bunke (2003), Schlapbach e Bunke (2004), Chen et al. (2010), Luna
et al. (2011), Zois e Anastassopoulos (2000) e Pervouchine e Leedham (2007) (descritos
nas prximas Sees) tambm fazem uso de caractersticas grafomtricas para
automatizar o processo de identificao de autoria.

2.3. Autoria em Documentos Manuscritos


Segundo Srihari e Shi (2004), assim como em outros campos relacionados
Cincia Forense, o exame clssico de identificao de autoria em manuscritos baseado
no conhecimento e experincia do perito. Tem-se ento a seguinte situao problema
diante de medidas no objetivas e decises que nem sempre podem ser reproduzidas.
Portanto, tentativas de oferecer suporte automtico e/ou semiautomtico aos mtodos
tradicionais vem sendo estudadas.
Ainda, segundo Srihari e Shi (2004), as modernas tecnologias oferecem
mecanismos para a construo de grandes bancos de dados criminais, visto que bases de
dados digitais para aplicaes forenses tm um importante papel na investigao
criminal. Nesse contexto, sistemas de computadores eficientes e grandes quantidade de
dados, a percia forense se torna mais eficiente e precisa. Vrios tipos de dados podem
ser coletados de registros criminais ou evidncias e, portanto, as bases de dados forenses
so de muitos tipos, tais como: bases de impresses digitais, bases de registros criminais
e colees de registros multimdias incluindo imagens, vdeos, documentos e textos.
54

Estas bases so, tambm, de suma importncia para a validao dos sistemas
automticos e semiautomticos de identificao de autoria.
Dentro deste contexto, nas prximas Sees apresentado um levantamento
bibliogrfico sobre as principais abordagens e sistemas para identificao de autoria
presentes na literatura. Este levantamento, apresentado em Amaral et al. (2012a),
fundamental para que se possa fazer uma anlise crtica sobre as caractersticas
grafomtricas utilizadas como parte do mtodo proposto neste trabalho, bem como,
sobre as taxas de acerto obtidas com o uso de tais caractersticas.

2.3.1. Classificaes para Autoria em Documentos Manuscritos


Segundo Bensefia et al.(2005), existem duas diferentes classificaes para a
autoria de documentos manuscritos, so elas: a identificao e a verificao.
No processo de verificao de autoria procura-se avaliar dadas duas amostras de
manuscrito, se as mesmas so ou no de um mesmo escritor (1:1). Nestas abordagens,
normalmente, apenas duas classes so assumidas: autoria (associao) e no autoria
(dissociao).
Por outro lado, no processo de identificao de autoria procura-se avaliar com
base em um conjunto de escritores e um documento questionado, a qual escritor
pertence o documento questionado, ou seja, atribui-se ao documento questionado sua
autoria (1:N). Nestas abordagens so construdas classes para o escritor do documento
questionado e para cada um dos escritores presentes na base de dados que contm o
conjunto de escritores. Devido grande quantidade de classes geradas, o problema de
identificao de autoria no pode ser considerado uma tarefa simples de classificao
(BENSEFIA et al., 2005).
Ainda de acordo com Bensefia et al. (2005), um sistema para identificao de
autoria deve fornecer um subconjunto de candidatos relevantes (ou seja, um ranking),
nos quais anlises complementares podem vir a ser realizadas por um perito. Foi
possvel observar ao longo da reviso bibliogrfica realizada que o uso de rankings,
nomeados pelos pesquisadores como Top, para classificar os resultados do processo de
identificao de autoria uma prtica comum. Isto porque, uma reduo no espao de
busca dos suspeitos promove uma reduo no tempo dedicado anlise grafotcnica
realizada pelo perito.
Este trabalho concentra-se no processo de identificao de autoria, usando para
tanto um conjunto de caractersticas grafomtricas. Dessa forma, a seguir apresentado
55

o levantamento bibliogrfico realizado das diferentes abordagens para identificao de


autoria. Este levantamento foi organizado levando-se em conta a classificao para
abordagens de identificao de autoria proposta por Sreeraj e Idicula (2011).

2.3.2. Abordagens para Identificao de Autoria em Documentos Manuscritos


De acordo com Bulacu et al. (2007), dois importantes fatores naturais esto em
conflito direto na tentativa de identificar uma pessoa com base em amostras de
manuscritos: variaes entre diferentes escritores (variabilidade interpessoal) em
contraposio a variabilidade na escrita de um nico escritor (variabilidade
intrapessoal). Nesse contexto, as abordagens automticas para identificao de autoria
consistem na extrao de representaes computacionais (caractersticas) com o
objetivo de maximizar a separao entre diferentes escritores, enquanto apresentam um
padro de escrita nas amostras do mesmo escritor.
Segundo He et al. (2008), abordagens para identificao de autoria podem ser
classificadas de diferentes formas, contudo a mais simples e direta a diviso em online
e offline que se refere ao processo de aquisio ou captura do documento manuscrito
para sua posterior anlise.
Outras categorizaes que levam em considerao o tipo de caractersticas
extradas dos manuscritos so encontradas na literatura. Uma classificao bastante
interessante apresentada no trabalho de Sreeraj e Idicula (2011) na qual as abordagens
offline e online so classificadas de acordo com o nvel de granularidade da
caracterstica extrada (por exemplo: documento, pargrafo, linhas, palavras e
caracteres). Trabalhos como o de Siddiqi e Vicent (2008) apresentam uma diviso entre
caractersticas locais e globais levando em considerao as caractersticas extradas de
um manuscrito.
Neste trabalho adotaram-se dois nveis de granularidade para categorizar as
caractersticas para identificao de autoria. Consideram-se como caractersticas
Globais, aquelas que envolvam a extrao de informaes em nvel de documento,
pargrafo e linhas, enquanto que aquelas que envolvam a extrao de informaes em
nvel de palavra e caractere sero consideradas como Locais. Para uma melhor
compreenso a Figura 2.3 apresenta este esquema de classificao.
Neste contexto, esta Seo apresenta uma reviso das principais abordagens para
identificao de autoria propostas na literatura levando em considerao a classificao
apresentada na Figura 2.3. Deve-se destacar que um maior enfoque ser dado s
56

abordagens offline uma vez que o mtodo proposto neste trabalho foi definido a partir
desta abordagem.

Figura 2.4. Classificao para abordagens de identificao de autoria


[Fonte: Adaptado de (SREERAJ; IDICULA, 2011)]

2.3.3. Identificao de Autoria Online


De acordo com He et al. (2008), nas abordagens online um equipamento
conectado ao computador, o qual converte o movimento de escrita em uma sequencia de
sinais e os envia ao computador. A forma mais comum de equipamento uma mesa
digitalizadora (tablet) que consiste de uma caneta plstica ou eletrnica e uma superfcie
sensvel a presso, sobre a qual os usurios realizam seus manuscritos. Uma vez que
informaes dinmicas do processo de escrita so capturadas, as quais representam
importantes aspectos que individualizam a escrita humana, as abordagens online
apresentam, em geral, taxas de classificao melhores que as abordagens offline.
De acordo com Sreeraj e Idicula (2011), a tarefa de identificao de autoria
online considerada menos difcil do que a offline, pois contm mais informaes sobre
o estilo de escrita de uma pessoa, tais como: velocidade, inclinao axial, presso,
progresso; todas capturadas diretamente durante a escrita. Infelizmente, sistemas
online no so aplicados em muitos casos, uma vez que abordagens online no se
prestam para auxiliar em anlises grafoscpicas que visam encontrar o escritor de um
manuscrito existente (HE et al., 2008). Nas prximas Sees so apresentados alguns
dos trabalhos desenvolvidos e em desenvolvimento em cada uma das categorias das
abordagens online apresentadas na Figura 2.3.
57

Abordagem Global
Na abordagem global de documentos online, diversas caractersticas podem ser
extradas de um documento manuscrito, entretanto duas delas so mais conhecidas: as
relativas aos documentos e as relacionadas aos pargrafos.

No primeiro caso, ou seja, as caractersticas relativas ao documento, o trabalho


de Karthik et al. (2008) apresenta uma abordagem para classificao de srie temporais
multivariadas com aplicao para o problema de identificao de autoria online. O
esquema de classificao resultante se aplica a muitas tarefas de discriminao de sries
temporais e mostra resultados interessantes para a tarefas de reconhecimento de escrita
manual online.
Hangai et al. (2000) propuseram uma abordagem online para identificao de
autoria usando a altura e distncia angular da caneta e tambm a presso da escrita em
tempo real. Os resultados experimentais com informaes de 24 escritores atingiram
taxas de autenticao de 98%.
Thumwarin e Matsuura (2004) apresentam um mtodo online para
reconhecimento de escrita tailandesa baseado na velocidade do baricentro da ponta da
caneta. Experimentos de reconhecimento de escrita foram executados em uma base de
dados composta de 6642 scripts escritos em tailands por 81 escritores. As taxas de
erros Tipo I (falsa rejeio) e Tipo II (falsa aceitao) foram 1.50% e 0.05%,
respectivamente.
No trabalho de Tsai (2005) apresentado um mtodo para identificao online
de escrita baseado no modelo de distribuio de pontos (PDM - Distribution Point
Model). Este modelo fornece uma forma de descrever as variaes das formas usando
uma abordagem paramtrica. Foram realizados experimentos com 20 pessoas e as
melhores taxas de identificao obtidas foram de 97,3%.
No segundo caso, as caractersticas extradas dos pargrafos, o trabalho de Jin
et al. (2005) apresenta uma combinao de caractersticas estticas e dinmicas para
identificao online de escrita. Experimentos foram conduzidos utilizando manuscritos
de 55 pessoas da base NLPR (National Laboratory of Pattern Recognition). Os
resultados mostraram que a combinao de mtodos pode melhorar as taxas de
identificao, bem como reduzir o nmero de caractersticas utilizadas. Neste trabalho,
taxas prximas a 55% foram obtidas.
58

Namboodiri e Gupta (2006) propuseram um mtodo para identificao de


autoria que usa um conjunto especfico de primitivas da escrita online que envolvem
informaes relativas ao formato das curvas do traado O mtodo permite que sejam
apreendidas as propriedades do texto e dos escritores simultaneamente, uma vez que o
mesmo pode ser usado com diferentes textos e em diferentes lnguas. Os resultados
obtidos chegaram a 87% com 10 diferentes escritores.

Abordagem Local
Na abordagem local de documentos online, diversas caractersticas podem ser
extradas de um documento manuscrito, entretanto a mais conhecida refere-se aos
caracteres.

No caso das caractersticas extradas dos caracteres, o trabalho de Tan et al.


(2009) apresenta um mtodo para identificao de escrita independente de texto,
integrado a um sistema industrial de reconhecimento de escrita que usado para
executar segmentao automtica de um documento manuscrito em nvel de caractere.
Uma abordagem baseada na lgica Fuzzy foi adotada para estimar distribuies
estatsticas de prottipos de caracteres em um alfabeto base. Estas distribuies
modelam a individualidade do estilo de escrita de cada escritor. Taxas de 99,2% foram
obtidas em bases de dados de 120 escritores, tendo como condio uma quantidade
mnima de texto necessria (aproximadamente 160 caracteres ou aproximadamente 3
linhas de texto).
Nogueras e Zanuy (2012) propuseram um sistema para reconhecimento
biomtrico que pode ser adequadamente aplicado a pequenas sentenas de texto
(palavras). Caractersticas relativas aos golpes de entrada (ataques) no traado so
consideradas como primitivas bsicas do processo de identificao, levando-se em conta
os movimentos dinmicos de baixar e levantar da caneta. Taxas de identificao de
92,38% foram obtidas e uma funo de custo de deteco mnima de 4,6 foi atingida
com 370 usurios e apenas uma palavra. Resultados de 96,46% foram obtidos quando
uma combinao de duas palavras foi utilizada.

2.3.4. Identificao de Autoria Offline


Abordagens para identificao de autoria offline utilizam manuscritos
digitalizados aps a escrita ter sido realizada, sendo obtidos arquivos que correspondem
59

a representaes de imagens bidimensionais. Segundo Said et al. (2000), apesar dos


contnuos esforos, a pesquisa na rea de sistemas para identificao de autoria offline
ainda uma questo desafiadora.
De acordo com He et al. (2008), sistemas offline dependem de arquiteturas mais
sofisticadas para executar a tarefa de identificao de autoria do que os sistemas online,
e mesmo assim seus resultados ainda esto abaixo dos obtidos com as abordagens
online.
Segundo Plamondon e Lorrete (1989), as abordagens para identificao de
autoria offline podem ser divididas em dois grupos: dependentes do texto e
independentes do texto. Identificao dependente do texto iguala um ou um pequeno
grupo de caracteres/palavras e conseqentemente requer que o escritor redija o mesmo
texto fixo no manuscrito. Ainda segundo o mesmo autor, as abordagens de identificao
independentes de texto, no fazem uso das caractersticas da escrita de alguns caracteres
ou palavras especficas, uma vez que levam em considerao aspectos relativos ao
layout do manuscrito, dentre outras caractersticas.
Deve-se ressaltar que neste trabalho apresenta-se uma abordagem para
identificao de autoria que dependente de texto, uma vez que tais estudos se
fundamentam nos aspectos grafomtricos da escrita, e para tanto, em geral, levam em
considerao aspectos especficos dos pargrafos, palavras e letras. Tambm
importante destacar que a base utilizada neste trabalho (base de cartas forenses PUCPR,
FREITAS et al. (2008)) composta por 03 manuscritos de cada escritor, redigidos
seguindo o padro da carta forense PUCPR ver Captulo 3. Nas prximas Sees so
apresentados alguns dos trabalhos desenvolvidos e em desenvolvimento em cada uma
das categorias das abordagens offline apresentadas na Figura 2.3.

Abordagem Global
Na abordagem global de documentos offline, diversas caractersticas podem ser
extradas de um documento manuscrito, entretanto trs delas so mais conhecidas: as
relativas aos documentos, as relacionadas aos pargrafos e as atreladas s linhas.
No primeiro caso, as caractersticas extradas do documento, o trabalho de Said
et al. (1998) prope uma abordagem independente de texto para identificao de escrita
que deriva de caractersticas relativas a textura usando filtros de Gabor e Matrizes de
co-ocorrncia de Escalas de Cinza. Resultados com taxas de 96% de acerto foram
60

obtidos utilizando 150 documentos teste de 10 diferentes escritores. Trabalhos


similares podem ser observados em (TAN, 1998; ZHU et al., 2001).
Said et al. (2000) apresentam uma abordagem global baseada na anlise de
textura, na qual cada manuscrito de um escritor considerado como uma diferente
textura. Isto permitiu aos autores aplicar algoritmos padres de reconhecimento de texto
para a tarefa de identificao (por exemplo, a tcnica de filtragem de multicanais de
Gabor). Resultados de 96% de taxas de acerto foram obtidos em documentos teste de 40
diferentes escritores.
Ainda utilizando caractersticas relativas textura, o trabalho de Helli e
Morghaddam (2010) apresenta um mtodo independente de texto para identificao de
autoria na escrita Persa. Este mtodo baseado em caractersticas que so extradas do
manuscrito utilizando filtros de Gabor e de XGabor. As caractersticas extradas de cada
escritor so inseridas em um grafo de caractersticas relacionadas. Este grafo
construdo usando relaes entre as caractersticas extradas por meio da aplicao do
mtodo Fuzzy. Os resultados experimentais apresentaram desempenho prximo a 100%
de acerto para uma base de dados de 100 escritores.
He et al. (2008) apresentam um mtodo para identificao de autoria em
manuscritos Chineses independente de texto, baseado no modelo de rvores Escondidas
de Markov (HMT - Hidden Markov Tree). De acordo com os autores do trabalho, os
resultados obtidos em seus experimentos apresentaram taxas de reconhecimento
melhores quando comparados com modelos que utilizam filtros de Gabor
multidimensionais e tambm reduziram significativamente o tempo de computao
necessrio para a realizao dos experimentos.
O trabalho de Bulacu et al. (2007) apresenta uma combinao de caractersticas
globais baseadas: na extrao de caractersticas relacionadas a textura de um
manuscrito; e em caractersticas alogrficas. Segundo estes autores por meio da juno
de tais caractersticas foi possvel obter taxas de acerto de 82% tanto para o processo de
identificao quanto para o processo de verificao de autoria.
Baranoski et al. (2005) propem um mtodo de extrao global de caractersticas
que utiliza a primitiva grafomtrica denominada de inclinao axial. Esta primitiva
representa o ngulo de inclinao da escrita em relao ao eixo vertical sendo o eixo
horizontal representado por uma linha de base imaginria. Com base em uma anlise de
todo o documento utilizada uma distribuio de tendncias angulares de inclinao, o
61

que faz com que a avaliao seja similar a utilizada pelo perito forense. Foram
realizados experimentos com 200 escritores distintos para a fase de treinamento e 115
escritores distintos para a fase de teste, obtendo resultados prximos a 95% de acerto
para verificao de autoria, as comparaes realizadas foram (1:1). Cabe destacar que a
inclinao axial uma das caractersticas grafomtricas utilizadas no mtodo proposto
neste trabalho.
Karunakara e Mallikarjunaswamy (2011) propuseram uma abordagem para
identificao de escrita, dependente de texto, na lngua inglesa usando o modo de
decomposio emprica (EMD - Empirical Mode Decomposition). Para estes autores,
cada manuscrito de um escritor considerado como uma diferente textura. Estas
texturas so consideradas como uma nica caracterstica para a identificao de escrita.
Os resultados obtidos atingiram taxas de acerto em torno de 94% com o classificador
KNN e utilizando caractersticas registradas de manuscritos de 50 diferentes escritores.
No segundo caso, as caractersticas extradas dos pargrafos, Siddiqi e Vincent
(2008) propem um mtodo que leva em considerao as formas frequentes do traado
tal como definido no trabalho de Bensefia et al. (2005). A abordagem de Bensefia et al.
(2005) utiliza a forma como as letras so desenhadas e segmentadas como se o objetivo
desta tarefa fosse ler o texto. No entanto, no trabalho de Siddiqi e Vincent (2008) o
reconhecimento do escritor independente do que est escrito e se refere forma com
que fisicamente as linhas ou loops so produzidos. No trabalho de Bensefia et al. (2005)
o documento manuscrito dividido em um grande nmero de sub-imagens, e imagens
morfologicamente similares so agrupadas em clusters. Com base em tais clusters, os
padres que ocorrem com frequncia para um escritor so ento extrados. Nesse
contexto, o escritor do documento questionado definido encontrando-se a classe de
estilo de escrita a qual seu documento pertence. Foram utilizados nos experimentos duas
bases de dados a IAM (Informatik und Angewandte Mathematik) (650 escritores) e a
RIMES (Reconnaissance et Indexation de donnes Manuscrites et de fac
similS/Recognition and Indexing of handwritten documents and faxes) (375 escritores)
e taxas de acerto em torno de 91% foram atingidas.
Schomaker et al. (2007) descrevem uma abordagem para identificao de autoria
usando contornos de fragmentos de componente conectados a partir de manuscritos
redigidos em estilo livre de escrita. O escritor caracterizado como um gerador
estocstico de padres, produzindo uma famlia de fragmentos de caracteres (chamados
62

de fraglets). Usando um codebook desses fraglets a partir de uma base de treinamento


independente, a distribuio de probabilidades dos fraglets computada para a base de
teste. Resultados revelaram uma alta sensibilidade do histograma dos fraglets para a
identificao de escritores individuais. Experimentos em grande escala utilizando redes
de Kohonen foram realizados, e os melhores resultados obtidos chegaram a atingir 97%
de acerto.
Kumar et al. (2011) apresentam um mtodo para extrair informaes
manuscritas de zonas de textos impressos de imagens a partir de documentos com
contedo misto. Nesse trabalho foram usadas caractersticas que codificam formas
locais de texto. Foram construdos dois codebooks das caractersticas de forma extradas
de um conjunto de manuscritos e dos textos de documentos impressos respectivamente.
Para o processo de classificao foi utilizado o classificador SVM (Support Vector
Machine) e taxas de reconhecimento de 98% foram obtidas, tendo sido utilizadas 732
imagens para a fase de treinamento e 625 imagens para a fase de teste.
No ltimo caso, as caractersticas extradas das linhas, Luna et al. (2011)
propem uma abordagem para resolver o problema de identificao de autoria de
manuscritos com uma modificao no algoritmo da famlia de classificadores
supervisionados ALVOT (Votacion Algorithm). A metodologia proposta nesse trabalho
apresenta e exemplifica a possibilidade de identificao de autoria por meio de uma
abordagem intermediria entre caractersticas de textura e estruturais. Caractersticas
tanto em nvel de linha quanto em nvel de palavra so extradas da imagem do
manuscrito. Em nvel de linha o espao percentual da margem esquerda e margem
direita, a separao entre linhas, a direo geral da escrita e o espao entre palavras so
considerados. Deve-se destacar que algumas destas caractersticas esto sendo utilizadas
neste trabalho de doutorado para compor o conjunto de primitivas grafomtricas.
No trabalho de Luna et al. (2011) um esquema no diferencial de pesos
tradicional atribui um valor de peso para cada uma das caractersticas extradas. Este
mecanismo fornece flexibilidade suficiente para precisamente discriminar padres
pertencendo a classes onde o mesmo subconjunto de caractersticas mais relevante,
mas com diferentes propores em cada caso. Foram realizados experimentos com 30
escritores atingindo resultados prximos a 92%.
O trabalho de Bensefia et al. (2005) prope-se a demonstrar que a tarefa de
identificao e verificao de autoria pode ser realizada usando caractersticas locais
63

como grafemas extrados a partir da segmentao de manuscritos. Um modelo de


recuperao baseado em texto usado para o estgio de identificao de autoria. Isto
permite o uso de um espao de caractersticas particulares baseado nas freqncias das
caractersticas. Documentos questionados so projetados neste espao de caractersticas.
Neste trabalho taxas de 95% de acerto foram obtidas na base PSI e 86% na base IAM.
De acordo com Bensefia et al. (2005) o problema de identificao de autoria pode ser
definido como um processo de encontrar contedos grficos (conjuntos de grafemas do
documento a ser identificado) em um grande conjunto de documentos (base de dados de
treinamento). Os documentos recuperados devem ser classificados de acordo com uma
similaridade com o documento questionado.
No trabalho de Schlapbach e Bunke (2004) um sistema independente de texto
para identificao de autoria usando Modelos Escondidos de Markov (HMM - Hidden
Markov Models) foi proposto. Para cada escritor conhecido foi construdo um
reconhecedor individual e treinado o mesmo com linhas de texto escritas por este
escritor (cada linha de texto apresentada ao sistema normalizada com relao
inclinao, altura e obliquidade e transformada em um vetor de primitivas). Uma linha
de texto de origem desconhecida apresentada para cada um destes reconhecedores
identificados. Como resultado o reconhecedor conhecido que tiver maior score
definido como sendo o escritor da linha de texto cujo escritor desconhecido. O sistema
foi testado como 2200 linhas texto de 50 escritores e teve um taxa de reconhecimento de
94.4%.
Hertel e Bunke (2003) apresentam um sistema para identificao de escrita com
caractersticas derivadas das linhas de um manuscrito (continuidade do traado, regies
fechadas, contornos superiores e inferiores). Estas caractersticas so subsequentemente
usadas no classificador KNN (K Nearest Neighborhood) que compara o vetor de
caractersticas extradas de um texto de entrada com um conjunto de vetores prottipos
que pertencem a escritores com identidade conhecida. Este mtodo foi testado com uma
base de dados com pginas de textos manuscritos produzidas por 50 escritores. Taxas de
reconhecimento prximas a 90% foram atingidas usando uma nica linha do texto como
entrada. A taxa de reconhecimento aumenta para quase 100% se a pgina toda do texto
fornecida como entrada para o sistema.
No trabalho de Chen et al. (2010) foi desenvolvido um mtodo para deteco e
remoo de linhas de referncia (pr-impressas em papis). Este mtodo foi testado para
64

identificao de escritor na lngua rabe por meio de experimentos usando SVM, e


tendo como caractersticas para identificao de escrita um conjunto de primitivas que
levam em considerao informaes relativas ao contorno de segmentos adjacentes. Os
resultados iniciais, com 60 diferentes escritores e taxas de acerto em torno de 54,9%
(com a remoo das linhas de referncia pr-impressas) mostraram que em situaes
realsticas, nas quais linhas de referncia so esperadas, remov-las melhora
significantemente as taxas de identificao.

Abordagem Local
Na abordagem local de documentos offline, diversas caractersticas podem ser
extradas de um documento manuscrito, entretanto duas delas so mais conhecidas: as
relativas a palavras e as relacionadas aos caracteres.
No caso das caractersticas extradas das palavras, no trabalho de Luna et al.
(2011), descrito na Seo anterior, um conjunto de caractersticas locais tambm
extrado das palavras, so elas: proporo da zona mdia das palavras comparada com
as zonas ascendentes e descendentes e inclinao das palavras. Tais caractersticas so
consideradas importantes do ponto de vista do perito grafoscpico e esto presentes na
base de caractersticas do mtodo proposto neste trabalho.
Zois e Anastassopoulos (2000) apresentam uma abordagem para o processo de
identificao de autoria na qual o vetor de caractersticas de um escritor derivado
utilizando operadores morfolgicos para obter o perfil horizontal das palavras (funes
de projees). As projees so derivadas e processadas em segmentos de forma a
aumentar a eficincia discriminatria do vetor de caractersticas. Para validar o mtodo
proposto no trabalho foram realizados experimentos tanto com classificador bayesiano
quanto com redes neurais. As taxas de acerto chegaram prximas a 95%, em
experimentos com 50 escritores usando palavras escritas em Ingls e em Grego.
Jain e Doermann (2011) propuseram um mtodo para identificao offline de
escritores usando a caracterstica K segmentos adjacentes (KAS K-Adjacent
Segments). Esta abordagem apresentou taxas de acerto de 93% na base de dados IAM
(Informatik und Angewandte Mathematik) (base de dados na lngua Inglesa). Resultados
obtidos de testes subsequentes demonstraram que as taxas de identificao melhoram
quando o nmero de amostras de treinamento aumenta, e adicionalmente que o uso das
caractersticas utilizadas pode ser estendido para a lngua rabe. K segmentos
65

adjacentes foi introduzido por Ferrari et al. (2008) como uma caracterstica que
representa o relacionamento entre conjuntos de bordas vizinhas em uma imagem por
meio de deteco de objetos.
Finalmente, no caso das caractersticas extradas dos caracteres, Blankers et al.
(2007) propem um mtodo para identificao de autoria por meio da extrao e anlise
de caractersticas alogrficas como loops e entrada (inicio) do traado dos caracteres.
Caractersticas sub-alogrficas so computados a partir de partes das letras. Tais
caractersticas so particularmente importantes para a identificao forense.
Caractersticas relativas aos loops so encontradas em loops ascendentes que aparecem
em letras como l, k e b, e descendentes que aparecem em letras como g e j.
Caractersticas de entrada do traado representam a primeira parte do caractere e so
encontradas em quase todas as letras do alfabeto, especialmente na escrita manual
cursiva. Foi usado neste trabalho o classificador KNN e obtida taxa de acerto prxima a
98% em uma base com 41 escritores.
Pervouchine e Leedham (2007) apresentaram um estudo sobre o uso de
caractersticas extradas de trs caracteres, so eles: d, y e f e o grafema th
como primitivas bsicas no processo de identificao de autoria. De acordo os autores
deste trabalho, a escolha por um conjunto previamente definido de caracteres e
grafemas se justifica pelo fato de que impossvel considerar todos os caracteres e
grafemas que ocorrem nos documentos manuscritos. Como classificador foram
utilizadas Redes Neurais e a tcnica de Algoritmo Gentico foi utilizado para encontrar
o conjunto de caractersticas timo (uma vez que um grande conjunto de primitivas foi
extrado). relevante destacar que nas concluses do trabalho os autores reforam a
importncia dos grafemas no processo de identificao de autoria, o que refora a ideia
de que o formato de um caractere afetado pelos caracteres adjacentes a ele. As
melhores taxas de classificao atingiram 58% em uma amostra com 165 escritores.
Bui et al. (2011) propem um framework para identificao de autoria baseada
em duas abordagens locais: caracteres e grafemas. Experimentos foram conduzidos
usando o algoritmo K-Means e taxas de acerto prximas a 100% foram atingidas em
uma base com 32 documentos escritos por 16 diferentes escritores.
66

2.3.5. Resumo das Abordagens para Identificao de Autoria offline


Com base no levantamento bibliogrfico apresentado ao longo da Seo 2.3.4, a
Tabela 2.3 apresenta um resumo do estado da arte considerando algumas das principais
e mais atuais abordagens para identificao de autoria offline. Este classificao levou
em considerao os seguintes aspectos: categoria (nvel de granularidade da
caracterstica), caractersticas extradas, nmero de escritores participantes dos
experimentos, algoritmo de classificao utilizado, melhores taxas de acerto e se o
trabalho utiliza caractersticas grafomtricas. Este ltimo aspecto foi avaliado uma vez
que o presente trabalho apresenta uma abordagem para identificao de autoria centrada
em caractersticas grafomtricas da escrita e, para tanto, importante destacar quais
pesquisas utilizam esta mesma abordagem.
67

Tabela 2.3. Resumo estado da arte das abordagens de identificao de autoria offline
Tamanho da Taxa de Caracterstica
Categoria Trabalho Caracterstica Extrada Classificador
Amostra Acerto Grafomtrica
Textura - Filtros de Gabor e WED (Weigthed
Said et al. (1998) 10 escritores 96% No
Matrizes de Co-ocorrncia Euclidean Distance)
Said et al. (2000) Textura - Filtros de Gabor 40 escritores WED 96% No
Bulacu et al. (2007) Textura 250 escritores KNN 82% No
Documento He et al. (2008) Textura 500 escritores HMT 32% No
Textura - Filtros de Gabor e
Helli e Morghaddam (2010) 100 escritores Mtodo Fuzzy 100% No
XGabor
Karunakara e
Textura 50 escritores KNN 94% No
Mallikarjunaswamy (2011)
Schomaker et al. (2007) Gerao de codebooks 250 escritores Redes de Kohonen 97% No
650 escritores -IAM 84% - IAM
Siddiqi e Vicent (2008) Gerao de codebooks 375 escritores WED 74% - No
RIMES RIMES
Pargrafo 732 imagens (fase
treinamento)
Kumar et al. (2011) Gerao de codebooks 625 imagens (fase de SVM 98% No
teste).

Continuidade do traado,
Hertel e Bunke (2003) regies fechadas, contornos 50 escritores KNN 90% Sim
superiores e inferiores.
Inclinao, altura e obliqidade
Schlapbach e Bunke (2004) 50 escritores HMM 94,4% Sim
das linhas de texto.
88 escritores - PSI VSM (Vector Space 96% - PSI
Bensefia et al. (2005) Grafemas No
Linha 150 escritores - IAM Model) 86% - IAM
Informaes relativas ao
contorno de segmentos
Chen et al. (2010) 60 escritores SVM 54,9% Sim
adjacentes e remoo de linhas
de referncia pr-impressas.
Espao percentual da margem
Luna et al. (2011) esquerda e margem direita, 30 escritores Algoritmo ALVOT 88% Sim
separao entre linhas, direo
68

geral da escrita, e espao entre


palavras.
Proporo da zona mdia das
palavras comparada com as
Luna et al. (2011) zonas ascendentes e 30 escritores Algoritmo ALVOT 88% Sim
descendentes e inclinao das
Palavras palavras.
Uso de operadores
Bayesiano e Redes
Zois e Anastassopoulos (2000) morfolgicos para obter o perfil 50 escritores 95% Sim
Neurais
horizontal das palavras.
Jain e Doermann (2011) K-segmentos adjacentes (KAS) 650 escritores KNN 93% No
Blankers et al. (2007) Caractersticas alogrficas 41 escritores KNN 98% No
Uso de caractersticas extradas
Algoritmo DistAl
Pervouchine e Leedham (2007) de trs caracteres, so eles: d, 165 escritores 58% Sim
Caracteres baseado no Perceptron
y e f e o grafema th.
Prottipos de caracteres e
Bui et al. (2011) 16 escritores K-Means 100% No
grafemas.
69

2.3.6. Sistemas para Identificao de Autoria


Para oferecer uma viso mais completa do que a pesquisa vem proporcionando
em situaes reais aos peritos, sero brevemente apresentados sistemas para o processo
de identificao de autoria em documentos manuscritos. So descritos quatro sistemas
de identificao de autoria: FISH (Forensic Information System for Handwriting);
WANDA (Forensic Information System Handwriting); CEDAR-FOX (Center of
Excellence for Document Analysis and Recognition) e o Write On.
FISH um Sistema de Informao para Anlise Forense de Documentos
Manuscritos (PHILLIP, 1996) baseado em misso crtica que permite que um perito
digitalize, mea e armazene documentos de autores questionados e conhecidos com o
propsito de identificar um escritor em uma base de escritores previamente
armazenados.
Como resultado para o usurio final, o sistema FISH apresenta medies de
caractersticas das letras, tais como altura, largura, laos/laadas (loops) e distncias.
Tambm, uma lista de provveis candidatos a autoria, bem como imagens digitalizadas
de seus documentos. Segundo Van Erp et al. (2003), o sistema FISH um sistema de
identificao e anlise de documentos manuscritos que capacita o usurio, um perito no
exame de documentos questionados, a medir caractersticas do documento manuscrito
por meio de um processo computacional e comparar estas caractersticas extradas com
a de outros documentos em um banco de dados.
O segundo sistema, conhecido como WANDA, na verdade uma evoluo do
sistema FISH, fazendo aluso ao filme Um peixe chamdo Wanda. Este sistema
permite a anlise de manuscritos e identificao de escritores e foi desenvolvido por
Lambert Schomaker e sua equipe do Departamento de Inteligncia Artificial da
University of Groningen-Netherlands. De acordo com Van Erp et al. (2003), o sistema
WANDA uma ferramenta desktop que oferece suporte para um processo completo de
extrao de caractersticas encontradas em documentos manuscritos. Esta ferramenta
possui uma srie de caractersticas, tais como: utilizao de tecnologias como plug-ins,
XML (Extensible Markup Language) e ambiente cliente-servidor, que fazem com que
este seja um sistema fcil de manter, portvel e altamente adaptvel.
Ainda de acordo com Van Erp et al. (2003), embora o FISH seja um sistema
excelente com relao aos resultados obtidos para identificao de autoria de
manuscritos, sua interface com o usurio possui algumas limitaes. Alm disso, uma
70

atualizao em termos de tecnologia tambm foi necessria, para melhorar sua


portabilidade e facilidade de manuteno.
De acordo com Franke et al. (2004), o sistema WANDA um framework que
oferece suporte para o processamento de amostras de documentos manuscritos no
contexto de exames forenses de manuscritos e identificao de autoria. Este framework
oferece suporte s seguintes funcionalidades: pr-processamento, anotao em
documentos manuscritos, medio de caractersticas selecionadas, extrao automtica
de primitivas e busca em um conjunto de dados.
Segundo Van Erp et al. (2003), a ferramenta WANDA possui um plug-in
chamado WAN que permite que um usurio realize interativamente a medio de
caractersticas selecionadas de documentos manuscritos. Este plug-in oferece suporte a
10 (dez) diferentes medidas. As medidas bsicas consistem de informaes extradas da
altura dos caracteres (ascendentes, descendentes, altura do corpo, e altura dos caracteres
ovais), a inclinao dos caracteres, e a largura dos caracteres. Se presente no documento
manuscrito, o WAN permite que o usurio extraia medidas de loops inferiores e
superior de caracteres. Como nica caracterstica no baseada em caracteres, o WAN
tambm permite a medio da distncia mdia entre as linhas base em uma amostra do
documento.
O terceiro sistema denominado CEDAR-FOX, segundo Srihari e Shi (2004),
um sistema completo para o gerenciamento de documentos manuscritos no contexto das
Cincias Forenses, desenvolvido com o objetivo de oferecer suporte para anlise,
identificao, verificao e recuperao de documentos manuscritos. Ainda de acordo
com estes autores, este sistema focado na verificao de autoria de manuscritos.
Como um sistema de gerenciamento de documentos para anlise forense, ele
fornece trs funcionalidades principais: pode ser utilizado como um sistema de anlise
de documentos; pode ser usado para a criao de uma biblioteca digital; e, pode ser
usado como um sistema de gerenciamento de uma base de dados para recuperao de
documentos e identificao de autoria.
Como um sistema de anlise de documentos, o CEDAR-FOX fornece uma
interface grfica ao usurio final. Este pode carregar ou digitalizar a imagens do
documento. O sistema ir ento automaticamente extrair caractersticas baseando-se em
um intensivo processo de processamento e reconhecimento de imagens (SRIHARI; SHI,
2004).
71

Esta ferramenta tambm oferece um suporte completo para o gerenciamento de


uma biblioteca de documentos manuscritos. Para a criao da biblioteca, o sistema tem
as seguintes funcionalidades: entrada de metadados do documento, por exemplo,
numero de identificao do escritor e outras informaes correlacionadas; criao de
uma transcrio textual do contedo da imagem em nvel de palavra; e extrao
automtica de caractersticas em nvel do documento tais como: largura do trao,
inclinao, espaamentos entre palavras; alm de caractersticas mais especificas/locais
que capturam caractersticas estruturais dos caracteres e palavras (SRIHARI; SHI,
2004).
De acordo com Srihari e Shi (2004), o CEDAR-FOX fornece suporte para
recuperao de documentos nas seguintes modalidades de consulta: a imagem completa
o elemento questionado; uma imagem parcial (uma regio de interesse do documento);
a imagem de uma palavra; e uma palavra-chave. O usurio pode digitar palavras-chave
em intervalos de palavras que vo desde palavras nos documentos, nmero do processo,
nomes de pessoas, tempo, e palavras-chave pr-registradas tais como breves descries
de um caso.
O ltimo sistema denominado Write On, segundo Pikaso Software Inc. (2000),
uma ferramenta de auxilio ao perito em exames forenses de documentos, pois oferece
suporte estatstico para a anlise forense de documentos. O software oferece um mtodo
eficiente e confivel para avaliar variao natural, encontrando todas as variaes
possveis entre documentos questionados e documentos modelo. Ainda segundo Pikaso
Software Inc. (2000), um ndice de palavras serve como um ponto de partida na deciso
sobre quais palavras ou combinaes de caracteres devem ser procurados e analisados.
Grficos de ocorrncia e mapas de pesquisa so gerados a partir destas buscas.
Os grficos de ocorrncia permitem uma fcil comparao passo a passo de
todas as variaes e os mapas destacam os locais de cada ocorrncia no documento em
anlise. Quando cada pesquisa finalizada uma tabela estatstica atualizada para
refletir o histrico de cada pesquisa realizada e as respectivas ocorrncias destas
pesquisas nos documentos questionados e nos documentos modelo.

2.3.7. Consideraes Finais sobre Autoria em Documentos Manuscritos


Na Seo 2.3 foram apresentados trabalhos relacionados a esta Tese de
Doutorado. Pode-se observar que muitos trabalhos que apresentam boas taxas de acerto
concentram-se em caractersticas texturais do documento manuscrito, bem como na
72

gerao de codebooks. Embora muito relevantes estes trabalhos no apresentam


processos de extrao de caractersticas alinhados com as abordagens adotadas pelos
peritos durante as anlises forenses de documentos questionados.
Outra questo que deve ser destacada que tais abordagens dependem de um
alto poder computacional, uma vez que as mesmas envolvem a aplicaes de filtros
sobre as imagens dos manuscritos.
No presente trabalho as caractersticas extradas dos manuscritos esto alinhadas
com aquelas utilizadas pelos peritos, ou seja, envolvem aspectos grafomtricos.
Normalmente, trabalhos nesta linha apresentam taxas de acerto menores (como pode ser
observado na Tabela 2.3), embora, como pode tambm ser observado no Captulo 3
deste trabalho, foram atingidas taxas de acerto comparveis quelas obtidas por outros
trabalhos apresentados na literatura.

2.4. Problema e Soluo Proposta


Tendo como base a reviso apresentada ao longo deste captulo e os desafios
destacados no Captulo 1 - Introduo, este trabalho de Doutorado prope um mtodo,
baseado em caractersticas grafomtricas e suportado computacionalmente, para o
problema de identificao de autoria offline.
As caractersticas utilizadas no mtodo proposto, apresentadas em destaque na
Figura 2.4 e contextualizadas na classificao proposta por Seeraj e Idicula (2011),
exigem uma manipulao direta, ou seja, pixel a pixel, da imagem do documento. Isto
traz um alto nvel de complexidade para o processo de extrao, bem como distores
nos resultados. Para corrigir tais problemas, medidas corretivas, anlises individuais das
caractersticas, bem como, abordagens de seleo de primitivas foram realizadas de
forma a obter a combinao de caractersticas que levasse s melhores taxas de acerto.
O conjunto de caractersticas definido neste trabalho composto por doze
caractersticas, no entanto, pode-se observar que quatro grandes grupos de
caractersticas grafomtricas esto sendo utilizados, so eles:

Hbitos do uso do espao grfico: estas caractersticas so muito utilizadas


pelos peritos, uma vez que alguns escritores podem fazer um bom uso da folha
de papel, escrevendo at seus limites fsicos, enquanto que outros podem deixar
espaos em branco, usualmente regulares em todas as linhas ou margens.
73

Diferentes escritores iniciam e terminam suas escritas em diferentes posies.


Assim, localizaes tais como identao de sentenas, espaamentos das
margens, uso de espaos, pontos iniciais e finais so exemplos de uso do
espao grfico. Este grupo formado pelas seguintes caractersticas: nmero de
linhas e distncia das margens (superior, inferior, direita e esquerda);
Tamanho das palavras: outra importante caracterstica utilizada pelos peritos
a definio do tamanho padro das palavras. Dessa forma, a primeira palavra de
cada linha foi destacada e sua altura e proporo de pixels pretos, em relao
ao fundo, foram calculadas. Este grupo formado pelas seguintes caractersticas:
quantidade de pixels pretos da primeira palavra de cada linha e altura da
primeira palavra de cada linha;
Inclinao axial: esta caracterstica grafomtrica, tambm essencialmente
utilizadas pelos peritos durantes suas anlises, representa o ngulo geral de
escrita e tem um importante poder discriminatrio no processo de identificao
de autoria (como pode ser observado nos resultados apresentados no Captulo 3).
Este grupo formado pelo ngulo que a escrita apresenta em relao a uma linha
horizontal de base (no caso das cartas forenses, esta linha imaginria, visto que
os escritores utilizam folhas no pautadas);
Hbitos de traado de laos ascendentes e descendentes: estas caractersticas,
tambm observadas pelos peritos em suas anlises, so extradas das palavras e
caracteres. Representam informaes relativas ao tamanho e posio dos laos
ascendentes e descendentes de caracteres tais como: l, t, p, g, h e f.
Este grupo formado pelas seguintes caractersticas: altura, largura, nmero de
pixels e inclinao axial dos laos.
74

Documento
- Numero de linhas;
- Distncia das margens (inferior,
Global superior, esquerda, direita);
- Inclinao axial.
Offline
Pargrafos

Linhas
- Distncia da margem direita

Local Palavras
- Quantidade de pixels da primeira
palavra;
Identificao de Autoria - Altura da primeira palavra.

Caracteres
-Laos ascendentes e
descendentes: altura, largura,
quantidade de pixels e ngulo
inclinao.

Documento
Global

Online Pargrafos

Local Caracteres

Figura 2.5. Esquema de abordagem para identificao de autoria adotado no mtodo


proposto

2.5. Consideraes Finais


Este captulo apresentou uma reviso bibliogrfica com foco em dois assuntos
principais, a escrita humana e os mtodos automatizados para identificao de autoria.
Com relao escrita humana, foram estudados os aspectos que afetam a escrita de uma
pessoa e que devem ser considerados por um perito durante o processo de identificao
de autoria. Estes aspectos foram fundamentais para a definio e implementao do
conjunto de caractersticas utilizado no mtodo proposto. Com relao aos mtodos
automatizados para identificao da escrita, o estudo de tais mtodos foi fundamental
para se observar o que j foi produzido nesta rea, bem como, os avanos que ainda
podem ser obtidos. Finalmente, na ltima Seo, com base no cenrio apresentado ao
75

longo deste Captulo, foi introduzido o problema a ser resolvido nesta Tese bem como
sua proposta de soluo.
O prximo Captulo apresenta detalhadamente o mtodo proposto para o
desenvolvimento da soluo pretendida, incluindo descrio completa de todas as etapas
do mtodo proposto, bem como, do protocolo de experimentos e os resultados obtidos.
76

Captulo 3

Mtodo Proposto

3.1. Consideraes Iniciais


Neste captulo so apresentados os elementos necessrios para o
desenvolvimento deste trabalho. Neste contexto, na Seo 3.2 so descritas e discutidas
a base de cartas forenses, uma vez que para a validao do mtodo adotado neste
trabalho so necessrias amostras de manuscritos definidas em um formato padro. Na
Seo 3.3 apresentado detalhadamente o mtodo proposto, destacando e descrevendo
cada uma das etapas que o compem. A Seo 3.4 aborda o protocolo adotado para a
conduo dos experimentos de validao do mtodo proposto e os resultados obtidos
com a realizao destes experimentos.

3.2. Bases de Dados


Para a validao de qualquer abordagem que se proponha a auxiliar o processo
de anlise de documentos manuscritos, necessrio uma base com amostras de
manuscritos. Com o objetivo de garantir que as amostras de manuscritos obtidas de um
escritor possuam todas as letras do alfabeto (tanto com letras maisculas, quanto com
letras minsculas) bem como os numerais, acentos, smbolos especiais e smbolos de
pontuao, formatos padro de cartas forenses foram propostos na literatura (FREITAS
et al., 2008) (MORRIS, 2000).
Dessa forma, nesta Seo apresentada uma discusso sobre as principais bases
de cartas forenses internacionais e sobre a base de cartas forenses PUCPR, utilizada nos
experimentos realizados neste trabalho. Tambm apresentada uma discusso sobre as
diferenas entre bases de cartas que se baseiam em princpios forenses e aquelas que
no se baseiam em princpios forenses.
77

3.2.1 Bases de Cartas Forenses Internacionais

Baseadas em Princpios Forenses

De acordo com Osborne (1929), o principal objetivo de uma carta forense


reproduzir a associao entre diferentes, letras, palavras, numerais e smbolos; sendo
que as letras devem ser adaptadas linguagem local. Nesse contexto, as Figuras 3.1 a
3.4 mostram alguns formatos de cartas forenses dedicados a colher o estilo de escrita
manual, a individualidade e caractersticas estticas e dinmicas da escrita de um
escritor. As Figuras 3.1 a 3.4 exemplificam os textos das cartas forenses de Londres, do
Egito, de Idaho e do CEDAR.
Dear Sam:
Our London business is good, but Vienna From Egypt we went to Italy, and then took a
and Berlin are quiet Mr. D. Lloyd has gone trip to Germany, Holland and England. We
to Switzerland and I hope for good news. enjoyed it all but Rome and London most. In
He will be there for a week at 1496 Berlin we met Mr. John O. Young of Messrs.
Zermott Street and then goes to Turin and Tackico & Co., on his way to Vienna. His
Rome and will join Colonel Parry and address there is 147 upper Zeiss Street, care
arrive at Athens, Greece, November 27th of Dr. Quincy W. Long. Friday the 18th, we
or December 2nd. Letters there should be join C. N. Dazet, Esquire and Mrs. Dazet,
addressed King James Blvd. 3580. We and leave at 6:30 A.M. for Paris on the 'Q.
expect Charles E. Fuller Tuesday. Dr. L. X.' Express and early on the morning on the
McQuaid and Robert Unger, Esq., left on 25th of June start for home on the S. S. King.
the 'Y. X.' Express tonight.
Very sincerely yours,
Figura 3.1. Carta Forense de Londres Figura 3.2. Carta Forense do Egito
[Fonte: (OSBORNE,1929)] [Fonte: (OSBORNE,1929)]
From Nov 10, 1999
Dear Zach, Jim Elder
Well, the old class of "16" is through at last. 829 Loop Street, Apt 300
You ask where the boys are to be. Val Brown Allentown, New York 14707
goes on the 24th to Harvard for law. Don't To
forget to address him as "Esquire." Ted Dr. Bob Grant
Updyke takes a position with the N. Y. W. H. 602 Queensberry Parkway
78

& H. R. R., 892 Ladd Ave., Fall River, Omar, West Virginia 25638
Massachusetts, and Jack McQuade with the D. We were referred to you by Xena Cohen at the
L. & W. at Jersey City, N. J. 400 E. 6th Street University Medical Center. This is regarding my
William Fellows just left for a department friend, Kate Zack.
position in Washington; his address is 735 It all started around six months ago while
South G. St. At last account, Dr. Max King attending the Rubeq Jazz Concert. Organizing
was to go to John Hopkins for a Ph.D. degree. such an event is no picnic, and as President of
Think of that! Elliott goes to Xenia, Ohio, to the Alumni Association, a co-sponsor of the
be a Y. M. C. A. secretary. I stay here for the event, Kate was overworked. But she enjoyed
present. What do you do next? How about her job, and did what was required of her with
Idaho? great zeal and enthusiasm.
Yours truly, and goodbye. However, the extra hours affected her health;
halfway through the show she passed out. We
rushed her to the hospital, and several questions,
x-rays and blood tests later, were told it was just
exhaustion.
Kates been in very bad health since. Could you
kindly take a look at the results and give us your
opinion?
Thank you!
Jim
Figura 3.3. Carta Forense de Idaho Figura 3.4. Carta Forense de CEDAR
[Fonte: (OSBORNE,1929)] [Fonte: (OSBORNE,1929)]

Segundo Morris (2000) existem diferentes formatos de cartas, e nenhum


melhor ou pior do que outro. Cada qual possui seu propsito especfico e geralmente
projetado por um perito em anlise de documentos manuscritos que acredita que tal
formato lhe fornecer as caractersticas de escrita do escritor que so mais teis para
conduzir suas anlises.

No Baseadas em Princpios Forenses

Diferentes bases de manuscritos vm sendo apresentadas na literatura, tais como:


IAM e RIMES com o objetivo de oferecer suporte para o processo de anlise e
reconhecimento de manuscritos. Estas bases foram desenvolvidas por pesquisadores,
visando treinar e testar sistemas de reconhecimento de escrita manuscrita.
79

A base IAM (ZIMMERMANN; BUNKE, 2002) composta de formulrios com


textos manuscritos de contedos variados escritos na lngua inglesa. Um total de 650
diferentes escritores contribuiu para a construo desta base de dados, na qual 350
escritores escreveram em apenas uma pgina, 300 escritores escreveram em pelo menos
duas pginas e 125 escritores escreveram em pelo menos quatro pginas.
A outra base de manuscritos, a base RIMES (GROSICKI et al., 2008) uma
base de dados que compreende cartas manuscritas na lngua francesa compostas por
textos enviados por indivduos a empresas. Mais do que 1300 escritores contriburam
para a composio desta base de dados escrevendo at cinco cartas (totalizando 5600
cartas).
Estas bases so consolidadas e muito utilizadas em pesquisas na rea de
identificao de autoria, no entanto os textos definidos para a construo das mesmas
no tiveram por fundamento os princpios forenses, ou seja, no levaram em
considerao aspectos que so utilizados pelos peritos durante a realizao de suas
anlises periciais.
Alm disso, estas bases no utilizam um formato padro nico de texto, uma vez
que as cartas presentes nestas bases possuem contedos variados. No contexto deste
trabalho, em funo do conjunto de caractersticas ter por base aspectos grafomtricos,
fundamental uma base, tal como a base forense no modelo PUCPR (descrita na Seo
3.2.2), que tenha sido construda levando em considerao os princpios utilizados pelos
peritos em grafoscopia.

3.2.2. Base de Cartas Forenses Modelo PUCPR


Segundo Freitas et al. (2008), a maioria dos trabalhos relacionados a modelos de
documentos manuscritos encontrados na literatura so dedicados a lngua inglesa e,
dessa forma, eles no contemplam certas particularidades da lngua portuguesa. Nesse
contexto, no trabalho de Freitas et al. (2008), apresentada a Base de Cartas Forenses
Brasileira, ou Cartas Forenses PUCPR, que foi criada com o objetivo de suportar vrias
particularidades da lngua portuguesa, tais como acentos (, , , , ) e o smbolo
especial (). Alm da definio do modelo de carta (Figura 3.5), esforos foram
conduzidos com o intuito de expandir a base de cartas modelo PUCPR.
A base de cartas forenses PUCPR possui atualmente 600 escritores, com 03
cartas por escritor, escritas em folha A4 no pautada. As cartas colhidas e ento
80

digitalizadas em 300 dpi, com 256 escalas de cinzas. Uma verso binria da base de
dados se encontra disponvel, como apresentada no exemplo da Figura 3.6.

Figura 3.5. Carta Forense PUCPR


[Fonte: (FREITAS et al. ,2008)]

De acordo com Freitas et al. (2008), a carta forense PUCPR concisa (131
palavras) e completa no sentido que contm todos os caracteres (letras e numerais) e
certas combinaes de caracteres interessantes. A Tabela 3.1 apresenta o nmero de
ocorrncias em cada posio de interesse no texto.

Tabela 3.1. Frequncia posicional de ocorrncias das letras. Fonte:

[(FREITAS et al., 2008)]


Maiscula Inicio Minscula Inicio Meio Fim
A 3 a 12 55 20
B 1 b 1 4 1
5
C 4 c 5 17 ---
D 2 d 18 15 ---
E 2 e 7 41 21

5
Denota que esta letra no pode ser encontrada em uma posio especfica na lngua Portuguesa
Brasileira.
81

F 2 f 2 1 ---
6
G 2 g 0 4 ---
H 1 h 0 4 ---
I 1 i 1 48 2
J 1 j 0 1 ---
K 1 k --- --- ---
L 2 l 2 19 3
M 1 m 3 6 4
N 2 n 3 39 3
O 1 o 1 44 26
P 2 p 8 11 1
Q 1 q 1 2 1
R 2 r 1 38 5
S 6 s 3 20 20
T 2 t 1 24 2
U 1 u 3 18 2
V 4 v 1 7 ---
W 1 w --- --- ---
X 1 x 0 4 0
Y 1 y --- --- ---
Z 2 Z 0 0 2

Alm disso, a carta PUCPR tambm contm pontuaes (., ,), dez classes de
nmeros, o smbolo especial (), e diferentes combinaes tais como nh, lh, qu, e
00.
Segundo Koppenhaver (2007), estas combinaes so elementos gramaticais
muito importantes que permitem estudos sobre a individualidade da escrita, uma vez
que poucos falsrios se preocupam em simular cuidadosamente as letras minsculas.
Normalmente, os falsrios gastam muita energia duplicando letras maisculas
acreditando que se eles reproduzem estas letras corretamente, as suas falsificaes sero
consideradas como genunas.

6
Denota que esta letra pode ser encontrada em uma especfica posio na lngua Portuguesa Brasileira,
mas no existem palavras na carta forense PUCPR que incluem esta letra em alguma posio especfica.
82

Figura 3.6. Carta PUCPR CF00001_01

3.2.3. Consideraes Finais sobre Bases de Dados


A Seo 3.2 apresentou e caracterizou diferentes bases de dados de manuscritos
que vem sendo utilizadas nos trabalhos que envolvem identificao e verificao de
autoria. A definio e construo destas bases so de grande importncia para trabalhos
dessa natureza, assim como para esta pesquisa, uma vez que a comprovao da
eficincia de um mtodo de identificao/verificao depende da realizao de
experimentos com um grande nmero de documentos j digitalizados e em um formato
padro, ou seja, de documentos pertencentes a uma base formal de dados.
No contexto deste trabalho de Doutorado foi importante distinguir entre bases
que se baseiam em princpios forenses daquelas que no utilizam tais princpios para
sua concepo, pois o mtodo proposto se baseia em caractersticas grafomtricas, ou
seja, necessita de uma base que levou em conta, durante sua definio, aspectos que so
utilizados pelos peritos durante suas anlises periciais. Dessa forma, a base PUCPR
utilizada como fonte de documentos manuscritos nesta pesquisa.
Na prxima Seo apresentado o mtodo proposto para o processo de
identificao de autoria adotado neste trabalho. Deve-se ressaltar que este mtodo foi
validado por meio de experimentos que utilizaram manuscritos da base PUCPR.
83

3.3. Mtodo de Identificao de Autoria utilizando Caractersticas


Grafomtricas

O mtodo proposto neste trabalho uma abordagem para identificao de


autoria baseada em princpios grafomtricos. Para tanto, foi definido, com base em
trabalhos descritos na literatura, um mtodo para automatizao de tal processo.
Este mtodo, como apresentado previamente na Figura 2.4, consiste em uma
abordagem offline que envolve a extrao de caractersticas Globais (em nvel de
documento e linha) e Locais (em nvel de palavra e caractere). Dessa forma, nas
prximas Sees apresentada uma viso geral do mtodo proposto, bem como, uma
descrio detalhada sobre cada uma das etapas que o constituem.

3.3.1. Viso Geral


A Figura 3.7 apresenta uma viso geral do mtodo proposto neste trabalho.
Pode-observar que o mtodo proposto segue o processo padro adotado por abordagens
de aprendizagem de mquina para aplicaes que envolvam o reconhecimento de
padres. Neste trabalho o foco da aprendizagem de mquina a classificao de
objetos (cartas) dentro de um nmero de categorias ou classes.
As cartas (tanto quelas dos escritores conhecidos, quanto quela de autoria
questionada) so submetidas aos processos de pr-processamento e extrao de
caractersticas, para que seus modelos possam ser criados e subsequentemente a autoria
atribuda. Ao final da etapa de classificao um ranking com os provveis autores do
documento questionado construdo. O nmero de escritores includos neste ranking
depende do nmero de escritores utilizados na base de treinamento. Nos experimentos
(descritos em detalhes na Seo 3.4), foram utilizados, incrementados gradualmente (em
intervalos de 20), 200 diferentes escritores para o treinamento (com 400 diferentes
cartas 2 por escritor) e 200 diferentes escritores para o teste (com 200 diferentes cartas
1 por escritor). Assim, para cada documento questionado, pode-se produzir uma lista
com o autor mais provvel (lista com o escritor com a melhor posio no ranking).
Quando o escritor correto, ou seja, o autor do documento questionado se encontra nesta
lista a taxa de acerto acrescida.
84

Figura 3.7. Viso geral do mtodo proposto

3.3.2. Pr-processamento
A atividade de pr-processamento consiste em operaes a serem realizadas na
imagem a fim de possibilitar a extrao das mtricas para obteno dos resultados
finais. Esta atividade dividida nas etapas descritas a seguir.

I. Binarizao

O processo de binarizao consiste em transformar as imagens que se encontram


em tons de cinza (256 nveis de cinza) para uma imagem binria (preto e branco). Este
processo alm de reduzir o tamanho do arquivo, facilita o processamento computacional
da imagem. Esta binarizao foi realizada de duas diferentes formas:

para a extrao das caractersticas f1 a f7 (descritas na prxima Seo) foi


utilizado o algoritmo de binarizao global OTSU (OTSU, 1979);
85

em funo da caracterstica f8 (descrita na prxima Seo) necessitar da


conservao de detalhes importantes no traado original da imagem, utilizou-se
para a extrao desta caracterstica o algoritmo de binarizao local por Entropia
de Abutaleb (ABUTALEB, 1989), pois esta tcnica aplica limiares de acordo
com a rea da imagem.
A Figura 3.9 apresenta o resultado da etapa de binarizao da carta modelo
apresentada na Figura 3.8.

Figura 3.8. Exemplo de carta PUCPR Figura 3.9. Exemplo de carta PUCPR
original binarizada
II. Segmentao

A segmentao a etapa que tem como principal objetivo obter do documento em


anlise todas as informaes necessrias para posteriormente proceder o clculo das mtricas.
Dessa forma, so atividades de segmentao: (a) segmentao das linhas; (b) segmentao das
palavras de cada linha; (c) diviso do documento em 24 fragmentos; (d) extrao de contornos e
bordas e (e) encontrar regies nas palavras.

a) Segmentao de linhas

Esta etapa consiste em encontrar e segmentar as linhas do documento em


anlise, visto que as linhas devem ser separadas, pois so analisadas individualmente
pelo mtodo proposto. A tcnica utilizada para esta tarefa a de projeo horizontal de
86

pixels, ou seja, os espaamentos verticais maiores ou iguais a mdia de todos os


espaamentos so considerados como um intervalo entrelinhas. Porm, sabe-se que
existem problemas com escritores que possuem os comportamentos denominados rising
(escrever para cima) ou falling (escrever para baixo), tal qual descrito por Freitas et
al. (2008). A Figura 3.10 demonstra o resultado desta etapa.

Figura 3.10. Exemplo de carta PUCPR aps o processo de separao de linhas

b) Segmentao das palavras de cada linha

Esta tarefa consiste em segmentar as palavras de cada linha para posteriormente


process-la. A tcnica utilizada tem por base a determinao do histograma da projeo
vertical de pixels de cada uma das linhas encontradas pela etapa anterior. A
determinao do histograma de projeo vertical dos textos auxilia no processo de
localizao das diversas palavras que compem o mesmo. Paralelamente,
determinao deste histograma so definidos dois tipos de espaamentos: o entre
palavras e o intra-palavras (FREITAS, 2001).
87

De acordo com Freitas (2001), o espaamento entre palavras por definio o


espao utilizado pelo escritor para separar duas palavras. E, o espaamento intra-
palavras entendido como o espao existente dentro de uma mesma palavra, entre dois
caracteres disjuntos. O algoritmo de segmentao das palavras tem por base o clculo
mdio de todos os espaamentos horizontais existentes em uma linha do texto, obtidos
pela anlise do histograma de projeo vertical da imagem do documento. A Figura
3.11 demonstra o resultado desta etapa de pr-processamento.

Figura 3.11. Exemplo de carta PUCPR aps o processo de separao das palavras

c) Diviso do documento em 24 fragmentos


Este processo consiste em dividir a imagem em 24 fragmentos regulares, ou seja,
o algoritmo divide a imagem de entrada, particionando a amostra do manuscrito em 4
fragmentos horizontais e em 6 fragmentos verticais, tal qual proposto Baranoski (2005).

A escolha desta abordagem de segmentao justifica-se pelo fato de se


disponibilizar um maior nmero de amostras do mesmo escritor, permitindo uma maior
confiabilidade no processamento das caractersticas f8, f9, f10, f11 e f12 de cada escritor
88

(uma vez que para o clculo destas caractersticas 5 (cinco) diferentes fragmentos do
mesmo escritor so usados). O resultado obtido com a diviso do documento
apresentado na Figura 3.12.

Figura 3.12. Exemplo de carta PUCPR aps o processo de diviso em 24 fragmentos

d) Extrao de Contornos e Bordas

Esta tarefa de pr-processamento foi realizada para a extrao da caracterstica f8


e a abordagem adotada teve como base o trabalho de Baranoski (2005). Para tanto, foi
utilizada Morfologia Matemtica na deteco de bordas, aplicando-se os procedimentos
de dilatao e eroso para delimitar os contornos dos traos (STENBERG, 1986).
O filtro morfolgico de dilatao modifica a imagem de um manuscrito por meio
de um elemento estruturante em cruz, deixando o traado do autor mais espesso. De
acordo com Facon (1996), o principal o objetivo da dilatao aumentar o nmero de
pixels nas bordas da imagem. Enquanto que o filtro morfolgico da eroso realiza o
processo inverso, deixando o traado do escritor mais fino (por meio da reduo do
nmero de pixels nas bordas da imagem).
89

Neste contexto, aps a aplicao dos processos de eroso e dilatao sobre a


imagem da carta, as duas imagens resultantes (uma erodida e outra dilatada) so
sobrepostas e feita a subtrao dos pixels, compatveis nas duas imagens resultando na
imagem de borda. Na Figura abaixo apresentado um exemplo de carta PUCPR com os
contornos e bordas extrados.

Figura 3.13. Exemplo de carta PUCPR aps o processo de extrao de contornos e


bordas

e) Encontrar Regies nas Palavras: Corpo da Palavra, Ascendente e Descendente.

A tcnica empregada consistiu no histograma de transies branco/preto horizontal


normalizado. As regies so definidas por:
Regio ascendente: compreendida entre o limite superior mximo (LSM) da
imagem e o limite superior do corpo da palavra (LS);
90

Regio corpo da palavra: compreendida entre o limite superior (LS) e


inferior (LI) do corpo da palavra;
Regio descendente: compreendida entre o limite inferior do corpo da
palavra (LI) e o limite inferior mnimo da palavra (LIM).

LSM
LS

LM
LI
LIM

Figura 3.14. Regies em uma palavra

Em seguida, foi necessrio encontrar os laos fechados nas regies ascendentes e


descendentes (ver Figura 3.15). A tcnica empregada para tanto foi baseada no
algoritmo de determinao dos segmentos mais significativos em assinaturas, definido
por Justino (2001).

LSM
LS

LM
LI
LIM
Figura 3.15. Lao na regio ascendente

3.3.3. Extrao de Caractersticas


Esta etapa refere-se extrao das caractersticas especficas, que se deseja
avaliar da escrita do escritor. Com base nas caractersticas extradas pode-se proceder a
realizao de clculos/anlises o que possibilita a identificao de autoria em um
documento manuscrito.
O Quadro 3.1 apresenta as caractersticas grafomtricas que compem a base
completa utilizada neste trabalho, bem como uma descrio do processo de extrao das
mesmas. Deve-se ressaltar que cada caracterstica pode ser composta por uma nica
91

informao (primitiva) ou por um conjunto de informaes (primitivas) extrada(s) do


documento manuscrito j pr-processado. Tambm foi includa no Quadro 3.1 a posio
em que as primitivas que compem cada uma das caractersticas ocupam no vetor de
primitivas que submetido ao algoritmo de classificao utilizado.
De forma a garantir a consistncia estatstica e matemtica dos resultados
obtidos com o uso das caractersticas, as mesmas passaram por um processo de
normalizao, de forma que seus valores esto em uma escala entre 0 e 1.
O conjunto de caractersticas utilizado no mtodo proposto conta atualmente
com 85 (oitenta e cinco) primitivas agrupadas em 12 (doze) grupos de caractersticas
(f1-f12). No entanto, pode-se observar, como destacado na Seo 2.4, que 04 (quatro)
grandes grupos de caractersticas grafomtricas esto sendo utilizadas, so elas: hbitos
do usado espao grfico (f1, f3, f4, f5 e f6), tamanho das palavras (f2 e f7), inclinao axial
(f8) e hbitos de traado dos laos ascendentes e descendentes (f9 - f12).

Quadro 3.1. Caractersticas grafomtricas do mtodo proposto


Posio no vetor
Caracterstica Descrio
de primitivas

f1 1 Nmero total de linhas da carta:

Levando-se em considerao que as cartas foram


coletadas em papel A4, estabeleceu-se como
padro para a normalizao que o nmero mximo
de linhas da carta 29, uma vez que ao se dividir
a folha A4 em um tamanho padro de linha (1 cm)
o nmero total corresponde a 29 linhas. Tambm
foram observadas visualmente cartas de 100
diferentes escritores, e em nenhuma dos casos o
montante de linhas passou de 29. Dessa forma,
esta caracterstica foi computada da seguinte
forma:

(3.1)
92

f2 2 a 21 Proporo de pixels pretos:

Para as 20 primeiras linhas da carta, com base na


segmentao da primeira palavra de cada linha,
calculado o nmero de pixels pretos destas palavras. A
1 palavra das 20 primeiras linhas foi inserida em uma
bounding box e a altura e largura desta caixa foi
computada. Dessa forma, depois de contados o nmero
de pixels pretos dentro da caixa, os mesmos devem ser
divididos pelo produto da altura e largura desta caixa.

Por exemplo, dada a palavra apresentada abaixo:

Levando-se em considerao as medidas acima


apresentadas, o calculo da proporo de pixels pretos
normalizado seria da seguinte forma:

(3.2)

f3 22 a 41 Posio da margem direita:

Para as 20 primeiras linhas da carta, a distncia da


margem direita computada. Esta distncia definida
usando-se uma linha de referncia (linha imaginria
que cruza a linha de texto ao meio de sua altura esta
linha pode ser melhor visualizada na Figura 3.16) e
verificando o ltimo pixel preto desta linha.

Para a normalizao desta caracterstica, foi realizado


o seguinte clculo:

(3.3)
93

f4 42 Posio da margem esquerda:

Esta distncia definida usando a linha de referncia


(j descrita anteriormente) de cada uma das linhas de
texto da carta e identificando-se o menor valor de
posio inicial.

Para a normalizao desta caracterstica, foi realizado


o seguinte clculo:

(3.4)

f5 43 Posio da margem superior:

Esta distncia definida pelo primeiro pixel preto da


primeira palavra da carta (ou seja, da palavra
segmentada da 1 linha).

Para a normalizao desta caracterstica, foi realizado


o seguinte clculo:

(3.5)

f6 44 Posio da margem inferior:

Esta distncia definida usando-se a linha de


referncia da ltima linha de texto da carta e
identificando a posio final desta linha de referncia.

Para a normalizao desta caracterstica foi realizado o


seguinte clculo:

(3.6)
94

f7 45 a 64 Altura da primeira palavra:


Para as 20 primeiras linhas da carta calculada a altura
da primeira palavra segmentada e teve seus valores
limites extrados na etapa de pr-processamento. Para a
normalizao desta caracterstica foi realizada uma
anlise de 300 cartas de 100 diferentes escritores para
a determinao da altura mxima a ser usada. Obteve-
se o valor de hmax = 420 pixels (empiricamente
definida). Dessa forma, tem-se a normalizao desta
caracterstica:

(3.7)

Inclinao axial:
f8 65 a 81
Esta caracterstica foi extrada com base na abordagem
apresentada e validada no trabalho de Baranoski
(2005), a saber:
Cinco fragmentos so randomicamente
selecionados da imagem segmentada, e j com os
contornos de borda extrados;
Em seguida, verificam-se os fragmentos de borda
em todas as direes, partindo do pixel central e
conferindo os pixels posteriores com um operador
lgico AND, finalizando nas extremidades do
elemento estruturante (que possui tamanho 5)
apenas se houver a presena de um fragmento de
borda inteiro. Ou seja, se todos os pixels vizinhos
forem pretos, considera-se o fragmento de borda e
computa-se a posio do fragmento em um vetor
de posies para a construo do histograma;
O vetor de posies normalizado pela
distribuio de probabilidade p() que d a
probabilidade de encontrar na imagem um
fragmento de borda orientado em um ngulo em
relao ao eixo horizontal, gerando um vetor de
caractersticas de 17 posies.
95

f9 82 Altura mdia dos laos ascendentes e descendentes:

Para computar esta caracterstica foram realizados os


seguintes procedimentos:

A altura mdia de todos os laos ascendentes e


descendentes de toda a carta computada
HMgeral;

O desvio padro mdio da altura de todos os laos


ascendentes e descendentes de toda a carta
computado DPHgeral;

Cinco fragmentos so randomicamente


selecionados da carta, e para cada fragmento, trs
laos so tambm randomicamente selecionados;

A altura mdia de cada lao de cada fragmento


ento computada:

(3.8)

Em seguida, procede-se o clculo da altura mdia


dos laos de um fragmento selecionado:

(3.9)

Finalmente, calcula-se a altura mdia dos laos de


todos os fragmentos selecionados:

(3.10)
96

f10 83
Largura mdia dos laos ascendentes e descendentes:

Para computar esta caracterstica foram realizados os


seguintes procedimentos:

A largura mdia de todos os laos ascendentes e


descendentes de toda a carta computada
WMgeral;

O desvio padro mdio da largura de todos os


laos ascendentes e descendentes de toda a carta
computado DPWgeral.

Cinco fragmentos so randomicamente


selecionados da carta, e para cada fragmento, trs
laos so tambm randomicamente selecionados;

A largura mdia de cada lao de cada fragmento


computada:

(3.11)

Em seguida, procede-se o clculo da largura mdia


dos laos de um fragmento selecionado:

(3.12)

Finalmente, calcula-se a largura mdia dos laos


todos os fragmentos selecionados:

(3.13)
97

f11 84
Tamanho mdio (em nmero de pixels) dos laos
ascendentes e descendentes:

Para computar esta caracterstica foram realizados os


seguintes procedimentos:

O tamanho mdio de todos os laos ascendentes e


descendentes de toda a carta computado
TMgeral;

O desvio padro mdio do tamanho de todos os


laos ascendentes e descendentes de toda a carta
computado DPTgeral.

Cinco fragmentos so randomicamente


selecionados da carta, e para cada fragmento, trs
laos so tambm randomicamente selecionados;

O tamanho de cada lao de cada fragmento


computado:

(3.14)

Em seguida, procede-se o clculo do tamanho


mdio dos laos de um fragmento selecionado:

(3.15)

Finalmente, calcula-se o tamanho mdio dos laos


de todos os fragmentos selecionados:

(3.16)
98

f12 85 ngulo geral dos laos ascendentes e descendentes:


Para computar esta caracterstica foram realizados os
seguintes procedimentos:

O ngulo mdio de todos os laos ascendentes e


descendentes de toda a carta computado Ageral;

O desvio padro mdio do ngulo de todos os


laos ascendentes e descendentes de toda a carta
computado DPAgeral.

Cinco fragmentos so randomicamente


selecionados da carta, e para cada fragmento, trs
laos so tambm randomicamente selecionados;

O ngulo de cada lao de cada fragmento


computado:

(3.17)

Em seguida, procede-se o clculo do ngulo mdio


dos laos de um fragmento selecionado:

(3.18)

Finalmente, calcula-se o ngulo mdio dos laos


de todos os fragmentos selecionados:

(3.19)

As Figuras 3.16 (caractersticas f1 a f8) e 3.17 (caractersticas f9-f12) apresentam


uma viso geral do processo de extrao de caractersticas. Pode-se observar que aps o
pr-processamento da imagem do documento manuscrito, todas as caractersticas
definidas pelo mtodo proposto so computadas para serem includas no vetor de
primitivas.
99

Figura 3.16. Viso geral do processo de extrao de caracterstica (f1-f7)

Figura 3.17. Viso geral do processo de extrao de caracterstica (f8-f12)


100

3.3.4. Seleo de Caractersticas


De acordo com Amaral et al. (2013a), a seleo de caractersticas que melhor
representam um problema a ser modelado, que so irrelevantes ou redundantes e
quelas que afetam negativamente os resultados (taxas de acerto) fundamental.
Segundo Dash e Liu (1997), a busca manual das melhores caractersticas
exponencialmente proibitiva, mesmo com um nmero moderado de caractersticas.
Dessa forma, no contexto desta pesquisa, foi aplicada, no conjunto de caractersticas
grafomtricas proposto, uma abordagem de seleo de caractersticas conforme
apresentado em Amaral et al. (2013a). Por meio da aplicao de mtodos de seleo de
caractersticas em grandes conjuntos de primitivas, possvel se obter subconjuntos de
menor dimensionalidade com as mesmas taxas de acerto, ou em alguns casos, com taxas
de acerto at mesmo melhores.
De acordo com Liu e Yu (2005), um processo de seleo de caractersticas
composto por quatro passos, como pode ser observado na Figura 3.18. Estes passos
consistem na: gerao do subconjunto, avaliao do subconjunto, definio do critrio
de parada e validao dos resultados.

Figura 3.18. Processo geral de seleo de caractersticas


[Fonte: Adaptado de (LIU; YU, 2005)]

A gerao de subconjunto basicamente um processo de busca heurstica no


qual cada estado no espao de busca especifica um subconjunto de caractersticas
candidato para avaliao. Este processo determinado pelo ponto de incio da busca que
por sua vez influencia a direo da busca (para frente - forward, para trs - backward ou
bidirecional); e tambm pela estratgia de pesquisa. Analisar todos os subconjuntos
candidatos, sendo que para um conjunto com N caractersticas existem 2N subconjuntos
candidatos, ou executar uma busca exaustiva, mesmo com um N pequeno proibitivo.
Consequentemente, diferentes estratgias de pesquisa tem sido exploradas, entre elas:
completa, sequencial e randmica (LIU; YU, 2005).
101

Neste trabalho tem-se um conjunto de primitivas grafomtricas de tamanho N =


85 e, portanto, foi aplicada a estratgia de pesquisa sequencial, iniciando com o
conjunto de caractersticas vazio e com direo de busca para frente forward. De
acordo com Liu e Motoda (1998), a busca sequencial propicia que todo o conjunto de
caractersticas seja avaliado reduzindo o risco de perder subconjuntos timos.
Cada novo subconjunto gerado deve ser avaliado de acordo com algum critrio
de validao (LIU; YU, 2005). Neste contexto, a eficincia de um subconjunto
determinada pelo critrio empregado. Os critrios de avaliao podem ser categorizados
em dois grupos com base em sua dependncia de algoritmos de minerao que sero
aplicados ao subconjunto de caractersticas selecionado. Neste trabalho de pesquisa
adotou-se um critrio de avaliao independente. Os critrios independentes so usados
em algoritmos do modelo de filtros que avaliam a eficincia do subconjunto de
caractersticas explorando seus aspectos intrnsecos sem envolver qualquer algoritmo de
minerao. Exemplos de critrios independentes so medidas baseadas em distncia,
informao, dependncia e consistncia. O critrio de avaliao independente adotado
neste trabalho foi o de medidas baseadas na dependncia, como discutido em Hall
(1998). Segundo Liu e Yu (2005), as medidas baseadas em dependncia so tambm
conhecidas como medidas de correlao ou medidas de similaridade. Estas medem a
habilidade de predizer o valor de uma varivel a partir de outra.
O critrio de parada determina quando o processo de seleo de caractersticas
deve ser encerrado. Frequentemente, o critrio de parada pode ser: busca completa;
algum limite encontrado; adio ou remoo subsequente de alguma caracterstica que
falhou na produo do melhor subconjunto; e encontrar um conjunto suficiente bom
(por exemplo, se a taxa de erro atingida menor do que a taxa de erro permitida para
uma determinada tarefa) (LIU; YU, 2005). Neste trabalho, o critrio de parada utilizado
foi o limite mximo no nmero de iteraes, correspondendo a 5, sendo que este valor
foi experimentalmente determinado.
O ltimo passo do processo de seleo de caractersticas a validao dos
resultados. Esta tarefa corresponde medida direta do resultado obtido, quando um
conhecimento anterior dos dados empregado. Nos experimentos realizados neste
trabalho, so comparados os resultados (taxas de identificao) produzidos pelo
conjunto completo de caractersticas (f1-f12) com os resultados produzidos com as
caractersticas selecionadas.
102

Na Seo 3.4.2 so apresentados os resultados dos experimentos, incluindo os


resultados obtidos com a aplicao do processo de seleo de caractersticas.

3.3.5. Mtodo de Classificao


A etapa de classificao envolve a utilizao de algoritmos que possibilitem a
identificao do documento em anlise. Como resultado deste processo, espera-se obter
uma lista com o ranking dos escritores mais provveis do documento em anlise.
Inicialmente foram realizados experimentos com os algoritmos de classificao SVM
(VAPNIK, 1979) e KNN (DUDA; HART, 1973). Em funo do melhor desempenho
(em termos de taxa de acerto) apresentado pelo classificador SVM e por este ser uma
abordagem de classificao usada em muitos outros estudos sobre identificao de
autoria em documentos manuscritos descritos na literatura, SVM foi o classificador
escolhido para o mtodo proposto. Os resultados dos experimentos iniciais realizados
com o classificador KNN foram includos no Apndice A.
Os experimentos (descritos nas Sees 3.4) foram conduzidos de forma que,
inicialmente, o vetor de primitivas foi avaliado integralmente, e sequencialmente foram
realizados experimentos com caractersticas isoladas e grupos de caractersticas. Este
tipo de anlise foi essencial para que se pudesse identificar o poder discriminatrio de
cada uma das caractersticas, bem como, dos agrupamentos de caractersticas.

SVM (Support Vector Machine)

Segundo Burges (1998), embora a pesquisa sobre Mquinas de Vetores de


Suporte (SVM) tenha sido iniciada no final dos anos 70, os SVM constituem uma
tcnica de aprendizado que vem recebendo nas ltimas dcadas crescente ateno da
comunidade de Aprendizado de Mquina. De acordo com Scarpel (2005), SVM um
procedimento construtivo universal de aprendizagem baseado na teoria de
aprendizagem estatstica. O termo universal significa que o SVM pode ser utilizado para
o aprendizado de vrias representaes como as redes neurais, as funes de base radial
e funes polinomiais.
Enquanto tcnicas tradicionais para reconhecimento de padres so baseadas na
minimizao do risco emprico, isto , tenta-se a otimizar o desempenho sobre o
conjunto de treinamento, SVM minimizam o risco estrutural, isto , a probabilidade de
classificar de forma errada padres ainda no vistos por uma distribuio de
probabilidade de dados fixa e desconhecida (LIMA, 2002).
103

Algumas aplicaes automatizadas com o uso de SVM podem ser citadas nas
mais variadas reas de pesquisa, tais como: no reconhecimento de faces (OSUNA et al.,
1997), classificao de impresses digitais (LIMA, 2002), e principalmente na rea de
manuscritos, como na verificao de assinaturas reconhecimento de cadeias de dgitos
manuscritos e identificao de autoria (OLIVEIRA; SABOURIN, 2004); (CHEN et al.,
2010).
Neste trabalho utilizamos o algoritmo SMO (Sequential Minimal Optimization)
(PLATT et al., 2000) uma implementao de SVM disponibilizada na ferramenta
WEKA (BOUCKAERT et al., 2009) que usa Kernel polinomial. Nesta implementao
todos os valores que esto faltando no vetor de primitivas so substitudos globalmente
e os atributos nominais so transformados em binrios. Alm disso, todos os dados de
treinamento so normalizados7 por default. No entanto, foi possvel melhorar as taxas
de acerto quando foi utilizado um filtro para padronizar8 os dados de treinamento, ao
invs de utilizar a normalizao padro.

3.4. Experimentos
Para validar os resultados obtidos com o mtodo apresentado neste trabalho foi
necessria a realizao de experimentos. Tais experimentos seguiram um protocolo
rigoroso para que os mesmos pudessem ser replicados em diferentes contextos. Sabe-se
que diferentes variveis afetam os resultados de pesquisas como a aqui apresentada,
podendo-se citar: nmero de escritores, abordagem de classificao adotada e base de
dados utilizada para o treinamento e teste. Dessa forma, a seguir encontra-se descrito o
protocolo dos experimentos realizados.

3.4.1. Protocolo dos Experimentos


A Figura 3.19 apresenta uma viso geral do protocolo seguido ao longo dos
experimentos realizados. De um modo geral, o vetor de primitivas obtido no processo
de extrao de caractersticas usado como entrada para o algoritmo de classificao.

7
Dados de treinamento normalizados so modificados para permanecerem em um intervalo de valores
especfico.
8
Padronizar um vetor significa subtrair seus dados de uma medida local e dividi-los por uma medida de
escala. Por exemplo, se o vetor possui valores randmicos com uma distribuio gaussiana, deve-se
subtrair a mdia e dividir pelo desvio padro, obtendo-se assim valores randmicos em um padro
normal.
104

Os estgios de treinamento e teste foram realizados submetendo o vetor de


primitivas extrado (das cartas forenses) ao classificador SVM, cuja implementao
utilizada encontra-se disponvel na ferramenta WEKA. Para o estgio de treinamento o
vetor de primitivas usado para compor o modelo e para o estgio de teste o vetor
usado para a identificao do escritor.
Cada escritor presente no conjunto de teste comparado com cada um dos
modelos definidos no estgio de treinamento, perfazendo um protocolo do tipo todos-
contra-todos all-against-all, sendo que o melhor resultado selecionado por meio da
tcnica vencedor leva tudo winner-takes-all e, portanto, indicado pelo classificador.
Para os experimentos cujos resultados so apresentados na prxima Seo, foram
selecionados aleatoriamente 200 diferentes escritores da base de cartas forenses
PUCPR. Para o estgio de treinamento foram utilizadas duas cartas de cada escritor
(totalizando 400 diferentes cartas), e para a fase de teste foi utilizada a 3 carta de cada
um dos 200 escritores utilizados na fase de treinamento (totalizando 200 diferentes
cartas).

Figura 3.19. Protocolo dos experimentos


105

3.4.2. Resultados dos Experimentos


Foram realizados experimentos focando, principalmente, em dois aspectos:
avaliar a eficincia individual e em grupo das caractersticas grafomtricas
extradas de uma carta forense e que compem o mtodo proposto;
obter o nmero de escritores necessrios para validao do mtodo, ou seja, o
nmero de escritores no qual no se observa ganho ou perda nas taxas de acerto
alcanadas.
Para tanto, experimentos com um nmero incremental de escritores (de 20 em
20) foram efetuados, levando-se em considerao todas as caractersticas e combinaes
de caractersticas.
A Tabela 3.2 apresenta o resultado individual, em termos de identificao do
correto escritor, de cada uma das caractersticas grafomtricas estudadas. Uma anlise
detalhada dos resultados obtidos nos experimentos apresentada no prximo captulo.

Tabela 3.2. Resultados de experimentos individuais com as caractersticas grafomtricas

Nmero de Escritores / Taxa de Acerto (%)


Caracterstica
20 40 60 80 100 120 140 160 180 200

f1 15,00 7,50 3,33 5,00 4,00 5,00 4,30 3,75 3,89 4,00
f2 25,00 30,00 18,33 20,00 17,00 15,83 15,00 11,88 13,89 14,00
f3 20,00 20,00 16,67 13,75 15,00 14,17 11,42 10,62 8,33 9,00
f4 10,00 10,00 8,33 3,75 5,00 4,17 2,86 1,25 1,67 1,50
f5 10,00 7,50 6,67 6,25 5,00 3,33 4,30 1,88 2,22 1,00
f6 30,00 15,00 5,00 5,00 8,00 3,33 3,57 1,88 2,22 1,00
f7 35,00 35,00 30,00 26,25 25,00 22,50 21,43 18,13 18,33 19,50
f8 85,00 85,00 76,67 73,75 68,00 71,66 67,15 65,00 62,78 60,50
f9 5,00 5,00 5,00 5,00 4,00 3,33 2,14 1,88 1,67 1,00
f10 5,00 5,00 5,00 3,75 3,00 3,33 2,14 2,50 1,67 1,00
f11 6,00 5,00 5,00 3,75 3,00 3,33 1,43 1,88 1,00 1,00
f12 10,00 7,50 5,00 3,75 4,00 3,33 2,14 1,25 1,67 2,00

Aps a realizao de experimentos individuais foram definidos empiricamente


alguns agrupamentos de caractersticas e experimentos com estes grupos foram tambm
realizados (ver Tabela 3.3). Deve-se ressaltar que para cada caracterstica individual e
106

em grupo foram realizados 10 experimentos diferentes, um para cada grupo de


escritores avaliado, totalizando 340 - 34 agrupamentos diferentes x 10 testes diferentes.
Tais experimentos foram parcialmente apresentados em Amaral et al. (2012b).

Tabela 3.3. Resultados dos experimentos com agrupamentos empricos de


caractersticas

Nmero de Escritores / Taxa de Acerto (%)


Grupo de Caractersticas
20 40 60 80 100 120 140 160 180 200

f1 & f8 85,00 87,50 76,67 78,75 76,00 71,70 71,43 68,75 68,89 67,50
f2 & f8 60,00 67,50 51,67 48,75 49,00 42,50 42,14 41,25 40,00 40,00
f3 & f8 60,00 57,50 50,00 50,00 47,00 40,83 40,00 36,25 56,11 35,00
f4 & f8 80,00 77,50 73,33 72,5 69,00 65,00 63,57 60,00 56,11 56,50
f5 & f8 80,00 77,50 71,67 72,5 69,00 65,83 62,86 58,75 57,22 56,50
f6 & f8 90,00 90,00 83,33 80,00 78,00 75,00 71,43 69,38 67,78 68,50
f7& f8 75,00 80,00 63,33 62,50 59,00 60,00 56,43 50,63 50,56 51,50
f1 & f6 & f8 85,00 90,00 85,00 83,75 80,00 78,33 77,14 75,00 71,11 69,00
f1 & f2 & f3 & f4 & f5& f6 & f7 50,00 45,50 35,00 35,00 33,00 31,70 32,15 31,85 31,66 31,04
f 1 & f2 & f3 & f 4 & f 5 & f 6 &
65,00 62,50 58,33 57,50 58,00 54,16 52,86 51,88 50,55 50,50
f7& f8
f 1 & f2 & f3 & f 4 & f 5 & f 6 &
65,00 60,00 55,00 55,00 55,00 52,50 51,43 50,00 49,44 49,00
f7&f8 & f9 & f10 & f11& f12
f1 & f6 & f8 & f9 & f10& f11&
80,00 77,25 65,00 63,75 58,00 63,33 60,71 60,00 59,44 59,50
f12
f1 & f6 & f8& f11 85,00 82,50 80,00 76,25 76,00 73,33 68,57 66,86 66,66 66,00
f1 & f6 & f8& f12 85,00 92,50 88,30 87,50 84,00 83,33 80,00 75,63 72,77 70,50
f1 & f6 & f8& f9 65,00 77,50 73,33 75,00 76,00 71,67 65,71 66,25 66,11 66,00
f1 & f6 & f8& f10 85,00 90,00 68,33 76,25 74,00 73,33 72,86 70,63 68,88 68,00
f1 & f6 & f8& f9& f10& f11 80,00 80,00 65,00 65,00 60,00 61,67 60,71 59,38 58,89 58,50
f1 & f6 & f8& f9 & f10& f12 65,00 75,00 68,33 67,50 64,00 65,00 62,15 61,88 61,11 61,00
f1 & f6 & f8 & f9& f11 80,00 77,50 71,67 68,75 64,00 61,67 64,29 62,50 62,70 60,00
f1 & f6 & f 8& f9& f10 65,00 75,00 68,33 72,50 70,00 65,83 65,00 62,50 63,80 62,00
f1 & f6 & f8& f9& f11& f12 80,00 77,50 70,00 66,25 66,00 63,33 62,14 61,25 60,50 60,00
f1 & f6 & f8 & f11& f12 85,00 85,00 76,67 76,25 73,00 68,33 67,14 65,00 62,70 63,00

Pode-se observar que a maioria dos agrupamentos avaliados incluiu a


caracterstica f8 em sua composio. Esta deciso foi tomada em funo do alto poder
107

discriminatrio individual desta caracterstica, como pode ser observado na Tabela 3.2.
Uma discusso detalhada sobre estes resultados apresentada no Captulo 4.
Com o objetivo de encontrar o melhor agrupamento de caractersticas, foi ento
aplicado um processo de seleo de caractersticas, conforme discutido na Seo 3.3.4 e
apresentado em Amaral et al. (2013a). Assim, o melhor grupo de caractersticas
(goodness subset - GS) formado por: f1 & f6 & f8 & f12. Os resultados dos experimentos
realizados com este grupo so apresentados na Tabela 3.4. interessante ressaltar, que
este grupo j havia sido experimentado empiricamente e que os resultados da seleo de
caractersticas vieram a comprovar a eficincia deste agrupamento de caractersticas.

Tabela 3.4 Resultados dos experimentos com o melhor grupo de caractersticas - GS


Nmero de Escritores Taxa de Acerto (%)
20 85,00
40 92,50
60 88,30
80 87,50
100 84,00
120 83,33
140 80,00
160 75,63
180 72,77
200 70,50

O Grfico 3.1 apresenta, especificamente para os 6 melhores agrupamentos de


caractersticas apresentados na Tabela 3.3, a relao entre o crescimento/reduo das
taxas de acerto em funo do aumento do nmero de escritores. Pode-se observar que
praticamente nenhum ganho ou perda obtido quando se atinge um nmero de
escritores prximo a 200. Este experimento, com nmeros incrementais de escritores,
foi discutido em Amaral et al. (2013b; 2013c).
108

Grfico 3.1. Relao entre o nmero de escritores e as taxas de acerto

3.5. Consideraes Finais


Este captulo apresentou o mtodo proposto, incluindo todas as etapas que o
compem, bem como, detalhes de como as caractersticas grafomtricas foram
implementadas. A abordagem de seleo de caractersticas adotada e que resultou na
melhor combinao de caractersticas para o mtodo proposto tambm foi discutida.
Os resultados e o protocolo experimental adotado para validao do mtodo
proposto tambm foram apresentados. Neste contexto, o prximo captulo apresenta
uma discusso detalhada sobre tais resultados.
109

Captulo 4

Anlise e Discusso dos Resultados

4.1. Consideraes Iniciais


Este captulo apresenta uma discusso detalhada sobre os resultados obtidos com
experimentos realizados no mtodo para desenvolvido nesta pesquisa voltado
identificao de autoria em documentos manuscritos. Dessa forma, a Seo 4.2
apresenta uma anlise crtica de cada um dos grupos de caractersticas grafomtricas
estudados e que compem o mtodo proposto. Na Seo 4.3 apresentada uma
discusso sobre o nvel de granularidade das caractersticas grafomtricas presentes no
mtodo proposto. A Seo 4.4 aborda as principais diferenas, em termos de taxas de
acerto e em termos do processo de extrao, de caractersticas grafomtricas e no-
grafomtricas. Finalmente, na Seo 4.5 apresentada uma anlise comparativa entre os
melhores resultados obtidos com o mtodo proposto e outras abordagens para
identificao de escritores presentes na literatura que tambm utilizam caractersticas
grafomtricas.

4.2. Anlise Crtica dos Resultados por Grupo de Caractersticas


Grafomtricas
A seguir apresentada uma anlise dos resultados dos experimentos levando-se
em considerao os 4 (quatro) grandes grupos de caractersticas grafomtricas utilizados
no mtodo proposto e apresentados na Seo 2.4.
110

4.2.1. Hbitos de Uso de Espao Grfico


As caractersticas grafomtricas que compem este grupo so: nmero de linhas
da carta (f1), posio da margem direita (f3), posio da margem superior (f4), posio
da margem esquerda (f5) e posio da margem inferior (f6). Tais caractersticas so
muito utilizadas pelos peritos em anlises forenses, uma vez que oferecem informaes
sobre a forma como o escritor faz uso do espao disponvel para a escrita, denominado
de espao grfico. Individualmente, como pode ser observado na Tabela 4.1, estas
caractersticas no apresentam taxas significativas de identificao. No entanto, quando
utilizadas de modo associado com outra caracterstica de maior poder discriminatrio,
como inclinao axial (f8), consegue-se auxiliar o classificador na tomada de deciso
entre possveis escritores de um manuscrito. Estas situaes podem ser observadas nas
Tabelas 4.1 e 4.2.
Deve-se ressaltar que as caractersticas f1 e f6 fazem parte do conjunto que
apresentou as melhores taxas de identificao (ver Tabela 3.4) e que resultante da
aplicao de um processo de seleo de caractersticas (conforme apresentado na Seo
3.3.4).
Tabela 4.1. Resultados de experimentos com as caractersticas grafomtricas: hbitos de
uso/posicionamento do texto na folha

Nmero de Escritores / Taxa de Acerto (%)


Caracterstica
20 40 60 80 100 120 140 160 180 200

f1 15,00 7,50 3,33 5,00 4,00 5,00 4,03 3,75 3,89 4,00

f3 20,00 20,00 16,67 13,75 15,00 14,17 11,42 10,63 8,33 9,00

f4 10,00 10,00 8,33 3,75 5,00 4,17 2,86 1,25 1,67 1,50

f5 10,00 7,50 6,67 6,25 5,00 3,33 4,30 1,88 2,22 1,00

f6 30,00 15,00 5,00 5,00 8,00 3,33 3,57 1,88 2,22 1,00

Na Figura 4.1 pode-se observar dois escritores com ngulos de inclinao


semelhantes, no entanto com usos do espao grfico da folha de papel bem distintos, em
especial a posio da margem inferior (f6). Dessa forma, embora a caracterstica
inclinao axial permita que o classificador selecione os escritores com ngulos de
inclinao similares ao escritor do documento questionado, foi por meio da
caracterstica f6 que foi possvel se efetivar a classificao correta.
111

A Figura 4.2, apresenta uma situao similar, na qual dois escritores embora
com ngulos de inclinao de escrita semelhantes utilizaram um nmero diferente de
linhas para escrever o contedo solicitado na carta forense PUCPR e esta caracterstica
foi fundamental para a tomada de deciso pelo classificador.

POSIO DA MARGEM INFERIOR f6

POSIO DA MARGEM INFERIOR f6

Figura 4.1. Uso da caracterstica f6 para a tomada de deciso

As demais caractersticas f3, f4 e f5, embora teis aos peritos forenses, mesmo
quando combinadas com outras caractersticas grafomtricas mais significativas, como
caso da inclinao axial f8, no apresentaram resultados interessantes. Isto pode ser
observado na Tabela 3.3. Observa-se que ganhos no so obtidos quando estas
caractersticas so inseridas na base e at mesmo em alguns casos rudos so
introduzidos nos dados, causando reduo nas taxas de acerto.
112

Nmero total de linhas


Nmero total de linhas
computadas 23
computadas 19

Figura 4.2. Uso da caracterstica f2 para a tomada de deciso

4.2.2. Tamanho das Palavras


As caractersticas grafomtricas que compem este grupo so: proporo de
pixels pretos da primeira palavra de cada linha (f2) e altura da primeira palavra de cada
linha (f7). Os resultados individuais obtidos com a utilizao destas caractersticas
podem ser observados na Tabela 4.2.
Tabela 4.2. Resultados de experimentos com as caractersticas grafomtricas: tamanho
das palavras

Nmero de Escritores / Taxa de Acerto (%)


Caracterstica
20 40 60 80 100 120 140 160 180 200

f2 25,00 30,00 18,33 20,00 17,00 15,83 15,00 11,88 13,89 14,00
f7 35,00 35,00 30,00 26,25 25,00 22,50 21,43 18,13 18,33 19,50
113

Pode-se observar que estas caractersticas, principalmente, em funo de


limitaes em seu processo de extrao, no trazem ganhos nos resultados dos
experimentos como pode ser observado na Tabela 3.3. Isto ocorre, normalmente, porque
na demarcao das palavras das linhas, em funo de caractersticas de escrita do
escritor como escrever para cima (rising) ou escrever para baixo (falling), com o
algoritmo de extrao utilizado, no possvel se delimitar adequadamente a 1 palavra
destas linhas.
A Figura 4.3 apresenta o problema, no qual em funo de um hbito comum da
escrita do escritor, no possvel se computar corretamente as caractersticas f2 e f7.

As palavras indicadas em
vermelho no puderam ser
demarcadas corretamente, o
que impediu que as
caractersticas f2 e f7 fossem
computadas corretamente
para este exemplar de carta.

Figura 4.3. Demarcao das primeiras palavras de cada linha em um exemplar de carta
presente na base de cartas forenses PUCPR
114

4.2.3. Inclinao Axial


A caracterstica que compe este grupo a inclinao axial (f8). Esta
caracterstica apresenta individualmente e em grupo a melhor taxa de acerto dentre
todas as caractersticas grafomtricas estudadas e includas no mtodo proposto. Isto
pode ser observado na Tabela 4.3 (anlise individual) e tambm nas Tabelas 3.2 e 3.3.

Tabela 4.3. Resultados de experimentos com a caracterstica inclinao axial


Nmero de Escritores Taxa de Acerto (%)
20 85,00
40 85,00
60 76,67
80 73,75
100 68,00
120 71,66
140 67,15
160 65,00
180 62,78
200 90,50

Inclinao axial uma caracterstica grafomtrica muito utilizada pelos peritos


forenses e tem sido muito utilizada em abordagens automticas para identificao de
autoria (como pode ser observado na comparao apresentada na Seo 4.5).
Deve-se ressaltar que a caracterstica f8 faz parte do conjunto que apresentou as
melhores taxas de identificao (ver Tabela 3.4) e que resultante da aplicao de um
processo de seleo de caractersticas (conforme apresentado na Seo 3.3.4).
A Figura 4.4 apresenta algumas variaes no ngulo de escrita de exemplares de
diferentes escritores presentes na base de cartas forenses PUCPR. Nestes exemplares
foram colocadas demarcaes do ngulo em pontos aleatrios em cada uma das linhas.
Com tais demarcaes, pode-se observar como a inclinao uma caracterstica
marcante e constante em todo o documento de um escritor.
115

Figura 4.4. Exemplos de diferentes ngulos de escrita (esquerda, direita, vertical) para a
caracterstica f8
116

4.2.4. Hbitos do Traado dos Laos Ascendentes e Descendentes


As caractersticas grafomtricas que compem este grupo so: altura mdia dos
laos ascendentes e descendentes (f9), largura mdia dos laos ascendentes e
descendentes (f10), tamanho mdio dos laos ascendentes e descendentes (f11) e ngulo
mdio de inclinao dos laos ascendentes e descendentes (f12). Estas caractersticas
representam informaes em um nvel de granularidade menor do que as outras
caractersticas grafomtricas discutidas at o momento. Informaes sobre os caracteres
que possuem laos (loops) tais como: l, h, t, p, g, f so coletadas para
posteriormente as caractersticas f9, f10, f11 e f12 serem computadas.
A Tabela 4.4 apresenta os resultados individuais obtidos com estas
caractersticas. Pode-se observar nas Tabelas 3.2 e 3.3 que, isoladamente, estas
caractersticas no possuem um grande poder discriminatrio, mas quando combina-se a
caracterstica f12 com as caractersticas f1, f6 e f8 obtem-se o melhor agrupamento de
caractersticas, ou seja, o agrupamento GS que apresenta as melhores taxas de acerto,
tendo sido resultante do processo de seleo de caractersticas, conforme Seo 3.3.4.

Tabela 4.4. Resultados de experimentos com as caractersticas grafomtricas: altura,


largura, tamanho e ngulo de inclinao dos laos ascendentes e descendentes

Nmero de Escritores / Taxa de Acerto (%)


Caracterstica
20 40 60 80 100 120 140 160 180 200

f9 5,00 5,00 5,00 5,00 4,00 3,33 2,14 1,88 1,67 1,00
f10 5,00 5,00 5,00 3,75 3,00 3,33 2,14 2,50 1,67 1,00
f11 6,00 5,00 5,00 3,75 3,00 3,33 1,43 1,88 1,00 1,00
f12 10,00 7,50 5,00 3,75 4,00 3,33 2,14 1,25 1,67 2,00

Deve-se destacar que, embora as caractersticas f9, f10 e f11 apresentam bons
resultados quando combinadas com a caracterstica f8, seus resultados no superam
queles apresentados quando f12 includa ao melhor agrupamento de caractersticas
(GS). Tais resultados ajudam a comprovar a eficincia da caracterstica inclinao, seja
ela em mbito global (f8), do documento como um todo, ou em mbito local (f12) para as
palavras e caracteres que possuem laos ascendentes e descendentes.
A Figura 4.5 apresenta exemplos de laos ascendentes e descendentes extrados
de diferentes exemplares de cartas da base de cartas forenses PUCPR e que apresentam
117

diferentes ngulos de inclinao, altura, largura e tamanho, sendo que para um dos
exemplos de laos, as caractersticas f9, f10, f11 e f12 so destacadas.

Figura 4.5. Exemplos de laos ascendentes e descendentes em diferentes palavras e


caracteres de exemplares de cartas da base de cartas forenses PUCPR

4.3. Anlise Crtica das Caractersticas Grafomtricas de acordo com


seu Nvel de Granularidade
No conjunto de caractersticas grafomtricas que compem o mtodo proposto
foram includas, como pode ser observado na Figura 2.4, caractersticas globais e locais
com diferentes nveis de granularidade (documento, linha, palavra e caractere). Nesta
figura pode-se observar que caractersticas globais referem-se s informaes retiradas
do documento com um todo (f1,f3,f4,f5,f6 e f8), dos pargrafos e das linhas (f2 e f7).
Enquanto que caractersticas locais referem-se a informaes retiradas das palavras e
caracteres (f9,f10,f11,f12). Apenas caractersticas em nvel de pargrafo no foram
estudadas e incorporadas no conjunto de caractersticas.
118

Quando se compara, no mtodo proposto, o desempenho de acordo com a


granularidade da caracterstica, claramente observa-se que as caractersticas em nvel de
linha apresentam os maiores desvios nos resultados. Dessa forma, abordagens para
correo de linha devem ser implementadas em trabalhos futuros para que tais
caractersticas possam auxiliar no aumento das taxas de identificao. Deve-se ressaltar,
que tais procedimentos de correo somente devem ser aplicados antes da extrao das
caractersticas de interesse, sem que sejam geradas modificaes definitivas nas demais
caractersticas da escrita, visto que modificaes definitivas podem, por conseguinte,
gerar erros na determinao de outras primitivas dependentes do aspecto original da
escrita do escritor na carta forense. Deve-se tambm destacar que os peritos vem com
ressalvas este tipo de procedimento.
As caractersticas em nvel de documento apresentaram-se como quelas que
mais contribuem para o aumento das taxas de identificao, como pode ser observado
nas Tabelas 3.3 e 3.4, e so as caractersticas de maior relevncia no grupo GS,
resultante do processo de seleo de caractersticas. Isto refora a ideia que em um
primeiro momento, assim como procedimento normalmente adotado pelos peritos
forenses, so informaes macro quelas que permitem identificar os principais
candidatos dentre um conjunto de escritores para um documento questionado.
Em um segundo momento, caractersticas de granularidade mais fina, como o
caso das caractersticas em nvel de palavras e caracteres, permitem refinar os resultados
(ver Tabelas 3.3 e 3.4) e observar pontos especficos em um documento (como por
exemplo, laos ascendentes e descendentes) que fornecem uma indicao mais precisa,
dentre um conjunto de possveis candidatos, do autor de um documento questionado.

4.4. Anlise Crtica sobre o uso Exclusivo de Caractersticas


Grafomtricas
O conjunto de caractersticas presentes no mtodo proposto neste trabalho de
pesquisa inclui apenas caractersticas grafomtricas, ou seja, que levam em
considerao durante sua concepo os mesmo aspectos que so observados pelos
peritos durante suas anlises grafoscpicas. Dessa forma, neste trabalho, assim como
ocorre na percia forense, a anlise de um documento questionado dependente do texto
do manuscrito em questo. Nesse contexto, necessita-se de uma base de manuscritos, tal
como a base de cartas forenses PUCPR, que tenha levado em considerao durante sua
119

construo aspectos que so usualmente observados pelos peritos em anlises de


identificao de autoria.
O mtodo proposto automatiza caractersticas que fornecem informaes visuais
para a tomada de deciso pelo perito, como por exemplo, o ngulo geral de inclinao
da escrita de um escritor. Extrair manualmente estas informaes, em grandes
quantidades de exemplares de manuscritos, torna-se uma tarefa extremamente
demorada, difcil e sujeita a erros, por isso, a automatizao de todo ou parte deste
processo extremamente interessante. importante ressaltar, que abordagens como a
aqui proposta, ou seja, que utilizam caractersticas grafomtricas so aceitas pela
comunidade jurdica internacional nos tribunais, uma vez que o processo de anlise do
manuscrito em ambas abordagens segue os mesmos critrios, apenas o que muda o
mtodo de aplicao (automatizado ou manual).
O processo de extrao de caractersticas grafomtricas, normalmente, envolve
algoritmos de processamento de imagens e esse processo realizado pixel a pixel na
imagem do documento questionado. Tais algoritmos so complexos e, em funo de
uma srie de particularidades do escritor, como por exemplo, o comportamento de
escrever para baixo/cima (demonstrado na Figura 4.3) tem sua aplicabilidade
limitada, trazendo resultados incorretos. Isto ocasiona redues nas taxas de
identificao, uma vez que rudos so introduzidos nos resultados. Anlises individuais
das caractersticas foram realizadas (Tabela 3.2) e como trabalhos futuros devero ser
definidas estratgias para correo das limitaes dos algoritmos utilizados. Destaca-se
que mesmo obsrvando-se tais limitaes, o mtodo proposto alcanou os objetivos
previstos inicialmente,
As abordagens que utilizam caractersticas no-grafomtricas, como se pode
observar na Tabela 2.3, normalmente envolvem a aplicao de transformaes
matemticas sobre toda ou parte da imagem dos manuscritos, como por exemplo, o uso
de filtros. Dessa forma, o contedo do manuscrito em anlise no relevante para o
processo de identificao de autoria (e bases de textos variados podem ser usadas). Os
algoritmos utilizados so menos limitados s particularidades de escrita e por isso taxas
de identificao muito elevadas so obtidas com estas abordagens. No entanto, tais
abordagens no so naturais aos peritos e aos juzes em um tribunal e seu uso em
processos judiciais torna-se bastante limitado.
120

4.5. Comparao dos Resultado Obtidos com outros Trabalhos


apresentados na Literatura
Para validar os resultados obtidos com o melhor grupo de caractersticas do
mtodo proposto (GS), na Tabela 4.5 apresenta-se uma comparao dos resultados
obtidos pelo mtodo proposto com outros estudos discutidos na literatura. Para garantir
a confiabilidade dos resultados e a uniformidade da comparao realizada necessrio
relacionar as taxas de identificao com o nmero de escritores, ou seja, com o tamanho
da amostra utilizado nos experimentos.
Tabela 4.5. Comparao dos resultados obtidos com outros apresentados na literatura
Nmero de Taxa de
Trabalho Caractersticas Extradas
Escritores Acerto (%)
Schlapbach e Inclinao, altura e obliquidade das linhas
50 escritores 94,40
Bunke (2004) de texto.
Informaes relativas ao contorno de
Chen et al.
segmentos adjacentes e remoo de linhas 60 escritores 54,90
(2010)
de referncia pr-impressas.
Espao percentual da margem esquerda e
Luna et al. margem direita, separao entre linhas,
30 escritores 88,00
(2011) direo geral da escrita, e espao entre
palavras.
Proporo da zona mdia das palavras
Luna et al.
comparada com as zonas ascendentes e 30 escritores 88,00
(2011)
descendentes e inclinao das palavras.
Zois e
Uso de operadores morfolgicos para obter
Anastassopoulos 50 escritores 95,00
o perfil horizontal das palavras.
(2000)
Uso de caractersticas extradas de trs
Pervouchine e
caracteres, so eles: d, y e f e o 165 escritores 58,00
Leedham (2007)
grafema th.
Inclinao axial, nmero de linhas, posio
Mtodo
da margem inferior, ngulo mdio dos laos 40 escritores 93,00
Proposto (GS)
ascendentes e descendentes.
Inclinao axial, nmero de linhas, posio
Mtodo
da margem inferior, ngulo mdio dos laos 100 escritores 84,00
Proposto (GS)
ascendentes e descendentes.
Inclinao axial, nmero de linhas, posio
Mtodo
da margem inferior, ngulo mdio dos laos 160 escritores 75,63
Proposto (GS)
ascendentes e descendentes.
Inclinao axial, nmero de linhas, posio
Mtodo
da margem inferior, ngulo mdio dos laos 200 escritores 70,50
Proposto (GS)
ascendentes e descendentes.
121

Obviamente, quanto maior o nmero de escritores, mais consistentes precisam


ser as abordagens de identificao, e mais discriminatrios precisam ser os conjuntos de
caractersticas utilizados por estas abordagens.
Deve-se ressaltar que na Tabela 4.5 apenas foram includas abordagens de
identificao de autoria em documentos manuscritos que utilizam caractersticas
grafomtricas, tal qual o mtodo proposto. Tambm para facilitar a comparao foram
includos resultados do mtodo proposto em experimentos com diferentes nmeros de
escritores (40, 100, 160 e 200).
Pode-se observar que foram obtidos resultados muito significativos quando
comparados aos da literatura, uma vez que para um grupo de 100 escritores foram
alcanadas taxas de 84%; e para 200 escritores taxas de 70.5%. Se comparada a
quantidade de escritores com a dos demais trabalhos analisados, apenas o trabalho de
Pervouchine e Leedham (2007) utiliza um nmero de escritores da mesma magnitude
que o apresentado nesta pesquisa. No entanto, no trabalho de Pervouchine e Leedham
(2007) o resultado obtido de 58%, que inferior aos resultados do mtodo proposto
com 200 escritores (70.5%). A melhor taxa de acerto encontra-se no trabalho de Zois e
Anastassopoulos (2000) com 95%, mas neste caso foi aplicada uma quantidade de 50
escritores, tal taxa praticamente a mesma obtida nos experimentos (93%) com o
mtodo proposto para um grupo com um nmero de 40 escritores.
Os trabalhos que apresentam os melhores resultados: Zois e Anastassopoulos
(2000) e Schlapbach e Bunke (2004), assim como a abordagem proposta, utilizam
caractersticas relacionadas inclinao (do texto e de palavras), isto vem ressaltar a
relevncia desta caracterstica grafomtrica para o processo de identificao da escrita
humana (seja ela automtica ou no).
Ao comparar a abordagem proposta, com resultados de abordagens que utilizam
caractersticas no-grafomtricas, como apresentado na Tabela 2.3, pode-se observar
que os resultados obtidos apresentam-se superiores aos de muitos trabalhos, tais como:
Bulacu et al. (2007), He et al. (2008), Siddiqi e Vicent (2008). Ao se relacionar os
resultados com o nmero de escritores dos experimentos, os resultados obtidos
apresentam-se ainda mais promissores, uma vez que em muitos destes estudos um
nmero relativamente pequeno de escritores foi aplicado, como, por exemplo, em Said
et al. (1998) no qual um taxa de identificao de 96% foi obtida, no entanto apenas 10
escritores participaram dos experimentos.
122

Cabe ressaltar que foram realizados experimentos com um nmero incremental


de escritores (ou seja, para 20, 40, 60, etc.), sendo que isto permitiu uma avaliao de
quando o mtodo proposto atinge a estabilidade, ou seja, quando pouca ou nenhuma
alterao nos resultados pode ser observada. Dessa forma, com um nmero de 200
escritores quase nenhum ganho ou perda nas taxas de identificao percebido (ver
Grfico 3.1). Isto reduz o tamanho da amostra necessrio para garantir a confiabilidade
dos resultados do mtodo proposto em experimentos futuros. Alm disto, sabe-se que
em situaes reais, dificilmente os peritos se deparam com um nmero de suspeitos to
elevado.

4.6. Consideraes Finais


Este captulo apresentou uma anlise detalhada dos resultados obtidos com os
experimentos de validao do mtodo proposto levando-se em considerao diferentes
aspectos. Alm disso, uma comparao dos resultados obtidos com outros trabalhos
apresentados na literatura tambm foi realizada.
No prximo Captulo so apresentadas as principais concluses deste trabalho
bem como sugestes de trabalhos futuros.
123

Captulo 5

Concluso

A escrita humana como elemento biomtrico vendo sendo alvo de muitas


pesquisas. Muitas destas pesquisas apresentam solues computacionais para o
problema de identificao de autoria em documentos manuscritos. Nesse contexto, esta
pesquisa teve por objetivo a definio de um mtodo computacional para identificao
de autoria em documentos manuscritos utilizando caractersticas grafomtricas.
O mtodo proposto envolveu a definio de um conjunto de caractersticas a
serem extradas de documentos manuscritos, mais especificamente de cartas forenses
modelo PUCPR e, posteriormente, o uso destas caractersticas para o processo de
identificao de autoria propriamente dito.
Assim, foi estabelecido um protocolo experimental de modo que cenrios de
testes para prova de conceito pudessem ser realizados a fim de se avaliar e validar o
mtodo proposto. Finalmente, realizou-se a anlise dos resultados obtidos sob a tica da
grafoscopia sem esquecer os aspectos cientficos e computacionais.
Portanto, apresenta-se a seguir as principais concluses com base nas anlises
dos resultados, das caractersticas grafomtricas e, ainda, do nmero de escritores
considerados durante os experimentos realizados. Seguem as concluses:

I. Anlises individuais com o grupo de caractersticas (f1-f12):

as caractersticas globais apresentam uma maior relevncia no processo de


identificao de autoria, considerando-se o conjunto de caractersticas
estudadas e implementadas. Em um segundo momento, as caractersticas
locais, em nvel de palavra e caractere, auxiliaram o mtodo a refinar os
resultados;
124

a caracterstica inclinao axial apresenta-se como a caracterstica que


individualmente e em grupo tem a maior relevncia no processo de
identificao;

caractersticas globais e locais que dependem da demarcao de linhas,


introduziram rudo nos dados extrados, pois algumas particularidades da
escrita de um escritor (tais como, escrever para cima/baixo) no foram
suportadas pelos algoritmos de extrao aplicados.

II. Anlises com agrupamentos de caractersticas:


agrupamentos de caractersticas empricos foram construdos (ver Tabela
3.3) e pode-se observar que em todos os grupos com resultados significativos
a caracterstica inclinao axial estava presente;

o grupo empiricamente composto que apresentou o melhor resultado foi o


mesmo que quele resultante da aplicao de um processo formal de seleo
de caractersticas. Este grupo foi chamado de GS e composto pelas
caractersticas: f1 -,Nmero total de linhas da carta, f6 ,- Posio da margem
inferior, f8 - Inclinao axial e f12 -ngulo geral dos laos ascendentes e
descendentes
III. Anlises do nmero de escritores:

os resultados produzidos por mtodos de identificao de autoria dependem


diretamente do nmero de escritores utilizados nos experimentos. Quanto
maior o nmero de escritores mais consistentes e confiveis precisam ser as
caractersticas que fazem parte do mtodo de identificao, uma vez que
mais discriminatrias as mesmas precisam ser;

experimentos com um nmero incremental de escritores (20, 40, 60, 80, 100,
120, 140, 160, 180 e 200) foram realizados e com 200 escritores as taxas de
identificao obtidas apresentaram uma convergncia assinttica, ou seja,
praticamente nenhum aumento ou reduo nestas taxas de acerto foi
observado. Isto demonstra a confiabilidade e estabilidade do mtodo
proposto, uma vez, que para novos experimentos no sero necessrios mais
do que 200 escritores para atingir resultados confiveis.
125

Com base no contexto apresentado, pode-se concluir que o Mtodo Proposto


nesta pesquisa, composto apenas por caractersticas grafomtricas, atingiu resultados
comparveis aos apresentados na literatura e em muitos casos superiores, tanto com
abordagens que apresentam apenas caractersticas grafomtricas quanto com abordagens
que no utilizam caractersticas grafomtricas (ver Seo 4.5).
Assim, pode-se propor trabalhos futuros que envolvam a reviso do processo de
extrao de todas as caractersticas que introduziram rudo nos resultados. Em especial
um tratamento para corrigir logicamente a inclinao axial das linhas das cartas forenses
antes do procedimento de extrao de primitivas. Deste modo, caractersticas como o
tamanho das palavras, bem como, a altura das mesmas podero ter maior relevncia nas
taxas de identificao.
Outro trabalho bastante promissor para o refinamento dos resultados o estudo e
a implementao de novas caractersticas grafomtricas em nvel de palavras e
caracteres. Pode-se observar, com os experimentos realizados, que tais caractersticas
auxiliam no refinamento dos resultados e neste sentido que novos estudos devem ser
conduzidos.
O presente trabalho coloca-se ainda como mais uma contribuio na rea de
Anlise e Reconhecimento de Documentos tendo como principal objetivo auxiliar a
anlise forense de manuscritos, ressaltando-se que a fundamentao tcnico-cientfica
tem por base os mesmos fundamentos utilizados pelos peritos em anlises forenses de
documentos questionados.
126

Referncias

ABUTALEB, A. S. Automatic thresholding of gray level pictures using two dimensional


entropy. Computers Graphics & Image Processing, n. 47, p.22-32, 1989.

AMARAL, A. M. M. M.; FREITAS, C. O. A.; BORTOLOZZI, F. Identificao de Autoria


Offline em Documentos Manuscritos. In: SIMPSIO BRASILEIRO DE SEGURANA DA
INFORMAO E DE SISTEMAS COMPUTACIONAIS, 2012. Anais do Simpsio
Brasileiro de Segurana da Informao e de Sistemas Computacionais. Porto Alegre: SBC,
p. 598-610, 2012a.

AMARAL, A. M. M. M.; FREITAS, C. O. A.; BORTOLOZZI, F. The Graphometry Applied to


Writer Identification. In: INTERNATIONAL CONFERENCE ON IMAGE PROCESSING,
COMPUTER VISION AND PATTERN RECOGNITION, 2012. Proceedings of International
Conference on Image Processing, Computer Vision and Pattern Recognition EUA: CSREA
Press, v.1. p. 351-356, 2012b.

AMARAL, A. M. M. M., FREITAS, O. A., BORTOLOZZI, F. Feature Selection for Forensic


Handwriting Identification. In: INTERNATIONAL CONFERENCE ON DOCUMENT
ANALYSIS AND RECOGNITION, 2013. Proceedings of International Conference on
Document Analysis and Recognition (ICDAR), p. 922-926, 2013a.

AMARAL, A. M. M. M.; FREITAS, C. O. A.; BORTOLOZZI, F. Multiple Graphometric


Features for Writer Identification as part of Forensic Handwriting Analysis. In:
INTERNATIONAL CONFERENCE ON IMAGE PROCESSING, COMPUTER VISION,
AND PATTERN RECOGNITION, 2013. Proceedings of International Conference on
Image Processing, Computer Vision, and Pattern Recognition, v. 1. p. 10-17, 2013b.

AMARAL, A. M. M. M.; FREITAS, C. O. A.; BORTOLOZZI, F. Combining multiple features


based on graphometry for writer identification as part of Forensic Handwriting Analysis. In:
INTERNATIONAL DOCUMENT IMAGE PROCESSING, 2013. Proceedings of
International Document Image Processing. Patras-Greece: International Association for
Pattern Recognition (IAPR), v.1. p. 23-30, 2013c.

BARANOSKI, F. Verificao da autoria em documentos manuscritos usando SVM. 2005,


106p. Dissertao (Mestrado em Cincia da Computao) - Pontifcia Universidade Catlica do
Paran, Paran.

BENSEFIA, A.; PAQUET, T.; HEUTTE, L. A writer identification and verification system.
Pattern Recognition Letters, v.26, n.13, p.2080-2092, 2005.

BERWANGE, A. R.; LEAL, J. E. F. Noes de paleografia e diplomtica. Santa Maria:


Editora da Universidade Federal de Santa Maria, 3.ed. Revista e Ampliada. 2008, 124p.

BLANKERS, V.; NIELS, R.; VUURPIJL, L. Writer identification by means of explainable


features: shapes of loops and lead-in strokes. In: BELGIAN-DUTCH CONFERENCE ON
ARTIFICIAL INTELLIGENCE, 2007. Proceedings of Belgian-Dutch Conference on
Artificial Intelligence, p. 17-24, 2007.

BOUCKAERT, R. R.; FRANKE, E.; HALL, M.; KIRKBY, R.; REUTEMANN, P.;
SEEWALD, A.; SCUSE, D. WEKA manual for version 3-6-1. University of Waikato,
Hamilton, New Zealand, 2009. 212p.
127

BUI, Q. A.; VISANI, M.; PRUM S.; OGIER, J. M. Writer identification using TF-IDF for
cursive handwritten word recognition. In: INTERNATIONAL CONFERENCE ON
DOCUMENT ANALYSIS AND RECOGNITION, 2011. Proceedings of International
Conference on Document Analysis and Recognition (ICDAR), p. 844-848, 2011.

BULACU, M.; SCHOMAKER, L.; BRINK, A. Text-independent writer identification and


verification on offline Arabic handwriting. In: INTERNATIONAL CONFERENCE ON
DOCUMENT ANALYSIS AND RECOGNITION, 2007. Proceedings of International
Conference on Document Analysis and Recognition (ICDAR), p.769-773, 2007.

BURGES, C. J. C. A tutorial on Support Vector Machines for pattern recognition. Data Mining
and Knowledge Discovery, p.121-167, 1998.

CAVALCANTI, A.; LIRA, E. Grafoscopia essencial. Porto Alegre: Sagra Luzzatto, 1996.
151p.

CHEN, J.; LOPRESTI, D.; KAVALLIERATOU, E. The impact of ruling lines on writer
identification. In: INTERNATIONAL CONFERENCE ON FRONTIERS IN HANDWRITING
RECOGNITION, 2010. Proceedings of International Conference on Frontiers in
Handwriting Recognition, p.439-444, 2010.

DASH, M.; LIU, H. Fetaure selection for classification. Intelligent Data Analysis, p. 131-156,
1997.

DUDA, R. O.; HART, P. E. Pattern classification and scene Analysis. USA: Wiley-
Interscience, 1973.

FACON, J. Morfologia matemtica: teoria e exemplos. Editora Universitria Champagnat da


Pontifcia Catlica do Paran: Curitiba, 1996. 304p.

FERRARI, V.; FEVRIER, L.; JURIE, F.; SCHMID, C. Groups of adjacent contour segments
for object detection. IEEE Transaction on PAMI, n. 30, p.36 - 51, 2008.

FRANKE, K.; SCHOMAKER, L.; VEENHUIS, C.; VUURPIJL, L.; VAN ERP, M.; GUYON,
I. WANDA: a common ground for forensic handwriting examination and writer identification.
ENFHEX news - Bulletin of the European Network of Forensic Handwriting Experts,
n.1/04, p. 23-47, 2004.

FREITAS, C. O. A. Uso de modelos escondidos de Markov para reconhecimento de


palavras manuscritas. 2001, 188p. Tese (Doutorado em Informtica) - Pontifcia Universidade
Catlica do Paran, Paran.

FREITAS, C. O. A.; BORTOLOZZI, F.; SABOURIN, R. Study of perceptual similarity


between different lexicons. International Journal of Pattern Recognition and Artificial
Intelligence. v.18, n.7, p.1321-1338, 2004.

FREITAS, C. O. A.; OLIVEIRA, L. S.; BORTOLOZZI, F.; SABOURIN, R. Brazilian Forensic


Letter Database. In: INTERNATIONAL WORKSHOP ON FRONTIERS ON
HANDWRITING RECOGNITION, 2008. Proceedings of International Workshop on
Frontiers on Handwriting Recognition, v.1, p.64-69, 2008.

FREITAS, C. O. A.; VOLPI NETO, A. Tcnicas forenses nos crimes de falsidade documental:
assinatura realizada por rob?. mbito Jurdico, Rio Grande, 40, 30/04/2007. Disponvel
em:<http://www.ambito-
juridico.com.br/site/index.php?n_link=revista_artigos_leitura&artigo_id=4033>. Acesso em:
21/10/2010.
128

GROSICKI, E.; CARR, M.; BRODIN, J. M.; GEOFFROIS, E. RIMES: evaluation campaign
for handwritten mail processing. In: INTERNATIONAL CONFERENCE ON FRONTIERS ON
HANDWRITING RECOGNITION, 2008. Proceedings of International Conference on
Frontiers on Handwriting Recognition, 2008.

HALL, M. A. Correlation-based feature subset selection for machine learning. 1998, 178 p.
Tese (Doctor of Philosophi) - University of Waikato, Hamilton New Zealand.

HANGAI, S.; YAMANAKA, S.; HANAMOTO, T. On-line signature verification based on


altitude and direction of pen movement. In: INTERNATIONAL CONFERENCE ON
MULTIMEDIA & EXPO, 2000. Proceedings of International Conference on Multimedia &
Expo, v.1, p. 489492, 2000.

HE, Z.; YOU, X.; TANG, Y. Writer identification of Chinese handrwriting documents using
hidden markov tree model. Pattern Recognition, v.41, p.1295-1307, 2008.

HELLI, B.; MOGHADDAM, E. A text-independent Persian writer identification based on


feature relation graph (FRG). Pattern Recognition, v.43, p.2199-2209, 2010.

HERTEL, C.; BUNKE, H. A set of novel features for writer identification. In:
INTERNATIONAL CONFERENCE ON AUDIO-AND VIDEO-BASED BIOMETRIC
PERSON AUTHENTICATION, 2003. Proceedings of International Conference on Audio-
and video-based Biometric Person Authentication, p. 679-687, 2003.

HILTON, O. Scientific examination of questioned documents. New York: Elsevier, 1982.


436p.

JAIN, R.; DOERMANN, D. Offline writer Identification using K-adjacent segments. In:
Proceedings of International Conference on Document Analysis and Recognition, p.769-
773, 2011.

JIN, W.; WANG, Y.; TAN, T. Text-independent writer identification based on fusion of
dynamic and static features. In: INTERNATIONAL WORKSHOP BIOMETRIC
RECOGNITION SYSTEMS, 2005. Proceedings of the International Workshop Biometric
Recognition Systems, p. 197-204, 2005.

JUSTINO, E. J. R. O Grafismo e os modelos escondidos de Markov na verificao


automtica de assinaturas. 2001, 131p. Tese (Doutorado em Cincia da Computao) -
Pontifcia Universidade Catlica do Paran, Paran.

KARUNAKARA, K.; MALLIKARJUNASWAMY, B. P. Writer Identification based on offline


handwritten document images in Kannada language using empirical mode decomposition
method. International Journal on Computer Applications, v.30, n.6, p.31-36, 2011.

KARTHIK, K.; AGRAWAL, R.; BHATTACHARYYA, C. A large margin approach for writer
independent online handwriting classification. Pattern Recognition Letters, v.29, p. 933-937,
2008.

KOPPENHAVER, K. M. Forensic document examination: principles and practices. Humana


Press, 2007. 315p.

KUMAR, J.; PRASAD, R.; CAO, H.; ALMAGEED, W. A.; DOERMANN; NATARAJAN, D.
Shape codebook based handwritten and machine printed text zone extraction. In:
INTERNATIONAL CONFERENCE ON DOCUMENT RECOGNITION AND RETRIEVAL,
2011. Proceedings of International Conference on Document Recognition and Retrieval,
2011.
129

LIMA, A. R. G. Mquinas de vetores suporte na classificao de impresses digitais. 2002,


81p. Dissertao (Mestrado em Cincia da Computao) - Universidade Federal do Cear,
Fortaleza, Cear.

LIU, H. YU, L. Toward integrating feature selection algorithms for classification and clustering,
IEEE Transaction on Knowledge and Data Engineering, vol. 17, n. 4, p. 491-502, 2005.

LIU, H.; MOTODA. H. Feature selection for knowledge discovery and data mining. Boston:
Klwer Academic Publishers, 1998. 214p.

LUNA, E. C. H.; RIVERON, E. M. F.; CALDERON, S. G. A supervisoned algorihm with a


new differentiated-weighting scheme for identifying the author of a handwritten text. Pattern
Recognition Letters, v.32, p. 1139-1144, 2011.

MENDES, L.B. Documentoscopia. Campinas: Millennium, 2003. 344 p.

MORRIS, R. N. Forensic handwriting identification: fundamental concepts and principles.


San Diego, California: Academic Press, 2000. 238p.

NAMBOODIRI, A.M., GUPTA, S. Text independent writer identification from online


handwriting. In: INTERNATIONAL WORKSHOP ON FRONTIERS IN HANDWRITING
RECOGNITION, 2006. Proceedings of International Workshop on Frontiers in
Handwriting Recognition, p. 2326, 2006.

NOGUERAS, E. S.; ZANUY, M. F. Biometric recognition using online uppercase handwritten


text. Pattern Recognition, v. 45, p.128-144, 2012.

OLIVEIRA, L. S.; SABOURIN, R. Support Vector Machines for handwritten numerical string
recognition. In: INTERNATIONAL WORKSHOP ON FRONTIERS IN HANDWRITING
RECOGNITION, 2004. Proceedings of International Workshop on Frontiers in
Handwriting Recognition, p.39- 44, 2004.

OLIVEIRA, L.S.; JUSTINO, E.; FREITAS, C. O. de A.; SABOURIN, R. The graphology


applied to signature verification. In: CONFERENCE OF THE INTERNATIONAL
GRAPHONOMICS SOCIETY, 2005. Proceedings of Conference of the International
Graphonomics Society, v.1,p.286-290, 2005.

OH, I.S; SUEN, C.Y.A class-modular feedforward neural network for handwriting recognition,
Pattern Recognition, v.35, p. 229-244, 2002.

OSBORNE, A. Questioned documents. 2.ed. Albany, New York: Boyd Printing Company,
1929. 230p.

OSUNA, E.; FREUD, R.; GIROSI, F. Support Vector Machines: training and applications. MIT
Artificial Intelligence Memo 1602; MIT A. I.Lab, 1997.

OTSU, N. A threshold selection method from gray-level histograms. IEEE Transations


Systems, Man. and Cybernetics, SMC 9, v.1, p.63-66, 1979.

PALMER, A. N. The Palmer method of business writing. New York: The A. N. Palmer
Company, 1935. 98p.

PELLAT, SOLANGE. Le lois de lcriture. Paris: Libraire Vuibert, 1927. 63p.

PERVOUCHINE, V.; LEEDHAM, G. Extraction and analysis of forensic document examiner


features used for writer identification. Pattern Recognition, v.40, p.1004-1013, 2007.
130

PHILLIP, M. F. FISH: das Forensische Informations-System Handschriften des


bundeskriminalamtes eine analyse nach uber 5 Jahren Wirkbetrieb (Tech. Rep.).
Wiesbaden, Germany: Kriminaltechnisches Institut 53, Bundeskriminalamt, 1996.

PIKASO SOFTWARE INC. Write-On 1.0 for windows user manual. Pikaso Software
Inc.Canada, 2000. 34p.

PLAMONDON, R.; LORRETE, G. Automatic signature verification and writer identification:


the state of the art. Pattern Recognition, v. 37, n.2, p. 107-131, 1989.

PLATT, J.; CRISTIANINI, N.; SHAWE-TAYLOR, J. Large margin DAGs for multiclass
classification. Advances in Neural Information Processing Systems. MIT Press. p.547-553,
2000.

SAID, H.E.S.; PEAKE, G.S, TAN, T; BAKER, K. Writer identification from non-uniformly
skewed handwriting images. In: BRITISH MACHINE VISION CONFERENCE, 1998.
Proceeding of British Machine Vision Conference, p. 478-487, 1998.

SAID, H. E. S.; TAN, T.; BAKER, K. Personal identification based on handwritings. Pattern
Recognition, v.33, n.1, p.149-160, 2000.

SAUDEK, R. Experiments with handwriting. Great Britain: George Allen & Unwin, 1978.
389p.

SCARPEL, R. A. Utilizao de Support Vector Machine em previso de insolvncia de


empresas. In: SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL, 2005. Anais do
Simpsio Brasileiro de Pesquisa Operacional Gramado, RS, p. 671- 677, 2005.

SCHOMAKER, L.; FRANKE, K; BULACU, M. Using codebooks of fragmented connected-


component contours in forensic and historic writer identification. Pattern Recognition Letters,
v 28, p.719727, 2007.

SCHLAPBACH, A.; BUNKE, H. Off-line handwriting identification using HMM based


recognizers. In: INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION, 2004.
Proceedings of International Conference on Pattern Recognition, v.2, p. 654-658, 2004.

SIDDIQI, I.; VINCENT N. Combining global and local features for writer identification. In:
INTERNATIONAL CONFERENCE ON FRONTIERS IN HANDWRITING RECOGNITION,
2008. Proceedings of International Conference on Frontiers in Handwriting Recognition,
p.48-53, 2008.

SDERMAN, H.; O'CONNELL, J. Manuel d'enqute criminelle modern. trad. Jacques


David. Paris: Payot, 1953. 452 p.

SREEJAJ, M.; IDICULA, S. M. A survey on writer identification schemas. International


Journal of Computer Applications, v. 26, n. 2, july, p.23-33, 2011.

SRIHARI, S. N.; SHI, Z. Forensic handwritten document retrieval system: document image
analysis for libraries. In: INTERNATIONAL WORKSHOP ON PUBLICATION DATE, 2004.
Proceedings of International Workshop on Publication Date, p.188- 194, 2004.

STENBERG, S. R. Grayscale morphology. Computer Vision Graphics Image Process, n.35,


p.333-355, 1986.
131

TAN, T. Rotation invariant texture features and their use in automatic script identification.
IEEE Transaction on Pattern Analysis and Machine Intelligence, v.20, n.7, p. 751-756,
1998.

TAN, G. X.; GAUDIN, C.V.; KOT, A. C. Automatic writer identification framework for online
handwritten documents using character prototypes. Pattern Recognition, v.42, p.3313-3323,
2009.

THUMWARIN, P., MATSUURA, T. On-line writer recognition for Thai based on velocity of
barycenter of penpoint movement. In: IEEE INTERNATIONAL CONFERENCE ON IMAGE
PROCESSING, 2004. Proceedings of IEEE International Conference on Image Processing,
p.889892, 2004.

TSAI, L. M. Y. Online writer identification using the point distribution model. In:
INTERNATIONAL CONFERENCE ON SYSTEM, MAN AND CYBERNETICS, 2005.
Proceedings of International Conference on System, Man and Cybernetics, v.2, p 1264-
268, 2005.

VAN ERP, M.; VUURPIJL, L.G.; FRANKE, K.; SCHOMAKER, L. R. B. The WANDA
measurement tool for forensic document examination. In: INTERNATIONAL CONFERENCE
OF THE GRAPHONOMIC SOCIETY, 2003. Proceedings of International Conference of the
Graphonomic Society (IGS), Scottsdale, Arizona, USA, p.2-5, 2003.

VAPNIK, V. Estimation of dependences based on empirical data. Nauka, Moscow, 1979.


(English translation: Springer Verlag, New York, 1982). 505p.

VILLELA, C. A. X. Escrita escolar brasileira: a escrita inglesa. Revista Lngua Escrita. n.7,
julho-dezembro, p.6-23, 2009.

VOLPI NETO, A.; FREITAS, C.O.A. Escrever para deixar sua marca. Information
Management. So Paulo: Editora Guia, n. 39, 2013.

ZANER-BLOSER. Handwriting research web site. Disponvel em: <http://zaner-bloser.com>.


Acesso em: 20 outubro 2010.

ZHU, Y.; TAN, T.; WANG, Y. Font recognition based on global texture analysis. Transaction
on Pattern Analysis and Machine Intelligence, v. 23, n.10, p.1192-1200, 2001.

ZIMMERMANN, M.; BUNKE, M. Automatic segmentation of the IAM off-line


database forhandwritten English text. In: INTERNATIONAL CONFERENCE ON
PATTERN RECOGNITION, 2002. Proceedings of International Conference on
Pattern Recognition, p.35-39, 2002.

ZOIS, E.; ANASTASSOPOULOS, V. Morphological waveform coding for writer


identification. Pattern Recognition, v. 33, n.3, p. 385-398, 2000.
132

Apndice A

Resultados de Experimentos Iniciais com KNN

A tabela abaixo apresenta os resultados de experimentos iniciais realizados no mtodo


proposto (ainda com um conjunto parcial de caractersticas) com o classificador KNN.

Tabela A.1. Resultados dos experimentos realizados com KNN

Grupo de Primitivas Taxa de Acerto (%)

f1 & f2 & f3 & f4 & f5 & f6 & f 7 & f8 42,00


f1 & f2 & f 3 & f4 & f5 & f6 & f 7 29,00
f1 2,00
f2 17,00
f3 17,00
f4 3,00
f5 3,00
f6 2,00
f7 20,00
f8 67,00
f1 & f8 72,00
f2 & f8 49,00
f3 & f8 33,00
f4 & f8 60,00
f5 & f8 60,00
f6 & f8 75,00
f7 & f8 50,00
f1 & f6 & f8 76,00
f1 & f6 9,00

También podría gustarte