Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Cet article est consacr une grammaire du verbe akkadien utilisant des techniques
de machines finies tats. Elle repose sur des techniques innovantes permettant de relier diffrentes reprsentations dune forme (quatre dans cette grammaire) au moyen dune structure
arborescente et de compiler statiquement des structures de traits dans des transducteurs finis.
RSUM.
ABSTRACT. This article is devoted to a grammar of the Akkadian verb using finite state technology.
It is based on new techniques for which relationships between several representations of a
form (four in the Akkadian grammar) are expressed using a tree structure. Feature structures
compiled statically in finite transducers are also involved.
MOTS-CLS :
KEYWORDS:
174
1. Introduction
Lakkadien est la langue des anciens Babyloniens et Assyriens. Elle a t crite en
criture cuniforme, un systme invent lorigine par les Sumriens qui avaient une
autre langue. Lakkadien a t crit pendant peu prs vingt-trois sicles en Msopotamie et dans tout le Proche-Orient. La majeure partie des documents est constitue
de tablettes dargile.
Lakkadien est une langue smitique. Sa morphologie comporte beaucoup de traits
communs avec les autres langues smitiques. Elle a aussi quelques originalits au
niveau de la vocalisation et de la structure des schmes. Sa flexion verbale est trs
riche.
Dans cet article, nous prsentons une grammaire de la morphologie verbale de
lakkadien utilisant une approche tats finis. Cela sinscrit dans une tradition bien ancre qui remonte la fin des annes 1980 avec les travaux prcurseurs de (Kay, 1987),
suivis de beaucoup dautres. Tout en bnficiant des apports de ses devanciers, ce travail est original parce quil fonde lanalyse sur une description des formes flchies
structure en arbre au lieu dune structure linaire.
Nous utilisons une classe de relations rationnelles qui explicite une structure au
moyen doprateurs de produit cartsien typs. Ces relations peuvent tre n-aires,
cest--dire consister en ensembles rguliers de n-uplets et non ncessairement de
paires. Une relation n-aire peut se compiler automatiquement en un transducteur fini
n rubans.
La grammaire du verbe akkadien est une relation quaternaire dcrite en deux parties distinctes : une premire partie structurelle dcrit la structure dune forme au
moyen dun ensemble de contraintes dcrites sparment et appliques simultanment. Une seconde partie dcrit les transformations de surface au moyen dun ensemble de rgles de rcriture appliques en cascade. Cette partie dcrit notamment la
forme des verbes faibles. Ces verbes ont certains lments de leur racine qui napparaissent pas dans les formes flchies.
Lintrt de notre grammaire nest pas dans la ralisation dune chane de traitement automatique du babylonien, mais dans la formulation de questions de recherche
et la validation de certaines techniques originales mises en uvre. Quant un emploi
en pratique, on pourrait envisager un usage pdagogique, en complment des manuels
ainsi quune aide lidentification des racines pour les dbutants. Cette identification
est notamment un pralable pour la consultation dun dictionnaire. Dans certains cas
(verbes I-faibles), il faut rechercher une entre une lettre qui ne figure pas dans la
forme flchie rencontre. Dans dautre cas, la lettre apparat dans la forme, mais pas
en position initiale. La tche de reconnaissance de la racine est donc essentielle et na
rien dvident.
Dans la prochaine section nous prsentons brivement les relations multigrains utilises par la grammaire, ainsi que le systme Karamel qui met en uvre ce modle.
Ce systme comprend notamment un langage de dfinition de relations rationnelles
175
176
Ruban lettres
Ruban chiffres
Ruban traits
trois<esp>cent
sep
corr
<esp>
quarante
3
<type=card>
<num=sing>
sep
et
corr
une
1
<gen=fem>
morphologie partition (Grimley-Evans et al., 1996 ; Kiraz, 2001). Elle repose sur
les relations rationnelles multigrains (Barthlemy, 2007b) qui sont des relations n
composantes, n pouvant tre suprieur deux, compiles en des transducteurs multirubans.
Comme des relations rationnelles n-aires, les relations multigrains dfinissent des
n-uplets dont chaque composant est une reprsentation dune forme donne reprsentation de surface, abstraite ou intermdiaire. Chaque reprsentation est une chane
de caractres. Par exemple, il est possible de mettre en relation trois reprsentations
des nombres : avec des chiffres, en toutes lettres, avec des traits morphologiques qui
dterminent le caractre ordinal ou cardinal du nombre, son nombre grammatical (singulier ou pluriel), son genre (fminin, masculin). Un triplet dune telle relation ternaire
est :
(341, trois cent quarante et une, [type=card,num=sing,gen=fem])
Les relations multigrains permettent de mettre en relation terme terme des souschanes de ces diffrentes reprsentations. On peut exprimer le fait que le chiffre 3 corresponde, dans un certain sens, au terme trois cent. Cela se fait au moyen dunits
danalyse verticales appeles des grains. On a ainsi deux axes danalyse : horizontal,
les composantes de la relation correspondant des rubans dun transducteur, et vertical, les grains, des sous-units concernant un sous-ensemble non vide des rubans de la
relation. Les grains sont un moyen de synchroniser partiellement les diffrents rubans.
La figure 1 donne un exemple dutilisation de grains pour le triplet donn ci-dessus.
Elle illustre le fait que les grains sont typs : il y a un type corr pour les units
de correspondance lettres-chiffres, un type sep pour des lments de jonction entre
composants sur le ruban lettres et le type forme pour dsigner la forme entire. Notons
que dautres dcoupages en grains auraient t aussi lgitimes sur cet exemple : par
exemple, on aurait pu ne pas distinguer dlments de jonctions. On aurait galement
pu mettre en relation les traits avec le seul lment final puisque la cardinalit, le
nombre et le genre sont nots en fin de forme seulement.
Dans la version la plus simple des relations multigrains, celle que nous utilisons
dans cet article, les diffrentes units verticales doivent tre imbriques et la concatnation nest possible quentre deux units comportant les mmes rubans. Ces relations
177
sont closes sous oprations rationnelles et aussi sous intersection et diffrence ensembliste.
178
indpendantes dans une nouvelle relation. Ils sont caractriss par un nom, une arit et
pour chaque membre, un nom, un type et une valeur par dfaut. Pour bien distinguer
deux notions, nous allons introduire une terminologie explicite : nous appellerons ruban une composante dune relation, ce qui correspond un niveau ou un tage dans
les autres modles de morphologie tats finis et la notion de ruban (ou bande) dun
transducteur. Nous appellerons champ un paramtre dun produit cartsien n-aire.
Comme les rubans des relations, les champs des grains sont nomms et ils ont chacun une valeur par dfaut. Chaque type de grain a un nom. Supposons quun type de
grain est dfini avec comme nom tg1 et comme champs c1, c2. Dans une expression
rgulire, on notera un grain de la faon suivante : {tg1: c1 = w1, c2 = w2}. Une
notation positionnelle est possible, dans laquelle les valeurs des champs sont donnes
dans lordre de la dclaration du type : {tg1: w1, w2}. Lorsque lon utilise la notation avec noms, on nest pas oblig de respecter cet ordre. Si certains champs sont
omis dans un grain, implicitement ces champs contiendront leur valeur par dfaut. Une
notation spciale dsigne un grain ne comportant que les valeurs par dfaut : {tg1}.
Karamel implmente des structures de traits non rcursives. Les structures de traits
sont types. Les types doivent tre dclars dans la section dclaration dune grammaire. Une structure de traits peut apparatre nimporte o dans une expression rgulire, mais gnralement les structures de traits apparaissent sur des rubans ddis.
Elles sont compiles statiquement. Il faut les utiliser avec prcaution parce quelles
permettent de dcrire des dpendances longue distance qui sont coteuses et peuvent
provoquer une explosion combinatoire. Les techniques de compilation utilises sont
dcrites dans (Barthlemy, 2007a).
Un type de structure de traits est dfini avec un nom et une liste de traits, avec
pour chacun lensemble fini de symboles quil peut prendre comme valeur. Les valeurs sont des symboles ordinaires, qui doivent tre dclars. La notation des traits
est la notation habituelle, sauf que le type de la structure doit tre donn au dbut : [Name:gen=masc,num=2]. Comme cest lusage, il est possible de ne spcifier quune partie des traits et leur ordre nest pas significatif. Le nom du type dnote
une classe de symboles qui regroupe toutes les valeurs possibles pour les traits et les
symboles auxiliaires utiliss dans la compilation des structures.
La langage Karamel fournit des macros appeles abrviations. Une abrviation est
une notation pour un type de grain dj dclar o une partie des valeurs des champs
est dfinie la dclaration de la macro et une autre partie est dfinie lappel, sous
forme de paramtres. La notation dune abrviation est identique celle dun grain.
La langage Karamel offre trois faons de dfinir une relation multigrain : avec une
expression rgulire, avec un calcul ou avec une rgle contextuelle. Nous allons voir
ces trois types de dfinitions successivement.
Une expression rgulire utilise les symboles, classes de symboles et grains dfinis
dans les dclarations. Elles peuvent comporter les oprateurs rationnels et les extensions habituelles, comme par exemple loptionnalit note avec un point dinterrogation. De plus, lintersection et la diffrence sont disponibles. Les oprateurs binaires
179
ne peuvent tre utiliss que sur des expressions portant sur le mme sous-ensemble
des rubans de la relation. Il est par exemple possible de concatner deux petits grains
ou deux gros grains, mais pas un petit et un gros.
Le deuxime moyen de dfinir une relation est dappliquer un oprateur une ou
plusieurs relations dj dfinies. Tous les oprateurs utiliss dans les expressions rgulires sont disponibles, mais il y en a trois autres qui sont spcifiques ce deuxime
type de dfinition. Il y a la projection qui supprime un ou plusieurs rubans de son
oprande. Le deuxime oprateur est le produit externe qui combine une relation multigrain et un langage sur un ruban donn. Il est utilis pour appliquer un transducteur
sur une entre qui nest pas encore divise en grains. Tous les partitionnements en
grains de cette entre sont dabord calculs, puis il y a calcul de lintersection de
ces partitionnements avec un ruban de la relation. Lopration duale est la projection
externe qui extrait un langage dun ruban dune relation. Une projection standard est
dabord effectue, puis les informations concernant les limites de grains sont enleves.
Les rgles contextuelles sont un troisime moyen de dfinir une relation. Ces
rgles sont des rgles de restriction gnralise propose par (Yli-Jyr et Koskenniemi, 2004). Ce sont une gnralisation des rgles deux niveaux (rgles de restriction de contexte ou de coercition de surface). Une rgle consiste en trois expressions
rgulires : un univers, un motif gauche et un motif droit. Il sagit dune rgle de
type si. . .alors. . . : tous les n-uplets de lunivers qui concordent avec le motif gauche
doivent aussi concorder avec le motif droit. Un symbole spcial not # peut tre utilis
dans les motifs pour identifier des positions ou des occurrences de symboles spcifiques qui doivent tre communs aux deux motifs. Cela permet de dfinir lquivalent
de ce que lon appelle le centre dans les autres sortes de rgles contextuelles.
Les expressions rgulires et les rgles contextuelles peuvent comprendre des variables qui prennent leurs valeurs dans des ensembles finis de symboles. Une expression avec une telle variable est quivalente la disjonction des expressions obtenues
en substituant une valeur la variable. Les variables permettent dcrire lunification
de traits.
Une relation rgulire peut dcrire la rcriture dun ruban. Les autres rubans
peuvent ventuellement conditionner cette rcriture. Par exemple, une distinction
par cas est susceptible de soprer en fonction de la valeur dun trait. La rcriture
sexprime au moyen de couples (sous-chane avant, sous-chane aprs) au niveau le
plus profond de larborescence. Une telle relation de rcriture peut tre exprime
au moyen dune expression rgulire, dun calcul ou dune rgle contextuelle. Lopration de rcriture consiste appliquer cette relation de rcriture sur une relation
ordinaire et se traduit par la modification du contenu du ruban concern.
180
181
ont deux ou quatre consonnes et certaines analyses peuvent admettre des racines comportant des voyelles.
Par exemple, la racine akkadienne prs est relie au concept de dcoupage. Elle
apparat dans le verbe par
asu, qui signifie couper et dcider (on pourrait dire aussi
trancher), mais galement dans le nom paras qui signifie fraction et dans le nom
puruss, dcision. Nous utiliserons cette racine pour la plupart des exemples que
nous donnerons dans cet article. La notion de racine, identifie depuis les premiers
grammairiens de larabe classique, est toujours trs utilise et lidentification de la
racine est une tape cl de lanalyse dune forme.
Une forme flchie comporte un lment central qui comporte lui-mme notamment les trois consonnes radicales et que nous appellerons le noyau verbal. Autour
de ce noyau, il y a des composants concatnatifs qui se traitent comme les affixes des
langues indo-europennes. Ces composants sont des prfixes et suffixes notant des
informations de genre, nombre, personne, cas (ex. : taprus, parsu), des suffixes notant un mode grammatical, des clitiques tels que des pronoms suffixes (parras-ki) et
des particules enclitiques diverses (liprus).
Le systme verbal comporte des formes conjugues et des formes nominales. Les
formes conjugues opposent laccompli linaccompli. La distinction est plus de nature aspectuelle que temporelle, aussi emploierons-nous le terme aspect pour dsigner
cette information. Au-del des deux aspects de base, il existe trois autres formes purement verbales : le parfait, utilis pour exprimer un tat intermdiaire (procs tout
juste achev ou postrieur un accompli), limpratif et le permansif qui exprime un
tat atemporel. Il y a trois formes nominales du verbe : linfinitif, le participe actif et
ladjectif verbal. Ces formes sont soumises dclinaison. Il y a deux genres, trois personnes, trois nombres singulier, duel et pluriel et trois cas nominatif, accusatif et
gnitif. Nous appellerons ces formes galement des aspects, bien que ce soit un usage
abusif du terme.
Lakkadien comporte deux modes grammaticaux qui ne sont pas rellement des
modes du verbe. Le subjonctif est utilis dans les propositions subordonnes. Il est
marqu par un suffixe u bref. Le ventif notait lorigine une notion directionnelle
quil a peu peu perdue. Il est lui aussi not par un suffixe (m, nim ou am).
182
Sous-voix
1
Sous-voix
2
Sous-voix
3
Voix I
forme de base
rciproque
rflexif
itratif
habituel
Voix II
factitif
multiplicatif
multiplicit dobjets
passif
de voix II
itratif
habituel
Voix III
causatif
factitif des
verbes dtat
passif
de voix III
itratif
habituel
Voix IV
passif de
la voix I
incohatif
itratif
habituel
3.4. Vocalisation
Lakkadien connat quatre couleurs de voyelles a, e, i, u et deux longueurs
courte ou longue.
Dans dautres langues smitiques, il existe en plus de la racine un second lment
discontigu dans la morphologie verbale, savoir un schma vocalique parfois compos de plusieurs voyelles intercales dans la racine. Par exemple en arabe, les deux
voyelles a sont ncessaires pour identifier le temps dune forme comme katabtu
(jai crit, accompli). En akkadien, nous pensons quil nexiste pas de schmas de
plus dune voyelle et par consquent, pas de discontigut.
La vocalisation des noyaux verbaux est un des points les plus complexes de la
Composant
Gmination 1
Gmination 2
Infixe t 1
Infixe t 2
Infixe tn
Prfixe mu
Prefixes et n
Voyelle aspectuelle
Voyelle lexicale
Voix
X
X
Sous-voix
Aspect
X
X
183
Lexique
X
X
X
X
X
X
X
X
X
X
X
184
produit avec une gmination marquant linaccompli (en aucun cas avec une gmination de voix II), le n de linfixe tan ou une radicale faible (cf. sous-section 3.5). Dans
les autres cas, une voyelle est insre. Linsertion peut se faire aprs la premire ou la
deuxime consonne selon la nature morphologique des consonnes de la squence, par
exemple : *iptras>iptaras mais *upras>uapras. La consonne choisie parmi
les deux possibles peut se caractriser par un ordre de priorit : prfixe n < deuxime
radicale < premire radicale < prfixe < infixe.
Les deux tableaux 3 donnent un aperu incomplet de la richesse de la morphologie verbale de lakkadien. Ils donnent pour la racine prs les formes conjugues
la troisime personne singulier masculin (deuxime personne pour limpratif) et les
formes nominales au nominatif masculin singulier. Un tableau contenant toutes les
formes ne tiendrait pas sur une page : il y en a plus de 900. Cette prsentation a une
limite notable : les formes conjugues sont dpourvues de suffixes alors que certains
phnomnes ne sont observables quen prsence de suffixes.
Schme
I.1
I.2
I.3
II.1
II.2
II.3
III.1
III.2
III.3
IV.1
IV.3
Schme
I.1
I.2
I.3
II.1
II.2
II.3
III.1
III.2
III.3
IV.1
IV.3
Formes nominales
nominatif masculin singulier
Participe
Adjectif
Infinitif
parisu
parsu
parasu
muptarsu
pitrusu
pitrusu
muptarrisu
pitarrusu
muparrisu
purrusu
purrusu
muptarrisu putarrusu putarrusu
muptarrisu
putarrusu
muaprisu
uprusu
uprusu
mutaprisu utaprusu utaprusu
mutaprisu
utaprusu
mupparsu
naprusu
naprusu
muttaprisu
itaprusu
Formes verbales
masculin singulier 3
Inaccompli
Parfait
Accompli
ipar(r)as
iptar(r)as
iprus
iptar(r)as
iptatras
iptarus
iptanar(r)as iptatarras
iptarrus
uparras
uptarris
uparris
uptarras
uptatarris
uptarris
uptanarras uptatarris
uptarris
uapras
utapris
uapris
utapras
utatapris
utapris
utanapras utatapris
utapris
ipparas
ittapras
ipparis
ittanapras
ittatapras
ittapras
185
Forme pronominale
masc. sing. 3
Permansif
paris
pitrus
pitarrus
purrus
putarrus
putarrus
uprus
utaprus
utaprus
naprus
itaprus
masc. sing. 2
Impratif
purus
pitrus
pitarrus
purris
putarris
putarris
upris
utapris
utapris
napris
itapras
186
forme
paff
noyau
paff
petit
petit
petit
petit
petit
pa
Gros grain
ggfs
pgfs
lex
surf
paff
masc,pl,3
i
i
noyau
accompli,IV.1, classe a/u
pref. n rad rad. voy. cat.
n
p
r
i
p
pa
r
i
187
paff
masc,pl,3
rad.
s
s
u
u
188
189
noyau=intersect(ordre_noyau,infixe_tan,prefixe_voix,...);
190
concatenation_grains=
union(concat(noyau,suffixe_personnel),
concat(prefixe_personnel,noyau,suffixe_personnel));
regexp dependances is
{paff: [pfs:asp=$a,pers=$p,num=$n,gen=$g]}
{noyau: [nfs:asp=$a]}
{paff: [pfs:asp=$a,pers=$p,num=$n,gen=$g]};
{noyau: [nfs:asp=$a]}{paff: [pfs:asp=$a]};
end
couche_1=intersect(concatenation_grains,dependances);
Les descriptions donnes ici distinguent deux cas : des formes avec prfixe personnel et des formes sans prfixe personnel. Le nom couche_1 se rfre la dcomposition en trois couches : affixes personnels, suffixes de mode et clitiques. Les deux
autres couches ne seront pas dtailles ici : leur description suit les mmes principes
que ceux exposs pour les affixes personnels.
191
192
5. valuation
5.1. Couverture
Au moment o ces lignes sont crites, la grammaire couvre les verbes trilitres
forts et les verbes avec une consonne faible. Les verbes plusieurs radicales faibles ne
font pas lobjet dun traitement spcifique et nous ne savons pas dans quelle mesure
ces verbes sont couverts par la grammaire. Le traitement des clitiques est embryonnaire.
La grammaire comporte 71 constructions regexp, 65 calculs et 6 rgles contextuelles. Le transducteur reprsentant lensemble des formes verbales sans lexique a
496 429 tats et 629 377 transitions. Avec le lexique, il y a environ 3 millions dtats et
3,5 millions de transitions. titre de comparaison, une autre grammaire de lakkadien
(Kataja et Koskenniemi, 1988) comporte 123 rgles deux niveaux, une grammaire de
larabe (Beesley, 1998a) comporte 66 rgles de rcriture, une grammaire de lhbreu
(Wintner, 2008) se compile en un transducteur de 2 millions dtats et 2,2 millions de
transitions.
La reprsentation la plus abstraite dune forme est constitue par les structures
de traits des gros grains qui contiennent des traits de nature morphologique. Cette
reprsentation est nanmoins relativement superficielle : elle contient linformation
propos du schme sans en donner une interprtation smantique. Ainsi, il y a des traits
notant la voix et la sous-voix, mais il ny a pas de trait notant le fait quune forme
soit passive ou factitive. La raison de ce fait est que linterprtation smantique des
schmes chappe en grande partie lanalyse morphologique et relve des niveaux
syntaxique, pragmatique et smantique.
Le dveloppement et la mise au point de la grammaire ont t conduits en utilisant un jeu de tests artificiel, savoir le contenu de certains tableaux de conjugaison
donns dans diffrents ouvrages (Malbran-Labat, 2001 ; Huehnergard, 2005 ; Buccellati, 1996). Un tel tableau comporte de nombreuses formes dun petit nombre de
racines (entre une et quatre). La description ayant t dune certaine faon spcialise
pour ce jeu de tests, il ne permet pas de mesurer la couverture de la grammaire.
Le systme Karamel permet dautomatiser la ralisation des tests, ce qui est fort
utile dans la phase de mise au point : chaque modification de la grammaire est susceptible dintroduire des perturbations. Des tests peuvent tre associs aux diffrentes
relations dcrites et la ralisation des tests de non-rgression se fait littralement en
activant un bouton.
Par ailleurs, nous avons constitu manuellement un petit corpus de formes verbales
recueillies dans le code de Hammurabi qui comporte quelques dizaines de formes
pas un corpus trs reprsentatif et les rsultats obteverbales. Ce nest videmment
nus ne sont donc pas trs significatifs. Pour linstant, nous navons pas dindication
de couverture vritablement crdible faire valoir. La constitution dun corpus et la
193
ralisation de tests ont un cot important alors que lutilit pratique dune analyse
automatique na rien dvidente.
La grammaire dans sa version sans lexique est mme dmettre des hypothses
quant aux racines plausibles pour une forme donne. Par ailleurs, pour un usage pdagogique, la grammaire peut facilement tre enrichie de gloses explicatives pour expliciter et motiver ses analyses. Il suffit pour cela dajouter un ruban de plus dans la
relation.
5.2. Difficults
Il serait prsomptueux de penser que notre travail apporte des connaissances nouvelles sur la langue akkadienne. Il vient confirmer certaines difficults que les spcialistes connaissent bien et appeler des clarifications sur certains points.
Les difficults concernent notamment la gmination dinaccompli et linfixe tan.
Cette gmination est optionnelle pour les formes fortes et devient systmatique dans
certaines formes faibles. La gmine et le n de linfixe ont un comportement trs
comparable. Le n en sassimilant la seconde radicale, ressemble une gmination.
Ces deux consonnes sont moiti faibles : elles subsistent dans les squences de deux
consonnes mais tombent dans les squences de trois consonnes, sauf dans le cas o il
y a une radicale faible dans la squence. Dans ce cas-l, cest la radicale qui tombe.
La description du vocalisme de lakkadien est un autre point dlicat. Les ouvrages
tendent prsenter la vocalisation de la racine au moyen de deux voyelles caractrisant
laspect, la voix, la sous-voix et la racine. Ce systme nous semble peu satisfaisant car
il ignore certaines ralits. Dabord, le nombre de variables dans la racine nest pas
fixe. Il y en a entre une et trois. Le nombre nest pas directement li aux traits tels
que laspect ou la voix, mais des critres de prosodie et dcriture. Ensuite, il ny a
quune voyelle qui dpende vritablement des quatre traits et cest dans presque tous
les cas la dernire. Lusage de prsenter des schmas de deux voyelles est certainement
emprunt dautres langues smitiques ou au smitique compar.
Par ailleurs, la description des voyelles en trois catgories (aspectuelle, catgorielle, appui) a aussi des limites. Elle fonctionne assez mal pour limpratif dont les
voyelles sont catgorielles par leur couleur et voyelles dappui par leur propension
disparatre.
En ce qui concerne lemplacement des voyelles, nous avons utilis un modle additif o lon part avec les seules voyelles significatives et o lon insre les voyelles
dappui en utilisant un ordre de priorit. Une prsentation inverse est souvent utilise, o les formes comprennent initialement de nombreuses voyelles et une rgle fait
disparatre celles qui sont inutiles selon certains critres phontico-graphiques. Un essai dimplmentation de cette rgle a donn des rsultats catastrophiques, peut-tre
lis une comprhension imparfaite du mcanisme dcrit. Les grammaires abordent
peu ce point qui na pas une grande importance pratique pour la lecture et lanalyse
194
des textes, puisque les voyelles dappui ne portent pour ainsi dire pas dinformation
morphologique.
La grammaire de lakkadien est actuellement la plus grosse dveloppe avec des
relations multigrains et en utilisant le systme Karamel. Elle dmontre la possibilit
de traiter des problmes de taille relle avec ces technologies. Le lecteur pourrait douter de ce fait, en considrant quil sagit seulement dune description partielle dune
langue avec un lexique de petite taille. Le traitement est partiel, certes, mais il comporte la partie la plus difficile de la morphologie akkadienne, et celle-ci est trs riche.
Quant au lexique, Karttunnen a montr que contrairement lintuition, ce nest pas un
facteur de complexit, mais un moyen de limiter les risques dexplosion combinatoire
(Karttunen, 1994).
Cette grammaire est galement un exemple original dapproche hybride, qui utilise
la fois des contraintes simultanes et des contraintes successives. Lapproche simultane dans la ligne de la morphologie deux niveaux et partition, est utilise pour
dcrire la morphotactique alors quune cascade de rgles de rcriture est utilise pour
les alternances au sens large, qui finalisent la vocalisation par des voyelles dappui et
calculent les formes faibles.
Les structures de traits sont un formalisme trs utilis pour le traitement de la
langue naturelle en gnral et la morphologie en particulier. Elles permettent de reprsenter de linformation partielle de faon conomique et lisible. Karamel a la particularit de proposer une compilation statique en machines finies. Cela avait dj t fait,
(Kiraz, 1997 ; Zajac, 1998), mais notre connaissance, aucune tude de cas na t
publie dmontrant que ces techniques peuvent tre utilises pour des problmes de
taille relle. La grammaire utilise sept types de structures de traits comportant treize
traits ayant des domaines de valeurs de cardinalit comprises entre trois et quatorze.
Des unifications avec variables sont utilises pour dcrire la circonfixation des formes
conjugues prfixe, ce qui est un cas de dpendance longue distance.
tage du prfixe
tage de la racine
tage du patron
tage de la vocalisation
Radical
V
a
a
b
C
b
V
i
i
195
r
C
r
196
Xerox en utilisant XFST. Elle fait lobjet dune dmonstration en ligne1 , ainsi que de
diverses publications (Beesley, 1998a ; Karttunen et Beesley, 2000).
La description structurelle fait intervenir deux lments runis par interdigitation :
la racine et un motif comprenant les voyelles et les positions des consonnes de la racine. Par rapport aux tages de McCarthy, le motif est la contraction des tages de
prfixe, de patron et de vocalisation : tous les lments sont raliss sauf les radicales
dont la position est nanmoins marque. Un exemple donn dans (Beesley, 2001) est
le suivant : [ktb&CaCaC]+Verb+FormI+Perf+Act o le symbole & indique une interdigitation et les crochets dlimitent la porte de cette opration. Une telle chane
au niveau lexical est mise en correspondance au niveau de surface avec katab. Cet
lment ternaire (racine, motif, traits) se comporte comme un affixe concatn avec
dautres affixes qui ne comportent que deux lments : une reprsentation lexicale de
type habituel et des traits morphologiques. Un algorithme spcifique appel compileremplace a t dvelopp pour raliser linterdigitation plus efficacement quavec lalgorithme dintersection (Karttunen et Beesley, 2000).
Le niveau lexical de cette description est htrogne. Les affixes ordinaires concatnent une reprsentation lexicale semblable celle de la morphologie deux niveaux
et des traits. Le noyau, comme nous venons de le voir, concatne trois informations
orthogonales. En Karamel, les informations de natures diffrentes sont mises sur des
rubans diffrents, ce qui est plus satisfaisant. De plus, Karamel offre des structures de
traits alors que XFST noffre que des traits isols dont la porte, laffectation et lunification doivent tre spcifies explicitement dans la grammaire. Karamel est donc
plus dclaratif et plus convivial. La contrepartie se paie en termes defficacit. Les
structures de traits peuvent savrer coteuses et la gestion de multiples rubans prsente galement un lger surcot. Dune certaine faon, une grammaire XFST ressemble la version compile dune grammaire Karamel dans laquelle les diffrents
rubans sont concatns grain par grain et les traits sont reprsents par des symboles.
XFST est plus efficace et plus compact parce que lcriture directe de la forme compile ouvre la voie certaines optimisations. Karamel nutilise pas encore lalgorithme
compile-remplace qui est plus efficace que lintersection, mais rien nempcherait
de lintgrer pour optimiser les performances.
Une partie importante de la morphologie partition a t dveloppe spcifiquement pour la morphologie smitique, et plus prcisment le traitement de la langue
syriaque par George Anton Kiraz (Grimley-Evans et al., 1996 ; Kiraz, 2001). Ce modle implmente lanalyse plusieurs tages au moyen de transducteurs plusieurs
rubans. Dans la grammaire du syriaque, il y a trois tages (racine, vocalisation et patron comportant les prfixes) qui dterminent une forme de surface, ce qui fait un total
de quatre rubans. Les rgles contextuelles, inspires de la morphologie deux niveaux,
offrent un centre qui correspond peu prs notre notion de grain, mais les contextes
nutilisent pas cette notion. Ils dcrivent sparment chaque ruban. Dans certains cas
cest assez pratique, mais il arrive que ce soit une limitation. On ne peut pas spcifier
1. URL : http ://www.xrce.xerox.com/competencies/content-analysis/arab
197
dans le contexte une correspondance entre des lments de deux rubans. Par ailleurs,
il ny a quun seul type de grain et pas de possibilit dimbrication. La mise en correspondance des chanes de longueurs variables semble utilise avec modration dans la
grammaire. Cela concerne la possibilit de mettre en correspondance un lment dun
niveau avec la chane vide, et un lment de la racine avec ses deux occurrences dans
les cas de gmination.
Une des spcificits de notre travail, par rapport aux quatre travaux que nous venons de prsenter, est quil ny a pas dinterdigitation, cest--dire dentrelacement de
deux entits constituants discontigus : il ny a quun seul lment discontigu, savoir la racine. Toutes les modifications de la racine se font par insertion dun lment
contigu (prfixe, infixe, gmine ou voyelle). Cela est li aux particularits de lakkadien et ne peut probablement pas tre adapt dautres langues. Nous ne proposons
pas une description plusieurs tages de la langue. Ceci nest pas d aux contraintes
du formalisme utilis qui est, au contraire, tout fait adapt la multiplication des
rubans. Le mcanisme dabrviation (ou macro), dont nous avons montr lutilisation
pour le lexique de racines, permet davoir une description spare des diffrents tages
sans que cela se traduise par un ruban spcifique de la relation.
Notre grammaire a t dveloppe aprs celles que nous avons mentionnes dans
cette section. Elle a bnfici de leurs apports. De la morphologie deux niveaux
vient la philosophie de la description morphotactique au moyen dune intersection de
contraintes locales. De la rcriture vient la cascade ralisant les alternances produisant la forme de surface. De la morphologie partition viennent la multiplicit des
niveaux et lide dunit danalyse (grain).
7. Conclusion
Dans cet article nous avons prsent un fragment de traitement automatique dune
langue dont les documents sont parmi les plus anciens crits de toute lhumanit, une
langue morte depuis plus de deux mille ans. Pour ce traitement, nous utilisons des
techniques rcentes, qui appartiennent encore au domaine de la recherche.
Le caractre mort de la langue a eu peu dincidences sur notre travail. Il a comme
consquence que la phonologie de la langue reste hypothtique. Cest un point important quand il sagit des alternances. Notre travail a t peu affect par cette ralit car
il ne comporte pas une description trs fine des alternances. Il ne va pas au-del des
phnomnes principaux tels quils sont dcrits dans les ouvrages de rfrence.
Nos points de comparaison ne sont pas les travaux concernant les autres langues
mortes ou anciennes, mais des langues linguistiquement apparentes, comme larabe,
lhbreu et le syriaque.
Notre travail peut se poursuivre dans sa direction actuelle pour complter sa grammaire sur certains points inachevs : les clitiques, les verbes bi et quadrilitres, les
verbes doublement faibles, les noms, les adjectifs. Amliorer la qualit de la des-
198
8. Bibliographie
Barthlemy F., Finite-State Compilation of Feature Structures for Two-Level Morphology , International Workshop on Finite State Methods in Natural Language Processing
(FSMNLP), Potsdam, Germany, 2007a.
Barthlemy F., Multi-grain Relations , Implementation and Application of Automata, 12th
International Conference (CIAA), Prague, Czech Republic, p. 243-252, 2007b.
Barthlemy F., Using Mazurkiewicz Trace Languages for Partition-Based Morphology ,
ACL, Prague (Czech Republic), 2007c.
Beesley K., Finite-state morphological analysis and generation of Arabic at Xerox Research :
Status and plans in 2001 , ACL Workshop on Arabic Language Processing, 2001.
Beesley K. R., Arabic morphology using only finite-state operations , in M. Rosner (ed.),
Proceedings of the Workshop on Computational Approaches to Semitic languages, 1998a.
Beesley K. R., Arabic morphology using only finite-state operations , Proceedings of the
ACL Workshop on Computational Approaches to Semitic languages, p. 50-57, 1998b.
Beesley K. R., Karttunen L., Finite State Morphology, CSLI Publications, 2003.
Breckwoldt T., Cunningham G., Black J., George A., Postgate N., A Concise Dictionary of
Akkadian, Harrassowitz Verlag, 2000.
Buccellati G., A Structural Grammar of Babylonian, Harrassowitz Verlag, 1996.
Grimley-Evans E., Kiraz G., Pulman S., Compiling a Partition-Based Two-Level Formalism ,
COLING, Copenhagen, Denmark, p. 454-459, 1996.
Heise J., The Akkadian language , , http ://www.sron.nl/jheise/akkadian/, 1995.
Huehnergard J., A Grammar of Akkadian, Eisenbrauns, Harvard Semitic Studies, 2005.
Kaplan R. M., Kay M., Regular Models of Phonological Rule Systems , Computational Linguistics, vol. 20 :3, p. 331-378, 1994.
Karttunen L., Constructing Lexical Transducers , COLING-94, Kyoto, Japan, p. 406-411,
1994.
Karttunen L., Beesley K. R., Finite-State Non-Concatenative Morphotactics , Fifth Workshop of the ACL Special Interest Group in Computational Phonology, Luxembourg (Luxembourg), p. 1-12, 2000.
Kataja L., Koskenniemi K., Finite-state description of semitic morphology : a case study
of Ancient Akkadian , Proceedings of the 12th conference on Computational linguistics,
Association for Computational Linguistics, Morristown, NJ, USA, p. 313-315, 1988.
Kay M., Nonconcatenative finite-state morphology , ACL Proceedings, Third European
Conference, p. 2-10, 1987.
Kiraz G. A., Compiling Regular Formalisms with Rule Features into Finite-State Automata ,
ACL, Madrid, Spain, 1997.
Kiraz G. A., Computational Nonlinear Morphology, Cambridge University Press, 2001.
199
Koskenniemi K., Two-Level Model for Morphological Analysis , IJCAI-83, Karlsruhe, Germany, p. 683-685, 1983.
Malbran-Labat F., Manuel de langue akkadienne, Publications de linstitut Orientaliste de Louvain (50), Peeters, 2001.
McCarthy J. J., A Prosodic Theory of Nonconcatenative Morphology , Linguistic Inquiry,
vol. 12, p. 373-418, 1981.
Sanchez R., Cours dakkadien , , disponible sur http ://gedomia.ens-lsh.fr/, 2005.
Wintner S., Strengths and weaknesses of finite-state technology : A case study in morphological grammar development , Nat. Lang. Eng., vol. 14, n 4, p. 457-469, 2008.
Yli-Jyr A. M., Koskenniemi K., Compiling contextual restrictions on strings into finite-state
automata , Proceedings of the Eindhoven FASTAR Days 2004 (September 34), Eindhoven,
The Netherlands, December, 2004.
Zajac R., Feature Structures, Unification and Finite-State Transducers , In FSMNLP98 :
International Workshop, on Finite State Methods in Natural Language Processing., 1998.