TAL 2009 50 2 07 Barthelemy

Une description morphologique structure
en arbre du verbe akkadien qui utilise

des structures de traits et des transducteurs
multirubans
Franois Barthlemy
Conservatoire National des Arts-et-Mtiers (CNAM-CEDRIC)
292, rue Saint-Martin, 75003 Paris
francois.barthelemy@cnam.fr
Institut National de Recherche en Informatique (INRIA, projet Alpage)
domaine de Voluceau, 78153 Le Chesnay cedex
Cet article est consacr une grammaire du verbe akkadien utilisant des techniques
de machines finies tats. Elle repose sur des techniques innovantes permettant de relier diffrentes reprsentations dune forme (quatre dans cette grammaire) au moyen dune structure
arborescente et de compiler statiquement des structures de traits dans des transducteurs finis.
RSUM.
ABSTRACT. This article is devoted to a grammar of the Akkadian verb using finite state technology.
It is based on new techniques for which relationships between several representations of a
form (four in the Akkadian grammar) are expressed using a tree structure. Feature structures
compiled statically in finite transducers are also involved.
MOTS-CLS :
akkadien, morphologie, machines finies tats, structures de traits.
KEYWORDS:
Akkadian, Morphology, Finite-State Machines, Feature Structures.
TAL. Volume 50 n 2/2009, pages 173 199
174
TAL. Volume 50 n 2/2009
1. Introduction
Lakkadien est la langue des anciens Babyloniens et Assyriens. Elle a t crite en
criture cuniforme, un systme invent lorigine par les Sumriens qui avaient une
autre langue. Lakkadien a t crit pendant peu prs vingt-trois sicles en Msopotamie et dans tout le Proche-Orient. La majeure partie des documents est constitue
de tablettes dargile.
Lakkadien est une langue smitique. Sa morphologie comporte beaucoup de traits
communs avec les autres langues smitiques. Elle a aussi quelques originalits au
niveau de la vocalisation et de la structure des schmes. Sa flexion verbale est trs
riche.
Dans cet article, nous prsentons une grammaire de la morphologie verbale de
lakkadien utilisant une approche tats finis. Cela sinscrit dans une tradition bien ancre qui remonte la fin des annes 1980 avec les travaux prcurseurs de (Kay, 1987),
suivis de beaucoup dautres. Tout en bnficiant des apports de ses devanciers, ce travail est original parce quil fonde lanalyse sur une description des formes flchies
structure en arbre au lieu dune structure linaire.
Nous utilisons une classe de relations rationnelles qui explicite une structure au
moyen doprateurs de produit cartsien typs. Ces relations peuvent tre n-aires,
cest--dire consister en ensembles rguliers de n-uplets et non ncessairement de
paires. Une relation n-aire peut se compiler automatiquement en un transducteur fini
n rubans.
La grammaire du verbe akkadien est une relation quaternaire dcrite en deux parties distinctes : une premire partie structurelle dcrit la structure dune forme au
moyen dun ensemble de contraintes dcrites sparment et appliques simultanment. Une seconde partie dcrit les transformations de surface au moyen dun ensemble de rgles de rcriture appliques en cascade. Cette partie dcrit notamment la
forme des verbes faibles. Ces verbes ont certains lments de leur racine qui napparaissent pas dans les formes flchies.
Lintrt de notre grammaire nest pas dans la ralisation dune chane de traitement automatique du babylonien, mais dans la formulation de questions de recherche
et la validation de certaines techniques originales mises en uvre. Quant un emploi
en pratique, on pourrait envisager un usage pdagogique, en complment des manuels
ainsi quune aide lidentification des racines pour les dbutants. Cette identification
est notamment un pralable pour la consultation dun dictionnaire. Dans certains cas
(verbes I-faibles), il faut rechercher une entre une lettre qui ne figure pas dans la
forme flchie rencontre. Dans dautre cas, la lettre apparat dans la forme, mais pas
en position initiale. La tche de reconnaissance de la racine est donc essentielle et na
rien dvident.
Dans la prochaine section nous prsentons brivement les relations multigrains utilises par la grammaire, ainsi que le systme Karamel qui met en uvre ce modle.
Ce systme comprend notamment un langage de dfinition de relations rationnelles
Description morphologique de lakkadien
175
n-aires. La section 3 prsente rapidement lakkadien et sa morphologie verbale. Vient

ensuite la description de la grammaire. Les deux dernires sections traitent des apports de ce travail et le comparent dautres grammaires de langues smitiques en
morphologie tats finis.
2. Les relations multigrains et le systme Karamel

2.1. Morphologie tats finis et relations multigrains
Les machines finies tats automates et transducteurs finis sont des modles
oprationnels sduisants parce quelles sont efficaces et leur smantique est claire.
Grce leur contre-partie dclarative, les expressions rgulires, elles forment un outil trs utilis en dpit de leur faible pouvoir expressif. Des algorithmes permettent
de combiner ces machines (union, concatnation, intersection, composition) et de les
optimiser (dterminisation, minimisation).
La morphologie tats finis est lapproche qui consiste utiliser des machines
finies pour raliser la description morphologique des langues. Une telle description
est excutable et peut raliser aussi bien lanalyse morphologique dune forme flchie
que la gnration dune forme partir de diffrents facteurs tels que le lemme et des
traits morphologiques. Le modle permet de reprsenter des analyses ambigus de
faon compacte grce un partage de structure.
La morphologie tats finis sest dveloppe au cours des annes 80 et a connu
de nombreux succs pour dcrire la morphologie de langues appartenant diffrentes
familles, avec diffrents mcanismes de drivation et de flexion : des langues utilisant des prfixes et suffixes en petit nombre (pour une forme donne), telles que les
langues indo-europennes, des langues agglutinantes telles le turc et des langues
morphologie non concatnative telles larabe.
La morphologie dune langue est dcrite gnralement au moyen dun formalisme
base de rgles contextuelles et compile en un transducteur fini qui met en relation
formes de surface et reprsentations plus ou moins abstraites.
La morphologie tats finis connat deux courants majeurs et des variantes. Le
premier courant consiste dcrire par les rgles des contraintes qui sappliquent simultanment. Cest la morphologie deux niveaux (Koskenniemi, 1983) qui a eu un
grand succs mais semble en perte de vitesse depuis une dcennie. Le second courant
dcrit des contraintes successives, sappliquant dans un ordre dtermin. Ce sont les
rgles de rcriture (Kaplan et Kay, 1994). Ce modle semble avoir pris le dessus,
notamment grce une bonne implmentation, les Xerox Finite-State Tools (XFST en
abrg) (Beesley et Karttunen, 2003). En termes de calcul, le respect de contraintes
simultanes peut sexprimer par une intersection de transducteurs reprsentant chacun
une contrainte et les contraintes successives comme une composition de transducteurs.
La morphologie multigrain a t propose par lauteur de cet article dans la ligne du modle contraintes simultanes et plus particulirement dans celle de la
176

Forme
corr
Ruban lettres
Ruban chiffres
Ruban traits
trois<esp>cent
sep
corr
<esp>
quarante
3
<type=card>
<num=sing>
sep
et
corr
une
1
<gen=fem>
Figure 1. Un exemple danalyse multigrain
morphologie partition (Grimley-Evans et al., 1996 ; Kiraz, 2001). Elle repose sur
les relations rationnelles multigrains (Barthlemy, 2007b) qui sont des relations n
composantes, n pouvant tre suprieur deux, compiles en des transducteurs multirubans.
Comme des relations rationnelles n-aires, les relations multigrains dfinissent des
n-uplets dont chaque composant est une reprsentation dune forme donne reprsentation de surface, abstraite ou intermdiaire. Chaque reprsentation est une chane
de caractres. Par exemple, il est possible de mettre en relation trois reprsentations
des nombres : avec des chiffres, en toutes lettres, avec des traits morphologiques qui
dterminent le caractre ordinal ou cardinal du nombre, son nombre grammatical (singulier ou pluriel), son genre (fminin, masculin). Un triplet dune telle relation ternaire
est :
(341, trois cent quarante et une, [type=card,num=sing,gen=fem])
Les relations multigrains permettent de mettre en relation terme terme des souschanes de ces diffrentes reprsentations. On peut exprimer le fait que le chiffre 3 corresponde, dans un certain sens, au terme trois cent. Cela se fait au moyen dunits
danalyse verticales appeles des grains. On a ainsi deux axes danalyse : horizontal,
les composantes de la relation correspondant des rubans dun transducteur, et vertical, les grains, des sous-units concernant un sous-ensemble non vide des rubans de la
relation. Les grains sont un moyen de synchroniser partiellement les diffrents rubans.
La figure 1 donne un exemple dutilisation de grains pour le triplet donn ci-dessus.
Elle illustre le fait que les grains sont typs : il y a un type corr pour les units
de correspondance lettres-chiffres, un type sep pour des lments de jonction entre
composants sur le ruban lettres et le type forme pour dsigner la forme entire. Notons
que dautres dcoupages en grains auraient t aussi lgitimes sur cet exemple : par
exemple, on aurait pu ne pas distinguer dlments de jonctions. On aurait galement
pu mettre en relation les traits avec le seul lment final puisque la cardinalit, le
nombre et le genre sont nots en fin de forme seulement.
Dans la version la plus simple des relations multigrains, celle que nous utilisons
dans cet article, les diffrentes units verticales doivent tre imbriques et la concatnation nest possible quentre deux units comportant les mmes rubans. Ces relations
177
sont closes sous oprations rationnelles et aussi sous intersection et diffrence ensembliste.
2.2. Le systme Karamel

Le systme Karamel a t dvelopp par lauteur de cet article pour mettre en
uvre la morphologie multigrain. Il propose un langage pour dfinir les relations,
ainsi quun environnement de dveloppement qui offre une interface graphique pour
crire, compiler et tester des relations. Nous allons prsenter ici les caractristiques
gnrales du langage. Des exemples concrets et des dtails de syntaxe sont donns
dans la section dcrivant la grammaire de lakkadien.
Une grammaire en Karamel comporte une section de dclarations suivie dune
squence de dfinitions de relations multigrains. La section de dclaration comporte
diffrentes clauses qui dfinissent lunivers considr, savoir les symboles que lon
va manipuler, les composantes des relations, les grains et leur composition.
Les symboles sont structurs en classes qui sont des ensembles finis dfinis par
extension et qui ont un nom. Un symbole est dcrit au moyen dun ou plusieurs caractres unicodes. Lorsquil y a un doute sur les limites dun symbole ou sur le fait quun
caractre est un symbole, la squence de caractres peut tre encadre des symboles <
et >. Par exemple, une voyelle longue est crite par redoublement du caractre notant
cette voyelle : aa pour un a long. Mais la squence aa dans une expression rgulire
dnote la succession de deux a courts. Dans ce contexte-l, le caractre devra scrire
<aa>. La notation avec chevrons simpose pour tous les symboles qui ne sont pas
composs exclusivement de lettres et de chiffres. Par exemple, un espace est not < >,
une virgule <,> et la chane vide <>.
Un symbole peut appartenir plusieurs classes. Dans la dfinition du contenu
dune classe, le nom dune autre classe peut apparatre comme abrviation pour dsigner tous ses lments. Un nom de classe peut de mme tre utilis dans une expression rgulire pour dnoter la disjonction de ses lments.
Les relations sont des n-uplets sans distinction a priori entre entre, sortie et niveau
intermdiaire. La seule notion est celle de composante. Si lon considre une relation
comme un ensemble de n-uplets, une composante correspond une position de ces nuplets. Mais en fait, Karamel utilise des relations composantes nommes, comme les
bases de donnes relationnelles. Si lon considre une vision tabulaire des relations,
une composante est une colonne de la table, ce que lon nomme un attribut dans la
terminologie des bases de donnes relationnelles. Une composante est identifie par
son nom. Les composantes doivent tre dclares au moyen dune clause tape avec
leur nom et lalphabet des symboles susceptibles dapparatre dans les chanes de la
composante.
Les diffrents types de grains doivent tre dclars avec une clause grain. Ces
grains sont des oprateurs de produit cartsien permettant dagrger des sous-relations
178
indpendantes dans une nouvelle relation. Ils sont caractriss par un nom, une arit et
pour chaque membre, un nom, un type et une valeur par dfaut. Pour bien distinguer
deux notions, nous allons introduire une terminologie explicite : nous appellerons ruban une composante dune relation, ce qui correspond un niveau ou un tage dans
les autres modles de morphologie tats finis et la notion de ruban (ou bande) dun
transducteur. Nous appellerons champ un paramtre dun produit cartsien n-aire.
Comme les rubans des relations, les champs des grains sont nomms et ils ont chacun une valeur par dfaut. Chaque type de grain a un nom. Supposons quun type de
grain est dfini avec comme nom tg1 et comme champs c1, c2. Dans une expression
rgulire, on notera un grain de la faon suivante : {tg1: c1 = w1, c2 = w2}. Une
notation positionnelle est possible, dans laquelle les valeurs des champs sont donnes
dans lordre de la dclaration du type : {tg1: w1, w2}. Lorsque lon utilise la notation avec noms, on nest pas oblig de respecter cet ordre. Si certains champs sont
omis dans un grain, implicitement ces champs contiendront leur valeur par dfaut. Une
notation spciale dsigne un grain ne comportant que les valeurs par dfaut : {tg1}.
Karamel implmente des structures de traits non rcursives. Les structures de traits
sont types. Les types doivent tre dclars dans la section dclaration dune grammaire. Une structure de traits peut apparatre nimporte o dans une expression rgulire, mais gnralement les structures de traits apparaissent sur des rubans ddis.
Elles sont compiles statiquement. Il faut les utiliser avec prcaution parce quelles
permettent de dcrire des dpendances longue distance qui sont coteuses et peuvent
provoquer une explosion combinatoire. Les techniques de compilation utilises sont
dcrites dans (Barthlemy, 2007a).
Un type de structure de traits est dfini avec un nom et une liste de traits, avec
pour chacun lensemble fini de symboles quil peut prendre comme valeur. Les valeurs sont des symboles ordinaires, qui doivent tre dclars. La notation des traits
est la notation habituelle, sauf que le type de la structure doit tre donn au dbut : [Name:gen=masc,num=2]. Comme cest lusage, il est possible de ne spcifier quune partie des traits et leur ordre nest pas significatif. Le nom du type dnote
une classe de symboles qui regroupe toutes les valeurs possibles pour les traits et les
symboles auxiliaires utiliss dans la compilation des structures.
La langage Karamel fournit des macros appeles abrviations. Une abrviation est
une notation pour un type de grain dj dclar o une partie des valeurs des champs
est dfinie la dclaration de la macro et une autre partie est dfinie lappel, sous
forme de paramtres. La notation dune abrviation est identique celle dun grain.
La langage Karamel offre trois faons de dfinir une relation multigrain : avec une
expression rgulire, avec un calcul ou avec une rgle contextuelle. Nous allons voir
ces trois types de dfinitions successivement.
Une expression rgulire utilise les symboles, classes de symboles et grains dfinis
dans les dclarations. Elles peuvent comporter les oprateurs rationnels et les extensions habituelles, comme par exemple loptionnalit note avec un point dinterrogation. De plus, lintersection et la diffrence sont disponibles. Les oprateurs binaires
179
ne peuvent tre utiliss que sur des expressions portant sur le mme sous-ensemble
des rubans de la relation. Il est par exemple possible de concatner deux petits grains
ou deux gros grains, mais pas un petit et un gros.
Le deuxime moyen de dfinir une relation est dappliquer un oprateur une ou
plusieurs relations dj dfinies. Tous les oprateurs utiliss dans les expressions rgulires sont disponibles, mais il y en a trois autres qui sont spcifiques ce deuxime
type de dfinition. Il y a la projection qui supprime un ou plusieurs rubans de son
oprande. Le deuxime oprateur est le produit externe qui combine une relation multigrain et un langage sur un ruban donn. Il est utilis pour appliquer un transducteur
sur une entre qui nest pas encore divise en grains. Tous les partitionnements en
grains de cette entre sont dabord calculs, puis il y a calcul de lintersection de
ces partitionnements avec un ruban de la relation. Lopration duale est la projection
externe qui extrait un langage dun ruban dune relation. Une projection standard est
dabord effectue, puis les informations concernant les limites de grains sont enleves.
Les rgles contextuelles sont un troisime moyen de dfinir une relation. Ces
rgles sont des rgles de restriction gnralise propose par (Yli-Jyr et Koskenniemi, 2004). Ce sont une gnralisation des rgles deux niveaux (rgles de restriction de contexte ou de coercition de surface). Une rgle consiste en trois expressions
rgulires : un univers, un motif gauche et un motif droit. Il sagit dune rgle de
type si. . .alors. . . : tous les n-uplets de lunivers qui concordent avec le motif gauche
doivent aussi concorder avec le motif droit. Un symbole spcial not # peut tre utilis
dans les motifs pour identifier des positions ou des occurrences de symboles spcifiques qui doivent tre communs aux deux motifs. Cela permet de dfinir lquivalent
de ce que lon appelle le centre dans les autres sortes de rgles contextuelles.
Les expressions rgulires et les rgles contextuelles peuvent comprendre des variables qui prennent leurs valeurs dans des ensembles finis de symboles. Une expression avec une telle variable est quivalente la disjonction des expressions obtenues
en substituant une valeur la variable. Les variables permettent dcrire lunification
de traits.
Une relation rgulire peut dcrire la rcriture dun ruban. Les autres rubans
peuvent ventuellement conditionner cette rcriture. Par exemple, une distinction
par cas est susceptible de soprer en fonction de la valeur dun trait. La rcriture
sexprime au moyen de couples (sous-chane avant, sous-chane aprs) au niveau le
plus profond de larborescence. Une telle relation de rcriture peut tre exprime
au moyen dune expression rgulire, dun calcul ou dune rgle contextuelle. Lopration de rcriture consiste appliquer cette relation de rcriture sur une relation
ordinaire et se traduit par la modification du contenu du ruban concern.
180
3. Prsentation de lakkadien et de sa morphologie verbale

3.1. La langue et son criture
Lakkadien est une des langues de la Msopotamie ancienne (Heise, 1995 ; Sanchez, 2005). Elle a t crite dans une priode courant approximativement de 2300
lan 0, dabord par des populations akkadophones, puis en tant que langue dchange
et de culture par des populations ayant une autre langue. Elle a notamment servi de
langue diplomatique pour tout le Proche-Orient, y compris lgypte et lAnatolie. Elle
a t la langue administrative des empires babyloniens et assyriens.
Lakkadien est une langue morte depuis plus de 2000 ans. Elle est connue travers
les textes crits qui ont t retrouves en grand nombre dans des fouilles archologiques, surtout sous forme de tablettes dargile. Il existe des centaines de milliers de
documents dans les muses et de nouvelles dcouvertes viennent continuellement enrichir ce stock. La langue est dcrypte depuis la fin du XIXe sicle.
Lakkadien tait crit au moyen de lcriture cuniforme emprunte au sumrien,
une autre langue de la Msopotamie. Cest une criture htrogne, avec un soussystme phontique syllabique qui a t adapt la phonologie de lakkadien, et deux
sous-systmes smantiques (logogrammes et dterminatifs) emprunts sans grands
changements.
Dans le sous-systme syllabique, chaque signe note phontiquement une syllabe
qui comprend ncessairement une voyelle, ventuellement prcde ou suivie dune
consonne. Les motifs reprsents sont donc : V, CV, VC et CVC. Il est impossible
dcrire une consonne sans une voyelle immdiatement adjacente, comme par exemple
une squence de trois consonnes successives en milieu de forme ou une squence de
deux consonnes successives en position initiale ou finale. On peut supposer que certaines des voyelles prsentes dans lcriture ntaient pas prononces mais servaient
seulement de support pour crire une consonne. Notons au passage que contrairement
la majorit des langues smitiques, toutes les voyelles sont crites. La longueur des
voyelles, bien que significative, nest pas note dans lcriture.
3.2. Racines et schmes

Lakkadien est rattach la famille des langues smitiques. Il forme le principal
et presque unique reprsentant de la branche orientale. La morphologie en gnral et
celle du verbe en particulier sont typiques des langues smitiques.
Une des spcificits de la morphologie des langues smitiques est lexistence
dunits morphologiques discontigus, cest--dire dlments spars par diffrents
matriaux et qui constituent une unit danalyse atomique. Au premier rang de ces
units est la racine dune forme qui est constitue le plus souvent par trois consonnes
que nous appellerons les consonnes radicales. Certaines racines moins nombreuses
181
ont deux ou quatre consonnes et certaines analyses peuvent admettre des racines comportant des voyelles.
Par exemple, la racine akkadienne prs est relie au concept de dcoupage. Elle
apparat dans le verbe par
asu, qui signifie couper et dcider (on pourrait dire aussi
trancher), mais galement dans le nom paras qui signifie fraction et dans le nom
puruss, dcision. Nous utiliserons cette racine pour la plupart des exemples que
nous donnerons dans cet article. La notion de racine, identifie depuis les premiers
grammairiens de larabe classique, est toujours trs utilise et lidentification de la
racine est une tape cl de lanalyse dune forme.
Une forme flchie comporte un lment central qui comporte lui-mme notamment les trois consonnes radicales et que nous appellerons le noyau verbal. Autour
de ce noyau, il y a des composants concatnatifs qui se traitent comme les affixes des
langues indo-europennes. Ces composants sont des prfixes et suffixes notant des
informations de genre, nombre, personne, cas (ex. : taprus, parsu), des suffixes notant un mode grammatical, des clitiques tels que des pronoms suffixes (parras-ki) et
des particules enclitiques diverses (liprus).
Le systme verbal comporte des formes conjugues et des formes nominales. Les
formes conjugues opposent laccompli linaccompli. La distinction est plus de nature aspectuelle que temporelle, aussi emploierons-nous le terme aspect pour dsigner
cette information. Au-del des deux aspects de base, il existe trois autres formes purement verbales : le parfait, utilis pour exprimer un tat intermdiaire (procs tout
juste achev ou postrieur un accompli), limpratif et le permansif qui exprime un
tat atemporel. Il y a trois formes nominales du verbe : linfinitif, le participe actif et
ladjectif verbal. Ces formes sont soumises dclinaison. Il y a deux genres, trois personnes, trois nombres singulier, duel et pluriel et trois cas nominatif, accusatif et
gnitif. Nous appellerons ces formes galement des aspects, bien que ce soit un usage
abusif du terme.
Lakkadien comporte deux modes grammaticaux qui ne sont pas rellement des
modes du verbe. Le subjonctif est utilis dans les propositions subordonnes. Il est
marqu par un suffixe u bref. Le ventif notait lorigine une notion directionnelle
quil a peu peu perdue. Il est lui aussi not par un suffixe (m, nim ou am).
3.3. Morphologie du noyau verbal

Diffrents lments peuvent sajouter la racine pour constituer le noyau du verbe
akkadien. Parmi eux, il y a les voyelles (ex. : paris) en nombre variant de 0 3. Le
noyau peut comporter des infixes qui suivent la premire consonne du noyau, linfixe t
(pitrus) ou linfixe tan (*pitanrus>pitarrus). Il peut y avoir un prfixe n ou
(ex. : upris). Notons que ces prfixes sont considrs comme membres du noyau
car leur prsence est rgie par les mmes facteurs que les autres lments du noyau
et ils peuvent porter un infixe (ex. : utapris). Le dernier type de composant du
182
Sous-voix
1
Sous-voix
2
Sous-voix
3
Voix I
forme de base
rciproque
rflexif
itratif
habituel
Voix II
factitif
multiplicatif
multiplicit dobjets
passif
de voix II
itratif
habituel
Voix III
causatif
factitif des
verbes dtat
passif
de voix III
itratif
habituel
Voix IV
passif de
la voix I
incohatif
itratif
habituel
Tableau 1. Smantisme approximatif des schmes
noyau est constitu de la gmination ou redoublement dune radicale, la deuxime ou

la troisime (ex. : purris).
Les diffrentes transformations sont organises en un systme deux dimensions
quasiment orthogonales, chacune comportant des transformations mutuellement exclusives. Selon un premier axe, les formes sont rparties en quatre catgories. Suivant
la terminologie de (Malbran-Labat, 2001), nous les appellerons voix et les numroterons avec un nombre romain. La voix I ne comporte pas de transformation, la voix II
une gmination, la voix III un prfixe et la voix IV un prfixe n. Lautre dimension que nous appellerons sous-voix est numrote en chiffre arabe. La sous-voix 1
ne comporte pas dinfixe, la sous-voix 2 un infixe t et la sous-voix 3 un infixe tan.
Nimporte quelle voix peut se croiser avec nimporte quelle sous-voix lexception de
la voix IV qui ne permet pas de sous-voix 2. Il reste un total de 11 croisements entre
voix et sous-voix qui forment ce que lon nomme les schmes ou les thmes dans la
grammaire des langues smitiques.
Si le systme de schmes est facile dcrire en termes de structure morphologique,
il est plus difficile den dcrire le smantisme. Une part non ngligeable de la smantique des voix est de nature lexicale. Le tableau 1 donne une ide approximative des
aspects verbaux associs aux diffrentes voix.
3.4. Vocalisation
Lakkadien connat quatre couleurs de voyelles a, e, i, u et deux longueurs
courte ou longue.
Dans dautres langues smitiques, il existe en plus de la racine un second lment
discontigu dans la morphologie verbale, savoir un schma vocalique parfois compos de plusieurs voyelles intercales dans la racine. Par exemple en arabe, les deux
voyelles a sont ncessaires pour identifier le temps dune forme comme katabtu
(jai crit, accompli). En akkadien, nous pensons quil nexiste pas de schmas de
plus dune voyelle et par consquent, pas de discontigut.
La vocalisation des noyaux verbaux est un des points les plus complexes de la
Composant
Gmination 1
Gmination 2
Infixe t 1
Infixe t 2
Infixe tn
Prfixe mu
Prefixes et n
Voyelle aspectuelle
Voyelle lexicale
Voix
X
X
Sous-voix
Aspect
X
X
183
Lexique
X
X
X
X
X
X
X
X
X
X
X
Tableau 2. Association trait morphologique-composant morphologique
morphologie akkadienne. Malbran-Labat distingue trois sortes de voyelles, selon les

traits morphologiques qui les dterminent :
certaines voyelles sont dtermines par la voix, la sous-voix et laspect. Nous les
appellerons voyelles aspectuelles ;
certaines voyelles sont dtermines par les trois mmes traits plus une information lexicale : les racines verbales sont distribues dans cinq classes diffrentes qui
utilisent des voyelles diffrentes pour une mme valeur des trois autres traits. Nous
les appellerons voyelles catgorielles. Chaque classe est caractrise par un couple de
voyelles, la premire utilise notamment pour linaccompli, la seconde pour laccompli. Les cinq classes sont a/a, i/i, u/u, a/u et a/i ;
certaines voyelles ne sont pas dtermines par des traits morphologiques, si ce
nest indirectement. Leur couleur est dtermine par la consonne qui suit et leur prsence a pour but dviter les squences de trois consonnes successives (deux en position finale ou initiale). Nous appellerons ces voyelles des voyelles dappui.
Une caractristique de lakkadien est quune seule des voyelles du noyau porte
une information daspect et de schme. Cest la dernire voyelle du noyau sauf dans
quelques cas au schme I.1 (participe et impratif) o cest la premire voyelle qui est
significative.
La vocalisation du noyau comprend plusieurs sous-systmes : les formes conjugues opposent les voix I aux voix II et III, la voix IV tant partage entre les deux
groupes selon les aspects et sous-voix ; les formes nominales et pronominales pour
leur part opposent le schme I.1 aux autres schmes.
Le tableau 2 associe les diffrents composants pouvant apparatre dans le noyau
des traits morphologiques. Les deux infixes t peuvent se cumuler alors que les deux
gminations sont exclusives lune de lautre.
Pour viter les successions de trois consonnes, deux solutions sont utilises : faire
disparatre une des consonnes ou insrer une voyelle. La disparition de consonne se
184
produit avec une gmination marquant linaccompli (en aucun cas avec une gmination de voix II), le n de linfixe tan ou une radicale faible (cf. sous-section 3.5). Dans
les autres cas, une voyelle est insre. Linsertion peut se faire aprs la premire ou la
deuxime consonne selon la nature morphologique des consonnes de la squence, par
exemple : *iptras>iptaras mais *upras>uapras. La consonne choisie parmi
les deux possibles peut se caractriser par un ordre de priorit : prfixe n < deuxime
radicale < premire radicale < prfixe < infixe.
Les deux tableaux 3 donnent un aperu incomplet de la richesse de la morphologie verbale de lakkadien. Ils donnent pour la racine prs les formes conjugues
la troisime personne singulier masculin (deuxime personne pour limpratif) et les
formes nominales au nominatif masculin singulier. Un tableau contenant toutes les
formes ne tiendrait pas sur une page : il y en a plus de 900. Cette prsentation a une
limite notable : les formes conjugues sont dpourvues de suffixes alors que certains
phnomnes ne sont observables quen prsence de suffixes.
3.5. Verbes faibles

Comme dans les autres langues smitiques, il existe en akkadien des verbes faibles,
cest--dire des verbes qui ont une ou plusieurs consonnes radicales qui disparaissent
dans certaines ou toutes les formes flchies. Ces consonnes sont aleph, not , jod (j) et
wav (w). La disparition dune telle consonne laisse parfois une trace : changement de
couleur (*ap
au > ep
eu) ou de longueur des voyelles (*ikul>
kul), changement de place de la gmination (*ubaal
u > ubell
u). Il peut galement y avoir
une disparition sans aucune trace (*ikla > ikla) ou un maintien de la consonne
(uktain). Les verbes faibles sont relativement frquents : approximativement une
forme verbale sur deux est faible. Certaines racines peuvent comporter deux, voire
trois, radicales faibles.
(Malbran-Labat, 2001) crit : les caractristiques morphologiques sont dans une
large mesure identiques pour les verbes forts et les verbes faibles [. . .] les particularits des verbes faibles sont peu nombreuses. Cest lvolution phontique, due la
nature de la faible, qui les diffrencie des verbes forts.
La rgle la plus productive est la suivante : en contact avec une voyelle, la faible
disparat en essayant dallonger cette variable et ventuellement, de changer sa couleur. La tentative dallongement choue si cela viole certaines rgles phonologiques
gnrales de la langue : si la voyelle est dans une syllabe ferme ou si la syllabe suivante comporte dj une longue.
4. Grammaire Karamel du verbe akkadien

Cette section est consacre une grammaire du verbe akkadien crite en Karamel.
Cette grammaire a diffrentes caractristiques : elle utilise plus de deux rubans, elle est
structure au moyen dune arborescence de profondeur deux, elle utilise des structures
Schme
I.1
I.2
I.3
II.1
II.2
II.3
III.1
III.2
III.3
IV.1
IV.3
Schme
I.1
I.2
I.3
II.1
II.2
II.3
III.1
III.2
III.3
IV.1
IV.3
Formes nominales
nominatif masculin singulier
Participe
Adjectif
Infinitif
parisu
parsu
parasu
muptarsu
pitrusu
pitrusu
muptarrisu
pitarrusu
muparrisu
purrusu
purrusu
muptarrisu putarrusu putarrusu
muptarrisu
putarrusu
muaprisu
uprusu
uprusu
mutaprisu utaprusu utaprusu
mutaprisu
utaprusu
mupparsu
naprusu
naprusu
muttaprisu
itaprusu
Formes verbales
masculin singulier 3
Inaccompli
Parfait
Accompli
ipar(r)as
iptar(r)as
iprus
iptar(r)as
iptatras
iptarus
iptanar(r)as iptatarras
iptarrus
uparras
uptarris
uparris
uptarras
uptatarris
uptarris
uptanarras uptatarris
uptarris
uapras
utapris
uapris
utapras
utatapris
utapris
utanapras utatapris
utapris
ipparas
ittapras
ipparis
ittanapras
ittatapras
ittapras
185
Forme pronominale
masc. sing. 3
Permansif
paris
pitrus
pitarrus
purrus
putarrus
putarrus
uprus
utaprus
utaprus
naprus
itaprus
masc. sing. 2
Impratif
purus
pitrus
pitarrus
purris
putarris
putarris
upris
utapris
utapris
napris
itapras
Tableau 3. Rsum de la flexion de la racine prs
de traits. La structure des formes est dcrite au moyen de contraintes simultanes

alors que certaines transformations de surface sont dcrites au moyen de contraintes
squentielles.
Le choix entre contraintes simultanes et contraintes squentielles sest effectu
sur la base suivante : les contraintes simultanes sont les seules permettant de dcrire
sans restriction les interactions entre diffrents rubans. La rcriture simultane de
plusieurs rubans nest possible que sous des conditions qui ne sont pas simples vrifier (Barthlemy, 2007c). Les rgles de rcriture nont donc t utilises que pour un
seul ruban, pour exprimer des phnomnes complexes quil aurait t difficile dexprimer en une seule fois. Les rgles squentielles cassent cette complexit en utilisant
des formes intermdiaires, chaque tape de rcriture tant simple dcrire.
186
forme
paff
noyau
paff
petit
petit
petit
petit
petit
pa
Figure 2. Structure associe la forme ipparisu
4.1. Structure des formes verbales

La structure des formes verbales est dcrite au moyen dun arbre de profondeur
deux. Le premier niveau de larbre est consacr la partie concatnative de la grammaire : il dcrit la faon dont les diffrents affixes et le noyau se combinent de faon
cohrente. Cette combinaison distingue trois couches successives autour du noyau :
les affixes dits personnel qui dpendent du genre, du nombre et de la personne ; les
suffixes de modes ; les clitiques. Le second niveau de larborescence dtaille la formation du noyau avec la racine et les diffrents lments intercals dedans.
La structure des formes verbales est exprime en Karamel au moyen de cinq types
de grains diffrents. Chacun de ces grains associe une reprsentation de surface une
structure de traits qui est la forme abstraite correspondante. Les grains du premier
niveau de larbre, que nous appellerons dsormais les gros grains, sont dcrits au
moyen de quatre types de grains diffrents : un pour le noyau, un pour les affixes
personnels (type paff), un pour les suffixes de mode et un pour les clitiques. Le
deuxime niveau de larborescence utilise un seul type de grain, le mme pour toutes
les composantes du noyau nomm petit (pour petit grain).
Chaque type de grain utilise un type de structure de traits diffrent qui contient les
traits morphologiques concerns par la portion de forme dcrite. Par exemple, la structure de traits dcrivant les affixes personnels contient les quatre traits personne, genre,
nombre et aspect, alors que la structure de traits associe un grain de type noyau
comporte les traits voix, sous-voix, aspect et classe lexicale. En ce qui concerne les
petits grains, la structure de traits note la nature du composant (par exemple radicale,
infixe t, etc). La figure 2 donne un exemple de structure associe une forme.
On voit sur ce schma que les types de grains sont les tiquettes des nuds internes
de larbre. Ils jouent l le mme rle que les non-terminaux dune grammaire non
contextuelle.
Gros grain
ggfs
pgfs
lex
surf
paff
masc,pl,3
i
i
noyau
accompli,IV.1, classe a/u
pref. n rad rad. voy. cat.
n
p
r
i
p
pa
r
i
187
paff
masc,pl,3
rad.
s
s
u
u
Tableau 4. Exemple danalyse dune forme verbale

La grammaire utilise quatre rubans distincts : un pour les structures de traits des
gros grains (nom : ggfs), un pour les structures de traits des petits grains (nom :
pgfs), un pour la reprsentation de surface qui est la transcription de lakkadien dans
un alphabet latin tendu (nom : surf). En plus de ces trois rubans ncessaires, un autre
ruban conserve une forme intermdiaire que nous appellerons forme lexicale (nom :
lex), qui est lquivalent de la reprsentation lexicale en morphologie deux niveaux :
une reprsentation canonique des composantes indpendante du contexte. Cette reprsentation intermdiaire nest pas absolument ncessaire, mais elle est informative pour
clairer une analyse et de plus elle est fort utile au cours du dveloppement de la grammaire, lors de sa mise au point.
Le tableau 4 offre un exemple de reprsentation tabulaire de cette arborescence
avec un aperu des valeurs des traits. La distinction entre forme lexicale et forme de
surface provient dune assimilation du prfixe n la radicale p et de lajout dune
voyelle dappui aprs la premire radicale.
Avec la syntaxe Karamel, la structure du tableau 4 scrit :
{forme:
{paff: [pfs:gen=masc,pers=3,num=pl], i},
{noyau: [nfs:voix=IV,sous=1,asp=accompli,lcat=a_u],
{petit: [sfs:typ=rad], n, p}
{petit: [sfs:typ=ifx_t], p, pa}
{petit: [sfs:typ=rad], r}
{petit: [sfs:typ=vcat], i}
{petit: [sfs:typ=rad], s}}
{paff: [pfs:gen=masc,pers=3,num=pl], <uu>, <uu>}};
Cette criture est une expression rgulire Karamel qui suppose la dclaration
pralable des symboles, types de structures de traits, rubans et types de grains utiliss.
Pour chacune de ces construction, nous allons prendre lexemple dune dclaration.
class voy is a, e, i, u, <aa>, <ee>, <ii>, <uu>;
class let is <voy>, <cons>;
class voix is I, <II>, <III>, <IV>;
fstruct nfs is [asp=<asp>,voix=<voix>,sous=<sous>,lcat=<lcat>]
tape surf: <let>;
188
grain noyau is {ggfs: ggfs = [nfs];

sab: pgfs, lex, surf = {petit}*}
La dclaration des symboles et des valeurs de traits est identique : elle utilise
la construction class. Un type de structure de traits a un nom (ici, nfs, les traits
concernant le noyau verbal) et une srie de noms de traits avec leur domaine de valeur qui est une classe de symboles pralablement dfinie. La dclaration du ruban
donne son nom et son alphabet qui est galement une classe de symboles. Le type
de grain noyau a deux composantes nommes ggfs et sab. Pour chaque composante
sont spcifis outre le nom, les rubans quelle comporte et un domaine de valeurs dcrit au moyen dune expression rgulire. Lexpression rgulire [nfs] dnote nimporte quelle structure de traits de type nfs, aucune valeur de traits ntant spcifie.
Lexpression rgulire {petit}* dnote nimporte quelle squence de grains du type
petit, qui doit avoir t dfini prcdemment.
4.2. Description du noyau verbal

Le noyau verbal est construit autour dune racine en utilisant des composants qui
viennent dun ensemble fini. Pour une forme donne, chaque composant de lensemble
peut apparatre ou non et il na au plus quune occurrence et une place possible. Linfixe t peut tre doubl, mais on considre quil sagit de deux composants distincts,
qui ne sont pas dtermins par les mmes traits (lun est dtermin par laspect, lautre
par la sous-voix). Chaque composant est dcrit dans la grammaire par une expression
rgulire qui dcrit les cas o il est prsent et ceux o il est absent. Comme la prsence ou labsence sont dtermines par les traits du gros grain noyau, lexpression
rgulire dcrit le gros grain dans son ensemble. Voyons lexemple de linfixe tan.
regexp infixe_tan is
{noyau: [nfs:sous=3],
{petit}*{petit: [sfs:typ=<ifx_tan>], tan, tan}{petit}*};
{noyau: [nfs:sous=1|2], {petit: [sfs:typ=<typ>-<ifx_tan>]}*};
end
Les deux premires lignes spcifient le cas o linfixe est prsent (la sous-voix
est 3). La dernire ligne spcifie le cas o linfixe est absent : il ny a pas de petit grain
de type <ifx_tan>. Lexpression rgulire nomme infixe_tan est la disjonction
(union) de ces deux cas. Il ny a ici que deux cas parce que la composante ne dpend
que dun trait. Pour des composantes dtermines par une combinaison de trois ou
quatre traits, il y a jusqu une douzaine de cas diffrents.
Une autre expression rgulire appele ordre_noyau dcrit lordre des composants. Une description de lensemble des noyaux correctement construits est obtenue
par intersection de ordre_noyau avec les expressions rgulires dcrivant les composantes (une dizaine dexpressions).
189
noyau=intersect(ordre_noyau,infixe_tan,prefixe_voix,...);
4.3. Concatnation des gros grains

La section prcdente explique comment lon dcrit lensemble des noyaux possibles au moyen dune relation rationnelle. Nous allons aborder prsent la description
des autres types de gros grains et la faon dont on les assemble, laquelle fait intervenir
une dpendance longue distance.
Les diffrents types de prfixes et de suffixes sont dcrits chacun par une expression rgulire qui est une numration de toutes les valeurs possibles.
class fapref is accompli, inaccompli, parfait;
regexp prefixe_personnel is
{paff: [pfs:pers=3,atyp=<pers>,asp=<fapref>],i,i};
{paff: [pfs:pers=2,atyp=<pers>,asp=<fapref>],ta,ta};
{paff: [pfs:pers=1,num=<sg>,atyp=<pers>,asp=<fapref>],a,a};
{paff: [pfs:pers=1,num=<pl>,atyp=<pers>,asp=<fapref>],ni,ni};
end
Pour simplifier la formulation des rgles de concatnation des gros grain, nous
avons introduit des suffixes sans trace au niveau de surface, ce que lon note parfois
par laffixe . Cela vite de distinguer les cas avec suffixe et sans suffixe. Utiliser ou
non ce type daffixe relve dun choix dont les critres sont de nature thorique et
pratique. Dans notre grammaire, nous en avons utilis pour les suffixes personnels et
pas pour les petits grains. Au lieu de considrer quun type de petit grain peut tre
absent ou prsent, on aurait pu supposer quil est toujours prsent, mais parfois sans
trace.
Les prfixes et suffixes personnels des formes conjugues sont partiellement redondants parce quils dpendent des mmes traits : personne, genre et nombre. Ils
sont parfois considrs comme un seul composant morphologique discontigu, compos avec le noyau par une opration de circonfixation. Dans la description Karamel,
cette dpendance longue distance entre prfixe et suffixe est traite par lintersection de deux descriptions : la premire dcrit la concatnation libre de prfixe, noyau
et suffixe ; la seconde dcrit lgalit des traits communs aux prfixes et suffixes au
moyen de variables.
Un autre type de dpendance entre gros grains concerne le type daffixe personnel :
il y a quatre types daffixes diffrents dtermins par laspect de la forme. Laspect est
donc contenu dans les structures de traits des grains de type paff et noyau. Ici encore,
lgalit des diffrentes occurrences du trait est exprime au moyen dune variable. En
Karamel, les variables sont notes par un nom dbutant par la caractre $.
190
concatenation_grains=
union(concat(noyau,suffixe_personnel),
concat(prefixe_personnel,noyau,suffixe_personnel));
regexp dependances is
{paff: [pfs:asp=$a,pers=$p,num=$n,gen=$g]}
{noyau: [nfs:asp=$a]}
{paff: [pfs:asp=$a,pers=$p,num=$n,gen=$g]};
{noyau: [nfs:asp=$a]}{paff: [pfs:asp=$a]};
end
couche_1=intersect(concatenation_grains,dependances);
Les descriptions donnes ici distinguent deux cas : des formes avec prfixe personnel et des formes sans prfixe personnel. Le nom couche_1 se rfre la dcomposition en trois couches : affixes personnels, suffixes de mode et clitiques. Les deux
autres couches ne seront pas dtailles ici : leur description suit les mmes principes
que ceux exposs pour les affixes personnels.
4.4. Contraintes squentielles

Nous avons vu jusquici une description de la structure des formes verbales. Cette
description construit une relation quatre rubans dans laquelle les formes lexicales
et de surface sont identiques. partir de ce point de dpart, la forme de surface est
lobjet de rcritures successives au moyen de rgles appliques en squence. Ces
rgles ne rcrivent que le contenu dun des ruban et ne modifient pas la structure en
grains. Les autres rubans nanmoins peuvent tre utiliss dans les rgles. Par exemple,
la rcriture peut tre dtermine par la valeur dun trait.
La grammaire utilise la rcriture pour traiter trois phnomnes : linsertion des
voyelles dappui, la disparition des radicales faibles et diverses transformations de
surface telles que les assimilations.
La partie structurelle de la grammaire ne comporte aucune voyelle dappui car ces
voyelles ne sont pas dtermines par les traits morphologiques. Il ny a donc pas lieu
de les considrer comme un type de petits grains. Ces variables sont dtermines par
des contraintes graphico-phontiques (cf. section 3.4). Elles sont insres au moyen
de rgles de rcriture dans le petit grain de la consonne qui prcde. Les rgles dinsertion sont complexes et ont pour but dviter les squences de deux consonnes en
initiale et finale et les squences de trois consonnes en position mdiane.
Une cascade de rgles est utilise pour dfinir lordre de priorit entre composants
du noyau lorsquune voyelle dappui est ajoute (cf. sous-section 3.4). Une premire
rgle ajoute une voyelle aprs un infixe sil y a une squence de trois consonnes comportant un infixe. Une deuxime rgle fait la mme chose pour le prfixe et ainsi de
suite pour chaque composant susceptible de porter une voyelle dappui.
191
Les transformations diverses dcrites dans la grammaire comprennent notamment

la coloration en u de la premire voyelle aux voix II et III, lassimilation de la
consonne n dautres consonnes, sauf pour des formes I-faibles la voix IV et la
disparition dun n initial avant un infixe.
Les diffrents phnomnes dcrits par des rgles de rcriture peuvent avoir plusieurs occurrences dans une mme forme. Dans ce cas, la description au moyen dune
rgle contextuelle est plus pratique que lutilisation dune simple expression rgulire.
Les expressions rgulires sont en revanche plus simples crire pour des phnomnes
ayant au plus une occurrence dans une forme, comme cest le cas pour les affixes et
les composants du noyau.
4.5. Prise en compte du lexique

Nous navons pas abord jusquici la question du lexique. Nous utilisons dans
la grammaire une liste de 799 racines akkadiennes provenant de (Breckwoldt et al.,
2000), qui ne prcise ni la classe de vocalisation ni les voix attestes. Nous ne disposons pas dune meilleure ressource. Compte tenu de limperfection de ce lexique, nous
avons dvelopp deux variantes de la grammaire en parallle : lune utilise la liste de
racines et lautre ne comporte aucun lexique. Les analyses sont alors des conjectures
sur des racines possibles, contrler dans un dictionnaire.
La racine est un lment prendre en compte dans la composition du noyau.
Chaque racine est dcrite comme un gros grain de type noyau o les composants
autres que les radicales ne sont pas spcifis. Pour faciliter lcriture, une abrviation
est dfinie.
abbrev racine is {r1 = <cons>; r2 = <cons>; r3 = <cons>}
for {noyau: sab= {petit}* {petit: [sfs:typ=rad], @r1, @r1}
{petit}* {petit: [sfs:typ=rad], @r2,@r2}{petit}*
{petit: [sfs:typ=rad], @r3,@r3}}
regexp lexique is
{racine: p, r, s};
{racine: <aleph>, k, <sh>};
...
Labrviation racine est un n-uplet trois positions, une pour chaque radicale. Ces radicales sont substitues par macro-expansion aux symboles prfixs
par le signe @ dans lexpression rgulire suivant le mot-cl for. Cest ainsi que
{racine: p, r, s}; dnote lexpression suivante :
{noyau: sab= {petit}* {petit: [sfs:typ=rad], p,p}
{petit}* {petit: [sfs:typ=rad],r,r}{petit}*
{petit: [sfs:typ=rad],s,s}}
192
5. valuation
5.1. Couverture
Au moment o ces lignes sont crites, la grammaire couvre les verbes trilitres
forts et les verbes avec une consonne faible. Les verbes plusieurs radicales faibles ne
font pas lobjet dun traitement spcifique et nous ne savons pas dans quelle mesure
ces verbes sont couverts par la grammaire. Le traitement des clitiques est embryonnaire.
La grammaire comporte 71 constructions regexp, 65 calculs et 6 rgles contextuelles. Le transducteur reprsentant lensemble des formes verbales sans lexique a
496 429 tats et 629 377 transitions. Avec le lexique, il y a environ 3 millions dtats et
3,5 millions de transitions. titre de comparaison, une autre grammaire de lakkadien
(Kataja et Koskenniemi, 1988) comporte 123 rgles deux niveaux, une grammaire de
larabe (Beesley, 1998a) comporte 66 rgles de rcriture, une grammaire de lhbreu
(Wintner, 2008) se compile en un transducteur de 2 millions dtats et 2,2 millions de
transitions.
La reprsentation la plus abstraite dune forme est constitue par les structures
de traits des gros grains qui contiennent des traits de nature morphologique. Cette
reprsentation est nanmoins relativement superficielle : elle contient linformation
propos du schme sans en donner une interprtation smantique. Ainsi, il y a des traits
notant la voix et la sous-voix, mais il ny a pas de trait notant le fait quune forme
soit passive ou factitive. La raison de ce fait est que linterprtation smantique des
schmes chappe en grande partie lanalyse morphologique et relve des niveaux
syntaxique, pragmatique et smantique.
Le dveloppement et la mise au point de la grammaire ont t conduits en utilisant un jeu de tests artificiel, savoir le contenu de certains tableaux de conjugaison
donns dans diffrents ouvrages (Malbran-Labat, 2001 ; Huehnergard, 2005 ; Buccellati, 1996). Un tel tableau comporte de nombreuses formes dun petit nombre de
racines (entre une et quatre). La description ayant t dune certaine faon spcialise
pour ce jeu de tests, il ne permet pas de mesurer la couverture de la grammaire.
Le systme Karamel permet dautomatiser la ralisation des tests, ce qui est fort
utile dans la phase de mise au point : chaque modification de la grammaire est susceptible dintroduire des perturbations. Des tests peuvent tre associs aux diffrentes
relations dcrites et la ralisation des tests de non-rgression se fait littralement en
activant un bouton.
Par ailleurs, nous avons constitu manuellement un petit corpus de formes verbales
recueillies dans le code de Hammurabi qui comporte quelques dizaines de formes
pas un corpus trs reprsentatif et les rsultats obteverbales. Ce nest videmment
nus ne sont donc pas trs significatifs. Pour linstant, nous navons pas dindication
de couverture vritablement crdible faire valoir. La constitution dun corpus et la
193
ralisation de tests ont un cot important alors que lutilit pratique dune analyse
automatique na rien dvidente.
La grammaire dans sa version sans lexique est mme dmettre des hypothses
quant aux racines plausibles pour une forme donne. Par ailleurs, pour un usage pdagogique, la grammaire peut facilement tre enrichie de gloses explicatives pour expliciter et motiver ses analyses. Il suffit pour cela dajouter un ruban de plus dans la
relation.
5.2. Difficults
Il serait prsomptueux de penser que notre travail apporte des connaissances nouvelles sur la langue akkadienne. Il vient confirmer certaines difficults que les spcialistes connaissent bien et appeler des clarifications sur certains points.
Les difficults concernent notamment la gmination dinaccompli et linfixe tan.
Cette gmination est optionnelle pour les formes fortes et devient systmatique dans
certaines formes faibles. La gmine et le n de linfixe ont un comportement trs
comparable. Le n en sassimilant la seconde radicale, ressemble une gmination.
Ces deux consonnes sont moiti faibles : elles subsistent dans les squences de deux
consonnes mais tombent dans les squences de trois consonnes, sauf dans le cas o il
y a une radicale faible dans la squence. Dans ce cas-l, cest la radicale qui tombe.
La description du vocalisme de lakkadien est un autre point dlicat. Les ouvrages
tendent prsenter la vocalisation de la racine au moyen de deux voyelles caractrisant
laspect, la voix, la sous-voix et la racine. Ce systme nous semble peu satisfaisant car
il ignore certaines ralits. Dabord, le nombre de variables dans la racine nest pas
fixe. Il y en a entre une et trois. Le nombre nest pas directement li aux traits tels
que laspect ou la voix, mais des critres de prosodie et dcriture. Ensuite, il ny a
quune voyelle qui dpende vritablement des quatre traits et cest dans presque tous
les cas la dernire. Lusage de prsenter des schmas de deux voyelles est certainement
emprunt dautres langues smitiques ou au smitique compar.
Par ailleurs, la description des voyelles en trois catgories (aspectuelle, catgorielle, appui) a aussi des limites. Elle fonctionne assez mal pour limpratif dont les
voyelles sont catgorielles par leur couleur et voyelles dappui par leur propension
disparatre.
En ce qui concerne lemplacement des voyelles, nous avons utilis un modle additif o lon part avec les seules voyelles significatives et o lon insre les voyelles
dappui en utilisant un ordre de priorit. Une prsentation inverse est souvent utilise, o les formes comprennent initialement de nombreuses voyelles et une rgle fait
disparatre celles qui sont inutiles selon certains critres phontico-graphiques. Un essai dimplmentation de cette rgle a donn des rsultats catastrophiques, peut-tre
lis une comprhension imparfaite du mcanisme dcrit. Les grammaires abordent
peu ce point qui na pas une grande importance pratique pour la lecture et lanalyse
194
des textes, puisque les voyelles dappui ne portent pour ainsi dire pas dinformation
morphologique.
La grammaire de lakkadien est actuellement la plus grosse dveloppe avec des
relations multigrains et en utilisant le systme Karamel. Elle dmontre la possibilit
de traiter des problmes de taille relle avec ces technologies. Le lecteur pourrait douter de ce fait, en considrant quil sagit seulement dune description partielle dune
langue avec un lexique de petite taille. Le traitement est partiel, certes, mais il comporte la partie la plus difficile de la morphologie akkadienne, et celle-ci est trs riche.
Quant au lexique, Karttunnen a montr que contrairement lintuition, ce nest pas un
facteur de complexit, mais un moyen de limiter les risques dexplosion combinatoire
(Karttunen, 1994).
Cette grammaire est galement un exemple original dapproche hybride, qui utilise
la fois des contraintes simultanes et des contraintes successives. Lapproche simultane dans la ligne de la morphologie deux niveaux et partition, est utilise pour
dcrire la morphotactique alors quune cascade de rgles de rcriture est utilise pour
les alternances au sens large, qui finalisent la vocalisation par des voyelles dappui et
calculent les formes faibles.
Les structures de traits sont un formalisme trs utilis pour le traitement de la
langue naturelle en gnral et la morphologie en particulier. Elles permettent de reprsenter de linformation partielle de faon conomique et lisible. Karamel a la particularit de proposer une compilation statique en machines finies. Cela avait dj t fait,
(Kiraz, 1997 ; Zajac, 1998), mais notre connaissance, aucune tude de cas na t
publie dmontrant que ces techniques peuvent tre utilises pour des problmes de
taille relle. La grammaire utilise sept types de structures de traits comportant treize
traits ayant des domaines de valeurs de cardinalit comprises entre trois et quatorze.
Des unifications avec variables sont utilises pour dcrire la circonfixation des formes
conjugues prfixe, ce qui est un cas de dpendance longue distance.
6. Comparaison avec dautres travaux

Dans cette section nous allons comparer la grammaire du verbe akkadien avec
divers travaux antrieurs concernant la description de la morphologie de langues smitiques au moyen de machines finies tats. Parmi de trs nombreux exemples, nous
en avons slectionn quatre reprsentatifs des grandes avances et des diffrentes approches.
Ces travaux sont fortement influencs par un modle thorique de la morphologie
smitique propos par McCarthy : lanalyse multitages (McCarthy, 1981). Dans ce
modle une forme de surface provient de la rencontre de quatre constituants : une racine, un schma vocalique, un prfixe et un patron notant les successions de consonnes
et voyelles. Voici un exemple tir de (Beesley, 1998b) :
tage du prfixe
tage de la racine
tage du patron
tage de la vocalisation
Radical
V
a
a
b
C
b
V
i
i
195
r
C
r
Lopration consistant mlanger diffrents lments pour former un constituant

est parfois appele interdigitation. Il est possible de reprsenter chaque tage par une
expression rgulire. Les discontinuits sont reprsentes par la chane libre et les
lments C et V du patron sont remplacs par la disjonction des consonnes et voyelles
respectivement. Le radical peut tre obtenu en ralisant lintersection des diffrentes
expressions rgulires (Beesley, 1998b).
Commenons par le travail prcurseur de Martin Kay. Pour traiter la partie non
concatnative de la morphologie de larabe, il propose un transducteur multiruban
traitant pratiquement directement une reprsentation multitage la McCarthy (Kay,
1987). La synchronisation nest pas prsente dans la reprsentation elle-mme, mais
ralise au moyen dune excution non standard du transducteur. Il ny a pas beaucoup
de points communs entre cette approche et la grammaire de lakkadien, si ce nest
lusage de transducteurs multirubans.
La premire grammaire dcrivant une morphologie smitique avec une machine finie a t une grammaire de lakkadien, crite en 1988, en morphologie deux niveaux
(Kataja et Koskenniemi, 1988). Il sagit de la premire dmonstration de laptitude
de ce modle dcrire une morphologie non concatnative. Cette dmonstration est
partielle, dans la mesure o linterdigitation ne pouvait pas tre dcrite avec le formalisme utilis, celui du systme Kimmo. Elle tait ralise au moyen de lintersection
dun lexique de racines et dun lexique dlments flexionnels. Cette opration ntant
pas prsente dans le systme utilis, elle tait effectue comme un prtraitement fournissant le lexique des noyaux. Ensuite une description concatnative classique reliait
les noyaux aux affixes et un systme de rgles deux niveaux dcrivait les alternances
phonologiques affectant les formes lexicales.
La grammaire de Kataja et Koskenniemi parat plus complte que la ntre, puisquelle traite lensemble de la langue et pas seulement le verbe. Elle traite galement
davantage de phnomnes de surface du type assimilation. Notre description, en revanche, est plus fine pour ce qui est de la structure du noyau. La reprsentation utilisant une structure de traits est plus abstraite et correspond davantage ce que lon
peut attendre dun analyseur morphologique que la forme lexicale dune grammaire
deux niveaux. La description en Karamel est plus lisible que celle en Kimmo. Le
formalisme souffre moins de risque de conflits.
La morphologie rcriture sest aussi intresse aux langues smitiques, avec
des apports importants. Une description morphologique de larabe a t ralise chez
196
Xerox en utilisant XFST. Elle fait lobjet dune dmonstration en ligne1 , ainsi que de
diverses publications (Beesley, 1998a ; Karttunen et Beesley, 2000).
La description structurelle fait intervenir deux lments runis par interdigitation :
la racine et un motif comprenant les voyelles et les positions des consonnes de la racine. Par rapport aux tages de McCarthy, le motif est la contraction des tages de
prfixe, de patron et de vocalisation : tous les lments sont raliss sauf les radicales
dont la position est nanmoins marque. Un exemple donn dans (Beesley, 2001) est
le suivant : [ktb&CaCaC]+Verb+FormI+Perf+Act o le symbole & indique une interdigitation et les crochets dlimitent la porte de cette opration. Une telle chane
au niveau lexical est mise en correspondance au niveau de surface avec katab. Cet
lment ternaire (racine, motif, traits) se comporte comme un affixe concatn avec
dautres affixes qui ne comportent que deux lments : une reprsentation lexicale de
type habituel et des traits morphologiques. Un algorithme spcifique appel compileremplace a t dvelopp pour raliser linterdigitation plus efficacement quavec lalgorithme dintersection (Karttunen et Beesley, 2000).
Le niveau lexical de cette description est htrogne. Les affixes ordinaires concatnent une reprsentation lexicale semblable celle de la morphologie deux niveaux
et des traits. Le noyau, comme nous venons de le voir, concatne trois informations
orthogonales. En Karamel, les informations de natures diffrentes sont mises sur des
rubans diffrents, ce qui est plus satisfaisant. De plus, Karamel offre des structures de
traits alors que XFST noffre que des traits isols dont la porte, laffectation et lunification doivent tre spcifies explicitement dans la grammaire. Karamel est donc
plus dclaratif et plus convivial. La contrepartie se paie en termes defficacit. Les
structures de traits peuvent savrer coteuses et la gestion de multiples rubans prsente galement un lger surcot. Dune certaine faon, une grammaire XFST ressemble la version compile dune grammaire Karamel dans laquelle les diffrents
rubans sont concatns grain par grain et les traits sont reprsents par des symboles.
XFST est plus efficace et plus compact parce que lcriture directe de la forme compile ouvre la voie certaines optimisations. Karamel nutilise pas encore lalgorithme
compile-remplace qui est plus efficace que lintersection, mais rien nempcherait
de lintgrer pour optimiser les performances.
Une partie importante de la morphologie partition a t dveloppe spcifiquement pour la morphologie smitique, et plus prcisment le traitement de la langue
syriaque par George Anton Kiraz (Grimley-Evans et al., 1996 ; Kiraz, 2001). Ce modle implmente lanalyse plusieurs tages au moyen de transducteurs plusieurs
rubans. Dans la grammaire du syriaque, il y a trois tages (racine, vocalisation et patron comportant les prfixes) qui dterminent une forme de surface, ce qui fait un total
de quatre rubans. Les rgles contextuelles, inspires de la morphologie deux niveaux,
offrent un centre qui correspond peu prs notre notion de grain, mais les contextes
nutilisent pas cette notion. Ils dcrivent sparment chaque ruban. Dans certains cas
cest assez pratique, mais il arrive que ce soit une limitation. On ne peut pas spcifier
1. URL : http ://www.xrce.xerox.com/competencies/content-analysis/arab
197
dans le contexte une correspondance entre des lments de deux rubans. Par ailleurs,
il ny a quun seul type de grain et pas de possibilit dimbrication. La mise en correspondance des chanes de longueurs variables semble utilise avec modration dans la
grammaire. Cela concerne la possibilit de mettre en correspondance un lment dun
niveau avec la chane vide, et un lment de la racine avec ses deux occurrences dans
les cas de gmination.
Une des spcificits de notre travail, par rapport aux quatre travaux que nous venons de prsenter, est quil ny a pas dinterdigitation, cest--dire dentrelacement de
deux entits constituants discontigus : il ny a quun seul lment discontigu, savoir la racine. Toutes les modifications de la racine se font par insertion dun lment
contigu (prfixe, infixe, gmine ou voyelle). Cela est li aux particularits de lakkadien et ne peut probablement pas tre adapt dautres langues. Nous ne proposons
pas une description plusieurs tages de la langue. Ceci nest pas d aux contraintes
du formalisme utilis qui est, au contraire, tout fait adapt la multiplication des
rubans. Le mcanisme dabrviation (ou macro), dont nous avons montr lutilisation
pour le lexique de racines, permet davoir une description spare des diffrents tages
sans que cela se traduise par un ruban spcifique de la relation.
Notre grammaire a t dveloppe aprs celles que nous avons mentionnes dans
cette section. Elle a bnfici de leurs apports. De la morphologie deux niveaux
vient la philosophie de la description morphotactique au moyen dune intersection de
contraintes locales. De la rcriture vient la cascade ralisant les alternances produisant la forme de surface. De la morphologie partition viennent la multiplicit des
niveaux et lide dunit danalyse (grain).
7. Conclusion
Dans cet article nous avons prsent un fragment de traitement automatique dune
langue dont les documents sont parmi les plus anciens crits de toute lhumanit, une
langue morte depuis plus de deux mille ans. Pour ce traitement, nous utilisons des
techniques rcentes, qui appartiennent encore au domaine de la recherche.
Le caractre mort de la langue a eu peu dincidences sur notre travail. Il a comme
consquence que la phonologie de la langue reste hypothtique. Cest un point important quand il sagit des alternances. Notre travail a t peu affect par cette ralit car
il ne comporte pas une description trs fine des alternances. Il ne va pas au-del des
phnomnes principaux tels quils sont dcrits dans les ouvrages de rfrence.
Nos points de comparaison ne sont pas les travaux concernant les autres langues
mortes ou anciennes, mais des langues linguistiquement apparentes, comme larabe,
lhbreu et le syriaque.
Notre travail peut se poursuivre dans sa direction actuelle pour complter sa grammaire sur certains points inachevs : les clitiques, les verbes bi et quadrilitres, les
verbes doublement faibles, les noms, les adjectifs. Amliorer la qualit de la des-
198
cription ncessiterait la collaboration dexperts de la langue mme dapporter des

lments de connaissance diachronique et prosodique qui nous chappent.
8. Bibliographie
Barthlemy F., Finite-State Compilation of Feature Structures for Two-Level Morphology , International Workshop on Finite State Methods in Natural Language Processing
(FSMNLP), Potsdam, Germany, 2007a.
Barthlemy F., Multi-grain Relations , Implementation and Application of Automata, 12th
International Conference (CIAA), Prague, Czech Republic, p. 243-252, 2007b.
Barthlemy F., Using Mazurkiewicz Trace Languages for Partition-Based Morphology ,
ACL, Prague (Czech Republic), 2007c.
Beesley K., Finite-state morphological analysis and generation of Arabic at Xerox Research :
Status and plans in 2001 , ACL Workshop on Arabic Language Processing, 2001.
Beesley K. R., Arabic morphology using only finite-state operations , in M. Rosner (ed.),
Proceedings of the Workshop on Computational Approaches to Semitic languages, 1998a.
Beesley K. R., Arabic morphology using only finite-state operations , Proceedings of the
ACL Workshop on Computational Approaches to Semitic languages, p. 50-57, 1998b.
Beesley K. R., Karttunen L., Finite State Morphology, CSLI Publications, 2003.
Breckwoldt T., Cunningham G., Black J., George A., Postgate N., A Concise Dictionary of
Akkadian, Harrassowitz Verlag, 2000.
Buccellati G., A Structural Grammar of Babylonian, Harrassowitz Verlag, 1996.
Grimley-Evans E., Kiraz G., Pulman S., Compiling a Partition-Based Two-Level Formalism ,
COLING, Copenhagen, Denmark, p. 454-459, 1996.
Heise J., The Akkadian language , , http ://www.sron.nl/jheise/akkadian/, 1995.
Huehnergard J., A Grammar of Akkadian, Eisenbrauns, Harvard Semitic Studies, 2005.
Kaplan R. M., Kay M., Regular Models of Phonological Rule Systems , Computational Linguistics, vol. 20 :3, p. 331-378, 1994.
Karttunen L., Constructing Lexical Transducers , COLING-94, Kyoto, Japan, p. 406-411,
1994.
Karttunen L., Beesley K. R., Finite-State Non-Concatenative Morphotactics , Fifth Workshop of the ACL Special Interest Group in Computational Phonology, Luxembourg (Luxembourg), p. 1-12, 2000.
Kataja L., Koskenniemi K., Finite-state description of semitic morphology : a case study
of Ancient Akkadian , Proceedings of the 12th conference on Computational linguistics,
Association for Computational Linguistics, Morristown, NJ, USA, p. 313-315, 1988.
Kay M., Nonconcatenative finite-state morphology , ACL Proceedings, Third European
Conference, p. 2-10, 1987.
Kiraz G. A., Compiling Regular Formalisms with Rule Features into Finite-State Automata ,
ACL, Madrid, Spain, 1997.
Kiraz G. A., Computational Nonlinear Morphology, Cambridge University Press, 2001.
199
Koskenniemi K., Two-Level Model for Morphological Analysis , IJCAI-83, Karlsruhe, Germany, p. 683-685, 1983.
Malbran-Labat F., Manuel de langue akkadienne, Publications de linstitut Orientaliste de Louvain (50), Peeters, 2001.
McCarthy J. J., A Prosodic Theory of Nonconcatenative Morphology , Linguistic Inquiry,
vol. 12, p. 373-418, 1981.
Sanchez R., Cours dakkadien , , disponible sur http ://gedomia.ens-lsh.fr/, 2005.
Wintner S., Strengths and weaknesses of finite-state technology : A case study in morphological grammar development , Nat. Lang. Eng., vol. 14, n 4, p. 457-469, 2008.
Yli-Jyr A. M., Koskenniemi K., Compiling contextual restrictions on strings into finite-state
automata , Proceedings of the Eindhoven FASTAR Days 2004 (September 34), Eindhoven,
The Netherlands, December, 2004.
Zajac R., Feature Structures, Unification and Finite-State Transducers , In FSMNLP98 :
International Workshop, on Finite State Methods in Natural Language Processing., 1998.

TAL 2009 50 2 07 Barthelemy

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

TAL 2009 50 2 07 Barthelemy

Cargado por

Copyright:

Formatos disponibles

Une description morphologique structure

en arbre du verbe akkadien qui utilise

akkadien, morphologie, machines finies tats, structures de traits.

Akkadian, Morphology, Finite-State Machines, Feature Structures.

TAL. Volume 50 n 2/2009, pages 173 199

TAL. Volume 50 n 2/2009

Description morphologique de lakkadien

n-aires. La section 3 prsente rapidement lakkadien et sa morphologie verbale. Vient

2. Les relations multigrains et le systme Karamel

TAL. Volume 50 n 2/2009

Figure 1. Un exemple danalyse multigrain

Description morphologique de lakkadien

2.2. Le systme Karamel

TAL. Volume 50 n 2/2009

Description morphologique de lakkadien

TAL. Volume 50 n 2/2009

3. Prsentation de lakkadien et de sa morphologie verbale

3.2. Racines et schmes

Description morphologique de lakkadien

3.3. Morphologie du noyau verbal

TAL. Volume 50 n 2/2009

Tableau 1. Smantisme approximatif des schmes

noyau est constitu de la gmination ou redoublement dune radicale, la deuxime ou

Description morphologique de lakkadien

Tableau 2. Association trait morphologique-composant morphologique

morphologie akkadienne. Malbran-Labat distingue trois sortes de voyelles, selon les

TAL. Volume 50 n 2/2009

3.5. Verbes faibles

4. Grammaire Karamel du verbe akkadien

Description morphologique de lakkadien

Tableau 3. Rsum de la flexion de la racine prs

de traits. La structure des formes est dcrite au moyen de contraintes simultanes

TAL. Volume 50 n 2/2009

Figure 2. Structure associe la forme ipparisu

4.1. Structure des formes verbales

Description morphologique de lakkadien

Tableau 4. Exemple danalyse dune forme verbale

TAL. Volume 50 n 2/2009

grain noyau is {ggfs: ggfs = [nfs];

4.2. Description du noyau verbal

Description morphologique de lakkadien

4.3. Concatnation des gros grains

TAL. Volume 50 n 2/2009

4.4. Contraintes squentielles

Description morphologique de lakkadien

Les transformations diverses dcrites dans la grammaire comprennent notamment

4.5. Prise en compte du lexique

TAL. Volume 50 n 2/2009

Description morphologique de lakkadien

TAL. Volume 50 n 2/2009

6. Comparaison avec dautres travaux

Description morphologique de lakkadien

Lopration consistant mlanger diffrents lments pour former un constituant

TAL. Volume 50 n 2/2009

Description morphologique de lakkadien

TAL. Volume 50 n 2/2009

cription ncessiterait la collaboration dexperts de la langue mme dapporter des

Description morphologique de lakkadien

También podría gustarte