0 calificaciones0% encontró este documento útil (0 votos)
123 vistas23 páginas
Depuis plusieurs années déjà, des dictionnaires électroniques ont été créés pour le traitement automatique du langage (TAL). L’utilisation de ces ressources se retrouve autant dans le domaine des recherches linguistiques que dans celui des industries de la langue. En effet, les applications sont nombreuses et variées : vérification orthographique, indexation de textes, analyse syntaxique, recherche documentaire…
Cependant, il faut établir une distinction entre les dictionnaires électroniques et les dictionnaires d’usage. La différence entre ces deux types de ressources réside principalement dans la finalité. En effet, les dictionnaires d’usage (même sur support informatique) sont orientés vers la définition des mots et la description de leurs emplois et sont, par conséquent, destinés à une lecture humaine. Ce qui n’est pas le cas des dictionnaires électroniques qui sont conçus dans le but d’être exploités par des programmes informatiques et sont focalisés sur la description formelle des objets de la langue et leur classification. Ces derniers se présentent d’ailleurs le plus souvent sous la forme d’une base de données contenant des informations morpho-grammaticales des mots (lemmes) et des informations sur les variations possibles de ces mots en genre et en nombre ainsi que la conjugaison des verbes.
Dans le cadre de l’unité d’enseignement INF M34 Informatique, Multilinguisme et Traduction, nous devions réaliser un dictionnaire électronique à partir d’une langue autre que le français. Notre choix s’est porté sur la langue sarde car elle est peu décrite du point de vue linguistique.
Título original
Création d'un dictionnaire morpho-syntaxique pour la langue sarde (2006)
Depuis plusieurs années déjà, des dictionnaires électroniques ont été créés pour le traitement automatique du langage (TAL). L’utilisation de ces ressources se retrouve autant dans le domaine des recherches linguistiques que dans celui des industries de la langue. En effet, les applications sont nombreuses et variées : vérification orthographique, indexation de textes, analyse syntaxique, recherche documentaire…
Cependant, il faut établir une distinction entre les dictionnaires électroniques et les dictionnaires d’usage. La différence entre ces deux types de ressources réside principalement dans la finalité. En effet, les dictionnaires d’usage (même sur support informatique) sont orientés vers la définition des mots et la description de leurs emplois et sont, par conséquent, destinés à une lecture humaine. Ce qui n’est pas le cas des dictionnaires électroniques qui sont conçus dans le but d’être exploités par des programmes informatiques et sont focalisés sur la description formelle des objets de la langue et leur classification. Ces derniers se présentent d’ailleurs le plus souvent sous la forme d’une base de données contenant des informations morpho-grammaticales des mots (lemmes) et des informations sur les variations possibles de ces mots en genre et en nombre ainsi que la conjugaison des verbes.
Dans le cadre de l’unité d’enseignement INF M34 Informatique, Multilinguisme et Traduction, nous devions réaliser un dictionnaire électronique à partir d’une langue autre que le français. Notre choix s’est porté sur la langue sarde car elle est peu décrite du point de vue linguistique.
Copyright:
Attribution Non-Commercial (BY-NC)
Formatos disponibles
Descargue como PDF, TXT o lea en línea desde Scribd
Depuis plusieurs années déjà, des dictionnaires électroniques ont été créés pour le traitement automatique du langage (TAL). L’utilisation de ces ressources se retrouve autant dans le domaine des recherches linguistiques que dans celui des industries de la langue. En effet, les applications sont nombreuses et variées : vérification orthographique, indexation de textes, analyse syntaxique, recherche documentaire…
Cependant, il faut établir une distinction entre les dictionnaires électroniques et les dictionnaires d’usage. La différence entre ces deux types de ressources réside principalement dans la finalité. En effet, les dictionnaires d’usage (même sur support informatique) sont orientés vers la définition des mots et la description de leurs emplois et sont, par conséquent, destinés à une lecture humaine. Ce qui n’est pas le cas des dictionnaires électroniques qui sont conçus dans le but d’être exploités par des programmes informatiques et sont focalisés sur la description formelle des objets de la langue et leur classification. Ces derniers se présentent d’ailleurs le plus souvent sous la forme d’une base de données contenant des informations morpho-grammaticales des mots (lemmes) et des informations sur les variations possibles de ces mots en genre et en nombre ainsi que la conjugaison des verbes.
Dans le cadre de l’unité d’enseignement INF M34 Informatique, Multilinguisme et Traduction, nous devions réaliser un dictionnaire électronique à partir d’une langue autre que le français. Notre choix s’est porté sur la langue sarde car elle est peu décrite du point de vue linguistique.
Copyright:
Attribution Non-Commercial (BY-NC)
Formatos disponibles
Descargue como PDF, TXT o lea en línea desde Scribd
Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde
INF M34 Informatique, Multilinguisme et Traduction
1 SOMMAIRE
INTRODUCTION p.2
PRESENTATION DE LA LANGUE
1. Typologies linguistiques 1.1 Famille de langues 1.2 Type de langue
2. Donnes linguistiques 2.1 Nombre de locuteurs et langues parles en Sardaigne 2.2 Variantes dialectales du sarde
p.3
p.3
p.4
CONSTITUTION DU DICTIONNAIRE
1. Description du lexique 1.1 Recueil des donnes 1.2 Catgorisation des lemmes
2. Le dictionnaire lectronique morphosyntaxique 2.1 Dfinition gnrale 2.2 Structure du dictionnaire a) Modle relationnel b) Les tables c) Les requtes
p.7
p.7
p.8
FONCTIONNEMENT DE LA LANGUE SARDE
1. Les catgories grammaticales 1.1 Catgories variables et invariables 1.2 Tableau des flexions
2. Caractristiques de la flexion sarde 2.1 La flexion nominale 2.2 La flexion de ladjectif qualificatif 2.3 La flexion des dterminants 2.4 La flexion des verbes 2.5 Le pronom
p.13
p.13
p.14
CONCLUSION
p.21
SITOGRAPHIE
p.22
Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde INF M34 Informatique, Multilinguisme et Traduction
2 INTRODUCTION
Depuis plusieurs annes dj, des dictionnaires lectroniques ont t crs pour le traitement automatique du langage (TAL). Lutilisation de ces ressources se retrouve autant dans le domaine des recherches linguistiques que dans celui des industries de la langue. En effet, les applications sont nombreuses et varies : vrification orthographique, indexation de textes, analyse syntaxique, recherche documentaire Cependant, il faut tablir une distinction entre les dictionnaires lectroniques et les dictionnaires dusage. La diffrence entre ces deux types de ressources rside principalement dans la finalit. En effet, les dictionnaires dusage (mme sur support informatique) sont orients vers la dfinition des mots et la description de leurs emplois et sont, par consquent, destins une lecture humaine. Ce qui nest pas le cas des dictionnaires lectroniques qui sont conus dans le but dtre exploits par des programmes informatiques et sont focaliss sur la description formelle des objets de la langue et leur classification. Ces derniers se prsentent dailleurs le plus souvent sous la forme dune base de donnes contenant des informations morpho-grammaticales des mots (lemmes) et des informations sur les variations possibles de ces mots en genre et en nombre ainsi que la conjugaison des verbes.
Dans le cadre de lunit denseignement INF M34 Informatique, Multilinguisme et Traduction, nous devions raliser un dictionnaire lectronique partir dune langue autre que le franais. Notre choix sest port sur la langue sarde car elle est peu dcrite du point de vue linguistique. Dans une premire partie, nous prsenterons la langue sarde en traitant plusieurs points relatifs aux typologies linguistiques : le type de langue et la famille de langue. Puis, nous fournirons quelques informations dmolinguistiques sur la langue : nombre de locuteurs, variantes dialectales, statut linguistique du sarde. Une seconde partie sera consacre la description du notre dictionnaire lectronique : rcupration du lexique, utilisation dune base de donnes pour reprsenter la structure des donnes. Enfin, nous nous intresserons au fonctionnement de la langue sarde en dcrivant les diffrentes catgories de mots (noms, verbes, adjectifs) et leur variabilit en fonction des traits grammaticaux (genre, nombre, conjugaison des verbes) ; nous parlerons galement des problmes rencontrs et des choix thoriques que nous avons d faire. Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde INF M34 Informatique, Multilinguisme et Traduction
3 PRSENTATION DE LA LANGUE
Comme nous lavons voqu prcdemment, nous avons choisi de nous intresser la langue sarde dont le lexique nous servira de base pour constituer notre dictionnaire lectronique. Nous dbuterons donc cette partie par une prsentation de la langue sarde : famille de langues, type de langue. Puis nous fournirons quelques informations linguistiques : nombre de locuteurs, langue officielle, dialectes.
1. Typologies linguistiques
1.1. Famille de langues
Le sarde est une langue romane appartenant la grande famille des langues indo- europennes. Plus prcisment, elle appartient au groupe rhto-roman (sous-famille des langues romanes) dont lorigine remonte au XII me sicle. Comme les autres langues romanes, la langue sarde puise ses origines du latin vernaculaire c'est--dire le latin employ dans la communication de tous les jours par opposition au latin classique employ dans la littrature. Il est noter que le sarde est rest relativement archaque et conservateur (du fait de lisolement insulaire) et constitue lheure actuelle la langue la plus proche du latin. Nanmoins, il convient dajouter que le sarde a connu de nombreuses influences linguistiques travers les sicles, parmi lesquelles litalien, le catalan mais aussi le castillan.
1.2. Type de langue
Nous pouvons galement dfinir la langue sarde en fonction de son type : il sagit dune langue flexionnelle c'est--dire une langue dans laquelle les mots (ou lemmes) changent de forme selon leur rapport grammatical aux autres mots de lnonc. La flexion est un procd morphologique qui consiste ajouter la racine dun mot des dsinences exprimant des catgories grammaticales (genre, nombre, personne) ou des fonctions syntaxiques (cas). Les formes flchies des mots sont obtenues en ajoutant des dsinences ou affixes flexionnels au radical (qui est le plus souvent invariable). Ces dsinences permettent de dfinir les traits grammaticaux pour les catgories de mots variables essentiellement pour le systme nominal : genre, nombre, cas et pour le systme verbal : personne, nombre, temps, mode, voix.
Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde INF M34 Informatique, Multilinguisme et Traduction
4 Pour illustrer ces diffrentes notions, voici quelques exemples de formes flchies en sarde : - mundu-s : dans la forme nominale mundus la dsinence -s exprime le nombre (pluriel) - fill-a : dans ce mot, la dsinence -a exprime le genre (fminin) - amig-as : dans cet exemple, la dsinence -as exprime la fois le genre (fminin) et le nombre (pluriel) - cnt-at : pour cette forme verbale, la dsinence -at exprime la fois le mode (indicatif), le temps (prsent), la personne (3 me personne) et le nombre (singulier).
2. Donnes linguistiques
2.1. Nombre de locuteurs et langues parles en Sardaigne
Actuellement, on compte environ 1 200 000 locuteurs de cette langue, principalement en Sardaigne. La plupart des locuteurs sont bilingues sarde italien, litalien constituant la langue officielle de lle (la Sardaigne est rattache lItalie et elle est considre comme rgion autonome statut spcial). Cependant, sur une population de 1,6 million dhabitants que compte la Sardaigne, prs de 1,3 million de locuteurs utilisent le sarde comme langue maternelle.
Tableau rcapitulatif Capitale : Cagliari Population : 1,6 million dhabitants (2001) Langue officielle : Italien Groupe majoritaire : Sarde (81,2%) Groupes minoritaires : Italien, catalan, corse, gnois Systme politique : Rgion autonome statut spcial
La langue sarde est considre comme une langue minoritaire et elle est protge par la loi rgionale intitule Promozione e valorizzazione della cultura e della lingua della Sardegna (entre en vigueur le 1 er janvier 1998) qui lui reconnat le statut de langue rgionale.
Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde INF M34 Informatique, Multilinguisme et Traduction
5 2.2. Variantes dialectales du sarde
La Sardaigne se divise en plusieurs rgions marques par des influences linguistiques trs diverses. En fait, le sarde ne fait pas rfrence une langue unique mais aux diffrents dialectes parls en Sardaigne. On distingue deux grandes varits dialectales :
- Le logoudorais : parl surtout dans le nord de lle et divis galement en trois autres dialectes : le septentrional, le logoudorais central (ou nuorais) et le logoudorais commun. - Le campidanais : parl dans la partie sud de lle et qui porte linfluence de litalien. Le campidanais connat galement plusieurs variantes : le cagliaritain (Cagliari), logliastrais (province de lOgliastra) et liglesientais (province de Carbonia-Iglesias).
Sajoutent cela, le sassarais (rgion de Sassari) et le gallurais (nord-est de lle) trs proche du corse. A noter galement la prsence du catalan (uniquement parl dans la ville dAlghero). La carte ci-dessous illustre cette diversit dialectale :
Le SIL International (Socit Internationale de Linguistique) distingue, au sein d'une macro-langue sarde (identifiant srd), quatre langues individuelles : - Campidanese Sardinian [sro] - Gallurese Sardinian [sdn] - Logudorese Sardinian [src] - Sassarese Sardinian [sdc] Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde INF M34 Informatique, Multilinguisme et Traduction
6 Compte tenu de labondance des dialectes, le sarde connat des problmes dunit linguistique et il se rvle donc dlicat de mettre en place une norme crite commune ces dialectes. Les dialectes principaux, savoir le logoudorais et le campidanais, se disputent la suprmatie littraire mais cest litalien qui est employ comme langue denseignement, dans les documents administratifs ou encore pour la justice. La langue sarde a donc un statut linguistique un peu particulier puisque litalien est la seule langue officielle mais plus de 81% de la population parle une des variantes du sarde dcrites plus haut. Il est noter que labondance des variantes dialectales a constitu la premire difficult de ce travail, dans la mesure o nous avons d choisir une des variantes du sarde pour raliser notre dictionnaire.
Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde INF M34 Informatique, Multilinguisme et Traduction
7 CONSTITUTION DU DICTIONNAIRE
Dans cette partie, nous prsenterons dune part, le lexique que nous avons rcupr (nombre dentres et catgories reprsentes) puis, nous nous intresserons la structure du dictionnaire qui se prsente sous la forme dune base de donnes lexicale.
1. Description du lexique
1.1. Le recueil des donnes
Dans un premier temps, nous avons rcupr un ensemble de mots appartenant au vocabulaire sarde. La tche na pas t facile puisque le sarde est une langue peu dcrite du point de vue linguistique. De plus, en considrant les variantes dialectales, il semble difficile de dfinir clairement ce quest la langue sarde . Pour rcuprer les mots appartenant au vocabulaire, nous nous sommes base sur une grammaire du sarde rdige en italien et disponible sur Internet (http://www.mondosardegna.net). Cette grammaire explique le fonctionnement de la langue sarde et plus particulirement de la variante campidanaise ; cest pourquoi, tant donn le peu de ressources disponibles, nous avons fait le choix de ne dcrire prcisment que cette variante du sarde. Cependant, nous fournirons les quivalences (lorsque nous avons linformation) pour les autres variantes de la langue. Pour complter nos informations et en vrifier lexactitude, nous avons galement utilis un dictionnaire smantique multilingue en langue sarde (http://www.ditzionariu.org). Les recherches peuvent seffectuer partir du sarde directement (variantes) ou partir dautres langues : litalien, le franais, langlais ou lallemand. Ce dictionnaire comprend 93 000 lemmes en sarde, 18 000 mots traduits en italien, 18 000 en anglais, 17 000 en franais et 9000 pour lallemand. Les informations recueillies nous ont permis de rcuprer 427 lemmes appartenant au sarde campidanais. Nous avons galement effectu des recherches afin dobtenir pour cet ensemble de lemmes les traductions en deux langues cible savoir litalien et le franais.
Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde INF M34 Informatique, Multilinguisme et Traduction
8 1.2. Catgorisation des lemmes
Aprs avoir ralis le listage des lemmes, nous avons class ces units dans les diffrentes catgories grammaticales existantes. Or, bien que la plupart de ces catgories soient clairement dfinies, nous avons rencontr des difficults catgoriser certains lemmes. Cest pourquoi, pour des raisons de commodits, nous avons effectu des regroupements pour classer plus facilement les mots du lexique. Ainsi, nous avons inclus dans la catgorie gnrique Dterminant les articles (dfinis et indfinis) bien sr, mais aussi les adjectifs possessifs et dmonstratifs. Il en va de mme pour la catgorie Pronom qui englobe les diffrents types de pronoms (personnels, relatifs, dmonstratifs, possessifs, indfinis) mais aussi certains adjectifs indfinis. En effet, la plupart des pronoms indfinis sont galement des adjectifs indfinis : par exemple en sarde tanti (tant en franais) est la fois un adjectif indfini et un pronom indfini. Une catgorie spcifique a t cre pour classer les adjectifs numraux qui ont un statut un peu particulier en franais : ils peuvent tre tour tour adjectifs, noms ou pronoms. Le tableau suivant prsente les diffrentes catgories du lexique que nous avons choisies de reprsenter ainsi que le nombre de lemmes correspondants :
Catgories grammaticales reprsentes Catgorie Nombre de lemmes Adjectif 100 Adverbe 51 Conjonction 12 Dterminant 12 Nom 122 Numral 36 Prposition 5 Pronom 35 Verbe 54 Total 427
2. Le dictionnaire lectronique morphosyntaxique
2.1. Dfinition gnrale
Les dictionnaires morphosyntaxiques lectroniques servent reprsenter formellement un lexique en associant chaque forme flchie le lemme (c'est--dire la forme canonique du Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde INF M34 Informatique, Multilinguisme et Traduction
9 mot) ainsi que des informations grammaticales, flexionnelles et ventuellement smantiques. La finalit de ces outils tant de gnrer automatiquement les formes flchies partir des lemmes en dcrivant des modles de flexion. Par exemple, les adjectifs petit et grand en franais ont un modle de flexion similaire puisque la forme flchie du fminin singulier sobtient en rajoutant un e au lemme, la forme au fminin pluriel en ajoutant es et la forme au masculin pluriel en ajoutant un s .
Exemple de flexion pour petit et grand Lemme Morphologie Ajouter Formes flchies petit ms - petit petit mp s petits petit fs e petite petit fp es petites grand ms - grand grand mp s grands grand fs e grande grand fp es grandes
Pour gnrer les diffrentes formes flchies partir dun lemme, on regroupe les mots en classes de flexions (mots qui ont le mme comportement flexionnel) et on sattache dcrire de manire prcise ces diffrentes classes de flexion.
Dans la plupart des cas, les dictionnaires morphosyntaxiques se prsentent sous la forme dune base de donnes indexe. Les donnes y sont organises selon des critres prcis et par des structures informatives spcifiques, de faon tre consultes, mises jour et ventuellement restructures.
2.2. Structure du dictionnaire
Pour raliser notre dictionnaire morphosyntaxique de la langue sarde, nous nous sommes inspire dun modle de base de donnes existant : 2000-morphologie.mdb (base cre avec le logiciel Access). Comme la majorit des dictionnaires, notre dictionnaire prsente les caractristiques principales suivantes : - une liste de lemmes ; - des codes alphanumriques ; Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde INF M34 Informatique, Multilinguisme et Traduction
10 - des oprations effectuer sur les lemmes pour obtenir les formes flchies, associes de faon univoque aux codes alphanumriques.
a) Modle relationnel
La conception dune base de donnes passe par une phase de modlisation qui permet dexpliciter les donnes contenues dans les diffrentes tables. En ce qui concerne la base de donnes que nous utilisons, elle emploie le modle relationnel (relations entre les tables) pour structurer les entres. La copie dcran ci-dessous prsente la structure des donnes et les relations entre les tables de la base.
b) Les tables
Notre dictionnaire lectronique se compose de trois tables :
La table des bases qui associe chaque lemme un modle de flexion, identifi par un code alphanumrique (ce que nous nommons Modle dans la base de donnes) La table des modles qui dfinit les oprations (Enlever et Ajouter) effectuer partir de la forme canonique du mot, de faon obtenir les formes flchies. La table des traductions (que nous avons rajoute la base 2000-morphologie.mdb) qui propose pour chaque lemme en sarde les autres variantes dialectales ainsi que la traduction des lemmes en deux langues cible : litalien et le franais.
Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde INF M34 Informatique, Multilinguisme et Traduction
11 Un seul code alphanumrique (Modle), peut dcrire le comportement de plusieurs units lexicales et peut tre assign des ensembles de lemmes ayant les mmes caractristiques morphologiques. Prenons pour exemple les adjectifs sardes suivants : - pitcu - dilicu - lbiu
Voici la manire dont ils sont reprsents dans le dictionnaire :
Table des traductions Base Variantes Traduction Italien Traduction Franais pitcu picicu, pitiu, pitzicu pccolo petit lbiu lpiu, lviu leggro lger dilicu delicdu, delicau, dibicau, dilicadu delicato dlicat
Tables des bases Base Cat Sous-cat Modle pitcu adjectif qualificatif Adj01 lbiu adjectif qualificatif Adj01 dilicu adjectif qualificatif Adj02
Tables des modles Modle Cat Morpho Enlever Ajouter Adj01 adjectif ms - - Adj01 adjectif mp - s Adj01 adjectif fs u a Adj01 adjectif fp u as Adj02 adjectif ms - - Adj02 adjectif mp - s Adj02 adjectif fs u ada Adj02 adjectif mp u adas
Les adjectifs pitcu et lbiu ont le mme modle cod Adj01 car ils ont les mmes caractristiques flexionnelles. Les oprations effectuer pour avoir les formes flchies peuvent se rsumer ainsi :
ms (masculin singulier) : Enlever 0 lettre au lemme / Ajouter 0 lettre mp (masculin pluriel) : Enlever 0 lettre au lemme / Ajouter 1 lettre : S Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde INF M34 Informatique, Multilinguisme et Traduction
12 fs (fminin singulier) : Enlever 1 lettre au lemme : U / Ajouter A fp (fminin pluriel) : Enlever 1 lettre au lemme : U / Ajouter AS
En revanche pour ladjectif dilicu le modle de flexion est diffrent (cod Adj02) car il na pas les mmes caractristiques morphologiques que les deux autres adjectifs : ms (masculin singulier) : Enlever 0 lettre au lemme / Ajouter 0 lettre mp (masculin pluriel) : Enlever 0 lettre au lemme / Ajouter 1 lettre : S fs (fminin singulier) : Enlever 2 lettres au lemme : AU / Ajouter 3 lettres : ADA fp (fminin pluriel) : Enlever 2 lettres au lemme : AU / Ajouter 4 lettres : ADAS
On peut galement remarquer que chaque entre de la table Base correspond une entre dans la table Traductions : pour chaque lemme on fournit les autres variantes du lemme (en sarde), la traduction en italien et celle en franais.
c) Les requtes
Les requtes servent en quelque sorte interroger la base de donnes car elles permettent de trier, de slectionner et dextraire des informations pertinentes. Lintrt principal des requtes rside dans le fait quelles peuvent sappliquer plusieurs tables et que lon peut ensuite crer une nouvelle table partir des rsultats obtenus. Notre base de donnes en comprend plusieurs :
Requte Formes : il sagit dune requte (de type slection) qui permet dafficher les formes flchies correspondant chaque lemme entr dans le dictionnaire. Requte Traductions : qui permet dafficher les variantes, la traduction en italien et la traduction en franais lorsque lon tape un mot en sarde dans la bote de dialogue. Requte Reconnaissance : est une requte de paramtres : en tapant une forme lemmatise ou une forme flchie dans une bote de dialogue, on obtient les caractristiques morphologiques correspondantes (lemme, modle, la catgorie) Requte Tagger : permet dafficher ltiquette qui correspond un lemme que lon tape dans la table Texte.
Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde INF M34 Informatique, Multilinguisme et Traduction
13 FONCTIONNEMENT DE LA LANGUE SARDE
Il ne sagit pas dans cette partie de faire une description dtaille et exhaustive de la grammaire sarde mais de mettre en vidence certaines des caractristiques de la langue en terme de flexions. Il est noter que nous nous intressons uniquement la flexion (variations en genre et en nombre et conjugaisons des verbes) et non la drivation : procds daffixation qui permettent dobtenir des formes drives partir dune forme dj flchie. Par exemple, ladverbe de mode en sarde sobtient en utilisant ladjectif au fminin singulier et en y ajoutant le suffixe -menti : amargo (adjectif, ms) amarga (adjectif, fs) amargamenti (adverbe) siguro (adjectif, ms) sigura (adjectif, fs) siguramenti (adverbe)
Dans un premier temps, nous prsenterons les diffrentes catgories que nous allons traiter puis nous dcrirons les diffrents modles de flexion propres chaque catgorie, en expliquant galement les difficults que nous avons rencontres.
1. Les catgories grammaticales
1.1. Catgories variables et invariables
Comme le franais, le sarde compte neuf catgories de mots : cinq variables, et quatre invariables. 5 catgories variables : - Nom - Article - Adjectif - Pronom - Verbe
4 catgories invariables : - Adverbe - Prposition Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde INF M34 Informatique, Multilinguisme et Traduction
14 - Conjonction - Interjection (qui ne fait pas partie du dictionnaire)
Bien que certaines catgories soient variables comme larticle dfini (dterminant), le pronom ou encore le verbe nous navons pas toujours t en mesure dtablir des modles de flexions pour ces units. Dans ce qui suit, nous proposons de dcrire les modles de flexions pour les noms, les adjectifs qualificatifs et pour les dterminants. Nous aborderons nanmoins les autres catgories en expliquant les problmes rencontrs.
1.2. Tableau des flexions
Le tableau qui suit prsente pour chaque catgorie de mot, le nombre dentres et le nombre de flexions. Ainsi on peut constater que ladjectif, le nom et le verbe sont les catgories qui comptent le plus de formes flchies.
Catgorie Nombre de lemmes Nombre de flexions Adjectif 100 400 Adverbe 51 51 Conjonction 12 12 Dterminant 12 36 Nom 122 278 Numral 36 36 Prposition 5 5 Pronom 35 35 Verbe 54 1242 Total 427 2095
2. Caractristiques de la flexion du sarde
Nous nous intresserons, dans ce qui suit, aux catgories de mots variables en dcrivant les modles de flexion que nous avons dgags grce nos observations.
2.1. La flexion nominale
Notre dictionnaire rpertorie 122 noms que nous pouvons rpartir selon diffrents modles de flexion. Pour dfinir ces modles, nous avons observ les terminaisons de chaque Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde INF M34 Informatique, Multilinguisme et Traduction
15 entre nominale du dictionnaire et nous nous sommes base sur la grammaire du sarde prsente plus haut (cf. chapitre 2, 1-1.1 : Recueil des donnes). Nous avons ainsi dgag 12 modles de flexions diffrents que nous rsumons dans le tableau suivant :
Modle Terminaison Genre Exemples Oprations sur les lemmes Morpho Enlever Ajouter N01 -A Fminin bba, bca, mba fs fp s N02 -U Masculin bbbu, bntu, ru ms mp s N03 -U Masculin fllu, pipu, titu ms mp s fs u a fp u as N04 -A
Masculin artista, tema, pra ms mp s N05 -I Masculin Furistri, professri, bendidori ms mp s fs i a fp i as N06 -I Masculin cni, flori, frdi ms mp s N07 -I Fminin libertadi, mullri, arrexoni fs fp s N8 -AU Masculin connau, sordau ms mp s fs u ada fp u adas N09 scolanu Masculin scolanu ms mp scolanu iscolanu fs u a fp scolanu iscolanas N10 scla Fminin scla fs fp scla iscolas N11 spsu spsu ms mp spsu isposus fs u a fp spsu isposas N12 -S Masculin corpus, deus, tempus ms mp
Les substantifs en sarde campidanais, ont trois terminaisons possibles : -A, -U, -I. Les noms qui se terminent par -A sont en gnral fminins (modle N01). Cependant, quelques noms font exception la rgle : ceux qui se terminent en -MA, -ARCA, -IATRA, -ISTA, -TA, -PA, -ETRA qui sont de genre masculin. Cest pourquoi, nous avons cre un modle de flexion spcifique ces noms (modle N04). Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde INF M34 Informatique, Multilinguisme et Traduction
16 Les noms qui se terminent en -U, sont en majeure partie, masculins. Nous pouvons distinguer les noms qui saccordent uniquement en nombre (deux flexions possibles) qui sont regroups dans le modle N02 et ceux qui saccordent la fois en genre et en nombre et qui sont classs dans le modle N03. Parmi les terminaisons possibles, les noms qui finissent par -I peuvent tre soit masculins soit fminins. Cependant, nous pouvons observer quelques rgularits qui permettent de distinguer quel genre appartient le nom. Ainsi, les noms qui possdent les terminaisons suivantes : -ERI, -ADORI, -IDORI, -ORI, ONI sont masculins et saccordent en genre et en nombre (modle N05). Cest le cas par exemple des mots msiganti, traitri ou encore dotori. Avec la mme terminaison en -I, nous avons les noms qui se terminent en -UNI, -INI, -ALI qui sont de genre masculin (deux flexions possibles) qui appartiennent au modle N06 comme cni, fmini et ceux qui se terminent en -ADI, -UDI, -X + voyelle + -NI qui sont fminins tels que cantidadi, arrexoni, jovuntudi (modle N07). Nous avons cre un autre modle (N08) pour les noms masculin en -AU pour lesquels laccord en genre est diffrent : le fminin est en -ADA comme par exemple dans le mot connau qui se change en connada au fminin. Les modles de flexions N09, N10 et N11 sont des modles un peu particuliers car ils correspondent une unique entre dans le dictionnaire. Ils font rfrence aux substantifs qui commencent par S- suivis dune consonne dont le pluriel se forme en ajoutant le prfixe I- et la marque du pluriel habituelle c'est--dire -S. Par exemple, le mot scola se change en iscolas au pluriel. Le problme vient du fait quil nest pas possible dans notre base dajouter un lment avant le radical. La seule solution a donc t denlever le mot entier de dpart et de le remplacer intgralement par sa forme flchie (au pluriel seulement). Le modle cr ne pouvant sappliquer qu un mot la fois (on supprime le mot dont il est question pour le remplacer par son quivalent flchi), nous avons t contraint de crer un modle pour chacun des mots prsentant cette particularit : N09 scolanu iscolanus iscolanas N10 scla iscolas N11 spsu isposus isposas Le dernier modle N12 fait rfrence au noms qui se caractrisent par le maintien du S latin en finale de mot et qui conservent la mme forme au pluriel : corpus, deus, frius, tempus.
Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde INF M34 Informatique, Multilinguisme et Traduction
17 2.2. La flexion de ladjectif qualificatif
En ce qui concerne les adjectifs, nous nous sommes seulement intresse la flexion des adjectifs qualificatifs car, comme nous lavons expliqu prcdemment, nous avons fait le choix de regrouper les autres types dadjectifs (possessifs et dmonstratifs) dans la catgorie des dterminants et dont nous ferons la description dans les pages suivantes.
Modle Terminaison Genre Exemples Oprations sur les lemmes Morpho Enlever Ajouter ADJ01 -U Masculin bnu, lanju, nbu ms mp fs u a fp u as ADJ02 -I Masculin arsti, crueli, fini ms mp s fs fp s ADJ03 -AU Masculin dilicu, ,spollu, tostu ms mp s fs u ada fp u adas ADJ04 -I
Masculin fainri, impiastri, magiri ms mp s fs i a fp i as
tablir des modles de flexion pour les adjectifs ne nous a pas pos trop de difficults dans la mesure o les marqueurs flexionnels des adjectifs sont quasiment les mmes que pour les noms. Ainsi, nous avons pu dgager quatre modles de flexions pour cette catgorie. Le modle Adj01 fait rfrence aux adjectifs dont la finale est -U et qui saccordent en genre et en nombre : - bnu (ms) bnus (mp) bna (fs) bnas (fp) Les adjectifs appartenant au deuxime modle (Adj02) ont la particularit davoir la mme forme au masculin et au fminin, cest le contexte qui permet de dfinir le genre de ladjectif : - unomini aresti una fmina aresti Comme pour les noms, le fminin des adjectifs qui se terminent en -AU est -ADA. Ces adjectifs renvoient au modle Adj03 : - prexu (ms) prexus (mp) prexada (fs) prexadas (fp) Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde INF M34 Informatique, Multilinguisme et Traduction
18 Enfin, un dernier modle Adj04, correspond aux adjectifs se terminant en -ERI, -ONI, - ORI et qui saccordent en genre et en nombre : - impiastri (ms) impiastris (mp) impiastra (fs) impiastras (fp) - minri (ms) minris (mp) minra (fs) minras (fp)
2.3. La flexion des dterminants
Les dterminants reprsentent une classe gnrique permettant de rassembler plusieurs types dunits comme les articles (dfinis et indfinis), les adjectifs possessifs et les adjectifs dmonstratifs. En examinant les diffrents dterminants, nous avons constat quil ntait pas possible de proposer un modle de flexion pour les articles dfinis : su, sa, is (le, la, les en franais). En effet, la forme du pluriel sobtient en ajoutant un I- en dbut de mot et nous avons vu prcdemment que nous ne pouvions pas ajouter de prfixes un radical mais seulement des dsinences. De plus, peut-on considrer s comme tant la base morphologique des articles dfinis ? Pour ces raisons, et bien que ces units possdent des variations en genre et en nombre, nous leur avons appliqu un modle chacune. Ainsi, le modle Det01 fait rfrence su (article dfini masculin singulier), Det02 renvoie sa (article dfini fminin singulier) et Det03 sapplique is (article dfini masculin/fminin pluriel). En revanche, les autres dterminants, savoir les adjectifs possessifs et dmonstratifs mais aussi les articles indfinis, possdent des caractristiques flexionnelles analogues et il est possible de leur appliquer un modle commun (Det04) : - Article indfini : nu nus na nas - Adjectif possessif : tu tus ta tas - Adjectif dmonstratif : cstu cstus csta cstas Seul ladjectif possessif insru ne possde pas de forme flchie cest pourquoi nous lui avons appliqu le modle Det05.
Modle Terminaison Genre Exemples Oprations sur les lemmes Morpho Enlever Ajouter DET01 SU Masculin ms DET02 SA Fminin fs DET03 IS Masculin / Fminin mp/fp DET04 -U Masculin mu, nstu, cssu ms mp s fs u a fp u as DET05 INSORU Masculin / Fminin ms/fs Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde INF M34 Informatique, Multilinguisme et Traduction
19 2.4. La flexion des verbes
En gnral, ce qui caractrise le verbe est la richesse de sa conjugaison. En effet, il varie en genre et en nombre o il se conjugue laide des pronoms personnels atones sujets mais aussi en fonction des conjugaisons (aux diffrents temps et modes). Le sarde compte quatre modes : lindicatif, le subjonctif, limpratif et le conditionnel. La langue sarde compte trois auxiliaires : ai (avoir), essi (tre) et tenni (avoir dans le sens de possder). Elle possde galement trois conjugaisons rgulires : la dsinence de linfinitif pour la premire conjugaison tant -AI, -I pour la seconde et -IRI pour la troisime. La seconde conjugaison comporte une multitude de sous-classes qui se distinguent selon la forme du participe pass :
Pour illustrer les diffrentes conjugaisons rgulires, on peut donner un exemple avec les verbes cantai (chanter), timi (craindre) et partiri (partir) au prsent de lindicatif :
Il semble vident de pouvoir tablir des routines flexionnelles pour les conjugaisons rgulires. Cependant, la formation de certains temps ne nous permet pas dtablir des modles de flexions pour les verbes. Par exemple, le futur simple est form de lauxiliaire ai suivi de la prposition a suivie de linfinitif du verbe : - ap a cantai (je chanterai) Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde INF M34 Informatique, Multilinguisme et Traduction
20 Comme chaque infinitif est diffrent dun verbe lautre, nous ne pouvons pas tablir de modles de flexions pour les verbes. Nous rencontrons donc le mme problme que pour les noms ce qui nous contraint assigner chaque verbe un modle de flexion unique. Nous avons donc 54 modles de flexions pour chaque verbe du dictionnaire. Pour ce qui est de la conjugaison, nous donnons la conjugaison des verbes pour lindicatif (prsent, imparfait, futur et les diffrentes formes du participe pass).
2.5. Le pronom
La catgorie des pronoms regroupe les pronoms personnels, relatifs, indfinis, dmonstratifs et possessifs. Cette catgorie est trs variable, cest notamment le cas par exemple des pronoms personnels sujets : - deu, tui, issu, nosu, bosatrus, issus Compte tenu de cette variabilit, nous avons prfr appliquer un modle de flexion pour chacune des entres.
Nous avons pu remarquer tout au long de ce travail, que les difficults sont inhrentes la cration des dictionnaires morphosyntaxiques. Par exemple, notre base de donnes ne sapplique pas ladjonction de prfixes. En effet il nest pas possible dans son tat actuel dajouter des prfixes. Il faudrait crer dautres oprateurs que enlever et ajouter partir de la fin du mot. Cette amlioration permettrait de pouvoir modifier une entre sans avoir la supprimer intgralement pour la remplacer par sa forme flchie dont seul le dbut du lemme est modifi. Par ailleurs, il nest absolument pas vident de calculer la base adquate du lemme. En effet, lorsquon utilise les principes de la morphologie flexionnelle pour gnrer automatiquement les diffrentes formes d'un mot, cela ne se rsume pas accoler des suffixes la forme canonique dun mot. Nous pouvons prendre lexemple en franais o pour produire la forme fminin singulier de traducteur, il est ncessaire de calculer la base adquate (i.e. "traduc-") et de lui associer par la suite la flexion fminin convenable (i.e. "- trice"). En consquence, la phase de gnration morphologique se droule en deux parties fondamentales bien distinctes, savoir, le calcul de la base et celui des flexions appropries.
Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde INF M34 Informatique, Multilinguisme et Traduction
21 CONCLUSION
Le travail ralis pour ce projet a permis de mettre en place un dictionnaire morpho- syntaxique pour une des variantes de la langue sarde : le campidanais. Comme nous lavons expos prcdemment, la langue sarde (quelque soit la variante tudie) souffre dun manque de description linguistique flagrant. La documentation utilise na donc t que trs faible du fait de la raret des ressources existantes.
Par ailleurs, outre les divers problmes poss par la mise en uvre du dictionnaire, la premire difficult est venue de la disparit des variantes de la langue. En effet, nous avons t confront un premier problme thorique quant au choix de la variante tudier.
Le recours une base de donnes tait de loin le moyen le plus efficace malgr les contraintes quelle impose (par exemple pour la saisie des donnes). Cependant nous avons pu constater par les difficults que nous avons rencontres, que la structure de notre base pouvait poser des problmes (oprateurs permettant dajouter des prfixes).
Ce dictionnaire ne prtend videmment pas tre exhaustif mais offre dj une premire base de travail intressante pour des tudes ultrieures sur cette variante de la langue, et de faon plus gnrale pour lensemble des variantes du sarde. Il pourrait notamment tre intressant denrichir de nouvelles entres et de fournir une caractrisation verbale plus prcise des lemmes. Une autre phase damlioration serait de pouvoir actualiser ce dictionnaire en le rendant multilingue (en intgrant des langues supplmentaires).
Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde INF M34 Informatique, Multilinguisme et Traduction
22 SITOGRAPHIE
DOCUMENTS EN LIGNE (articles et thses):
BLANC O., CONSTANT M., SASTRE J., Interface lexique-grammaire et lexiques syntaxiques et smantiques http://www.atala.org/doc/JE_050312/Lexsynt-Blanc.pdf
COURTOIS B., Buts et mthodes de llaboration des dictionnaires lectroniques du LADL
FRANCOPOULO G. (2003), Proposition de norme des lexiques pour le traitement automatique du langage http://pauillac.inria.fr/atoll/RNIL/TC37SC4-docs/N07.pdf
MONTELEONE M. (2003), Lexicographie et dictionnaires lectroniques http://igm.univ-mlv.fr/LabInfo/theses/2003/monteleone.pdf
VERONIS J., KHOURI L., Etiquetage grammatical multilingue : le projet multext http://aune.lpl.univ-aix.fr/projects/multext/LEX/LEX2_1.html
LIENS SUR LA LANGUE SARDE :
Donnes gographiques, dmo-linguistiques, statut linguistique de la langue sarde http://www.tlfq.ulaval.ca/axl/europe/italiesardaigne.htm
Article sur la langue sarde (Encyclopdie Wikipdia) : Aspects linguistiques (phontique, morphologie, syntaxe) et aspects socio-linguistiques http://fr.wikipedia.org/wiki/Sarde
La langue sarde : La lingua sarda : prsentation de la langue de la grammaire et de certains aspects linguistiques (possibilit de tlcharger une grammaire complte du sarde au format PDF en italien) http://www.mondosardegna.net/linguasarda/linguasarda.htm
Aspects de la littrature sarde http://yves.barnoux.free.fr/sarde/litterature.htm
Ditzionriu de sa limba sarda (auteur Mario Puddu) : Dictionnaire smantique multilingue en langue sarde. Les recherches peuvent seffectuer partir du sarde directement (variantes) ou partir dautres langues : litalien, le franais, langlais ou lallemand. Ce dictionnaire comprend 93 000 lemmes en sarde, 18 000 mots traduits en italien, 18 000 en anglais, 17 000 en franais et 9000 pour lallemand. http://www.ditzionariu.org/
Marie PIU - Constitution dun dictionnaire morphosyntaxique pour la langue sarde INF M34 Informatique, Multilinguisme et Traduction
23 EXEMPLES DE DICTIONNAIRES ELECTRONIQUES MORPHOSYNTAXIQUES