Está en la página 1de 5

﴾ ‫﴿ بسم هللا الرمحن الرحمي‬

Auteur : MOHAMED BEN MERIEM

OCTOBRE 2018
Spécifications du format de fichier nart Auteur : MOHAMED BEN MERIEM

1. C’est quoi le format nart ?


L’appellation nart signifiée « normalized arabic text ».ainsi, un fichier nart est un fichier
texte spécial qui sert à représenter un texte arabe normalisé généré par un module spécial de
normalisation de texte ou bien crée avec un outil de création de ce type de fichiers comme
l’outil : « arabic TTS editor »

Un fichier dans ce format est composé de deux zones :

 La zone des métadonnées : c’est la première ligne du fichier et occupe toujours les
premiers 32 octets du fichier. Les 4 premiers octets de cette zone représentent un
champ signature pour le format nart et prend toujours la valeur ASCII ‘N’,’A’,’R’,’T’ les
deux derniers octets de cette zone représentent la fin de cette ligne spéciale dans le fichier
nart et ce champ prend toujours la valeur ASCII CR, LF (Carriage Return, Line Feed).

 La zone des données : c’est tout le reste du fichier .nart et contient le texte arabe
normalisé en utilisant le codage de fichier spécifié dans le champ codage dans la zone des
métadonnées (UTF-16, UTF-8, Windows-1256). les seuls caractères tolérés dans cette
zone sont ceux du tableau 2a qui suit.

2. Quelle est l’utilité du format nart ?


Le fait d’imposer le format nart sur la sortie d’un module de normalisation d’un texte
arabe met une contrainte sur ce module. Cette contrainte est bénéfique pour les autres
modules de traitement automatique de la langue arabe (TALA) comme un module de
diacritisation (Tashkeel) ou un module de traduction automatique de la langue arabe, parce
que le module de normalisation convertit tous les caractères du texte reçu en entrée en des
caractères qui appartiennent exclusivement au jeu de caractères nart qui est un jeu de
caractères réduit et condensé par rapport aux jeux de caractères UTF-16, UTF-8 et Windows-
1256.

En effet, ce jeu de caractères nart ne contient que les caractères fortement nécessaires
en TALA, fait qui lors d’une analyse morphosyntaxique du texte réduit considérablement le
nombre de possibilités ce qui facilite la prise de décision. De là vient l’utilité de ce format nart.

Bien entendu, il faut noter que ce format nart ne fait pas intervenir un nouveau codage
propre au format. Mais, il conserve le codage d’origine du fichier (UTF-16, UTF-8 ou Windows-
1256). Ceci, pour éviter le ralentissement du système de traitement par des opérations de
conversion de codes inutiles.

1
Spécifications du format de fichier nart Auteur : MOHAMED BEN MERIEM

3. Structure d’un fichier nart :


Le tableau 1 qui suit donne la structure d’un fichier nart :

Taille du
Offset
champ Valeur du champ Signification du champ
(en Hex)
(en Bytes)

00 4 ‘N’,’A’,’R’,’T’ Signature du format .nart

Codage du fichier
0 : UTF-16
04 1 0,1 ou 2
1 : UTF-8
2 : Windows-1256

Etat de diacritisation
0 : fichier non diacrité ou
05 1 0 ou 1
partiellement diacrité
1 : fichier entièrement diacrité

06 24 0 Réservé

1E 2 CR, LF Fin de la ligne spéciale

20 FileSize-32 xx La zone « données »

Tableau 1

Le tableau 2a qui suit donne en bref les caractères tolérés dans un fichier nart :

. ، ‫؛‬ : ‫؟‬ ! ( )
[ ] { } " SP CR LF
‫ء‬ ‫آ‬ ‫أ‬ ‫ؤ‬ ‫إ‬ ‫ئ‬ ‫ا‬ ‫ب‬
‫ة‬ ‫ت‬ ‫ث‬ ‫ج‬ ‫ح‬ ‫خ‬ ‫د‬ ‫ذ‬
‫ر‬ ‫ز‬ ‫س‬ ‫ش‬ ‫ص‬ ‫ض‬ ‫ط‬ ‫ظ‬
‫ع‬ ‫غ‬ ‫ف‬ ‫ق‬ ‫ك‬ ‫ل‬ ‫م‬ ‫ن‬
‫ه‬ ‫و‬ ‫ى‬ ‫ي‬ ًً ًٌ ًٍ ًَ
ًُ ًِ ًّ ًْ ‫ٱ‬ ‫پ‬ ‫ڤ‬ ‫گ‬

Tableau 2a

2
Spécifications du format de fichier nart Auteur : MOHAMED BEN MERIEM

Le tableau 2b qui suit donne en détail les caractères tolérés dans un fichier nart:

Son code
Caractère
Unicode Son nom Unicode Son rôle
toléré
(en Hex)

. 002E Full stop


، 060C Arabic comma
‫؛‬ 061B Arabic semi colon
: 003A colon
‫؟‬ 061F Arabic question mark
! 0021 Exclamation mark
( 0028 Left parenthesis Séparateur de phrases
) 0029 Right parenthesis
[ 005B Left square bracket
] 005D Right square bracket
{ 007B Left curly bracket
} 007D Right curly bracket
" 0022 Quotation mark
SP 0020 Space Séparateur de mots
CR 000D Carriage return
Séparateur de lignes
LF 000A Line feed
‫ء‬ 0621 Arabic letter hamza
‫آ‬ 0622 Arabic letter alef with madda above
‫أ‬ 0623 Arabic letter alef with hamza above
‫ؤ‬ 0624 Arabic letter waw with hamza above
‫إ‬ 0625 Arabic letter alef with hamza below
‫ئ‬ 0626 Arabic letter yeh with hamza above
‫ا‬ 0627 Arabic letter alef
‫ب‬ 0628 Arabic letter beh
‫ة‬ 0629 Arabic letter teh marbuta
Lettre arabe
‫ت‬ 062A Arabic letter teh
‫ث‬ 062B Arabic letter theh
‫ج‬ 062C Arabic letter jeem
‫ح‬ 062D Arabic letter hah
‫خ‬ 062E Arabic letter khah
‫د‬ 062F Arabic letter dal
‫ذ‬ 0630 Arabic letter thal
‫ر‬ 0631 Arabic letter reh
‫ز‬ 0632 Arabic letter zain

3
Spécifications du format de fichier nart Auteur : MOHAMED BEN MERIEM

Son code
Caractère
Unicode Son nom Unicode Son rôle
toléré
(en Hex)

‫س‬ 0633 Arabic letter seen


‫ش‬ 0634 Arabic letter sheen
‫ص‬ 0635 Arabic letter sad
‫ض‬ 0636 Arabic letter dad
‫ط‬ 0637 Arabic letter tah
‫ظ‬ 0638 Arabic letter zah
‫ع‬ 0639 Arabic letter ain
‫غ‬ 063A Arabic letter ghain
‫ف‬ 0641 Arabic letter feh
Lettre arabe
‫ق‬ 0642 Arabic letter qaf
‫ك‬ 0643 Arabic letter kaf
‫ل‬ 0644 Arabic letter lam
‫م‬ 0645 Arabic letter meem
‫ن‬ 0646 Arabic letter noon
‫ه‬ 0647 Arabic letter heh
‫و‬ 0648 Arabic letter waw
‫ى‬ 0649 Arabic letter alef maksura
‫ي‬ 064A Arabic letter yeh
ً 064B Arabic fathatan
ً 064C Arabic dammatan
ً 064D Arabic kasratan
ً 064E Arabic fatha
Diacritique arabe
ً 064F Arabic damma
ً 0650 Arabic kasra
ً 0651 Arabic shadda
ً 0652 Arabic sukun
‫ٱ‬ 0671 Arabic letter alef with wasla Lettre arabe
‫پ‬ 067E Arabic letter peh
Lettre arabe utilisée pour
‫ڤ‬ 06A4 Arabic letter veh translitérer le caractère
latin équivalent
‫گ‬ 06AF Arabic letter gaf

Tableau 2b