Está en la página 1de 27

Noam Chomsky

Trois modles de description du langage


In: Langages, 3e anne, n9, 1968. pp. 51-76.

Citer ce document / Cite this document : Chomsky Noam. Trois modles de description du langage. In: Langages, 3e anne, n9, 1968. pp. 51-76. doi : 10.3406/lgge.1968.2361 http://www.persee.fr/web/revues/home/prescript/article/lgge_0458-726X_1968_num_3_9_2361

NOAM CHOMSKY

TROIS

MODLES DE DESCRIPTION DU LANGAGE

Rsum. Nous tudierons plusieurs conceptions de structure linguistique, afin de dterminer si elles peuvent mener des grammaires simples et rvlatrices qui engendrerons les phrases de l'anglais et celles-ci seulement. Nous constaterons qu'il n'est pas possible d'utiliser comme grammaire de l'anglais une chane de Markov nombre fini d'tats qui produit des symboles chaque transition d'tat tat. De plus, la sousclasse de ces processus, qui produit des approximations d'ordre n de l'anglais ne serre pas non plus, quand croit, la production d'une gram maire anglaise. Nous formaliserons la notion de structure de consti tuants (en anglais : phrase structure) et nous montrerons que cela nous fournit une mthode de description des langues, qui est essentiellement plus puissante, tout en restant reprsentable par un type de processus fini plutt lmentaire. Cependant elle n'est applicable qu' un petit sous-ensemble de phrases simples. Nous tudierons les proprits for melles d'un ensemble de transformations qui appliquent des phrases munies de leur structure de constituants, sur de nouvelles phrases munies d'une structure de constituants drive, nous montrerons ainsi que les grammaires transformationnelles sont encore des processus de type l mentaire, que la grammaire de l'anglais est matriellement simplifie si la description par structure de constituants est limite un noyau de phrases simples, partir desquelles toutes les autres sont construites par des transformations, et que cette image de la structure linguistique *Ce travail a t financ en partie par l'arme de terre (Signal Corps), l'arme de l'air (Office of Scientific Research, Air Research and Development Command), la marine (Office of Naval Research) et en partie par un don de l'Eastman Kodak Company. Cet article a t publi dans IRE Transactions on Information Theory., 1956, II 2, pp. 113-124; nous avons pu le traduire grce l'autorisation de ....; il a t reproduit dans Readings in Mathematical Psychology, vol. II, R.D. Luce, R.R. Bush, E. Galanter Eds, Wiley, New York, 1965.

52 donne une certaine comprhension de l'utilisation et de l'interprtation du langage. 1. Introduction. Il y a deux problmes au centre de l'tude descriptive du langage. La proccupation fondamentale du linguiste est de dcouvrir des gram maires simples et rvlatrices pour les langues naturelles. En mme temps, par l'tude des proprits de telles grammaires, et la clarification des concepts de base qui leur sont sous-jacents, il espre aboutir une thorie gnrale des structures linguistiques. Nous examinerons certains caractres de ces deux dmarches. La grammaire d'une langue peut tre considre comme une thorie de la structure de cette langue. Toute thorie scientifique est fonde sur un certain ensemble fini d'observations. En tablissant des lois gnrales bases sur des concepts hypothtiques, une thorie tente de rendre compte de ces observations, de montrer comment elles sont lies entre elles, et de prdire un nombre indfini de nouveaux phnomnes. Une thorie mathmatique a la proprit supplmentaire de faire provenir rigoureusement les prdictions, du corps de la thorie. De la mme manire, une grammaire est base sur un nombre fini de phrases observes (le corpus du linguiste) et elle projette cet ensemble sur un nombre infini de phrases grammaticales, au moyen de lois gnrales (les rgles de grammaire) donnes en termes de concepts hypothtiques tels que les phonmes particuliers, les mots, les syntagmes, etc., de la langue analyse. Une grammaire correctement formule devrait dterminer de manire non ambigu, l'ensemble des phrases grammaticales. Une thorie linguistique gnrale peut tre considre comme une mtathorie dont l'objet est le problme du choix d'une telle grammaire pour chaque langue particulire, sur la base d'un corpus fini. En parti culier, elle devra considrer et essayer d'expliquer les relations entre l'ensemble des phrases grammaticales et l'ensemble des phrases observes. En d'autres termes, une thorie linguistique tente d'expliquer la facult d'un sujet parlant d'mettre et d'interprter des phrases nouvelles, et de rejeter d'autres nouvelles squences comme non grammaticales sur la base d'une exprience linguistique limite. Supposons que pour de nombreuses langues il existe certains exemples clairs de phrases grammaticales et certains exemples clairs de squences non grammaticales, par exemple (1) et (2) respectivement, pour l'anglais. (1) (2) John ate a sandwich. (Jean a mang un sandwich). Sandwich a ate John. (Sandwich un a mang Jean).

53 Dans ce cas, nous pouvons vrifier la thorie linguistique propose, en observant pour chaque langue si oui ou non la grammaire construite selon la thorie rend compte des exemples clairs. Par exemple si un volumineux corpus se trouve ne pas contenir (1) et (2), nous nous demand erons si la grammaire qui a t dtermine par rapport ce corpus, projette le corpus de manire ce qu'il contienne (1) et ce qu'il exclue (2). Mme si de tels exemples clairs ne constituent que des vrifications faibles de la seule adquation d'une grammaire une langue donne, ils constituent des vrifications trs fortes pour toute thorie linguistique gnrale et pour l'ensemble des grammaires auquel celle-ci conduit, tant donn que nous insistons pour que dans chaque langue les exemples clairs soient convenablement traits, de manire fixe et prdtermine. Nous pouvons nous orienter vers la construction d'une caractrisation oprationnelle de la notion de phrase grammaticale qui nous fournira les exemples clairs que ncessite les travaux linguistiques significatifs. Observons, par exemple, que (1) sera lu avec l'intonation normale d'une squence du corpus, tandis que (2) sera lu avec une intonation de fin de syntagme sur chaque mot, comme pour toute squence de mots n'ayant rien voir les uns avec les autres. D'autres critres distinctifs du mme type peuvent tre donns. Avant de pouvoir esprer rendre compte de manire satisfaisante de la relation gnrale entre phrases observes et phrases grammaticales, il nous faut apprendre beaucoup plus de choses sur les proprits for melles de chacun de ces ensembles. Cet article traite des proprits for melles de l'ensemble des phrases grammaticales. Nous nous limitons l'anglais et nous supposons la connaissance intuitive des phrases de l'anglais et des non-phrases. Nous demandons alors quelle sorte de thorie linguistique est ncessaire la construction d'une grammaire de l'anglais qui dcrirait l'ensemble des phrases de l'anglais de manire intressante et satisfaisante. La premire tape de l'analyse linguistique d'une langue consiste donner un mode de reprsentation de ses phrases qui soit fini. Nous supposerons que cette tape a t franchie, et nous ne nous occuperons que de langues donnes en transcription phonmique ou alphabtique. Ainsi, par langage nous entendrons un ensemble de phrases (fini ou infini), chacune de longueur finie et toutes construites sur un alphabet de symboles fini. Si A est un alphabet, nous dirons que tout ce qui est obtenu par concatnation de symboles de A est une squence sur A. Par grammaire du langage L nous entendrons un mcanisme quelconque qui produit toutes les squences qui sont des phrases de L et seulement celles-ci. Quelque soit la manire ultime dont nous construirons une thorie linguistique nous exigerons coup sr que toute grammaire d'un langage soit finie. Il s'ensuit que seul, un ensemble dnombrable de grammaires est disponible pour toute thorie linguistique, donc qu'une infinit

54 non dnombrable de langages ne sont pas, dans notre sens, descriptibles en terme du concept de structure linguistique donne par une thorie quelconque. Ainsi, tant donne une thorie de la structure linguistique, il est tout fait normal de poser la question suivante : (3) Existe-t-il des langues intressantes qui sont en dehors du domaine de description du type propos? En particulier, nous nous demanderons si l'anglais est une telle langue. Si c'est le cas, alors le concept de structure linguistique qui est propos doit tre considr comme inadquat. Si la rponse (3) est ngative, nous pouvons alors poser des questions telles que : (4) Pouvons-nous construire des grammaires raisonnablement simples pour toutes les langues intressantes? (5) Existe-t-il des grammaires rvlatrices , dans le sens que les structures syntaxiques qu'elles produisent, peuvent se rattacher aux structures smantiques, et permettent une comprhension de l'utilisation et de l'interprtation du langage, etc.? Nous examinerons d'abord divers concepts de structure linguistique en termes de la possibilit et de la complexit de la description (ques tions (3) et (4)). Ensuite ( 6), nous considrerons brivement les mmes thories en termes de (5), et nous verrons que nous aboutissons de manire indpendante aux mmes conclusions quant aux pertinences linguis tiques relatives. 2. Processus de Markov nombre fini d'tats. 2.1. Les grammaires les plus lmentaires qui, au moyen d'un appareillage fini, engendrent un nombre infini de phrases, sont celles qui sont bases sur une notion familire de langage; ces grammaires sont considres comme des types particulirement simples de source d'i nformation : processus de Markov nombre d'tats fini 4 De manire plus prcise, nous dfinirons une grammaire tats finis G comme un systme nombre fini d'tats : So,. . ., Sq, un ensemble A \aijk | < i,j < q; 1 < < Nij, pour tout i, j | de symboles de transition, et un ensemble = \(Sit Sf)\ groupant certaines paires d'tats de G qui seront dits connect s. Quand le systme passe de l'tat Si l'tat Sj, il produit un symbole atjk A. Supposons que (") <xi Sam soit une squence d'tats de G avec <x.x = <xm = 0, a f 0 pour 1 < i < m, et

1. Cf. [7]. Les grammaires tats finis peuvent tre reprsentes graphiquement par des diagrammes d'tats, comme dans [7], pp. 15 s. (N. d. T. : nous abrgerons gram maires nombre fini d'tats en grammaire tats finis.)

55 pour chaque i <m. Quand le systme passe de l'tat Sa. l'tat SXi+v il produit le symbole : (7) pour un < N a.a. .Si nous utilisons l'arche ~ pour noter la concatnat ion 2, nous pouvons dire que la squence (6) engendre toutes les phrases : a ai<x2fci ~ a ct2cc3k2 ~ ... ^ a a pour tous les kt qui conviennent (k < N a .a . j). Le langage Lc qui contient toutes ces phrases et seulement celles-ci, est appel le langage engendr par G. Ainsi, pour produire une phrase de LG, nous prenons le systme dans l'tat initial So, et nous nous dplaons le long d'une squence d'tats connects, en terminant de nouveau en So, et, chaque transition d'un tat au suivant, nous produisons un des symboles de A. Nous dirons qu'un langage L est un langage tats finis, si L est l'ensemble des phrases engendres par une grammaire tats finis G quelconque. 2.2. Supposons que l'ensemble A des symboles de transition soit l'ensemble des phonmes de l'anglais. Nous pouvons essayer de construire une grammaire tats finis G qui engendrera toutes les squences de phonmes anglais qui sont des phrases de l'anglais, et seulement ces squences. Il est tout fait vident que le travail de construction d'une grammaire tats finis pour l'anglais sera grandement simplifi, si nous prenons comme ensemble A l'ensemble des morphmes 3 ou des mots de l'anglais, et si nous construisons une grammaire G qui engendrera exactement les squences grammaticales sur ces units. Nous pouvons ensuite complter la grammaire en donnant un ensemble fini de rgles qui fourniront la transcription phonmique de chaque mot ou morphme dans le contexte o il apparat. Nous verrons rapidement le statut de telles rgles en 4 . 1 et 5 . 3. Avant de nous proccuper directement du problme de la construc tion d'une grammaire tats finis pour les squences anglaises de mots ou de morphmes, nous tudierons les limites absolues de l'ensemble des langages tats finis. Supposons que A soit l'alphabet d'un langage L, que a-i, . .., an soient les symboles de cet alphabet, et que : (9) S = , . . . Xmtt^b^b^ . . . bmym

soit une phrase de L. Nous dirons que S possde une m-dpendance par rapport L, si et seulement s'il existe une permutation unique oc de 2. Voir [6], Appendice 2, pour une axiomatisation des algbres de concatnation. L'arche sera supprime, quand cela n'entranera pas d'ambigut. 3. Par morphmes nous entendons les plus petits lments fonction grammat icale de la langue, par exemple boy (garon), run (cours), ing (ant) dans running (courant), s dans books (livres), etc.

56 (1, . . ., m) qui remplit la condition * : il existe clf . . ., c^e A tels que pour chaque sous-squence (iv . . . , ip) de (1, . . . , m), St n'est pas une phrase de L, et S2 est une phrase de L, o : (10) Sx est form par substitution de c(/- a/;- dans S pour tout j > p; S2 est form par substitution de cm+0C(fj) ba^ dans S^ pour tout j >/>. Ainsi le remplacement de af par c,- dans 5 impose, pour que la phrase soit bien forme, un remplacement correspondant de a(,-) par cm + a() (cette notion pourrait tre gnralise de manire vidente). Il est donc clair que si S prsente une /n-dpendance par rapport L, alors il faut que la grammaire tats finis qui engendre le langage L comporte au moins 2m tats. Il est donc clair que : (11) Si L est un langage tats finis, il existe un m tel qu'aucune phrase de L ne prsente de -dpendance, pour n > m, par rapport L. En utilisant cette remarque, nous pouvons immdiatement construire de nombreux langages qui ne sont pas tats finis et qui prsentent un intrt pour l'tude des langues naturelles. Par exemple, parmi les lan gages Llt L2, L3 de (12), dont on peut montrer qu'ils ne sont pas tats finis, L2 et L3 contiennent des phrases /n-dpendances pour m arbitraire, avec : <x(i) m i + 1 dans le cas de L2 et a(i) = i dans le cas de L3. (12) (i) Lj contient ab, aabb, aaabbb, . . ., et plus gnralement, toutes les phrases qui se composent de n occurrences de a suivies de n occurrences de b, et uniquement celles-ci; (ii) L2 contient aa, bb, abba, baab, aabbaa, . . . , et plus gnral ement toutes les phrases image-miroir qui se composent d'une squence X suivie de cette squence X retourne, et uniquement celles-ci; (iii) L3 contient aa, bb, abab, baba, aabaab, . . ., et plus gnral ement toutes les phrases se composant d'une squence X suivie de la mme squence X, et uniquement celles-ci. 2.3. Si nous nous tournons vers l'anglais, nous dcouvrons qu'il existe des ensembles infinis de phrases qui prsentent des dpendances sur plus d'un nombre fini de termes. Par exemple, soient Sv S2, ... des phrases dclaratives, alors les phrases suivantes appartiennent toutes l'anglais : (13) (i) If Slt then S2 (Si Sv alors S2). (ii) Either 53, or 54 (Ou bien S3, ou bien 54). (iii) The man who said that 55, is arriving today. (L'homme qui a dit que 55 arrive aujourd'hui). Ces phrases prsentent des dpendances de part et d'autre de if then (si alors), either or (ou bien ou), man is (homme arrive). Mais nous pouvons prendre pour Sv Sz, S5 qui appa raissent entre les mots interdpendants, les phrases (13 i), (13 ii) ou 4. Un dfaut d'une premire dfinition de cette notion m'avait t signal par E. Assmuss.

57 (13 iii) elles-mmes. En construisant des phrases de cette manire, nous aboutissons une partie de l'anglais qui possde exactement les pro prits d'image-miroir du langage L2 de (12). Par consquent, l'anglais ne remplit pas la condition (11). L'anglais n'est pas un langage tats finis, et nous sommes obligs de rejeter la thorie du langage que nous discutons comme ne rpondant pas la condition (3). Nous pourrions viter cette consquence par la dcision arbitraire qui consiste dire qu'il existe une limite suprieure finie la longueur des phrases de l'anglais. Cependant cette dcision serait tout fait inutile. La raison en est qu'il existe des processus de formation de phrases dont ce modle lmentaire de langue est incapable de rendre compte. Si l'on ne place pas de limite finie sur ces processus, nous pouvons dmontrer que ce modle est littralement inapplicable. Si les processus sont limits, alors la construction d'une grammaire tats finis n'est pas littralement impossible (puisqu'une liste est une grammaire tats finis, triviale), mais cette grammaire sera si complexe qu'elle ne sera pratiquement pas utilisable ou intressante. Nous tudierons ci-dessous un modle de gram maire qui peut rendre compte des langages en image-miroir. La puissance supplmentaire d'un tel modle dans le cas infini est indique par le fait qu'il est beaucoup plus utile et rvlateur quand une limite finie y est impose. En gnral, l'hypothse que les langues sont infinies est faite dans le but de simplifier les descriptions 5. Si une grammaire ne possde aucune tape recursive (boucles fermes, dans le modle discut ci-dessus), elle sera beaucoup trop complexe; elle se trouvera tre, en fait, peine plus intressante qu'une liste de squences de classes de morphmes, dans le cas des langues naturelles. Si elle possde des mcanismes rcursifs, elle produira une infinit de phrases. 2.4. Bien que nous ayons vu qu'aucun processus de Markov qui produit des phrases de gauche droite ne peut servir de grammaire l'anglais, nous pouvons tudier des possibilits de construction de suites de tels mcanismes qui, d'une manire non triviale, s'approcheraient de plus en plus de la production d'une grammaire satisfaisante de l'anglais. Supposons par exemple, que nous construisions, pour n fix, une gram maire tats finis de la manire suivante : un tat de la grammaire est associ chaque squence de mots anglais dont la longueur est n, et la probabilit pour que le mot X soit produit quand le systme est dans l'tat S;, tant donne. La production d'une telle grammaire est habituel lementappele une approximation d'ordre n + 1 de l'anglais. Il est clair que lorsque crot, la sortie de telles grammaires ressemble de plus en plus de l'anglais, puisque les squences de plus en plus longues ont une forte probabilit d'tre directement prises dans l'chantillon de l'anglais 5. Remarquons qu'une grammaire doit reflter et expliquer la facult du locuteur de comprendre et d'mettre des phrases nouvelles qui peuvent tre bien plus longues que celles qu'il a entendues auparavant.

58 partir duquel les probabilits ont t dtermines. Ce fait a parfois suggr qu'il tait possible de construire une thorie linguistique sur un tel modle. Quelque soit l'intrt d'une approximation statistique dans ce sens, il est clair qu'elle ne peut pas donner d'indications sur les problmes de grammaire. Il n'existe aucune relation gnrale entre la frquence d'une squence (ou de ses lments composants) et sa grammaticalit. Nous pouvons voir ceci de manire tout fait claire en considrant des squences telles que (14) colorless green ideas sleep furiously. (de vertes ides incolores dorment furieusement). qui est une phrase grammaticale, bien qu'il soit raisonnable de supposer qu'aucun couple de ses mots ne soit jamais apparu auparavant. Remar quons qu'un sujet parlant anglais pourra lire (14) avec une intonation normale, tandis qu'il lira la squence (15) tout aussi inhabituelle : (15) furiously sleep ideas green colorless (furieusement dorment vertes incolores des ides). avec une intonation de fin de syntagme sur chacun des mots, comme dans le cas de toute squence non grammaticale. Ainsi (14) est diffrent de (15) comme (1) l'est de (2); le test oprationnel de grammaticalit que nous avons propos, confirme le sentiment intuitif qui nous dit que (14) est une phrase grammaticale mais que (15) n'en est pas une. Nous pouvons poser le problme de la grammaire, en partie comme celui de l'explication et de la reconstruction de la facult d'un locuteur de l'anglais de recon natre les phrases (1), (14), etc., comme grammaticales, tout en rejetant (2), (15), etc. Mais aucun modle d'approximation ne peut distinguer (14) de (15) (ni un nombre indfini de paires semblables). Quand n crot, une approximation d'ordre n de l'anglais, exclura (comme de plus en plus improbable) un nombre toujours croissant de phrases grammaticales, tandis qu'elle contiendra de trs grandes quantits de squences compl tement agrammaticales 6. Nous sommes ainsi obligs de conclure qu'ap paremment, il n'existe pas, dans cette direction, d'approche significative aux problmes de grammaire. Remarquons que bien que pour tout n, un processus d'approximat ion d'ordre peut tre reprsent par un processus de Markov tats finis, l'inverse n'est pas vrai. Considrons par exemple le processus trois tats, o (So, SO, (Slf Sj), (Sv So), (So, S2), (Sa, S2), (S2, S?) sont les tats connects, et o a, b, a, c, b, sont les symboles de transition respectifs. Le processus peut tre reprsent par le diagramme d'tat suivant :

6. Ainsi on peut toujours trouver des squences de n + 1 mots dont les premiers, et les derniers mots peuvent apparatre, mais pas dans la mme phrase (par exemple, on peut remplacer is (arrive) par are (arrivent) dans (13 iii), et choisir S, avec une longueur quelconque convenable).

59

ocoo

Le processus cbbe, des phrases Au abbbe, 2.4 . peut .dpendances nous . mais produire avons pas soutenu cbbe, sur les une phrases cbba, longueur qu'il etc. aa, n'y Le aba, finie avait langage abba, quelconque. pasabbba, engendr de relation . . ., possde ce, signi ebe, ficative entre l'ordre d'approximation et la grammaticalit. Si nous ordonnons les squences de longueur donne en terme d'ordre d'approxi mation de l'anglais, nous constatons que des squences grammaticales ou non apparaissent tout au long de la liste, de haut en bas. Donc la notion d'ordre d'approximation statistique semble ne rien avoir faire la gramm aire. Au 2.3, nous avons remarqu qu'une classe de processus bien plus tendue, la classe de tous les processus de Markov tats finis qui produisent des symboles de transition, n'inclut pas de grammaire de l'anglais. C'est--dire que si nous construisons une grammaire tats finis qui ne produit que des phrases de l'anglais, nous saurons qu'elle ne pourra pas produire un nombre infini de telles phrases; en particulier, elle sera incapable de produire un nombre infini de phrases vraies, de phrases fausses, de questions raisonnables qui pourraient tre poses intelligem ment, et bien d'autres encore. Ci-dessous, nous tudierons une classe de processus bien plus tendue, qui pourrait nous fournir une grammaire de l'anglais. 3. Structure de constituants 7. 3.1. Habituellement, les descriptions syntaxiques sont donnes en terme de ce qui est appel analyse en constituants immdiats . Dans les descriptions de cette sorte les mots d'une phrase sont groups en syntagmes, ceux-ci sont groups en syntagmes plus petits, et ainsi de suite, jusqu' ce que les constituants ultimes (en gnral les morphmes 3) soient atteints. Ces syntagmes sont classs en syntagmes nominaux (SN), syn tagmes verbaux (SV), et ainsi de suite. Ainsi la phrase (17) peut tre analyse par le diagramme qui l'accompagne. 7. N. d. T. Nous traduisons phrase structure par structure de constituants, < phrase structure grammar par grammaire de constituants que nous abrgeons en C-grammaire dans certains cas.

60 (17)

the man (V homme)

took (a pris)

the book (le livre)

SN

Verbe

SN

SV

Phrase

II est vident que des descriptions de phrases en de tels termes permettent des simplifications considrables par rapport au modle mot-par-mot , puisque la composition d'une classe complexe d'expressions telles que SN est donne une fois pour toutes, et que cette classe peut tre rutilise comme un lment de construction diverses tapes de la formation des phrases. Nous examinerons maintenant quelle est la forme de grammaire qui correspond ce concept de structure linguistique. 3.2. Une grammaire de constituants est dfinie par un voca bulaire (alphabet) fini Vp, un ensemble fini S de squences initiales sur Vp, et un ensemble fini F de rgles de la forme : X ->- Y, o X et Y sont des squences sur Vp. Chacune de ces rgles s'interprte comme une instruction : rcrire X en Y. Pour des raisons qui apparatront directe ment, nous demanderons que dans chacune de ces [S, F] -grammaires (18) S: S* F:X1 Y1

**-m v ~*" v ym Yf soit form partir de X, par le remplacement d'un symbole unique de Xf, par une certaine squence. Ni le symbole remplac, ni le symbole remplaant ne peuvent tre l'lment neutre. tant donne la [S, F] -grammaire (18), nous dirons que : (19) (i) : une squence (3 provient d'une squence a, si a = ZXtW et P = ZYtW pour un certain i < m8; 8. Z ou W peuvent tre l'lment neutre U dans ce cas. Remarquons que puisque nous avons contraint (18) de manire empcher U de figurer avec un sens dans, ou bien le membre droit, ou bien le membre gauche des rgles de F, et puisque nous deman-

61 (ii) : une drivation de la squence St est une suite D = (Slt . . ., St) de squences, avec S^eS et pour chaque i < /, Si+1 provient de St; (iii) : une squence S est derivable de (18), s'il existe une drivation de S en termes de (18); (iv) : une drivation de St est termine, si aucune squence ne peut provenir de St; (v) : une squence St est une squence terminale, si elle est la der nire ligne d'une drivation termine. Une drivation est donc analogue une dmonstration, S est considr comme le systme des axiomes et F comme les rgles d'infrences. Nous dirons que L est un langage derivable, si L est l'ensemble des squences qui sont drivables d'une [S, F] -grammaire quelconque, et nous dirons que L est un langage terminal s'il est l'ensemble des squences terminales d'un systme [2, F] quelconque. Dans tous les cas intressants, il y aura un vocabulaire terminal Vt (VtcVp) qui caractrisera exactement les squences terminales, dans le sens que toute squence terminale est une squence sur Vt et aucun symbole de Vt ne peut tre rcrit par les rgles de F. Dans ce cas, nous pouvons considrer les squences terminales comme constituant le lan gage analyser (avec Vt pour vocabulaire), et les drivations de ces squences comme fournissant leur structure de constituants. 3.3. Le fragment de grammaire de l'anglais qui suit est un exemple simple d'un systme de la forme (18) : (20) S : #- Phrase- # F -.Phrase -> SN-SV SN-+ Verbe- SN SN -> the- man, the- book Verbe -> took

Parmi les drivations de (20) nous trouvons en particulier : (21) Dx: #

#~the~man~ #the- man- tookVerbethetheSNbookbook# # #

D2: #-Phrase-# #-SN-SV-# #-the-man-SV-# il s'ensuit dons que seul, que un Y doit symbole tre du au membre moins aussi gauche longpuisse que Xi. tre Nous remplac avons ainsi dans une chaque procdure rgle, simple de dcision pour la drivabilit et la terminaison dans le sens de (19 iii).

62 #- the- man- Verbe~SN~ # #- the- man- took- SN~ # #- the- man- took- the- book- # II est vident que ces drivations sont quivalentes; elles ne diffrent que par l'ordre dans lequel les rgles ont t appliques. Nous pouvons repr senter cette quivalence graphiquement en construisant des diagrammes qui correspondent de manire immdiate, aux drivations. Les drivations D1 et D2 se rduisent toutes deux au diagramme. (22)

the

man

took

the

book

Le diagramme (22) donne la structure de constituants de la phrase te rminale the man took the book de la mme manire que (17). Plus gnralement, tant donnes une drivation D et une squence S, nous dirons qu'une sous-squence s de S est un X, si, dans le diagramme correspondant D, s est dcoupe par un nud unique, et si ce nud est tiquet X. Ainsi, tant donnes Dx et D2 qui correspondent (22), nous dirons que the- man est un SN, took- the- book est un SV, the- book est un SN, the- man- took- the- book est une Phrase. Cependant la squence man- took n'est pas un constituant de cette squence, puisqu'elle n'est pas dcoupable par un nud quelconque. Lorsque nous essayons de construire la [2, F] -grammaire de l'an glais la plus simple, nous dcouvrons que parfois, des drivations non quivalentes sont attribues automatiquement certaines phrases. En plus de (20), la grammaire de l'anglais devra certainement contenir des rgles telles que (23) Verbe -> are- flying Verbe -> are SN -> they SN -> planes SN -> flying- planes

ceci afin de dcrire des phrases telles que they are flying a plane (SN Verbe SN), (flying) planes are noisy (SN Verbe

63 Adjectif), et ainsi de suite. Mais cet ensemble de rgles fournit deux dri vations non quivalentes pour la phrase they are flying planes , qu'on peut reprsenter par les diagrammes : (24) ^Phrase* # > Phrase

they

are

flying

planes

are

flying

planes

Cette phrase possde donc deux structures de constituants; elle peut tre analyse en they are flying planes et they are flying planes . En fait, cette phrase est prcisment ambigu de cette manire; nous pouvons l'interprter comme ce sont des avions qui volent , ou comme ils pilotent des avions . Quand la grammaire la plus simple fournira automatiquement pour une mme phrase, des drivations non quivalentes, nous dirons que nous avons un cas d'homonymie de cons truction, et nous pouvons proposer cette proprit formelle comme explication de l'ambigut de sens que prsente la phrase en question. Au 1 nous avons demand que les grammaires nous clairent sur l'uti lisation et l'interprtation du langage (cf. (5)). Une des manires de vri fier la valeur d'une grammaire consiste dterminer si oui ou non les cas d'homonymie de construction sont vritablement des cas d'ambig ut de sens, comme pour (24). Nous retournerons cet important problme au 6. Dans (20) (24) l'lment # indiquait une limite de phrase (puis de mot). Cet lment peut tre considr comme appartenant au voca bulaire terminal Vt que nous avons discut dans le paragraphe final de 3.2. 3.4. Ces fractions de la grammaire de l'anglais ont t beaucoup trop simplifies dans diffrentes voies. Par exemple, chaque rgle de (20) (23) ne prsentait qu'un seul symbole au membre gauche, pourtant, au 3.2, nous n'avions pas contraint les rgles des [S , F] -grammaires de cette manire. Une rgle de la forme : (25) ZXW^ZYW

indique que X ne peut tre rcrit Y que dans le contexte Z W. On peut aisment montrer que la grammaire sera considrablement simplifie,

64 si nous autorisons de telles rgles. Au 3.2 nous avons demand que dans une rgle telle que (25), X soit limit un symbole unique. Ceci garantit, partir d'une drivation quelconque, la construction d'un diagramme de structure de constituants. La grammaire peut encore tre grandement simplifie, si nous imposons un ordre aux rgles et si nous exigeons qu'elles soient appliques en squence (en recommenant appliquer la premire rgle quand la dernire l'a t), et si nous disti nguons les rgles obligatoires, qui doivent tre appliques leur tour dans la squence, des rgles facultatives, qui peuvent tre appliques ou non. Ces rvisions ne modifient pas la puissance gnratrice de la grammaire, mais elles introduisent des simplifications considrables. Il semble raisonnable d'exiger la garantie que la grammaire engen drera effectivement un grand nombre de phrases en un temps limit; de manire plus prcise, il devrait tre impossible d'appliquer la squence des rgles, vide (sans rien engendrer de nouveau), moins que la der nire ligne de la drivation en construction soit une squence terminale. Nous pouvons remplir cette condition en imposant certaines contraintes sur l'apparition des rgles obligatoires dans la squence des rgles. Nous dfinirons une grammaire propre comme un systme [S, Q], o S est un ensemble de squences initiales et Q une squence de rgles Xi~> Yf comme celles de (18), avec la condition supplmentaire que pour tout i il doit y avoir unj au moins tel que Xf = Xj et X;-> Yy est une rgle obligatoire. Ainsi, chaque membre gauche des rgles de (18) doit apparatre dans au moins une rgle obligatoire. Ceci est la condition simple la plus faible, qui garantisse qu'une drivation non termine puisse avancer d'un pas au moins chaque passage dans la squence des rgles. Elle fait que si Xf peut tre rcrit en Y^ , . . ., Yfft, alors au moins une de ces rcritures doit avoir lieu. Les grammaires propres sont nanmoins essentiellement diffrentes des [S, F] -grammaires. Soit D(G) l'ensemble des drivations que l'on peut produire au moyen d'une grammaire de constituants G, propre ou non. Soient DF = \D(G) \ G est une [S, F] -grammaire,1, et Dq = \D(G) | G est une grammaire propre J. Alors : (26) DF et Dq ne sont pas comparables : DF t Dq et Dq x Df. Il existe des systmes de constituants qui peuvent tre dcrits par des [S, F] -grammaires mais pas par des grammaires propres, d'autres peuvent tre dcrits par des grammaires propres mais pas par des [S, F] -grammaires. 3 . 5. Nous avons dfini trois types de langages : les langages tats finis ( 2.1), les langages drivables et les langages terminaux ( 3.2). Ils prsentent les relations suivantes : (27) (i) tout langage tats finis est un langage terminal, l'inverse n'tant pas vrai; (ii) tout langage derivable est un langage terminal, l'inverse n'tant pas vrai;

65 (iii) il existe des langages qui sont drivables mais qui ne sont pas tats finis, l'existence de langages tats finis non drivables est un problme non rsolu 9. Supposons que L~q soit un langage tats finis, dont la grammaire G est tats finis, comme au 2. 1. Nous construisons une [S, F] -grammaire de la manire suivante : S = \SO\; F contient une rgle de la forme (28 i) pour tout i, j, tel que (Sif Sj) eC,j et < Ni} ; F contient une rgle de la forme (28 ii) pour tout i, tel que (Sif So) s et < Ni0. (28) (i) (ii) Si^dijkSj Si -> aiok.

Il est clair que le langage terminal de cette [2, F] -grammaire est exacte mentLG, ce qui tablit la premire partie de (27 i). Au 2.2, nous avons constat que Lv L2 et L3 de (12) n'taient pas des langages tats finis. Lx et L2 sont nanmoins des langages termi naux. Pour Lv par exemple, nous avons la [S, F] -grammaire :

ce qui tablit (27 i).

Z->aZb

Supposons que L4 soit un langage derivable dont le vocabulaire est Vp = \alt ..., anj. Supposons que nous ajoutions la grammaire de L4 un ensemble fini de rgles a-> 6f, o les bt sont tous distincts et ne sont pas dans Vp. Cette nouvelle grammaire donne un langage terminal qui n'est autre que L4, un changement de notation prs. Donc, tout langage derivable est galement terminal. Un exemple de langage terminal non derivable est donn par Lconstitu des squences (30) ab, cabd, ccabdd, cccabddd, . . . Un langage derivable infini doit contenir un ensemble infini de squences qui peuvent tre ranges selon une suite Sv S2, ... telle que pour une rgle X ->- , Si provienne de S^ par application de cette rgle, pour tout i > 1. Dans cette rgle Y doit tre form partir de X par le remplace ment d'un seul symbole de X par une squence (cf. (18)). Ceci n'est videmment pas possible dans le cas de L5. Cependant, ce langage est le langage terminal donn par la grammaire suivante : S:Z F :Z->a~b 9. E. Shamir m'a fait remarquer que mon exemple original n'tait pas correct, d'autres difficults ont t signales par F. Staal. L'ensemble (aabb) constitue un exemple du type recherch (comme remarqu G. Gaifman) si on se limite des rgles de rcriture de type non contextuel ( context-free ).

66 Le langage de (12) est un langage derivable qui n'est pas tats finis, la squence initiale est ab et la rgle : ab -> aabb. La consquence majeure du thorme (27) est que la description en termes de structures de constituants est essentiellement plus puissante (et pas seulement plus simple) que la description en termes de grammaires tats finis qui produisent les phrases de gauche droite. Au 2.3 nous avons vu que l'anglais est tout fait en dehors des limites de ces gramm aires, pour la raison que cette langue prsente la proprit imagemiroir de L2 de (12). Cependant, nous venons de voir que Llf comme L2, sont des langages terminaux. Donc les considrations, qui nous ont conduit rejeter le modle tats finis, ne nous conduisent pas de la mme manire, rejeter le modle plus puissant des structures de constituants. Remarquons que ce dernier est plus abstrait que le modle tats finis, en ce sens que des symboles qui entrent dans la description du langage ne font pas partie du vocabulaire de ce langage. Dans les termes du 3.2, Vt est proprement inclus dans Vp. Ainsi dans le cas de (29), nous dcrivons Lx au moyen d'un lment Z qui n'est pas dans Lx; dans le cas de (20)-(24), nous introduisons dans la description de la structure de l'anglais, des symboles tels que Phrase, SN, SV, et ainsi de suite, qui ne sont pas des mots de l'anglais. 3.6. Il n'est pas difficile de construire des langages qui sont en dehors du domaine de description des [S, F] -grammaires. En fait, il est vident que le langage L3 de (12 iii) n'est pas un langage terminal 10. Je ne sais pas si l'anglais est vritablement un langage terminal, ou s'il existe des langues naturelles qui sont littralement en dehors des limites de description des grammaires de constituants. Je ne vois donc pas de manire de rejeter cette thorie des structures linguistiques sur la base de la considration (3). Cependant, quand nous passerons la question de la complexit des descriptions (cf. (4)), nous verrons qu'il y a d'abon dantes raisons de conclure que cette thorie des structures linguistiques est fondamentalement inutilisable. Nous tudierons maintenant quelquesuns des problmes qui se posent quand on essaye d'tendre (20) une grammaire anglaise large couverture. 4. Les dfauts des grammaires de constituants. 4.1. En (20), nous n'avons considr qu'une manire de dvelopper l'lment Verbe : took . Mais mme lorsque la racine du verbe est donne, il existe un grand nombre d'autres formes qui peuvent appar atre dans le contexte the man the book , par exemple takes , has taken , has been taking , is taking , has been taken , will be taking , etc. Une description directe de cet ensemble d'lments 10. Ceci n'est pas vrai si la grammaire contient des rgles qui rcrivent un sym bole dans un contexte non vide. (Cf. Chomsky, On certain formal properties of grammars, Inform & Control, 2, 1952, pp. 137-167.)

67 serait assez complexe, tant donnes leurs fortes interdpendances (on a par exemple has taken mais pas has taking is being taken mais pas is being taking , etc.). En fait, nous pouvons donner une analyse trs simple de Verbe comme squence d'lments indpendants, mais uniquement en choisissant pour lments certaines squences disconti nues. Par exemple, dans le syntagme has been taking , nous pouvons isoler les lments discontinus has ... en , be ... ing et take , et nous pouvons alors dire que ces lments se combinent librement. Si nous poursuivons systmatiquement cette approche, nous pouvons remplacer la dernire ligne de (20) par : (32) (i) 0) () (iii) (iv) (v) Verbe -> V Auxiliaire M Auxiliaire* V take, eat, . . . C(M) (have~en) (beting) (be- en) will, can, shall, may, must pass, prsent.

Les notations de (32 iii) doivent tre interprtes comme suit : quand nous dveloppons Auxiliaire dans une drivation nous devons prendre l'lment non parenthse C, et nous pouvons prendre un nombre quel conque (y compris zro) d'lments parenthses, dans leur ordre. Ainsi, pour poursuivre la drivation Dx de (21) partir de la cinquime ligne, nous pouvons oprer comme suit : (33) #- the- man- Verbe* the- book- # [de Dx dans (21)] #- the- man- A uxili aire* Verbe* the- book- # [(32 i)] #* the- man- A uxiliaire* take- the- book- # [(32 ii)] #- the- man- C* have- en- be- ing- take- the- book- # [(32 iii), en prenant les lments , have- en, be- ing] #- the- man- pass* have- en- be- ing- take- the- book- # [(32 v)]. Supposons que nous dfinissions la classe Af comme contenant les affixes en ing et les C, et la classe v comme comprenant tous les V, les M, have et be . Nous pouvons alors convertir la dernire ligne de (33) en une squence de morphmes correctement ordonne, par la rgle suivante : (34) Af*v-+v*Af'#.

Par application de cette rgle chacune des squences Af* v de la dernire ligne de (33), nous drivons (35) #- the- man- have- pass* #* be- en- #* take- ing- #- thebook- #.

68 Au premier paragraphe de 2 . 2 nous avons mentionn qu'une gram maire devait contenir un ensemble de rgles (appeles rgles morphophonmiques) qui convertissent les squences de morphmes en squences de phonmes. Dans la morphophonmique de l'anglais, nous aurons des rgles comme les suivantes (nous utiliserons une orthographe convent ionnelle plutt que phonmique) : (36) ha ve~ pass -> had be~ en -> been take- ing -> taking will~ pass -> would can~ pass -> could M~ present -> M walk~ pass -+ walked take~ pass -> took etc.

En appliquant les rgles morphophonmiques (35) nous drivons la phrase : (37) the man had been taking the book. De la mme manire, avec une exception importante qui sera dis cute ci-dessous (et plusieurs mineures, que nous ngligerons ici), les rgles (32), (34) donneront toutes les autres formes du verbe dans les phrases dclaratives, et seulement ces formes. Cette analyse trs simple, dpasse les limites des [2, F] -grammaires pour plusieurs raisons. La rgle (34), quoique trs simple, ne peut pas se trouver dans une [S, F] -grammaire, o il n'y a pas de place pour les lments discontinus. De plus, afin d'appliquer la rgle (34) la dernire ligne de (33), nous devons savoir que take est un V, donc un v. En d'autres termes, pour appliquer la rgle, il est ncessaire d'aller plus loin que le seul examen de la squence laquelle la rgle doit s'appliquer; il est ncessaire de connatre une partie de la structure de constituants de la squence, ou, de manire quivalente, d'examiner aussi certaines des lignes prcdentes de sa drivation. Comme (34) demande la connaissance de l'histoire de la drivation de la squence, cette rgle viole la pro prit lmentaire markovienne des [S, F] -grammaires. 4.2 Le fait que cette simple analyse du syntagme verbal comme squence d'units choisies indpendamment dpasse le cadre des [S, F] -grammaires, suggre que de telles grammaires sont trop limites pour pouvoir donner une image vraie de la structure linguistique. La suite de l'tude du syntagme verbal donne des raisons supplmentaires en faveur de cette conclusion. Il existe une importante limite l'indpendance des lments introduits en (32). Si nous choisissons un verbe intransitif (par exemple corne , occur , etc.) comme V dans (32), nous ne pouvons pas prendre be~en comme auxiliaire. Nous n'avons pas de phrases comme

69 John has been come , John is occurred , etc. De plus, l'lment be~en ne peut pas tre choisi indpendamment du contexte du syntagme Verbe. Si nous avons l'lment Verbe dans le contexte the man the food , nous sommes obligs de ne pas prendre be~ en quand nous appliquons (32), bien que nous soyons libres de choisir tout autre lment de (32). Nous pouvons ainsi avoir the man is eating the food , the man would have been eating the food , etc., mais pas the man is eaten the food , the man would have been eaten the food , etc. Par ailleurs, si le contexte de Verbe est, par exemple, the food by the man , nous sommes obligs de choisir be~ en. Nous pouvons avoir the food is eaten by the man mais pas the food is eating by the man , etc. En bref, nous dcouvrons que l'lment be~en entre dans un rseau dtaill de restrictions qui le distingue de tous les autres lments introduits pour l'analyse de Verbe dans (32). Ce comportement unique et complexe de be~en suggre qu'il serait souhaitable de l'exclure de (32) et d'introduire le passif dans la grammaire par une autre mthode. Il y a en fait une mthode trs simple pour incorporer les phrases avec be^en (les passifs) dans la grammaire. Remarquons qu' toute phrase active telle que the man ate the food , il correspond une phrase passive the food was eaten by the man , et inversement. Supposons que nous retirions l'lment be~en de (32 iii), et que nous ajoutions la grammaire la rgle suivante : (38) Si S est une phrase de la forme SNt Auxiliaire V SN2, alors la squence correspondante de la forme : SN2 Auxiliaire be~en V by- SNj, est aussi une phrase. Par exemple, si the man pass eat the food (SiV^ Auxil iaire SN2) est une phrase, alors the food pass be en eat by the man (SN2 Auxiliaire be^enr- V by SNJ est galement une phrase. Les rgles (34) et (36) convertiraient la premire en the man ate the food , et la seconde en the food was eaten by the man . Les avantages de cette analyse sont indniables. Comme l'lment be~en a t retir de (32), il n'est plus ncessaire d'ajouter (32) l'e nsemble complexe des restrictions discutes plus haut. Le fait que be~ en ne peut apparatre qu'avec des verbes transitifs, qu'il est exclu du contexte the man the food , et qu'il est ncessaire dans le contexte the food by the man , est maintenant, pour chaque cas, une consquence automatique de l'analyse que nous venons de donner. Cependant, une rgle de la forme (38) est bien au-del des limites des grammaires de constituants. Comme (34), elle rarrange les lments de la squence laquelle elle s'applique, et elle ncessite une quantit consid rable d'informations sur la structure de constituants de cette squence. Quand on poursuit l'tude dtaille de la syntaxe de l'anglais, on trouve bien d'autres cas o la grammaire peut tre simplifie, si le [S, F] - sys tme est complment par des rgles de la mme forme gnrale que (38).

70 Appelons de telles rgles des transformations grammaticales. Comme tro isime modle de description des structures linguistiques, nous considre rons maintenant rapidement, les proprits formelles des grammaires transformationnelles qui peuvent tre adjointes une [, F] -grammaire de constituants u. 5. Grammaires transformationnelles. 5.1. Toute transformation grammaticale T sera essentiellement une rgle qui convertit une phrase avec une structure de constituants donne, en une nouvelle phrase qui possdera une structure de constituants dri ve. La transforme et sa structure drive doivent tre lies de manire fixe et constante la structure de la squence transforme, pour tout T. Nous pouvons caractriser T, en donnant, en termes de structures, le domaine des squences auquel T s'applique et les modifications effectues sur les squences. Dans la discussion qui suit, nous supposerons que nous avons une [E, F] -grammaire de vocabulaire Vp, et de vocabulaire terminal V Vp, comme en 3 . 2. En 3.3 nous avons montr qu'une [S, F] -grammaire permet la dri vation de squences terminales et nous avons remarqu qu'en gnral, une squence terminale donne possde plusieurs drivations quivalentes. Nous avons dit que deux drivations taient quivalentes quand elles se rduisaient un mme diagramme de la forme (22), etc. 12. Supposons que Dv . . . , Dn constituent un ensemble maximal de drivations quiva lentes d'une squence terminale S. Nous dfinirons alors Y indicateur syntagmatique (en anglais phrase marker ) de S comme l'ensemble des squences qui apparaissent dans les drivations Dx, . . . , Dn. Une squence aura plus d'un indicateur syntagmatique si et seulement si elle possde des drivations non quivalentes (cf. (24)). Supposons que soit un indicateur syntagmatique de S, nous dirons que (39) (S, K) est analysable en (Xlf . . . , Xn) si et seulement s'il existe des squences sv . . . , sn telles que (i) S = s1... sn; (ii) pour tout i < , contient la squence sx . . . si_1 Xf si+1 ... sn. Dans ce cas, st est un Xt dans S par rapport 13.

(40)

11. Voir [1], [3], pour une tude dtaille d'une algbre des transformations des tine aux descriptions linguistiques, et pour des dfinitions relatives aux grammaires transformationnelles. Pour d'autres applications de ce type de description des mat riaux linguistiques, voir [1], [2] et d'un point de vue quelque peu diffrent [4]. 12. Il ne serait pas difficile de donner une dfinition rigoureuse de la relation d'quivalence en question, mais ce serait long et pnible. 13. La notion est un devrait en fait tre rendue relative une occurrence donne de Si dans S. Nous pouvons dfinir une occurrence de s dans S comme une paire

71 La relation dfinie en (40) est une gnralisation de la relation est un dfinie en 3.3; st est un Xf au sens de (40) si et seulement si st est une sous-squence de S dcoupe par une suite de nuds du diagramme de la forme (27), etc., et Xf est la squence forme partir de la suite des tiquettes de ces nuds. La notion d'analysabilit dfinie ci-dessus nous permet de dfinir de manire prcise le domaine d'application de toute transformation. Nous associons chaque transformation une classe des limitations si et seul ement s'il existe r, m tels que R soit l'ensemble des squences : x\ xi Xm i > -. vm o X\ est une squence sur le vocabulaire V , pour tout i, j. Nous dirons alors qu'une squence S d'indicateur syntagmatique appartient au domaine de la transformation T si la classe des limitations R associe T, contient une suite (X{, . . . , X) en laquelle (S, K) est analysable. Ainsi le domaine d'une transformation est un ensemble de paires ordonnes (S, K) o S est une squence et un indicateur syntagmatique de S. Une transformation peut tre applicable S dot d'un indicateur syntag matique mais peut-tre pas au mme S dot d'un second indicateur, cas d'une squence S dont la structure de constituants est ambigu. En particulier la transformation passive dcrite en (38) est associe la classe des limitations Rp qui contient la suite : (42) Rp = \ (SN, Auxiliaire, V, SN)\. Cette transformation peut donc tre applique toute squence analy sable en SN suivi d'un Auxiliaire suivi d'un V suivi d'un SN. Par exemple elle peut s'appliquer la squence (43) analyse en sous-squence si, . . ., s4 selon les tirets : (43) the man pass eat the food. 5.2. De cette manire, nous pouvons dcrire en termes structuraux l'ensemble des squences (dotes d'indicateurs syntagmatiques) auquel chaque transformation s'applique. Nous devons maintenant spcifier les modifications structurales apportes par une transformation toute squence de son domaine. Une transformation lmentaire est dfinie par la proprit suivante : (44) Pour toute paire d'entiers n, r(n < r), il existe une suite unique d'entiers (a0, av . . . , ak) et une suite unique de squences sur Vp (Zlf . . ., Zk+1) telle que (i) a0 = 0; > 0; 1 < a,- < r pour 1 < j < k; Yo = U u (ii) pour tout Yv . . . , Yr : ordonne (st-, X), o X est une sous-squence initiale de S, et si une sous-squence finale de X. Cf. [5], p. 297. 14. O U est l'lment neutre.

72 t(Yv . . ., Yn; Yn, . . ., Yr) = YaoZ-^ayZ^Y . . Ya](Zk+v Ainsi i peut erre interprt comme convertissant l'occurrence de Yn dans le contexte Y1 . . . Yn ! +1 ... Yr en une certaine squence Ya0Zx Ya^Zu +1 unique, la suite des termes ( Yj, . . . , Yr) qui subdivisent Yx . . . Yr tant donne. / change la squence Yj ... Yr en une nouvelle squence Wx ... Wr lie de manire fixe Yt ... Yr. De manire plus prcise, nous associerons t la transformation drive t* : (46) /* est la transformation drive de / si et seulement si pour tout t*(Yv ' ? Yr) = Wl... Wr avec Wn = *(Yl5 . . ., Yn; Yn, . . . , Yr) pour tout < Nous associons chaque transformation T une transformation l mentaire. Par exemple la transformation passive (38) nous associerons la transformation lmentaire tp dfinie comme suit : (47) tp(Yi; p(ylf *p\Y\t tp(Yv tp(Ylt Yv .... Y4) = Y2; Y2, Y3, Y4) Y2, Y3; Y3, Y4) ..., Y4; YJ . . ., Yn; Yn, . . Y4 = Y^be-en = Y3 =bjrY1 ., Yr) = Yn pour tout n ^ 4.

La transformation drive t*p a donc l'effet suivant (48) (i) ip*(Y!, . . ., Y4) = Y4 - Y2-be-en - Y3 by- Yx (ii) /p* (the~man, pass, eat, the^food = the^food passe be^ en eat by~the~man.

Les rgles (34), (36) changent le membre droit de (48 ii) en the food was eaten by the man , de la mme manire qu'elles changent (43) en la phrase active correspondante the man ate the food . La paire (Rp, tp) donne par (42), (47) caractrise entirement la transformation passive telle qu'elle est dcrite en (38). Rp nous dit quelles sont les squences auxquelles cette transformation s'applique (les indi cateurs syntagmatiques de ces squences tant donns), et comment ces squences sont subdivises pour que la transformation s'applique; tp nous dit quels sont les modifications structurales apporter la squence subdivise. Une transformation grammaticale est entirement spcifie par une classe des limitations R et une transformation lmentaire /, qui sont toutes deux caractrisables de manire finie, comme dans le cas du passif. Il est ais de dfinir rigoureusement cette spcification, dans la voie trace ci-dessus. Pour complter la prsentation des grammaires transformationnelles, il est ncessaire de montrer comment une transformation

73 attribue automatiquement un indicateur syntagmatique driv toute transforme, et de gnraliser des transformations d'ensembles de squences. (Ces points, ainsi que d'autres qui y sont apparents, sont traits dans [1], [3].) Une transformation modifiera donc une squence S d'indicateur syntagmatique (ou un ensemble de telles paires) en une squence S' d'indicateur driv K'. 5.3. Ces considrations nous mnent considrer les grammaires comme prsentant une structure triple. Nous avons, correspondant l'analyse en constituants, une suite de rgles de la forme X -> Y (20), (23), (32). Nous avons encore une suite de rgles de transformations telles que (34) et (38). Enfin nous avons une suite de rgles morphophonmiques telles que (36) qui, elles aussi, ont la forme X -> Y. Pour engendrer une phrase au moyen d'une telle grammaire, nous construirons une drivation gnralise qui commencera par une squence initiale de la grammaire de constituants : #~ Phrase^ #, comme dans (20). Nous appliquons alors les rgles de la grammaire de constituants, ce qui produit une squence ter minale. Nous appliquons ensuite certaines transformations, ce qui fournit une squence de morphmes correctement ordonne, peut-tre trs diff rente de la squence terminale dont on est parti. L'application des rgles morphophonmiques convertit celle-ci en une squence de phonmes. Il est possible que nous ayons appliquer plusieurs fois des rgles de la grammaire de constituants, nous appliquerions ensuite une transformation gnralise l'ensemble obtenu des squences terminales. En 3.4 nous avons remarqu qu'il tait avantageux d'ordonner les rgles de la grammaire de constituants selon une suite, et de distinguer les rgles obligatoires des facultatives. Il en est de mme pour le compos ant transformationnel de la grammaire. Au 4 nous avons discut de la transformation (34) qui convertit une squence affixe-verbe en une squence verbe-affixe, et de la transformation passive (38). Remarquons que (34) doit tre applique dans toute drivation gnralise, ou bien le rsultat ne sera pas une phrase grammaticale. Ainsi la rgle (34) est une transformation obligatoire. Cependant la transformation passive peut tre applique ou non, dans les deux cas nous obtenons une phrase. Le passif est donc une transformation facultative. Cette distinction entre les trans formations obligatoires et facultatives nous conduit distinguer entre deux classes de phrases du langage. Nous avons d'un ct un noyau de phrases de base qui s'obtiennent partir des squences terminales de la grammaire de constituants par application des seules transformations obligatoires. Nous avons ensuite un ensemble de phrases drives qui sont engendres par application des transformations facultatives aux squences sous-jacentes aux phrases noyaux. Quand nous effectuons une tude dtail le de la structure de l'anglais, nous constatons que la grammaire peut tre considrablement simplifie si nous limitons le noyau un trs petit ensemble de phrases simples, actives, dclaratives (probablement un ensemble fini) telles que the man ate the food , etc. Nous drivons alors

74 les questions, les passifs, les phrases avec conjonction, les phrases syntagmes nominaux complexes (par exemple proving that theorem was difficult o proving that theorem est un SN 15, etc., par des trans formations. Comme le rsultat d'une transformation est une phrase dote d'une structure de constituants drive, les transformations peuvent tre composes entre elles, et nous pouvons former des questions partir de passifs (par exemple was the food eaten by the man ), etc. Les phrases vritables du monde rel ne sont habituellement pas des phrases noyaux mais des transformations plutt compliques de celles-ci. Nous constatons cependant, que les transformations laissent en gros le sens invariant, de telle sorte que nous pouvons considrer les phrases noyaux sous-jacentes une phrase donne comme tant, en un certain sens, des units de contenu lmentaires, en termes desquelles les transformes relles sont interprtes . Nous discutons rapidement ce problme au 6, et plus en dtails dans [1], [2]. 6. Le pouvoir d'explication des thories linguistiques. A ce point, nous n'avons tudi l'intrt relatif de certaines thories des structures linguistiques qu'en termes de critres essentiellement for mels tels que la simplicit. Au 1 nous avons suggr qu'il existait d'autres considrations significatives sur la valeur des thories. Nous pouvons nous demander (cf. (5)) si la structure syntaxique rvle par ces thories fournit des claircissements sur l'utilisation et la comprhension du lan gage. Nous pouvons tout juste aborder ce problme ici, mais mme cette courte discussion suggrera que ce critre fournit encore le mme ordre des valeurs relatives, pour les trois modles que nous avons examins. Si la grammaire d'une langue doit claircir la manire dont le langage est interprt, il est ncessaire, en particulier, que la grammaire attribue plusieurs analyses une phrase, si cette phrase est ambigu (interprte de plusieurs manires). En d'autres termes, si une certaine phrase S est ambigu, nous pouvons vrifier la valeur d'une thorie linguistique donne en demandant bi oui ou non la grammaire la plus simple que l'on puisse construire en terme de cette thorie pour la langue en question, fournit automatiquement plusieurs manires diffrentes d'engendrer la phrase S. Il est instructif de comparer les processus de Markov, les grammaires de constituants et les modles transformationnels la lumire de ce test. Au 3.3 nous avons fait remarquer que la [, F] -grammaire de l'anglais la plus simple attribuait des drivations non-quivalentes la phrase they are flying planes qui, en fait, est ambigu. Cependant, ce 15. Remarquons que cette phrase exige l'application d'une transformation gn ralise un couple de squences dotes de leur indicateur syntagmatique. Nous avons ainsi une transformation qui convertit Sif Sx de la forme SN S Vu it S V2 respe ctivement en la squence : ing^ S Vx S Va. Elle convertit S, = they prove the theo rem , St = it was difficult en ing prove that theorem was difficult , qui par (34) devient proving that theorem was difficult . Voir [1], [3] pour des dtails.

75 raisonnement ne semble pas pouvoir se transposer au cas des grammaires tats finis. Il n'existe pas de motivation vidente pour attribuer cette phrase ambigu deux chemins diffrents dans une grammaire tats finis quelconque qui pourrait tre propose pour une portion de l'anglais. De tels exemples d'homonymie de construction (il y en a bien d'autres) forment une preuve indpendante en faveur de la supriorit du modle des cons tituants par rapport aux grammaires tats finis. Une tude plus pousse de l'anglais fait apparatre des exemples qui ne s'expUquent pas facilement en termes de constituants. Considrons la phrase (49) the shooting of the hunters (le tir des chasseurs).

Nous pouvons interprter ce syntagme avec hunters (chasseurs) comme sujet, la manire de (50), ou comme objet, la manire de (51). (50) (51) the growling of lions the raising of flowers (le grondement des lions) (la culture des fleurs).

Les syntagmes (50) et (51) ne sont pas ambigus de cette manire. Cepen danten termes de constituants, chacun de ces syntagmes est reprsent par : the V~ing o~SN. Une analyse dtaille de l'anglais montre que nous pouvons simplifier la grammaire si nous tons les syntagmes (49) (51) du noyau, et si nous les rintroduisons par une transformation Tt qui change en (50) les squences sous-jacentes des phrases telles que lions growl (les lions grondent), etc., et par une transformation T2 qui change en (51), les squences sous-jacentes des phrases telles que they raise flowers (ils cultivent les fleurs). Tx et T2 seront voisines des transformations de nominalisation dcrites dans la note 14, si elles sont correctement construites. Mais hunters shoot (des chasseurs tirent) et they shoot the hunters (ils tirent les chasseurs) sont toutes deux des phrases noyaux; l'application de Tx la squence sous-jacente la premire, de T2 la squence sousjacente la seconde fournit le rsultat (49). (49) a donc deux origines transformationnelles distinctes. Ceci est un cas d'homonymie de cons truction au niveau transformationnel. L'ambigut de la relation gram maticale de (49) est une consquence du fait que la relation de shoot (tirer) hunters (chasseurs) n'est pas la mme dans les deux phrases noyaux sous-jacentes. Nous n'avons pas cette ambigut dans le cas de (50), (51), puisque ni they growl lions ni flowers raise ne sont des phrases noyaux grammaticales. Il existe beaucoup d'autres exemples du mme type gnral (voir [1], [2]), mes yeux ils fournissent une preuve trs convaincante, non seul ement de la valeur suprieure de la conception transformationnelle de la structure linguistique, mais galement du point de vue exprim en 5.4 : l'analyse transformationnelle nous permet de rduire en partie le problme

76 de l'explication de la coprhension d'une phrase, celui de l'explication de la comprhension d'une phrase noyau ou, plus prcisment, des squences terminales, engendres par les rgles de constituants et qui sont sous-jacentes la phrase en question. En rsum, notre description d'une langue comporte un petit noyau (peut-tre fini) de phrases de base dotes d'un indicateur syntagmatique au sens du 3, ainsi qu'un ensemble de transformations qui peuvent tre appliques des squences sous-jacentes des phrases noyaux ou des transformes, pour produire des phrases nouvelles et plus compliques, partir de composants lmentaires. Nous avons observ des faits qui per mettent de penser que cette approche pourrait nous mettre en mesure de rduire l'immense complexit des langues naturelles des proportions raisonnables, et que de plus, cette approche pourrait illuminer consid rablement le problme de l'utilisation relle et de la comprhension du langage. [1] N. Chomsky. The logical structure of linguistic theory (ronotyp), 1955. [2] N. Chomsky. Syntactic structures. S-Gravenhage, Netherlands, Mouton & Co., 1957. [3] N. Chomsky. Transformational analysis. Thse de doctorat non publie. Universit de Pennsylvanie, Juin 1955. [4] Z. S. Harris. Discourse analysis. Language, 28, 1, 1952. [5] W. V. Quine. Mathematical logic, Cambridge, Harvard University Press, 1951. [6] P. Rosenbloom. Elements of mathematical logic. New York, Dover,. 1950. [7] C. E. Shannon and W. Weaver. The mathematical theory of communic ation. Urbana, University of Illinois Press, 1949.

También podría gustarte