Vers le site Automates Intelilgents
La Revue mensuelle n° 50
Robotique, vie artificielle, réalité virtuelle

Information, réflexion, discussion
logo admiroutes

Tous les numéros


Archives
(classement par rubriques)

Image animée




Retour au sommaire
PUBLISCOPIE

L'auto-organisation de la parole
thèse de Pierre-Yves Oudeyer

Présentation et discussion par Jean-Paul Baquiast et Christophe Jacquemin - 23/11/03


Pierre-Yves Oudeyer Pierre-Yves Oudeyer est ancien élève de l'Ecole Normale Supérieure, aujourd'hui chercheur au laboratoire CSL de Sony à Paris. Il vient de soutenir sa thèse de doctorat : "L'auto-organisation de la parole" au LIP 6

En savoir plus : www.csl.sony.fr/~py


Les très bonnes thèses, dont on peut pronostiquer que leurs auteurs feront une carrière scientifique exemplaire, se distinguent des autres car au-delà d'un exercice obligé, elles ouvrent des perspectives en amont et en aval du domaine exploré, qui peuvent le cas échéant conduire à faire évoluer sinon réviser les paradigmes scientifiques en cours.

C’est ce dernier trait, selon nous, qui caractérise la thèse de Pierre-Yves Oudeyer, «L’auto-organisation de la parole », soutenue le 24 novembre 2003 au Lip6. Elle couronne une liste impressionnante de publications rendant compte de travaux réalisés par l’auteur de 1999 à 2003. Il s’agissait, globalement, d’étudier les origines du langage en utilisant les outils de l’informatique et de l’intelligence artificielle. Les expérimentations présentées et analysées dans la thèse poursuivent et approfondissent ces travaux.

Mais ce domaine a déjà fait l’objet de plus de 30 ans de recherches, utilisant les technologies du moment. En quoi « L’auto-organisation de la parole » se distingue-t-elle de ces travaux précédents, à part le fait que l’auteur a fait appel aux solutions les plus récentes offertes par les réseaux neuronaux et les populations d’agents ?

C’est que Pierre-Yves.Oudeyer se pose, comme il l’indique clairement au début de l’ouvrage, non pas la question de l’émergence des langues à partir d’un univers déjà bien installé de communications symboliques, mais la question de l’émergence de la communication par le langage sans qu'existent déjà des systèmes d'interactions sociale entre les agents de complexité équivalente à celle du langage, et possiblement sans que les agents aient l'envie ou le besoin de communiquer sous cette forme élaborée. En d’autres termes, il nous place au coeur des phénomènes évolutifs dits de l’émergence de la parole: l’interaction entre éléments simples fait apparaître des formes complexes qui n’existaient pas jusqu’alors.

On peut d'ailleurs estimer qu'en remontant dans le temps, l'apparition chez les animaux des premières formes de communication symbolique par postures, gestes ou signaux sonores relève du même type d'explication. Ceci dit, le problème de l'origine du langage est un
vaste puzzle auquel la thèse ne s'attaque pas en entier. Elle s'attaque à l'origine d'un élément essentiel de ce puzzle : la parole, véhicule, support physique et forme du langage.

L'émergence

L’ensemble des mécanismes intéressant l’apparition de la vie, à partir des premières molécules pré-biotiques, se trouve concerné par le phénomène de l'émergence. On peut même aller plus loin et considérer que c’est l’ensemble des mécanismes intéressant l’apparition des formes physiques complexes à partir des composants élémentaires de l’énergie et de la matière qui devrait relever de ce type d’étude. Pourquoi y-a-t-il un univers plutôt que rien, et pourquoi cet univers est-il peuplé de telles formes plutôt que de telles autres ? D'où le vaste champ d'applications potentielles des hypothèses présentées dans ce travail de thèse.

Nous sommes en fait au coeur des mécanismes de la morphogenèse. Pierre-Yves.Oudeyer n’a pas manqué de rappeler que ces mécanismes présentent de grandes similitudes dans la nature, qu’il s’agisse de la formation des cristaux de neige, de l’élaboration de dessins sur les coquillages ou le pelage des animaux. La vie artificielle, pour l'essentiel, repose aussi sur de tels mécanismes, comme l’ont illustré récemment les travaux de Stephen Wolfram sur les automates cellulaires.

On admet généralement que c’est une évolution de type darwinien, sur le mode mutation/sélection, qui permet d’expliquer l’apparition des formes complexes. D’abord employée par les biologistes, l'hypothèse dite aussi néo-darwinienne est de plus en plus utilisée par les physiciens et par les informaticiens (utilisant par exemple les algorithmes génétiques). Sans la rejeter ici , PierreYves Oudyer en montre les limites. Il reprend ce faisant les objections faites depuis longtemps aux biologistes évolutionnaires darwinien. Compter sur le mécanisme de mutation au hasard suivie de sélection ne suffit pas pour qu’en si peu de temps (600 millions ou 3 milliards d’années selon ce que l’on adopte comme point de départ de l’évolution biologique) soient apparues des formes aussi complexes que l’organisme humain ou les sociétés humaines (pour nous en tenir à l’homme). Un processus d’exploration au hasard de l’espace des possibilités, sur cette (courte) durée, n’aurait sans doute abouti qu’à des formes simples et hétérogènes.

On sait qu’il s’agit là de l’argument utilisé par les spiritualistes pour justifier l’hypothèse d’un élan vital, ou doigt de Dieu, guidant l’évolution vers un but finalisé à l’avance. Mais Pierre-Yves Oudeyer fait ici la démonstration, dans le domaine limité mais totalement pertinent qu’est l’apparition de la parole, du fait que de simples interactions entre agents évolutionnaires peuvent permettre de comprendre l’émergence de formes et procédures nouvelles, en un temps relativement court Dans ce cas, le mécanisme de l’évolution darwinienne n’est pas supprimé, mais s'appuie certainement sur un autre mécanisme, l'auto-organisation, dont le résultat est de contraindre l’évolution dans des directions bien définies. Pour le montrer, nous l’avons dit, il utilise un modèle mathématico-informatique lui-même relativement simple, qui relève de l’Intelligence Artificielle évolutionnaire, un système multi-agents adaptatif. Alain Cardon, dans la modélisation qu’il propose des mécanismes de la conscience, destinée à produire une conscience artificielle, fait de même.

Revenons sur cette question importante des relations éventuelles entre un système d'auto-organisation et la sélection darwinienne. Pierre-Yves Oudeyer étudie des solutions faisant appel à l'auto-organisation des systèmes complexes : l'interaction entre éléments simples fait apparaître des formes complexes qui n'existaient pas jusqu'alors. Il suggère que les premiers systèmes de vocalisations, ou premiers codes de la parole, sont le résultat auto-organisés de l'interaction entre composants comme l'oreille, le conduit vocal, différents réseaux neuronaux (et à l'intérieur de ceux-ci des neurones), et des agents qui possèdent ces composants. L'un des points originaux du système est que ces composants sont tous génériques et on peut trouver pour chacun une explication qui n'a rien à voir avec la communication, ni même avec quelque autre activité sociale. En bref, l'auteur ne pré-suppose pas de pression sociale, et en particulier pas de pression évolutionnaire pour développer des systèmes de communication.Ceci l'amène à formuler l'hypothèse que la parole pourrait être une exaptation (adaptation s'étant révélée utile en dehors du domaine où elle avait pris naissance). Mais le système artificiel est aussi compatible avec un scénario Darwinien dans lequel l'environnement favorise les individus qui sont capables de communiquer de manière élaborée. Dans ce scénario, son système montre comment le travail de la sélection naturelle est facilité par les contraintes apportées par l'auto-organisation.

Une population d'agents

Nous renverrons le lecteur souhaitant en savoir plus à la partie véritablement technique de la thèse, qui suppose un minimum de connaissance du formalisme utilisé. Bornons-nous à constater que l’auteur montre comment des agents de type robotique, dotés d’un minimum de senseurs et d’actuateurs non orientés vers la communication, finissent en évoluant dans un espace virtuel fermé les obligeant à interagir, par produire « sans le vouloir »(1) un système de vocalisations correspondant à un code de la parole conventionalisé, possédant les propriétés fondamentales des codes de la parole humains contemporains, et partagés par tous les locuteurs de la même société. Pour celui qui n’a pas bien saisi le jeu des algorithmes utilisés, la production de ce système de vocalisation relève quasiment du miracle. Un code de la parole complet naît à partir de quelque chose de tout à fait différent - on pourrait dire à partir du vide pour faire allusion à l’énergie du même nom.

Pierre-Yves Oudeyer n’essaye pas d’utiliser ces prémisses à la compréhension des systèmes de vocalisation syllabes, composées de voyelles et de consonnes, tels qu'ils sont apparus au sein des espèces animales. Il étudie d'abord l’émergence de ce qui correspondrait à celle de voyelles si les agents informatiques avec lesquels il travaille étaient dotés d’appareils auditifs et d’expressions analogues à ceux de l’homme. A partir de cela, c’est-à-dire après avoir compris comment un code de la parole peut s’organiser autour de phonèmes relativement cohérents, on peut imaginer comment d'autres éléments essentiels au langage, voire même le langage lui-même, comme nous le connaissons aujourd'hui, ont pu émerger. Le préalable, que l’auteur désigne du problème de la poule et de l'oeuf (est-ce le cerveau qui a façonné le langage, ou le langage qui a façonné le cerveau ?) commence à trouver une réponse. Le cerveau n’a pas précédé le langage ni le langage précédé le cerveau. Ils ont co-évolué ensemble, en utilisant des bases qui n’avaient rien à voir avec la communication langagière. Celle-ci peut alors apparaître comme une exaptation née du rapprochement de facteurs ou propriétés d’agents soumis à une seule contrainte, partager le même espace.

Les linguistes traditionnels diront que les travaux apportés par la thèse de Pierre-Yves Oudeyer intéressent des agents informatiques outrageusement simplifiés par rapport à ce que sont les organismes vivants. On est donc loin des processus biologiques, linguistiques, sociologiques du monde vivant, à la base de la communication animale puis de la communication humaine. Mais pour répondre à cette objection, l’auteur développe une défense de la modélisation mathématico-informatique qui a déjà souvent été présentée (voir notamment Baquiast-Cardon 2003 et Chauvet 1998) mais qu’il est bon de rappeler. Le modèle n’est pas le réel. Il ne prétend pas se substituer à lui. Cependant, comme il nous donne une représentation relativement fidèle et entièrement compréhensible des phénomènes naturels, il suffit, sous réserve de confirmer in vivo les hypothèses suggérées par le modèle, à faire comprendre ces phénomènes. Il permet même d’agir sur eux avec une probabilité de succès convenable. Nombre de chercheurs vont aujourd'hui plus loin dans l’importance qu’ils attachent à la modélisation. Selon eux les modèles, bénéficiant des progrès continuels des technologies, devraient nous permettre progressivement de substituer des mécanismes artificiels aux mécanismes naturels, avec des performances accrues.

Il faut bien reconnaître, en ce qui concerne les origines de la parole (et du langage), que les travaux menés au laboratoire de Sony CSL à Paris, par l’auteur et les collègues l’ayant précédé dans cette voie, notamment Frédéric Kaplan (Kaplan, La naissance d’une langue chez les robots, Hermès Science 2001) justifient pleinement la confiance faite à la modélisation. Que des robots (ou de simples agents informatiques) soient capables d’inventer par leur interaction des formes de langages montre bien que ce type de morphogenèse est parfaitement éclairant en ce qui concerne les origines de la communication symbolique d’abord, langagière ensuite. On a d’ailleurs observé que des sourds-muets élevés sans éducation sociale retrouvaient des processus de même nature pour se doter d’un minimum de langage qui leur soit propre.

Ni nativisme ni empirisme

Les modélisations présentées par la thèse nous permettent en tous cas d’échapper aux sempiternelles disputes entre nativistes Chomskiens et empiristes : l’enfant apprend-il à parler « facilement » parce que son cerveau a été précâblé génétiquement par l’évolution, ou bien découvre-t-il et apprend-il le langage à la naissance, par interaction avec son milieu culturel ? Nul ne nie plus aujourd’hui que les cerveaux disposent de pré-représentations transmises par évolution au sein de chaque espèce, et permettant aux jeunes de n’avoir pas tout à apprendre en naissant. Mais pourquoi ces précâblages là et pas d’autres ? Pierre-Yves Oudeyer et ses collègues nous répondent que des organismes vivant dans le même espace et dotés d’un minimum d’organes sensoriels et moteurs ne pouvaient pas ne pas inventer un code de communication symbolique, prenant différentes formes selon les espèces mais présentant les mêmes formes basiques. On retrouve là la réponse de la morphogenèse. Si la compétition darwinienne a joué un rôle, d’autres lois plus profondes ont contribué à l’émergence de telles formes ou comportements et non d’autres.



A gauche : pavage régulier exagonal des murs construits par les abeilles dans leurs ruches
A droite : forme prise par des gouttes d'eau quand elles sont entassées.


L'explication néo-darwiniste pour expliquer la forme alvéolaire du pavage des ruches dirait que les abeilles auraient essayé toute une palette de formes possibles, en partant de formes aléatoires, en sélectionnant celles dont la construction leur font dépenser le moins d'énergie, en les faisant varier petit à petit, en resélectionnant, et ainsi de suite, jusqu'à un jour tomber sur la forme hexagonale. En fait, cela revient à chercher une aiguille dans une botte de foin, si l'exploration des formes n'est pas contraintes. Heureusement pour les abeilles, leur exploration est aidée par un phénomène d'auto-organisation providentiel.
D'Arcy Thompson a remarqué que si l'on considère des cellules de tailles approximativement égales, de formes elles aussi approximatives et simplement pas trop tordues, et que la température générée par les abeilles permette de rendre les murs de cire assez souples, alors les cellules entassées les unes sur les autres se comportent à peu près comme des gouttes d'eau dans la même situation entourées d'un fluide visqueux. Or, les lois de la physique font qu'un tel entassement de gouttes d'eau fait prendre spontanément à chacune une forme hexagonale. Il suffit donc aux abeilles non pas de trouver comment dessiner un pavage régulier hexagonal, mais beaucoup plus simplement de trouver comment faire des cellules à peu près de la même taille et pas trop tordues, empilées les unes sur les autres. La physique faisant le reste. Ainsi, le rôle de l'auto-organisation de la structure physique est largement aussi important que l'avantage métabolique que procure cette structure aux abeilles.

Quelles sont ces lois ? La thèse y fait allusion, en étudiant avec une grande précision les modalités d’apparition des voyelles et des consonnes dans les différentes langues. Même si toutes ces langues ne présentent pas des solutions rigoureusement identiques, les solutions se regroupent en bassins d’attraction communs. L’auteur nous rappelle que le choix de ces bassins n’a pas été fait par un concepteur extérieur recherchant ex-ante une optimisation de type mécanique. Elle n’a pas non plus résulté du seul jeu de la sélection darwinienne, pour les raisons rappelées ci-dessus. Les formes qui apparaissent découlent de la dynamique intrinsèque, complexe et auto-organisée, des systèmes en jeu. Ces systèmes sont caractérisés par un certain nombre d'attracteurs, chacun correspondant à des formes émergentes (2).

Compte tenu des caractéristiques, acquises par ailleurs et préalablement, de l’appareil bucco-pharyngé humain, ce sont les lois simples de la physique macroscopique et plus particulièrement de la thermodynamique, étudiées depuis au moins deux siècles, qui génèrent l'apparition des structures et des formes du langage et de ses éléments. Dans ces cas, on aboutit à une optimisation ex-post permettant de diminuer les dépenses d'énergie et de matière et lutter ainsi au mieux contre l'entropie. Ce type d'optimisation est en œuvre, on le sait, dès le niveau de la chimie, où les liens atomiques durables sont ceux qui sont les moins gourmands en énergie. On la retrouve à tous les niveaux, y compris bien entendu dans les institutions sociales humaines. Le même raisonnement s’applique aux formes de communication ayant émergé dans les différentes espèces animales, compte tenu de leurs caractères anatomiques et physiologiques propres. C’est ce que cherche à montrer la théorie dite « constructale », proposé par Adrian Bejan (voir http://www.automatesintelligents.com/labo/2003/dec/bejan.html).

La théorie constructale?

Arrivé à ce stade, on peut s’étonner précisément que Pierre-Yves Oudeyer. ne fasse pas allusion à cette théorie et aux applications qui en sont données dans différentes disciplines, allant de la recherche fondamentale à l’ingénierie quotidienne. Il nous semble que ses propres hypothèses et celles d'Adrian Bejan se complètent fort bien. Si cela était le cas, on mesure le nombre considérable d’applications qui pourraient être faites de la méthode de modélisation proposée par le chercheur. C’est un peu, si l’on peut dire, l’émergence de tout ce qui existe qui pourrait alors être simulé, sur le modèle de l’auto-organisation de la parole proposée par la thèse. Mais on ne peut pas reprocher à l’auteur de n’avoir pas étendu son travail à la presque totalité des connaissances, comme on pourrait rêver de le faire après l’avoir lu.

Avant de conclure, nous voudrions revenir sur la question de savoir pourquoi le langage social de type humain, comme d’ailleurs avant lui l’outil, ne sont apparus que chez les hominiens ? Pourquoi pas chez des animaux proches anatomiquement et par le mode de vie, tels que les primates contemporains? Pierre-Yves Oudeyer évoque la question mais nous semble-t-il, n’y répond pas complètement. Il nous dit que le langage pourrait être apparu chez l’homme comme une exaptation découlant des caractères anatomiques et physiologiques des préhominiens, acquis pour d’autres raisons. Mais quelles sont ces raisons ? Les lignés humaines ont-t-elles évoluées comme elles l’ont fait en application des lois simples de la morphogenèse visant à économiser les dépenses énergétiques au sein d’une espèce donnée confrontée fortuitement à un nouveau milieu. Ces lois se seraient appliquées différemment chez les autres primates, confrontés à des milieux différents. Elles auraient donc produit des résultats anatomiques et physiologiques différents, ne permettant pas d’exaptation de type langagier. Peut-être.

Mais alors, pour compléter l'explication, il faut réintroduire la sélection darwinienne obligeant les espèces isolées à s’adapter de façon différente à des milieux différents. On retrouve dans ce cas la thèse devenue classique chez les paléo-anthropologues, pour qui c’est l’accident ayant chassé les pré-hominiens de la forêt humide qui a fait leur succès. Isolés dans un milieu différent (les failles rocheuses du rift plutôt que la savane, selon des hypothèses récentes) les lois de la morphogenèse les ont obligés à développer des formes originales, à partir desquelles le langage a pu survenir.

Si on admet cela, qui conjugue comme le suggère l’auteur l’explication darwinienne et celle de l’auto-organisation, on peut dessiner une ligne d’évolution soumise de bout en bout à la sélection darwinienne sous contrainte des lois simples de la morphogenèse. Une espèce transplantée dans un milieu nouveau survit parce que, par mutation/sélection elle réussit à optimiser ses caractéristiques anatomiques et physiologiques afin de survivre dans ce milieu. La nécessité d’y vivre en groupe et en isolat fait émerger par interaction entre les individus de cette nouvelle espèce des formes de communication langagière répondant aux contraintes de développement modélisées par les expériences de Pierre-Yves Oudeyer, adaptées aux spécificités anatomiques initiales caractérisant les membres de la dite espèce. On peut ensuite imaginer que les cerveaux, les appareils audio-phonateurs et les contenus de langage aient co-évolué ensemble, par sélection darwinienne, dans le sens de la diversification et de la complexification, mais dans un espace continuellement contraint par l’application des lois simples de la morphogenèse.

Le même mécanisme se serait appliqué ultérieurement à l’évolution de l’ensemble des caractères présentés par l’espèce humaine y compris dans ses formes les plus récentes et les plus complexes.

La thèse de Pierre-Yves Oudeyer est consultable sur : http://www.csl.sony.fr/~py/theseFrench.html

Voir aussi notre entretien avec Pierre-Yves Oudeyer


(1) Le système ne requiert aucune pression sociale et les agents n'ont en fait aucune capacité sociale.

(2) On peut définir sur l'espace des états du système une fonction d'énergie ou de potentiel qui décrit la dynamique. Celle-ci est telle qu'elle conduit le système dans des minimums locaux (attracteurs) du champ de potentiel. Mais ce concept d'énergie est abstrait et peut être très différent par exemple de l'énergie métabolique ou de l'énergie thermale utilisée dans les travaux de Bejan, cités par ailleurs.

Retour au sommaire