Vers le site Automates Intelilgents
La Revue mensuelle n° 66
Robotique, vie artificielle, réalité virtuelle

Information, réflexion, discussion
logo admiroutes

Tous les numéros


Archives
(classement par rubriques)

Image animée




 

Retour au sommaire

Article
Tirer profit du modèle cognitif humain dans les recherches en intelligence artificielle
par Nicolas Sarrasin 22/07/05



Nicolas SarrasinNotice bio-bibliographique – Nicolas Sarrasin


Après avoir publié un livre à Paris portant sur le développement de la discipline médicale au Québec, il s'est spécialisé dans la synthèse des recherches en sciences cognitives, particulièrement en psychologie, sur les processus cognitifs supérieurs du cerveau humain et la représentation des connaissances (concepts et catégorisation, langage, inférences, mémoire et métacognition). Ces recherches l'ont mené à rédiger un livre de vulgarisation portant sur les processus cognitifs humains et la métacognition. Ce livre est paru aux Éditions de l'Homme en janvier 2005 et sera disponible en France dès le mois d'octobre.
En 2003, Nicolas Sarrasin a co-fondé Cognexion inc., une compagnie visant à maximiser les dimensions humaine et informationnelle à travers les composantes des organisations. Il est actuellement associé de recherche pour la compagnie Interdoc inc. Enfin, il travaille également à temps partiel à la bibliothèque de bibliothéconomie et des sciences de l'information à l'Université de Montréal et prépare un livre qui vise à synthétiser les grands courants théoriques en gestion des connaissances pour enrichir ensuite cette perspective des récentes recherches en sciences cognitives.
Site Internet d'auteur de vulgarisation en psychologie: http://www.nicolassarrasin.com
Courriel : info arobase nicolassarrasin.com

Bibliographie sélective

- « L'évolution du cerveau humain » et « Comment ne pas faire soi-même son propre malheur », magazine Vivre, à paraître en automne 2005.

- Petit traité antidéprime : Quatre saisons dans le bonheur, Montréal, Éditions de l'Homme, 2005, 368 p.
Ce livre vulgarise les recherches en psychologie cognitive portant sur les processus cognitifs supérieurs chez l'être humain. Il présente ensuite une synthèse des limites cognitives (distorsions cognitives) ainsi qu'un ensemble d'outils tirant profit de la capacité métacognitive humaine pour aider à remédier aux conséquences néfastes qu'engendrent ces distorsions cognitives.

- «Rupture et fragments dans le théâtre de René-Daniel Dubois : L'échec à créer une représentation adéquate du monde», Université d'Ottawa, l'Annuaire théâtral, no 33, 2003, p. 159-179.

- Albert Camus : un Apostolat sanglant, Essai, Brossard, Éditions Humanitas, 2002, 182 p.


- Archéologie de la médecine au Québec. Lecture épistémologique d'un développement, Paris, Éditions de l'Harmattan, 2001, 152 p.


Nous remercions l'auteur de son aimable participation à ce numéro. C'est toujours avec le plus grand intérêt que nous accueillons ici les représentants de la pensée et de la science québécoise. A.I.

RÉSUMÉ Depuis quelques dizaines d'années, les recherches en sciences cognitives, notamment en psychologie et en neurosciences, dévoilent progressivement le fonctionnement du cerveau humain. Malheureusement, le manque de communication entre les disciplines rend encore difficile l'exploitation de ces nouvelles connaissances dans les recherches en intelligence artificielle. À partir de l'exemple des réseaux sémantiques en IA, nous verrons quels enjeux épistémologiques et quels domaines de la psychologie cognitive pourraient enrichir une telle perspective.

1. Introduction

Depuis quelques dizaines d'années, les recherches en sciences cognitives, notamment en psychologie et en neurosciences, dévoilent progressivement le fonctionnement du cerveau humain. Malheureusement, le cloisonnement entre les disciplines scientifiques rend encore difficile l'exploitation de ces nouvelles connaissances dans les recherches en intelligence artificielle (IA). Dans cet article, nous verrons que les connaissances sur la cognition humaine peuvent suggérer les caractéristiques de capacités cognitives plus flexibles en IA, notamment dans l'exploitation active du langage naturel (LN) lors de l'organisation et du transfert des connaissances (Iwanska et Shapiro, 2000). À partir de l'exemple des réseaux sémantiques en IA, nous verrons quels enjeux épistémologiques et quels domaines de la psychologie cognitive pourraient enrichir une telle perspective. Cette idée promeut plus généralement un rapprochement entre les sciences cognitives et l'IA. En effet, une meilleure compréhension du cerveau est propre à nourrir de nouvelles perspectives de recherche en IA. Cette position est d'ailleurs celle qu'a présentée Tom M. Mitchell (2002), l'ancien président de l'Association américaine pour l'intelligence artificielle. Pour ce faire, nous emploierons l'exemple des réseaux sémantiques en intelligence artificielle qui se prête bien à ce sujet.

Mais avant de commencer, voici une brève description de la théorie des réseaux sémantiques en IA. Les réseaux sémantiques formalisent la notion selon laquelle les connaissances déclaratives, qui ont pour support le langage, peuvent être organisées en réseaux. Un réseau sémantique est un graphe, c'est-à-dire un entrecroisement de lignes et de points formant un réseau, qui représente les relations sémantiques qu'entretiennent les mots les uns avec les autres. Le croisement – ou nœud – entre plusieurs mots permet d'identifier le contenu (sens) de l'un d'entre eux au sein du réseau.

Selon ce modèle, la signification d'un concept, qu'il s'agisse d'une idée, d'un objet ou d'une procédure, réfère toujours à d'autres concepts. Pour construire ces représentations et référer aux autres mots, on fait habituellement appel à des flèches et à des étiquettes. Les relations sont le plus souvent binaires ; des flèches indiquent le sens de la relation. Les connaissances sémantiques du système sont ainsi représentées à travers un réseau de mots, donc ces connaissances sont communicables à l'aide du langage naturel (LN). Dans un réseau sémantique, un concept et sa signification est représenté par un mot et par l'ensemble des liens qui unissent ce mot à d'autres. Un ouvrage collectif détaillé dirigé par Lehmann (1992) présente les grandes théories des réseaux sémantiques qui ont été développées depuis leurs commencements.

2. Les réseaux sémantiques en IA

En 1956, une conférence fondatrice pour la recherche en IA eut lieu à l'université de Darmouth aux États-Unis. L'année suivante, deux jeunes professeurs, Marvin Minsky et John McCarthy, lançaient au MIT le projet de recherche en IA. Depuis cette époque, les recherches en IA ont permis de constater que des problèmes ardus pour un être humain sont faciles à résoudre pour les machines alors que ces dernières ont beaucoup plus de difficulté à faire face aux problèmes simples. Autrement dit, grâce aux impressionnantes capacités de calcul des ordinateurs, il est plus facile de programmer un système expert qui excelle dans une tâche complexe aux possibilités circonscrites, comme jouer aux échecs, plutôt que de reproduire les comportements humains qui composent avec un environnement complexe, comme saisir un verre d'eau.

En effet, si les capacités linguistiques et les connaissances du monde d'un enfant de cinq ans dépassent encore celles des ordinateurs, c'est que l'être humain dispose de systèmes d'« extraction de la signification » (Bloom et al., 2003). Ainsi, une grande part des comportements que nous qualifions d'intelligents implique non seulement des algorithmes de traitement de l'information mais également un vaste répertoire de connaissances encyclopédiques sur l'environnement. Ce sens commun, aucun ordinateur ne le possède encore. Par exemple, une machine ne peut répondre à des questions comme « La Terre est-elle plus petite qu'une orange ? » ou « Est-ce que les murs chantent ? » Elle ne possède pas les connaissances nécessaires pour inférer les réponses. L'ordinateur n'accède qu'au premier niveau de la signification, ce qu'illustre particulièrement le problème de l'ambiguïté lors du traitement automatique du LN (Schunn et al., 2005).

Les réseaux sémantiques ont généralement été développés à partir de deux paradigmes de recherche aux impératifs bien distincts : la modélisation pour reproduire et la modélisation pour expérimenter. Le premier paradigme, qui provient de la recherche en IA, vise à reproduire artificiellement les processus de traitement de l'information pour reproduire l'intelligence. Ces processus n'ont donc pas à correspondre exactement à ceux de l'être humain. Au contraire, le second paradigme tente de reproduire les résultats expérimentaux à l'aide des ordinateurs afin d'enrichir les théories psychologiques et de fournir de nouvelles hypothèses de recherche. Puisque le but de cet article est de s'inspirer des résultats expérimentaux sur la cognition humaine pour enrichir les modèles de l'IA, nous restreindrons nos préoccupations au premier paradigme.

3. Incarnation et langage naturel

Les réseaux sémantiques dépendent de deux types de langage pratiquement universels mais très différents l'un de l'autre. Le premier, formé des langues naturelles, constitue le matériau de base des réseaux sémantiques, tandis que le second, la logique symbolique, sert à organiser le LN pour reproduire la configuration des connaissances. Chacun de ces langages est avantageux. Les êtres humains produisent inconsciemment le LN et la puissance expressive de ce dernier sert de support à leurs activités. De son côté, la logique symbolique est assez générale et précise pour inspirer l'élaboration des langages informatiques. Malgré ce potentiel et les recherches effectuées à ce jour, plusieurs facteurs limitent encore les capacités des réseaux sémantiques.

Par exemple, l'intension d'un mot équivaut à l'ensemble des extensions (ou référents) possibles pour ce mot. L'extension correspond au référent, à la partie du monde réel à laquelle le mot réfère. Les réseaux sémantiques ont jusqu'à présent reproduit presque exclusivement des relations intensionnelles. Autrement dit, ils manipulent des symboles sans entretenir d'autre rapport à l'environnement qu'à travers leurs programmeurs. Comment une machine peut-elle apprendre à partir de stimuli réels lorsqu'elle n'entretient qu'un piètre rapport à l'environnement ?

Un réseau sémantique n'est pas seulement un reposoir de données. Les relations entre les concepts qu'il contient en font plutôt une base de connaissances dynamiques. Or, malgré la constance de certains phénomènes, l'environnement est variable. Il manque encore aux réseaux sémantiques la capacité d'apprendre de façon autonome, c'est-à-dire la possibilité d'intégrer de nouvelles connaissances, de les réviser et d'utiliser ces connaissances pour en former de nouvelles. Pour cette raison, nous croyons que l'apprentissage qui dépend des interventions humaines n'est pas une méthode suffisamment efficace. Au contraire, des méthodes comme l'extraction des connaissances à partir des relations grammaticales permettront de tirer profit de grandes quantités de texte (voir Iwanska et Shapiro, 2000).

Chez l'être humain, plusieurs compétences cognitives courantes impliquent le LN. Par exemple, la capacité de distinguer des catégories ontologiques (choses, événements, etc.), de décrire des états et des modalités (possibilité, nécessité, etc.), de communiquer des intentions, d'identifier la valeur de vérité de propositions, de stocker de grandes quantités d'informations sous forme de prédicats, d'arguments et de propositions pour, enfin, les réutiliser grâce à différents actes de langage, comme l'ordre ou l'interrogation (Pinker et Bloom, 1990 : 712-713).

Il ne fait aucun doute que la modélisation des connaissances qui fait appel aux unités nominales, notamment les réseaux sémantiques et les autres systèmes de TAL, enrichira les capacités cognitives artificielles dont bénéficient déjà les ordinateurs. Ces avancées continueront de s'effectuer à travers différents domaines, par exemple :
– de riches interactions avec les utilisateurs, à la fois efficaces et plus conviviales (Lemon et Gruenstein, 2004) ;
– la capacité accrue d'organiser les connaissances pour apprendre, classifier et faire des inférences à partir de données textuelles non structurées (Iwanska, 1997) ;
– la découverte automatisée de nouvelles connaissances, notamment à partir de vastes bases de données (Wren et al., 2004) ;
Les ordinateurs gagneront un nouveau type d'intelligence lorsqu'ils seront capables d'utiliser efficacement le LN, comme le suggère le test de Turing. Patel et ses collègues (1995) soulignent combien le diagnostic médical, par exemple, exige non seulement des activités comme l'identification des connaissances pertinentes, mais également leur procéduralisation, leur évaluation et la prise de décision. Ce défi demandera aux ordinateurs de disposer de capacités telles que la reconnaissance des intentions (McKevitt et al., 1999), la prise de décision autonome et même la conscience (voir Cardon, 2004). C'est la raison pour laquelle les recherches sur la cognition humaine peuvent être utiles.

4. Tirer profit des recherches sur la cognition humaine

Malgré ses lacunes, le cerveau humain est naturellement capable d'apprendre, notamment à travers l'analyse du LN ; de réviser ses connaissances à la lumière d'informations nouvelles ; de désambiguïser des situations et des contenus linguistiques grâce à ses capacités inférentielles et de motiver des comportements proactifs face à ses propres connaissances. Par exemple, le jugement que nous portons sur notre apprentissage (jugement sur l'apprentissage, voir Dunlosky et Nelson, 1992) et la connaissance que nous avons des informations dont nous disposons en mémoire (jugement sur la connaissance, voir Reder, 1987). Dans cette section, nous procéderons à une brève revue des processus cognitifs supérieurs de l'être humain. Nous nous attarderons surtout à ce qui, dans ces processus, peut intéresser plus spécifiquement l'IA et les réseaux sémantiques.

4.1 L'association : similarité et contraste

Depuis Aristote jusqu'aux philosophes britanniques du XIXe siècle, l'associationnisme suggère que le fonctionnement de la pensée découle de chaînes de relations entre les connaissances. Mais cette vision s'avère réductrice si l'on se contente de représenter des informations complexes à travers de simples associations.

La capacité humaine d'associer une information avec une autre ne fait aucun doute au niveau conceptuel. Une des propriétés fondamentales de l'apprentissage et de l'utilisation des connaissances chez l'être humain consiste à associer entre eux les stimuli de l'environnement de manière à représenter les phénomènes, à les analyser et à les prévoir. Les réseaux de concepts s'organisent ainsi à partir de leurs similarités sémantiques. Deux concepts sont similaires s'ils partagent un grand nombre de propriétés (Collins et Loftus, 1975 : 411). Depuis sa naissance, chaque individu a été exposé à un grand nombre de mots. Dans ce contexte, certains mots sont apparus plus souvent en présence d'autres, et ce sont ces séquences qui composent leur signification (Boucher et Dienes, 2003). Comme dans les réseaux sémantiques, l'association des informations entre elles et leur similarité sont des composantes importantes des informations stockées en mémoire.

De plus, le stockage et le traitement mémoriels sont distribués dans différentes zones du cerveau en fonction du type d'information. Mais ces parties interagissent entre elles pour interpréter et intégrer de nouvelles informations. Ce phénomène correspond au modèle d'activation par propagation : Les informations seraient donc stockées par groupes selon les réseaux de neurones qui sont activés simultanément en fonction du type d'information.

4.2 La catégorisation

L'un des processus cognitif le plus fondamental demeure sans doute la catégorisation. Sommairement, elle consiste à ordonner les informations en différentes catégories selon leur degré de similarité et le nombre d'associations entre elles. Ce processus constitue une des bases importantes de la plupart des activités cognitives et se manifeste autant à travers le langage que le raisonnement (Harnad, 2003). Nous allons aborder plusieurs caractéristiques de ce processus.

4.2.1 Le niveau de catégorisation

Pour catégoriser les concepts, nous devons les mettre en relation les uns par rapport aux autres. De ce fait, une hiérarchie peut se dégager : certaines catégories sont plus générales et en contiennent d'autres. Ces catégories subordonnées sont plus spécifiques et leurs concepts possèdent plus de propriétés ; ils entretiennent plus de liens avec d'autres concepts. À la différence, les catégories plus générales sont aussi plus abstraites. Leurs concepts possèdent donc moins de propriétés (Murphy, 2002). En ce sens, les catégories n'existent pas véritablement (Sloman, 1998). Elles ne sont que des concepts liés à un nombre plus ou moins élevé d'autres. C'est la raison pour laquelle nous pouvons également disposer d'informations à deux niveaux hiérarchiques différents sans pour autant disposer d'informations sur la catégorie intermédiaire. Par exemple, on peut savoir que zébu est un animal sans savoir qu'il s'agit aussi d'un mammifère. Ce phénomène est relié au niveau de base de catégorisation.

4.2.2 Le niveau de base de catégorisation

Si la structure hiérarchique des concepts semble se manifester dans toutes les cultures (Berlin, 1992), les recherches n'ont pas encore démontré comment elles s'organisaient au niveau neuronal. Comment décidons-nous du niveau de la catégorie des concepts à employer dans chaque contexte ? L'une des hypothèses importantes consiste à dire que les concepts s'organisent en réseaux à partir de l'emplacement où ils sont stockés. Selon cette hypothèse, c'est la forme du réseau qui contingente le choix des concepts. Il existe ainsi un niveau qui est plus souvent utilisé lors de l'identification des concepts. Il s'agit du niveau de base de catégorisation, c'est-à-dire le degré de profondeur du concept qui est le plus naturellement utilisé dans la hiérarchie. Par exemple, lorsqu'une personne rencontre un lévrier, par la suite, elle risque de dire qu'elle a plutôt vu un chien.

Rosch et ses collègues (1976) ont effectué plusieurs recherches sur le sujet. Selon eux, le niveau de base de catégorisation est celui où les membres d'une catégorie partagent le plus grand nombre de propriétés importantes entre eux. Ce niveau de base se manifesterait en raison du fait qu'il maximise le potentiel informatif des concepts. Ainsi, les membres des catégories superordonnées sont moins utilisés parce qu'ils possèdent moins d'attributs. En effet, ces catégories très générales ne sont presque jamais utilisées pour référer à des objets individuels à cause du nombre peu élevé de propriétés de leurs membres. Par exemple, nous n'utiliserons pas le substantif mammifère pour désigner un chat à cause de son manque de précision.

Le modèle connexionniste de traitement parallèle distribué reproduit bien cet effet de différenciation des concepts en catégories. À mesure que l'apprentissage a lieu, les stimuli qui sont réitérés dans le réseau se séparent progressivement les uns des autres en fonction de leurs propriétés les plus similaires (McClelland et Rogers, 2003 : 314). Les connexionnistes expliquent ce phénomène à partir de la covariation cohérente des propriétés des concepts entre elles. La covarition cohérente réfère à la récurrence d'un ensemble de propriétés et non simplement d'une seule. Puisque chaque concept partage un certain nombre d'attributs avec les autres membres de sa catégorie, ces attributs covarient entre eux lors de l'apprentissage. Par exemple, les mammifères possèdent des caractéristiques qui les distinguent des plantes, mais les chats possèdent aussi des caractéristiques qui les regroupent pour former une autre catégorie plus spécifique incluse dans celle des mammifères.

4.2.3 Amorçage et activation

Les catégories du niveau de base sont plus efficaces que les autres sur le plan de l'adaptation à l'environnement parce qu'elles sont plus faciles à amorcer que celles qui leur sont subordonnées (Rosch et al., 1976). Selon les modalités de propagation de l'activation, les propriétés stockées à proximité de celles qui sont activées ont plus de chances d'être activées à leur tour. C'est ce qu'illustre le fait que les éléments les plus représentatifs d'une classe sont appris et reconnus plus facilement que les autres. Ces capacités adaptatives s'avèrent très importantes pour faire face aux différents contextes. Par exemple, le concept PIANO active les informations qui sont associées à un instrument de musique. Mais lorsqu'il s'agit de déplacer l'instrument, ce sont la TAILLE et le POIDS qui deviennent les propriétés les plus importantes (Barsalou, 1991).

4.3 Les capacités inférentielles

Les capacités inférentielles ont toujours occupé une place prépondérante dans les recherches en psychologie autant que dans les modèles visant à les reproduire artificiellement. La plausibilité et la probabilité qu'un événement se produise constituent les premières informations que l'être humain considère pour raisonner (Rips, 1990). Par exemple, les sujets d'une expérience de Sloman (1998) ont trouvé plus convaincants les arguments qui contenaient des éléments typiques plutôt qu'atypiques, même s'ils étaient tous présentés selon la même organisation logique.

Nous pouvons décrire l'inférence comme l'activité d'identification d'un concept à partir d'une liste de relations à d'autres concepts. Par exemple, l'inférence inductive vise à identifier un concept appartenant à une catégorie plus générale que celles auxquelles appartiennent ses prémisses. Les catégories dont les membres sont très similaires possèdent d'ailleurs une haute valeur inductive puisqu'ils réfèrent efficacement aux catégories superordonnées. À l'opposé, l'inférence déductive consiste à identifier un concept appartenant à une catégorie plus spécifique. Par exemple, une personne saura que son chien FIDO aboie parce qu'elle sait que les CHIENS, en général, aboient.

Puisque les inférences impliquent la catégorisation et les types de liens qui unissent les concepts entre eux, elles intéressent directement la représentation des connaissances. L'efficacité des inférences effectuées par les réseaux sémantiques varie d'ailleurs en fonction de la manière dont les connaissances sont représentées. L'une des caractéristiques importantes des réseaux sémantiques réside dans la capacité à raisonner par inférence en utilisant différents types de relations entre les concepts. L'inférence joue aussi un rôle prépondérant dans la désambiguïsation des catégories sémantique. Pour comprendre le LN, lorsque les propriétés de deux concepts entrent en conflit, celles qui possèdent le poids diagnostique le plus élevé permettent de choisir le concept le plus pertinent. Les gens utilisent également les connaissances dont ils disposent dans un domaine pour en désigner les propriétés critiques (Kalish et Gelman, 1992). Par exemple, le mouvement caractérise le concept VOITURE puisqu'il est directement associé à l'utilité du véhicule.

4.4 Concepts et langage

Le rôle du cerveau s'avère primordial dans le développement et l'utilisation du LN chez l'être humain. Un ensemble de zones cérébrales qui traitent le sens des mots ont d'ailleurs été identifiées (par exemple, voir Pulvermüller, 1999). Ainsi, le langage nous permet d'identifier des classes d'objets, d'en inférer de nouvelles propriétés et de communiquer ces informations à d'autres personnes. Les processus cognitifs supérieurs que nous avons abordés précédemment sont également impliqués dans le traitement du langage. Cette relation directe entre le langage et les connaissances a d'ailleurs été beaucoup étudiée, ce qui nous permettra d'évoquer des phénomènes propres à l'organisation des mots en mémoire et à leur utilisation.

4.4.1 L'amorçage des concepts en mémoire et l'effet des connaissances

La mémoire sémantique humaine ne contient pas un ensemble d'informations statiques mais fait varier le sens des mots en fonction de leur utilisation. Par exemple, les recherches sur l'effet d'amorçage ont depuis longtemps démontré que les sujets lisaient plus rapidement un mot s'ils en avaient préalablement lu un autre qui lui était rattaché au niveau sémantique (voir Ratcliff et McKoon, 1988). Plusieurs phénomènes langagiers illustrent ce principe, comme l'instanciation et l'interprétation. L'instanciation est le phénomène par lequel les informations contextuelles – les mots dans une phrase, par exemple – amorcent ou restreignent l'accès à certains concepts. C'est le cas du mot navet dans les phrases suivantes :
– Jean, en bon agriculteur, récolte ses navets.
– Ce film était un véritable navet !
La nature grammaticale et l'acception du mot changent complètement d'une phrase à l'autre.

Selon cette perspective, les mots ne possèdent pas un certain nombre de sens bien définis mais plutôt un ensemble de significations potentielles (Halff et al., 1976). La signification des mots peut donc être modifiée de manière pratiquement illimitée. Le phénomène d'instanciation suggère que les connaissances jouent un rôle prépondérant dans l'utilisation du langage. Par exemple, il est impossible d'expliquer comment on obtient des connaissances plus générales sur un sujet simplement à partir des termes spécifiques contenus dans une phrase si l'on ne dispose pas de connaissances préalables sur le monde ni de capacités inférentielles.

Si les mots sont toujours interprétés d'une manière plus spécifique que l'ensemble de leurs significations potentielles, cette sélection ne s'effectue pas au hasard et le processus de catégorisation se manifeste de nombreuses manières. Par exemple, les recherches ont démontré que les gens nomment plus librement les mots à leur niveau de base de catégorisation (Lin et al., 1997). C'est le signe qu'une sélection s'effectue à partir du sens des mots au cours de leur utilisation. Enfin, Murphy (1990) a montré qu'il est plus facile d'interpréter un adjectif lorsqu'il modifie le sens d'un substantif tel qu'il le fait typiquement. Par exemple, pomme rouge (la couleur utilisée dans son acception typique) sera plus facile à interpréter que rouge de colère (la couleur utilisée dans une acception moins courante de relation causale).

4.4.2 Les relations inter-catégorielles

Le processus de catégorisation se manifeste dans les relations sémantiques qu'entretiennent les mots entre eux, comme les relations synonymiques. Il a d'ailleurs été observé que les comparaisons inter-catégorielles de même niveau (synonymie) sont traitées plus rapidement que les relations subordonnées ou superordonnées (Chaffin et Herrmann, 1984).

La catégorisation s'exprime également dans le phénomène de polysémie. L'instanciation montre qu'un concept entretient des relations avec plusieurs autres catégories, même celles qui lui sont éloignées sémantiquement. Comme nous l'avons également vu avec l'inférence, plusieurs propriétés ne sont pas nécessairement apprises mais peuvent être dérivées d'autres catégories (voir Markman et Makin, 1998). Cette caractéristique s'avère importante dans l'organisation d'un réseau sémantique car elle souligne la possibilité d'utiliser les mêmes concepts dans plusieurs contextes différents. Cela minimise d'ailleurs la redondance et permet une certaine économie cognitive. En effet, si une information peut être inférée à partir des liens entre les concepts, nul n'est besoin de l'encoder une seconde fois (Johnson-Laird et al., 1984). Mais ce recours à l'inférence plutôt qu'à la redondance a ses limites puisque, d'une part, il alourdit le traitement des liens dans le réseau et, d'autre part, son efficacité varie en fonction de la manière dont on représente les connaissances. De ce fait, la position des mots dans l'« espace sémantique » découle du contenu sémantique, donc des relations entre eux.

5. Quelques suggestions issues des recherches sur la cognition humaine

Au début de cet article, nous divisions en deux paradigmes la recherche sur les réseaux sémantiques ; celui, psychologique, qui vise à reproduire les processus cognitifs humains pour en comprendre le fonctionnement et celui, issu de l'IA, dont l'objectif principal est de rendre les machines intelligentes, qu'elles y parviennent ou non à travers les mêmes processus que l'être humain. Depuis plusieurs années, les modèles de traitement parallèle distribué ont reproduit artificiellement certains modes d'organisation et d'utilisation des concepts par les êtres humains, allant de l'apprentissage de l'enfant jusqu'à la dégénérescence neuropathologique (voir Rumelhart et al., 1986). Mais ces recherches appartiennent davantage au paradigme de la psychologie expérimentale. Et de son côté, la recherche en IA n'a aucun avantage à reproduire les lacunes du traitement cognitif humain, ce dont témoigne d'ailleurs le recours actuellement limité à la structure du LN (Iwanska et Shapiro, 2000). C'est la raison pour laquelle les suggestions de cette ultime section s'intéresseront surtout aux caractéristiques qui, à partir de l'être humain, pourraient enrichir les réseaux sémantiques en les rendant plus efficaces ou plus simples.

Cependant, avant d'aller plus loin, nous croyons important d'évoquer quelques questions à la base de toute entreprise qui viserait à reproduire artificiellement l'usage de la signification, ce qui s'apparente à une théorie psychologique du sens :
– Quel est le meilleur type de représentation ?
– Quelle est la relation entre les connaissances et le langage ?
– Comment les représentations sont-elles reliées entre elles, notamment pour effectuer des inférences ?
– De quelle manière un réseau sémantique peut-il apprendre de façon autonome à partir de l'environnement et outrepasser les limites des relations uniquement intensionnelles ?
– Est-il possible de tenir véritablement compte du contexte aux différents niveaux d'utilisation du LN (instanciation, apprentissage, interactions avec l'utilisateur, etc.) ?
L'objectif de cette dernière section consiste à mettre l'accent sur certaines informations éventuellement utiles et ne prétend pas répondre à ces questions. Nous verrons quelques avantages des processus cognitifs supérieurs humains que les réseaux sémantiques pourraient exploiter.

5.1 L'apprentissage autonome à partir du LN

Nous mentionnions précédemment l'habituelle absence de relations extensionnelles. Les réseaux sémantiques se contentent d'utiliser des concepts tels que les programmeurs les encodent. S'agit-il réellement d'un problème ? Cela constitue au moins une limitation. Comme dans le cas du projet Cyc (voir http://www.cyc.com), la charge de travail est colossale pour qui tente de programmer une à une les informations qui fourniraient un sens commun à une machine. Et cette difficulté s'étend plus loin : puisque le contenu de l'environnement varie sans cesse, les connaissances changent aussi. Il faut donc poursuivre sans relâche les corrections et la programmation des nouveaux faits pour rester à jour pour que les représentations restent adaptées à l'environnement.

Le LN nous semble une source particulièrement riche d'informations, surtout lorsqu'il s'agit de créer rapidement d'importantes bases de connaissances sous forme de réseaux sémantiques. Les textes contiennent des informations complexes qui impliquent, entre autres, des relations de conjonction, de disjonction et de négation. Des efforts pour exploiter la structure du LN dans l'apprentissage des machines sont déjà manifestes (voir Iwanska et Shapiro, 2000). Et les avantages sont nombreux. Le LN implique la redondance et la contradiction logique, ce qui permet d'intégrer les sens non littéraux et d'identifier des fausses croyances. Le LN motive également des apprentissages réels même en l'absence des stimuli initiaux (ex. : l'apprentissage humain grâce à la lecture) et il fournit de nombreux avantages informationnels, allant du stockage de la connaissance à l'échange d'informations entre agents. Le LN peut représenter la plupart des connaissances et son utilisation est généralisée chez l'être humain, ce qui facilite les interactions avec les machines. Enfin, l'Internet contient une quantité croissante d'informations sous forme textuelle qui sont encore sous-exploitées.

L'analyse automatique de nombreux types de textes à partir d'algorithmes inspirés de la structure du LN constituera un moyen efficace d'apprentissage pour les réseaux sémantiques (Voir par exemple Church (1988) qui utilise la récurrence statistique des mots pour leur associer la bonne étiquette grammaticale lors de l'analyse textuelle.). Des recherches en linguistique informatique ont également montré qu'il était possible d'acquérir des informations linguistiques (ex. : morphologie, classes sémantiques, noms composés, etc.) à partir de vastes corpus de textes (Joshi, 1999). Sans être la réponse à tous les problèmes, une plus grande utilisation du LN pourrait engendrer de réelles améliorations.
Mais même si nous utilisons de grandes quantités de textes pour l'apprentissage des connaissances, il n'existe aucune théorie générale sur la manière d'organiser automatiquement ces concepts dans un réseau. Il n'est donc pas suffisant de disposer de liens entre des concepts, encore faut-il rendre ces liens polyvalents pour les exploiter de façon productive.

5.2 La catégorisation en contexte

Comme nous l'avons vu, la catégorisation est un processus cognitif fondamental chez l'être humain. Un réseau sémantique performant devrait catégoriser ses concepts de manière efficace et pouvoir les consulter de manière productive. Les concepts les plus efficaces sont ceux qui sont définis de manière très spécifique, car ils ne sont pas ambigus. C'est ce que nous retrouvons dans la plupart des réseaux sémantiques actuels. Mais cette univocité est lourde à programmer et reste limitée dans ses performances. Idéalement, il faudrait pouvoir modifier l'activation des liens entre les concepts selon le contexte, ce qui est une caractéristique de l'apprentissage humain. Par exemple, si le mode de locomotion usuel de l'oiseau est le vol, dans le cas du pingouin, il s'agit de la nage.

Les connaissances représentées de façon plastique seront celles qui permettront des échanges plus élaborés, comme une plus grande précision dans l'interaction avec les utilisateurs (voir par exemple, McKevitt et al., 1999). La plasticité est l'une des caractéristiques de la catégorisation telle qu'elle s'observe chez l'être humain. Elle réfère à la capacité des représentations à changer de forme ou de fonction selon les altérations de l'environnement. À la lumière des recherches en psychologie précédemment citées, nous croyons que les réseaux sémantiques gagneraient à incorporer plusieurs des caractéristiques des processus cognitifs humains. Par exemple, le niveau préféré de catégorisation donnerait accès aux concepts les plus utiles. Dans un réseau sémantique, ce niveau préféré dépendrait évidemment des types de liens entre les concepts et de leur nombre. Mais ces liens gagneraient aussi à pouvoir varier facilement, ce qui rendrait leur préprogrammation moins pertinente.

Cet exemple correspond aussi à l'effet des stéréotypes, c'est-à-dire à la reconnaissance rapide des concepts les plus typiques dans le réseau. Un avantage indéniable des stéréotypes consiste à fournir un ensemble cohérent d'informations, hautement disponibles et caractéristiques des situations qui, malgré leur complexité, ont le plus de chances de se produire (Bodenhausen et al., 1999). Les nombreuses recherches sur les stéréotypes en psychologie illustrent également l'importance de l'utilisation contextuelle des stéréotypes entre les individus, ce qui rejoint la problématique des interactions homme-machine. En effet, il est possible de postuler que le LN s'est développé chez l'être humain principalement à travers des actes de communication (Pinker et Bloom, 1990).

Cependant, comme d'autres caractéristiques de la cognition humaine, les stéréotypes ne sont qu'une approximation ; ils ne permettent pas d'obtenir toujours un résultat valide. De telles possibilités aideraient néanmoins les réseaux sémantiques à composer avec les problèmes classiques du LN en IA, comme l'ambiguïté sémantique et la polysémie.

Pour composer avec des informations variables, un système plus adaptatif devrait donc pouvoir raisonner directement à partir de ses connaissances et obtenir des conclusions sur le monde, même si elles sont éventuellement fausses. Un réseau sémantique qui tirerait profit du modèle humain n'aurait donc pas à assurer la validité complète de ses inférences car l'inférence humaine est un dispositif visant à composer avec des informations essentiellement lacunaires. Les réseaux sémantiques pourraient ainsi disposer d'heuristiques rapides et frugales pour raisonner et même prendre des décisions (voir Gigerenzer et al., 1999).

Un exemple concerne l'évaluation de la validité des inférences, qui implique souvent des relations éloignées avec d'autres concepts. La fausseté d'une conclusion peut, entre autres, être identifiée grâce à la présence de contre-exemples. Dans ce cas, la proposition « Tous les mammifères sont des chiens » demande au système d'identifier une sous-catégorie autre que chien qui appartient à la catégorie mammifère. À partir du moment où il découvre qu'une autre sous-catégorie, comme chat, fait aussi partie de la catégorie mammifère, il constatera la fausseté de sa conclusion. Cela revient à identifier une propriété superordonnée commune mais mutuellement exclusive aux deux concepts subordonnés (Holyoak et Glass, 1975). Ici, l'exclusion s'avère primordiale car certaines propriétés peuvent coexister malgré leurs différences (ex. : on peut à la fois être comptable et musicien).

En outre, puisque les processus inférentiels identifient de nouveaux concepts à partir des relations qu'ils entretiennent avec les autres, l'héritage des propriétés d'une catégorie à une autre s'avère être important. Pour comprendre la proposition « Ce film était excellent », nous devons inférer que l'on parle du contenu du film, et non de son goût… À la différence, affirmer que le livre est plutôt laid référera probablement à sa couverture. L'utilisation du LN ne demande pas seulement d'accéder aux concepts auxquels les mots réfèrent mais oblige surtout à activer les liens pertinents en fonction du contexte. Chez l'être humain, la communication oblige à compléter constamment les informations qui ne sont pas fournies dans l'échange linguistique et à désambiguïser le sens des mots (Sperber et Wilson, 1995). Ainsi, un réseau sémantique s'inspirant de l'être humain devra transférer des propriétés d'une catégorie à une autre suivant certaines contingences contextuelles.

Nous espérons que de nouvelles avenues inspirées des heuristiques frugales et du LN suggéreront des nouvelles avenues de recherches plus interdiciplinaires. Ainsi, il ne s'agira plus seulement d'obtenir des représentations dont les liens sont valides. Puisque la pondération de ces liens variera en fonction de la nature et de la quantité des connaissances, il sera possible de considérer acceptables des conclusions approximatives qui se fondent sur des liens critiques activés dans un contexte spécifique.

5.3 De riches interactions avec le contexte

Puisque les réseaux sémantiques visent à représenter efficacement les connaissances, nous sommes en droit de nous demander ce qui sous-tend la sémantique en tant que théorie linguistique de la signification. Une suggestion, simpliste du point de vue psychologique, consiste à associer un mot à chaque idée. Malheureusement, nous atteignons rapidement les limites de cette suggestion puisque toutes les idées ne possèdent pas toujours un mot qui y réfère et pratiquement tous les mots impliquent un certain degré de polysémie. Nous gagnerions donc à considérer la signification à la lumière de la finalité communicative du LN : son utilisation (Pinker et Bloom, 1990).

Le LN dépend fondamentalement du contexte parce que son utilisation est largement sous-spécifiée. Par exemple, une différence existe entre les membres d'une catégorie et la catégorie générale (CHIEN). Si une personne appelle son chien FIDO, elle n'active pas la signification entière de CHIEN, et active des concepts associés à son expérience personnelle de FIDO. La majorité des phénomènes observés chez l'être humain dans l'utilisation du langage découlent directement du contexte. Cela souligne l'importance des représentations plastiques pour désambiguïser le sens des phrases. Il serait d'ailleurs surprenant que toutes les composantes sémantiques d'un mot soient activées lorsqu'il est interprété dans une phrase. Chaque mot oriente plutôt progressivement la définition des relations et l'ordre d'utilisation des autres mots (McKoon et Ratcliff, 1988).

6. Conclusion

Dans cet article, nous avons brièvement présenté la théorie des réseaux sémantiques. Nous avons ensuite décrit les grands domaines de la recherche sur les processus cognitifs supérieurs humains et avons noté certains de leurs résultats. Enfin, nous avons émis quelques suggestions qui tenaient compte de la recherche sur la cognition humaine pour voir comment elle pourrait éventuellement nourrir la recherche en IA, notamment celle sur les réseaux sémantiques.

En effet, nous croyons qu'il est possible de tirer davantage profit de la structure du LN, ce qui dotera les ordinateurs de capacités cognitives plus raffinées, notamment dans leur interaction avec les êtres humains. Malheureusement, ces améliorations ne seront pas sans engager certains désavantages, comme l'approximation et la confusion inter-catégorielle. À la différence des machines, les êtres humains connaissent intimement le monde dans lequel ils évoluent, car ils y sont incarnés. Leurs connaissances ne se limitent pas à des symboles et à des relations. Il n'existe aucune condition pour circonscrire universellement et a priori le sens d'un mot. Mais il n'existe pas davantage de raisons pour limiter le sens des mots à des relations exclusivement intensionnelles. C'est la raison pour laquelle, puisqu'elles abordent de près la question de la représentation et de l'utilisation des connaissances, les recherches futures sur les réseaux sémantiques devront également se préoccuper du problème de l'incarnation (Sharkey et Ziemke, 2001).

Pour ouvrir de nouvelles avenues en IA, il sera utile d'améliorer la communication au sein des sciences cognitives, particulièrement entre l'informatique, la linguistique et la psychologie cognitive. Des initiatives contribuent également à développer la dimension intelligente associée à la signification dans le LN. L'Internet et la quantité croissante d'informations disponibles dans les organisations rendront de plus en plus nécessaire la capacité de synthétiser des connaissances à partir de grandes quantités de données textuelles. L'IA nous réserve des percées impressionnantes, comme des interactions plus fluides avec des ordinateurs qui parleront et comprendront le LN à la manière de l'être humain, qui posséderont des connaissances générales sur le monde et seront capables de raisonner et de prendre des décisions autonomes. Mais avant d'obtenir de tels résultats, sans aucun doute, nous devrons nous attacher à mieux comprendre le fonctionnement du cerveau humain.

Bibliographie
Androutsopoulos I., Ritchie G. D., Thanisch P., « Natural language interfaces to databases-an introduction », Journal of Natural Language Engineering, 1(1), 1995, 29-81.
Barsalou L. W., « Flexibility, structure, and linguistic vagary in concepts: Manifestations of a compositional system of perceptual symbols », dans Collins A. F., Gathercole S. E., Conway M. A., Morris P. E. (éd.), Theories of memory, Hove, Erlbaum, 1991, 29-101.
Berlin, B., Ethnobiological classification: principles of categorization of plants and animals in traditional societies, Princeton, Princeton University Press, 1992.
Bloom P., Jackendoff R., Wynn K. (éd.), Language, logic, and concepts: Essays in memory of John Macnamara, Cambridge, MIT Press, 2003.
Bodenhausen G. V., Macrae C. N., Sherman J. W., « On the dialectics of discrimination: Dual processes in social stereotyping », dans Chaiken S. et Trope Y. (éd.), Dual process theories in social psychology, New York, Guilford Press, 1999, 271-290.
Boucher L. et Dienes Z., « Two ways of learning associations », Cognitive Science, 27, 2003, 807-842.
Chaffin R. et Herrmann D. J., « The similarity and diversity of semantic relations », Memory and Cognition, 12(2), 1984, 134-141.
Cardon A., Modéliser et concevoir une machine pensante. Approche de la conscience artificielle, Paris, Editions Vuibert, 2004.
Collins A. M. et Loftus E. F., « A spreading-activation theory of semantic processing », Psychological Review, 82, 1975, 407-428.
Dougherty M., Gronlund S. D., Gettys C. F., « Memory as a fundamental heuristic for decision making », dans Schneider S. et Shanteau J. (éd.), Emerging Perspectives on Judgment and Decision Research, Cambridge, Cambridge University Press, 2003, 125-164.
Dunlosky J. et Nelson T. O., « Importance of the kind of cue for judgments of learning (JOL) and the delayed-JOL effect », Memory and Cognition, 20, 1992, 374-380.
Evens M. W., Relational models of the lexicon: representing knowledge in semantic networks, Cambridge, Cambridge University Press, 1988.
Gigerenzer G., Todd P. M. and the ABC Research Group, Simple Heuristics that Make us Smart, Oxford, Oxford University Press, 1999.
Goldstone R. L., « The role of similarity in categorization: Providing a groundwork », Cognition, 52, 1994, 125-157.
Halff H. M., Ortony A., Anderson R. C., « A context-sensitive representation of word meanings », Memory and Cognition, 4, 1976, 378-383.
Harnad S., Cognition is Categorization, Séminaire d'été sur la catégorisation de l'Institut des sciences cognitives de l'Université du Québec à Montréal, 2003. (http://www.ecs.soton.ac.uk/~harnad/Temp/catconf.html)
Holyoak K. J. et Glass A. L., « The role of contradictions and counterexamples in the rejection of false sentences », Journal of Verbal Learning and Verbal Behavior, 14, 1975, 215-239.
Iwanska L. M., « Reasoning with intensional negative adjectivals: Semantics, pragmatics, and context », Computational Intelligence, 13(3), 1997, 348-390.
Iwanska L. M. et Shapiro S. C. (éd.), Natural language processing and knowledge representation. Language for knowledge and knowledge for language, Cambridge, MIT Press, 2000.
Johnson-Laird P. N., Herrmann D. J., Chaffin R., « Only connections: A critique of semantic networks », Psychological Bulletin, 96(2), 1984, 292-315.
Joshi A. K., « Computational linguistics », dans Wilson R. A. et Keil F. C. (éd.), The MIT Encyclopedia of the Cognitive Sciences, Cambridge, MIT Press, 1999, 162-163.
Kalish C. W. et Gelman S. A., « On wooden pillows: Multiple classification and children's category-based inductions », Child Development, 63, 1992, 1536-1557.
Lehmann F. (éd.), Semantic Networks in Artificial Intelligence, Oxford, Pergamon Press, 1992.
Lemon O. et Gruenstein A., « Multithreaded context for robust conversational interfaces: Context-sensitive speech recognition and interpretation of corrective fragments », ACM Transactions on Computer-Human Interaction, 11(3), 2004, 241-267.
Lin E. L., Murphy G. L., Shoben E. J., « The effect of prior processing episodes on basic-level superiority », Quarterly Journal of Experimental Psychology, 50A, 1997, 25-48.
Markman A. B. et Makin V. S., « Referential communication and category acquisition », Journal of Experimental Psychology: General, 127, 1998, 331-354.
McClelland J. L. et Rogers T. T., « The parallel distributed processing approach to semantic cognition », Nature Reviews Neuroscience, 4, 2003, 310-322.
McKevitt P., Partridge D., Wilks Y., « Why machines should analyse intention in natural language dialogue », International Journal of Human-Computer Studies, 51(5), 1999, 947-989.
McKoon G. et Ratcliff R., « Contextually relevant aspects of meaning », Journal of Experimental Psychology: Learning, Memory, and Cognition, 14, 1988, 331-343.
Mitchell T. T., AI and the Impending Revolution in Brain Science, Allocution présidentielle de l'AAIA, 2002.
Murphy G. L., « Noun phrase interpretation and conceptual combination », Journal of Memory and Language, 29, 1990, 259-288.
Murphy G. L., The big book of concepts, Cambridge, MIT Press, 2002.
Patel V. L., Kaufman D.R., Arocha J. F., « Steering through the murky waters of a scientific conflict: situated and symbolic models of clinical cognition », Artificial Intelligence in Medicine, 7, 1995, 413-438.
Pinker S. et Bloom P., « Natural language and natural selection », Behavioral and Brain Sciences, 13(4), 1990, 707-784.
Pulvermüller F., « Words in the brain's language », Behavioral and Brain Sciences, 22, 1999, 253-336.
Quillian M. R., « Semantic memory », dans Minsky, M. (éd.), Semantic information processing, Cambridge, MIT Press, 1968, 216-270.
Ratcliff R. et McKoon G., « A retrieval theory of priming in memory », Psychological Review, 95, 1988, 385-408.
Reder L. M., « Strategy selection in question answering », Cognitive Psychology, 19, 1987, 90-138.
Rieger C., « An organization of knowledge for problem-solving and language comprehension », Artificial Intelligence, 7, 1976, 89-127.
Rips L. J., « Reasoning », Annual Review of Psychology, 41, 1990, 321-354.
Rosch E., Mervis C. B., Gray W. D., Johnson D. M., Boyes-Braem P., « Basic objects in natural categories », Cognitive Psychology, 8, 1976, 382-439.
Rumelhart D. E., McClelland J. L. and PDP Research Group, Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Volume 1: Foundations, Cambridge, MIT Press, 1986.
Schunn C., Freudenthal D., Pine J. M., Gobet F., « On the resolution of ambiguities in the extraction of syntactic categories through chunking », Cognitive Systems Research, 6, 2005, 17-25.
Sharkey N. E. et Ziemke T., « Mechanistic versus phenomenal embodiment: Can robot embodiment lead to strong AI ? », Cognitive Systems Research, 2(4), 2001, 251-262.
Sloman S. A., « Categorical inference is not a tree: The myth of inheritance hierarchies », Cognitive Psychology, 35, 1998, 1-33.
Sowa J. F. (éd.), Principles of semantic networks: explorations in the representation of knowledge, San Mateo, Morgan Kaufmann, 1991.
Sperber D. et Wilson D., Relevance: Communication and Cognition, Cambridge, Blackwell Publishers, 1995.
Wren J. D., Bekeredjian R., Stewart J. A., Shohet R. V., Garner H. R., « Knowledge discovery by automated identification and ranking of implicit relationships », Bioinformatics, 20(3), 2004, 389-398.


Retour au sommaire