Vers le site Automates Intelilgents
La Revue mensuelle n° 83
Robotique, vie artificielle, réalité virtuelle

Information, réflexion, discussion
logo admiroutes

Tous les numéros


Archives
(classement par rubriques)

Image animée
 Dans La Revue
 

Retour au sommaire

Automates Intelligents s'enrichit du logiciel Alexandria.
Double-cliquez sur chaque mot de cette page et s'afficheront alors définitions, synonymes et expressions constituées de ce mot. Une fenêtre déroulante permet aussi d'accéder à la définition du mot dans une autre langue (22 langues sont disponibles, dont le Japonais).

Du côté des labos
La vision sémantique chez les robots

par Jean-Paul Baquiast

22/08/07

Il est devenu banal d’envisager que les robots, naviguant sur le web, puissent apprendre à utiliser tous les documents écrits dont celui-ci regorge. Cela peut faire peur, car avec les systèmes automatiques de gestion des connaissances, le moindre robot pourra devenir infiniment mieux informé que le mieux informé des humains. Comme l’information contribue à l’intelligence, celle des robots pourra croître de façon exponentielle.

Mais une connection même permanente avec les textes du web ne suffira pas pour que les robots puissent naviguer efficacement dans notre monde peuplé d’images, images d’objets ou images d’êtres vivants. Ils devront apprendre à identifier ces images, non seulement de façon automatique, sur le mode déjà connu de la reconnaissance des formes, mais en découvrant leur « sens », c’est-à-dire les signification que nous humains attribuons aux objets, les usages que nous en faisons, les projets que nous nourrissons à leur égard. Seule la compréhension de ce qu’on appelle aussi le contenu sémantique des symboles visuels permettra aux robots de conférer des sens à leurs propres actions et de devenir des êtres intentionnels autonomes

C’est ainsi que si le robot ne distingue pas entre l’image d’une banane en vraie grandeur et celle d’un lampadaire en forme de banane, il ne pourra pas dialoguer avec un vendeur du rayon fruits d’un super-marché. Ce vendeur ne s’intéresse qu’à la première et saura la distinguer immédiatement de l’objet orné (si l'on peut dire) d’une banane en plastique vendu par son collègue au rayon Luminaires du même magasin.

Mais comment fournir au robot le répertoire d’images lui permettant d’enrichir son regard et de le charger d’intentionnalités. La réponse là encore se trouve dans le web. On sait que les moteurs de recherche fournissent désormais, parallèlement à la référence aux textes, la référence aux images, de plus en plus nombreuses, qui accompagnent ces textes. Mais l’interprétation de ces images n’est pas immédiate. C’est l’étude des solutions proposées dans ce but par un certain nombre de laboratoires qui a fait l’objet du récent Semantic Robot Vision Challenge SRVC, organisé en juillet 2007 lors de la conférence annuelle de l’Association Américaine pour l’Intelligence Artificielle à Vancouver.

Il est facile de programmer un robot pour lui permettre d’utiliser une image, par exemple celle d’une banane, afin de reconnaître une vraie banane dans un environnement réel. A partir de cette image, il déduira les formes extérieures et la couleur du fruit qu’il comparera avec les messages reçus de ses capteurs et provenant de l’objet. Il ne pourra donc pas confondre la banane avec un autre objet également présent, par exemple une lampe de chevet en forme de banane.

Mais si le robot n’a jamais vu d’image de banane auparavant, comment pourra-t-il identifier une banane réelle ? Comment la distinguera-t-il, par exemple, non seulement d’une lampe mais d’une tomate dite banane, elle-même de couleur jaune (photo ci-contre). Comment, tâche aussi difficile, pourra-t-il rejeter des images associées au terme de banane par le web et désignant en fait un objet tout différent, par exemple un type de costume de bain vendu sous ce qualificatif (image: Banana Moon, 2 pièces) Les humains font facilement ces distinctions car ils associent à chaque image d’innombrables souvenirs fournissant des informations permettant de faire la distinction entre des objets relativement comparables, notamment en fonction de l’usage qu’ils en font.

Différents laboratoires construisent actuellement des logiciels permettant aux robots d’extraire des images du web et de les utiliser pour donner un sens aux concepts représentés. Les 4 équipes ayant participé au SRVC de Vancouver ont présenté des solutions voisines. Une liste de 20 objets (désignés par leur nom) avait été donnée aux robots. Ces objets étaient physiquement présents dans un environnement de démonstration de 6 mètre2. Les robots avaient une heure pour rechercher sur le web les images correspondant aux mots de la liste et les analyser. Ensuite, ils devaient retrouver les objets réels correspondant aux mots et aux images associés.

Un Challenge couronné de succès

La première phase du travail consistait à transformer les centaines d’images obtenues pour chaque mot, par exemple le mot banane (faites le vous-mêmes sur Google et vous verrez) en une description permettant de reconnaître la banane réelle de la salle de démonstration et la distinguer des autres 19 objets présents. Pour cela le logiciel fourni aux robots leur permettait d’identifier dans les images de banane recueillies sur le web des formes ou patterns caractéristiques du fruit en question, afin de les distinguer de formes voisines mais non caractéristiques. Il fallait à cette fin supposer que la majorité des images collectées concernait des bananes et non des tomates, des lampes ou des costumes de bain. C'est bien sur ce principe que fonctionnent les moteurs. Personne ne s'étonnera que les textes et images les plus requis par les internautes et correspondant au mot-clef banane, correspondent à des bananes-fruits. Une représentation ou image type pouvait alors être élaborée, servant au logiciel à éliminer les images s’éloignant de ce modèle. Inutile de souligner que, même pour une tâche qui ainsi décrite parait élémentaires, il faut disposer d’outils de reconnaissance des formes très performants.

Une fois équipés de cette image type, le robot prenait des vues (avec par exemple une caméra stéréo) des objets de l’espace de démonstration. Il les comparait avec l’image type et, en cas de ressemblance, déclarait avoir identifié l’objet cherché. Un robot particulièrement évolué, baptisé Curious George, put ainsi reconnaître 7 des 20 objets. Les autres obtinrent de moins bons résultats, en partie parce que leurs capteurs ne leur permettaient pas de différencier suffisamment les objets observés.

Les programmes encore primitifs ainsi mis en démonstration s’amélioreront dans l’avenir en fonction de l’apprentissage qu’en feront des robots interagissant avec des environnements de plus en plus riches et appelés à résoudre des problèmes d’identification de plus en plus complexes. Comme parallèlement le web s’enrichira, là aussi de façon automatique accélérée, avec des contenus de plus en plus significatifs, textes et images, l’avenir de l’intelligence intentionnelle robotique parait assurée.

On se demandera quel usage les robots feront des nouvelles capacités que le traitement des images associées à des concepts et fournies par le web leur offrira. Les chercheurs voudraient que des robots domestiques ou industriels ainsi équipés puissent développer leurs capacités d’identification des objets dans des environnements réels. Mais au-delà de ces usages, nous retrouvons la problématique posée en introduction. Quand les robots seront capables de faire appel en des temps très courts aux millions de concepts et d’images fournies par les moteurs de recherche moderne, leurs capacités de jugement autonomes s’inscriront sur une courbe qui dépassera rapidement celles des humains. Le web sera devenu un de leur territoire sémantique et ils ne s’en laisseront peut-être pas écarter facilement.


Pour en savoir plus
Le sujet est chaud, aux Etats-Unis tout au moins. On trouve sur Google, au 22 août, 550.000 pages sur le sujet ou sur des sujets voisins
Résultats du Challenge sur le blog Artificial Intelligence and Robotics
http://smart-machines.blogspot.com/2007/07/semantic-robot-vision-challenge-video.html
Le site de SRVC http://www.semantic-robot-vision-challenge.org/
Article du NewScientist I Google, therefore I am 18 août 2007, p. 22

Retour au sommaire