Retour
au sommaire
Automates
Intelligents s'enrichit du logiciel
Alexandria.
Double-cliquez sur chaque mot de cette page et s'afficheront
alors définitions, synonymes et expressions constituées
de ce mot. Une fenêtre déroulante permet
aussi d'accéder à la définition du
mot dans une autre langue (22 langues sont disponibles,
dont le Japonais). |
| Du côté
des labos
La vision sémantique chez les
robots
par Jean-Paul Baquiast
22/08/07
|
Il
est devenu banal d’envisager que les robots, naviguant
sur le web, puissent apprendre à utiliser tous les
documents écrits dont celui-ci regorge. Cela peut
faire peur, car avec les systèmes automatiques de
gestion des connaissances, le moindre robot pourra devenir
infiniment mieux informé que le mieux informé
des humains. Comme l’information contribue à
l’intelligence, celle des robots pourra croître
de façon exponentielle.
Mais
une connection même permanente avec les textes du
web ne suffira pas pour que les robots puissent naviguer
efficacement dans notre monde peuplé d’images,
images d’objets ou images d’êtres vivants.
Ils devront apprendre à identifier ces images, non
seulement de façon automatique, sur le mode déjà
connu de la reconnaissance des formes, mais en découvrant
leur « sens », c’est-à-dire les
signification que nous humains attribuons aux objets, les
usages que nous en faisons, les projets que nous nourrissons
à leur égard. Seule la compréhension
de ce qu’on appelle aussi le contenu sémantique
des symboles visuels permettra aux robots de conférer
des sens à leurs propres actions et de devenir des
êtres intentionnels autonomes
C’est
ainsi que si le robot ne distingue pas entre l’image
d’une
banane en vraie grandeur et celle d’un lampadaire
en forme de banane, il ne pourra pas dialoguer avec un vendeur
du rayon fruits d’un super-marché. Ce vendeur
ne s’intéresse qu’à la première
et saura la distinguer immédiatement de l’objet
orné (si l'on peut dire) d’une banane en plastique
vendu par son collègue au rayon Luminaires du même
magasin.
Mais
comment fournir au robot le répertoire d’images
lui permettant d’enrichir son regard et de le charger
d’intentionnalités. La réponse là
encore se trouve dans le web. On sait que les moteurs de
recherche fournissent désormais, parallèlement
à la référence aux textes, la référence
aux images, de plus en plus nombreuses, qui accompagnent
ces textes. Mais l’interprétation de ces images
n’est pas immédiate. C’est l’étude
des solutions proposées dans ce but par un certain
nombre de laboratoires qui a fait l’objet du récent
Semantic Robot Vision Challenge SRVC, organisé en
juillet 2007 lors de la conférence annuelle de l’Association
Américaine pour l’Intelligence Artificielle
à Vancouver.
Il
est facile de programmer un robot pour lui permettre d’utiliser
une image, par exemple celle d’une banane, afin de
reconnaître une vraie banane dans un environnement
réel. A partir de cette image, il déduira
les formes extérieures et la couleur du fruit qu’il
comparera avec les messages reçus de ses capteurs
et provenant de l’objet. Il ne pourra donc pas confondre
la banane avec un autre objet également présent,
par exemple une lampe de chevet en forme de banane.
Mais
si le robot n’a jamais vu d’image de banane
auparavant, comment pourra-t-il identifier une banane réelle
? Comment la distinguera-t-il, par exemple, non seulement
d’une lampe mais d’une tomate dite banane, elle-même
de couleur jaune (photo ci-contre).
Comment, tâche aussi difficile, pourra-t-il rejeter
des images associées au terme de banane par le web
et désignant en fait un objet tout différent,
par exemple un type de costume de bain vendu sous ce
qualificatif (image: Banana Moon, 2 pièces)
Les humains font facilement ces distinctions car ils associent
à chaque image d’innombrables souvenirs fournissant
des informations permettant de faire la distinction entre
des objets relativement comparables, notamment en fonction
de l’usage qu’ils en font.
Différents
laboratoires construisent actuellement des logiciels permettant
aux robots d’extraire des images du web et de les
utiliser pour donner un sens aux concepts représentés.
Les 4 équipes ayant participé au SRVC de Vancouver
ont présenté des solutions voisines. Une liste
de 20 objets (désignés par leur nom) avait
été donnée aux robots. Ces objets étaient
physiquement présents dans un environnement de démonstration
de 6 mètre2. Les robots avaient une heure pour rechercher
sur le web les images correspondant aux mots de la liste
et les analyser. Ensuite, ils devaient retrouver les objets
réels correspondant aux mots et aux images associés.
Un
Challenge couronné de succès
La
première phase du travail consistait à transformer
les centaines d’images obtenues pour chaque mot, par
exemple le mot banane (faites le vous-mêmes sur Google
et vous verrez) en une description permettant de reconnaître
la banane réelle de la salle de démonstration
et la distinguer des autres 19 objets présents. Pour
cela le logiciel fourni aux robots leur permettait d’identifier
dans les images de banane recueillies sur le web des formes
ou patterns caractéristiques du fruit en question,
afin de les distinguer de formes voisines mais non caractéristiques.
Il fallait à cette fin supposer que la majorité
des images collectées concernait des bananes et non
des tomates, des lampes ou des costumes de bain. C'est bien
sur ce principe que fonctionnent les moteurs. Personne ne
s'étonnera que les textes et images les plus requis
par les internautes et correspondant au mot-clef banane,
correspondent à des bananes-fruits. Une représentation
ou image type pouvait alors être élaborée,
servant au logiciel à éliminer les images
s’éloignant de ce modèle. Inutile de
souligner que, même pour une tâche qui ainsi
décrite parait élémentaires, il faut
disposer d’outils de reconnaissance des formes très
performants.
Une
fois équipés de cette image type, le robot
prenait des vues (avec par exemple une caméra stéréo)
des objets de l’espace de démonstration. Il
les comparait avec l’image type et, en cas de ressemblance,
déclarait avoir identifié l’objet cherché.
Un robot particulièrement évolué, baptisé
Curious George, put ainsi reconnaître 7 des 20 objets.
Les autres obtinrent de moins bons résultats, en
partie parce que leurs capteurs ne leur permettaient pas
de différencier suffisamment les objets observés.
Les
programmes encore primitifs ainsi mis en démonstration
s’amélioreront dans l’avenir en fonction
de l’apprentissage qu’en feront des robots interagissant
avec des environnements de plus en plus riches et appelés
à résoudre des problèmes d’identification
de plus en plus complexes. Comme parallèlement le
web s’enrichira, là aussi de façon automatique
accélérée, avec des contenus de plus
en plus significatifs, textes et images, l’avenir
de l’intelligence intentionnelle robotique parait
assurée.
On
se demandera quel usage les robots feront des nouvelles
capacités que le traitement des images associées
à des concepts et fournies par le web leur offrira.
Les chercheurs voudraient que des robots domestiques ou
industriels ainsi équipés puissent développer
leurs capacités d’identification des objets
dans des environnements réels. Mais au-delà
de ces usages, nous retrouvons la problématique posée
en introduction. Quand les robots seront capables de faire
appel en des temps très courts aux millions de concepts
et d’images fournies par les moteurs de recherche
moderne, leurs capacités de jugement autonomes s’inscriront
sur une courbe qui dépassera rapidement celles des
humains. Le web sera devenu un de leur territoire sémantique
et ils ne s’en laisseront peut-être pas écarter
facilement.
Pour en savoir plus
Le sujet est chaud, aux Etats-Unis tout au moins. On trouve
sur Google, au 22 août, 550.000 pages sur le sujet
ou sur des sujets voisins
Résultats
du Challenge sur le blog Artificial Intelligence and Robotics
http://smart-machines.blogspot.com/2007/07/semantic-robot-vision-challenge-video.html
Le
site de SRVC http://www.semantic-robot-vision-challenge.org/
Article
du NewScientist I Google, therefore I am 18 août
2007, p. 22