Vers le site Automates Intelilgents
La Revue mensuelle n° 74
Robotique, vie artificielle, réalité virtuelle

Information, réflexion, discussion
logo admiroutes

Tous les numéros


Archives
(classement par rubriques)

Image animée
 Dans La Revue
 

Retour au sommaire

Technologies et Politique
Le Web Sémantique, promesse ou menace
par Jean-Paul Baquiast 15/06/06

Automates Intelligents s'enrichit du logiciel Alexandria.
Double-cliquez sur chaque mot de cette page et s'afficheront alors définitions, synonymes et expressions constituées de ce mot. Une fenêtre déroulante permet aussi d'accéder à la définition du mot dans une autre langue (22 langues sont disponibles, dont le Japonais).


Depuis 1998, les spécialistes de l'Internet développent, au sein du World Wide Web Consortium, qui est en quelque sorte l'Académie des Sciences et le bureau d'étude du Web, un nouveau concept intitulé le Web Sémantique. L'inventeur du Web, anobli par la Reine d'Angleterre, Sir Tim Berners-Lee (photo ci-dessus), qui est actuellement directeur du W3C, a rappelé plusieurs fois ces temps-ci, dans la presse et lors de la dernière conférence WWW2006 à Edimbourg (http://www2006.org/), l'intérêt du Web Sémantique en vue de conserver le caractère ouvert et démocratique du réseau mondial.

Peu d'utilisateurs de l'Internet perçoivent encore clairement ce qu'est le Web Sémantique. Pour tout savoir sur le sujet, le mieux est de se reporter aux pages que lui consacre le W3C (http://www.w3.org/2001/sw/). Résumons cependant de quoi il s'agit. Le Web ordinaire, celui sur lequel le présent article est publié et rendu accessible au profit de tous les internautes, fait coexister et rend accessibles des milliards de documents. Notre article est un document. Les moteurs de recherche savent retrouver un document, à partir soit de méta-données le décrivant (nom de l'auteur, date, sujet abordé) soit par des recherches en texte intégral, pour lesquelles tous les mots de l'article, c'est-à-dire ses données, pourront être considérés comme des mots-clefs. Mais méta-données ou données d'indexation sont encore difficiles à rassembler. Les recherches en texte intégral pour leur part, restent coûteuses et ne peuvent actuellement être généralisées.

Aussi, les moteurs de recherche, pour le moment encore, ne savent pas comment traiter les données internes à un grand nombre d'articles, sans accéder directement aux documents qui les contiennent. Si je recherche le terme Semantic Web sur un moteur, j'aurai une liste très grande (trop grande) de documents abordant le thème du Semantic Web. Mais je ne pourrai pas savoir précisément comment le sujet est traité dans la littérature qui lui est consacrée. Je ne pourrai pas, par exemple, savoir si le Semantic Web est considéré par les auteurs comme un progrès important, une complication inutile ou bien encore une menace pour les libertés publiques.

La raison de cette impossibilité tient au fait que les auteurs des articles ne se sont pas mis d'accord sur un sens commun à donner aux termes, c'est-à-dire aux données, qu'ils utilisent. On retrouve là l'ambiguïté propre à tous les langages humains et à tous les documents faisant appel à ces langages.

Cependant, dans le domaine de la gestion administrative, bien avant l'apparition du concept de Semantic Web, il avait été décidé de chasser cette ambiguïté en convenant de significations communes à donner à un certain nombre de documents et d'informations échangées. On a commencé à définir des méta-données administratives et commerciales en grand nombre (voir http://www.w3.org/Metadata/). Des méta-données ont également été développées pour faciliter la documentation automatique. Par exemple, aujourd'hui, une codification commune décrit l'auteur d'un document, sa date, sa nature et, très sommairement, son objet. Les éditeurs html que nous utilisons tous pour préparer un article destiné à une mise en ligne permettent aux auteurs, notamment à travers la rubrique Propriétés de la page, de préciser ces données. Si les auteurs ne le font pas spontanément, l'éditeur extrait du texte un certain nombre de ces méta-données qui seront édités dans l'en-tête du code source du document.

Ces conventions ont permis le traitement automatique à grande échelle des documents respectant ces standards, en accédant directement aux données qu'ils contiennent. Ainsi, en rapprochant par une simple application informatique des milliers de déclarations en douanes utilisant la nomenclature douanière internationale, il est possible de faire une étude sur les grands courants d'échange intéressant, par exemple, les produits pétroliers et dérivés.

Le Web Sémantique en pratique

L'ambition du Web Sémantique est de rendre ce processus applicable au plus grand nombre possible de documents administratifs ou commerciaux, voire à des documents de type «littéraire» tel que le présent article. Mais pour cela, il faudra que les architectes du Web proposent un cadre commun permettant aux informations contenues dans ces documents d'être traitées comme des données (data) normalisées. Ainsi ces données pourront être partagées et réutilisées indépendamment des applications, des entreprises et des communautés d'auteurs qui les auront générées. Il faudra ensuite que les auteurs acceptent de n'utiliser que des données ainsi normalisées. Ceci réduira leur liberté de création mais facilitera la circulation de leurs productions.

Le travail à faire sera considérable. Il faudra notamment définir, thèmes par thèmes et de façon coopérative, un cadre commun de description des ressources (Resource Description Framework ou RDF) qui utilisera évidemment les acquis syntaxiques (langage XML) ou d'adressage (URL) déjà offerts par le web. Les informations elles-mêmes seront progressivement normalisées à travers le Web Ontology Language (OWL). Par ontologie, on désigne le sens à donner à tel ou tel concept. Il conviendra évidemment de s'accorder sur des sens communs devant être attribués aux concepts que l'on utilisera.

Le W3C précise cela très bien (introduction de http://www.w3.org/2001/sw/). Nous traduisons:

" Le Web sémantique est un web de données. De nombreuses données que nous utilisons tous les jours sont présentes sur l'Internet mais ne sont pas accessibles aux échanges (le Web proprement dit). C'est le cas de mon compte en banque, de mes photographies, de mes dates de rendez-vous. Mais je ne peux pas les rapprocher pour connaître par exemple ce que je faisais le jour où j'ai été photographié, ni l'état de mon compte en banque ce jour-là. Pourquoi ne peut-on pas le faire ? Parce que les données sont encapsulées dans des applications et que les applications ne sont pas conçues pour les échanger.

Le Web Sémantique porte sur deux choses. Il définit des formats communs pour l'échange des données, alors que le Web traditionnel ne définit que les modalités d'échange des documents. Par ailleurs, il offre un langage commun permettant aux données de renvoyer à des objets du monde réel d'une façon identique. Ceci permet à une personne ou à une machine de construire des bases de données puis des réseaux de bases de données qui ne seront pas connectée par des liens physiques mais par le fait qu'elles désignent des objets identiques".


Ainsi, si je veux construire une base de données sur les automobiles, je ne serai pas obligé de me connecter physiquement à des documents concernant des automobiles que j'aurai du identifier et trouver auparavant. Il me suffira de rechercher les données par lesquels les auteurs auront convenu de désigner de façon normalisée le concept d'automobile, ceci quel que soit le document ou l'application support de l'information.

Applications possibles du Web Sémantique

Tout ceci, on le voit, est plus facile à dire qu'à faire. Quand on connaît la lourdeur et le coût des travaux de normalisation des données, tels que ceux entrepris au plan international par l'Edifact Board concernant les données administratives et commerciales, on peut se demander si étendre l'ambition au traitement de données plus générales sera utile. Ceci d'autant plus que ce ne seront pas seulement les normalisateurs qui devront travailler, afin notamment d'affiner ou de faire évoluer constamment les normes, mais les auteurs. Ceux-ci devront connaître les normes à utiliser et s'efforcer de les respecter du mieux possible, si du moins ils veulent être compris par les machines qui interpréteront leurs créations.

Pour Tim Berners-Lee, qui est un idéaliste, l'enjeu mérite l'investissement. Dans les articles et interventions que nous avons évoqués, il explique que le Web Sémantique constitue aujourd'hui la seule façon de sauvegarder l'universalisme et la gratuité d'accès aux informations qui a fait et continue à faire la grandeur du Web. En effet, aujourd'hui, de nombreuses entreprises cherchent à rendre propriétaire et payant l'accès à leurs contenus. Or, la philosophie de l'Internet repose sur le concept de neutralité du réseau. Chacun a le même niveau d'accès aux contenus et toutes les données figurant sur le web doivent être traitées de façon égale. Microsoft et Google, c'est à noter, se sont prononcés publiquement pour la défense de cette philosophie. Mais des compagnies de téléphone américaines en ont pris récemment le contre-pied. Elles veulent définir un Internet partagé (two-tier system) où les émissions des entreprises capables de s'offrir des voies de communication large bande auront priorité sur les autres. Ceci est recherché, actuellement, dans la perspective de la diffusion des shows télévisuels, très gourmands en bande passante. Mais l'idée devrait être étendue et généralisée à tous usages. Avec le Web Sémantique, cette facturation du temps d'accès en fonction du débit deviendrait impossible ou très difficile, puisque ce seraient les données elles-mêmes qui feraient l'objet des échanges, sans références à leurs auteurs ni à ceux qui les utilisent.

Pour Sir Tim, le seul modèle acceptable reste donc celui où tous les fournisseurs de contenus payent tous le même tarif pour accéder au réseau et pour y diffuser leurs données. Ainsi les universités et les associations ne sont pas défavorisées par rapport aux grosses entreprises, ni en ce qui concerne les facturations ni en ce qui concerne les conditions de connexion. D'où le rôle éminent vertueux que jouera le Web Sémantique.

Les utilisateurs que nous sommes peuvent cependant s'interroger sur l'intérêt qu'ils trouveront à se couler dans les lourdes procédures du Web Sémantique, indépendamment du fait que celui-ci permettra de décourager la segmentation des réseaux et des tarifications en fonction des capacités financières des clients. Pour notre part, nous nous sommes posés la question, en tant qu'éditeur d'une revue scientifique en ligne fonctionnant sur le mode de l'open source. Nos textes sont accessibles gratuitement à tous. Les lecteurs ayant accepté de louer des connections à large bande les reçoivent plus vite que les autres, mais l'égalité entre eux, à ce détail près (dont nous ne tirons aucun profit) reste entière. Pourquoi alors nous engagerions-nous dans la définition coopérative de normes décrivant les données que nous utilisons, ou dans la procédure, si ces normes existent déjà, visant à les implémenter dans les codes sources de nos articles ?

La réponse est que cette contrainte nous permettrait d'assurer une meilleure diffusion de nos articles ou, au-delà de ceux-ci, de nos idées. Nous retrouverions là, considérablement augmenté, l'avantage qu'offrent depuis quelques années les moteurs de recherche. Ceux-ci, en associant sur une base désormais très large les réponses aux questions, permettent à de très nombreuses personnes qui ne connaissaient pas notre publication de la découvrir, à propos de la référence aux articles portant sur tel ou tel concept précis que nous aurions traité : par exemple celui de centrale nucléaire à eau pressurisée (PWR). Dans la perspective élargie du Web Sémantique, ce ne serait plus seulement notre article qui serait référencé, mais le sens que nous aurions donné au concept de PWR, par comparaison avec de nombreux autres articles traitant du sujet. Ainsi, un internaute cherchant à se documenter sur le concept pourrait trouver, grâce au travail de rapprochement fait par l'ordinateur, une vision contrasté du problème des centrales PWR, résultant du rapprochement des sens différents donnés par des auteurs différents.

La perspective reste encore lointaine, s'agissant de journaux comme le nôtre traitant un grand nombre de sujets différents. En revanche, dans l'immédiat, nous pensons que le Web sémantique pourrait être utilisé au sein de l'Education Nationale, par exemple pour mieux informer les élèves de l'existence des nombreux documents pédagogiques en ligne et des modes d'accès à ces documents désormais mis à leur disposition par les académies ou les établissements. Le Web sémantique pourrait ainsi devenir le complément des «portails élèves» ou des «portails étudiants» qui, au cœur de réseaux de type Intranet, s'efforcent de faciliter l'accès des élèves aux ressources pédagogiques. La charge supplémentaire imposée aux auteurs qui se verraient obligés de participer aux travaux d'indexation et de normalisation ne serait pas excessive. Elle ferait en tous cas partie de leur métier d'enseignant. D'ores et déjà, le Web sémantique est très apprécié par les chercheurs scientifiques, au niveau de l'enseignement supérieur, qui peuvent accéder grâce à lui à de nombreuses données expérimentales, afin de les analyser automatiquement.

Mises en garde

Mais, contrairement à ce que pense Tim Berners-Lee, le Web Sémantique ne risque-t-il pas de se révéler un nouvel instrument permettant aux pouvoirs de police de pénétrer dans l'intimité des comportements et des pensées des citoyens ? Dans un article intitulé « Keep out of MySpace » (N° 30 du 10 juin 2006, p. 30) le NewScientist britannique dénonce le fait que la National Security Agency des Etats-Unis finance des recherches visant à recueillir les données personnelles que les individus publient sur eux-mêmes ou rassemblent, au sein d'espace de documentation qui leur sont offerts à cette fin par des sociétés de service. C'est le cas de MySpace (http://www.myspace.com/), espace de rencontre et de convivialité qui avait été patronné par Microsoft, où les abonnés sont invités à donner beaucoup d'informations les concernant afin de favoriser l'établissement de liens sociaux avec d'autres. Il existe de très nombreux autres sites ludiques où chacun est obligé pour participer de se raconter et de rapporter les comportements et préférences de leurs amis. Par ailleurs, les blogs personnels se multiplient, dont les auteurs n'hésitent pas à se dévoiler ou à dévoiler la vie privée de leurs relations. Les images et photographies personnelles y abondent également.

La NSA espère que le développement du Web Sémantique au sein de ces espaces permettra de rapprocher facilement ces informations personnelles avec d'autres, bancaires, de santé, administratives ou d'achat. Ainsi pourraient être mis en évidence, sans que les intéressés s'en aperçoivent, les profils et donc les personnes qu'à tort ou à raison, les autorités de police jugeraient suspectes. On serait loin alors du scandale provoqué par le fait que la NSA se soit procuré ces derniers mois, via les opérateurs de télécommunication, les contenus des conversations téléphoniques d'un certain nombre d'individus a priori honorables suspectés de pouvoir éventuellement monter des réseaux terroristes. La NSA et autres agences d''intelligence", c'est-à-dire d'espionnage, pourraient pénêtrer partout à l'insu des citoyens.

Les interconnections sont actuellement difficiles, mais avec le Web Sémantique, les liens apparaîtront d'eux-mêmes, à travers des applications visant à rapprocher les données (data) sans difficulté. En effet, le Resource Description Network précité visera à conférer à chaque type de donnée une identification (tag) unique, prédéfinie et non ambiguë. Les services d'intelligence économique, d'espionnage et de contre-espionnage seront les premiers à en profiter, car ils se seront les premiers dotés des outils permettant de le faire. Il est significatif de constater, comme l'indique le NewScientist, qu'un article intitulé Semantic Analytics on Social Networks, présenté au dernier WWW2006 d'Edimbourg par des universitaires américains, avait été en partie financé par une organisation jusque là inconnue intitulée ARDA. ARDA, qui ressemble étrangement à DARPA, signifie Advanced Research Development Activity. Elle est budgétée par la NSA pour résoudre certains des problèmes que rencontre la communauté du Renseignement aux Etats-Unis. On ne saurait être plus explicite.

Ces jours-ci, l'ARDA a été rebaptisée Disruptive Technology Office (voir Wikipedia : http://en.wikipedia.org/wiki/Disruptive_Technologies_Office). Mais sa mission reste la même: faire du «profiling» à partir de systèmes d'espionnage (intelligence) automatisés. Les 80 millions d'abonnés des actuels sites du genre de MySpace auront tout intérêt à se méfier de ce qu'ils publieront sur eux-mêmes, en s'imaginant que ces détails intimes n'intéresseront jamais personne que leurs proches. Voici de quoi en éloigner beaucoup des perspectives culturelles offertes par le Web Sémantique.

Retour au sommaire