Retour au sommaire
Technologies
et Politique
Le Web Sémantique,
promesse ou menace
par Jean-Paul Baquiast
15/06/06 |
Automates
Intelligents s'enrichit du logiciel
Alexandria.
Double-cliquez sur chaque mot de cette page et s'afficheront
alors définitions, synonymes et expressions constituées
de ce mot. Une fenêtre déroulante permet
aussi d'accéder à la définition du
mot dans une autre langue (22 langues sont disponibles,
dont le Japonais). |

Depuis
1998, les spécialistes de l'Internet développent,
au sein du World Wide Web Consortium, qui est en quelque sorte
l'Académie des Sciences et le bureau d'étude
du Web, un nouveau concept intitulé le Web Sémantique.
L'inventeur du Web, anobli par la Reine d'Angleterre,
Sir Tim Berners-Lee (photo ci-dessus), qui est actuellement
directeur du W3C, a rappelé plusieurs fois ces temps-ci,
dans la presse et lors de la dernière conférence
WWW2006 à Edimbourg (http://www2006.org/),
l'intérêt du Web Sémantique en vue
de conserver le caractère ouvert et démocratique
du réseau mondial.
Peu d'utilisateurs de l'Internet perçoivent
encore clairement ce qu'est le Web Sémantique.
Pour tout savoir sur le sujet, le mieux est de se reporter
aux pages que lui consacre le W3C (http://www.w3.org/2001/sw/).
Résumons cependant de quoi il s'agit. Le Web
ordinaire, celui sur lequel le présent article est
publié et rendu accessible au profit de tous les internautes,
fait coexister et rend accessibles des milliards de documents.
Notre article est un document. Les moteurs de recherche savent
retrouver un document, à partir soit de méta-données
le décrivant (nom de l'auteur, date, sujet abordé)
soit par des recherches en texte intégral, pour lesquelles
tous les mots de l'article, c'est-à-dire
ses données, pourront être considérés
comme des mots-clefs. Mais méta-données ou données
d'indexation sont encore difficiles à rassembler.
Les recherches en texte intégral pour leur part, restent
coûteuses et ne peuvent actuellement être généralisées.
Aussi,
les moteurs de recherche, pour le moment encore, ne savent
pas comment traiter les données internes à
un grand nombre d'articles, sans accéder directement
aux documents qui les contiennent. Si je recherche le terme
Semantic Web sur un moteur, j'aurai une liste très
grande (trop grande) de documents abordant le thème
du Semantic Web. Mais je ne pourrai pas savoir précisément
comment le sujet est traité dans la littérature
qui lui est consacrée. Je ne pourrai pas, par exemple,
savoir si le Semantic Web est considéré par
les auteurs comme un progrès important, une complication
inutile ou bien encore une menace pour les libertés
publiques.
La
raison de cette impossibilité tient au fait que les
auteurs des articles ne se sont pas mis d'accord sur
un sens commun à donner aux termes, c'est-à-dire
aux données, qu'ils utilisent. On retrouve
là l'ambiguïté propre à
tous les langages humains et à tous les documents
faisant appel à ces langages.
Cependant,
dans le domaine de la gestion administrative, bien avant l'apparition
du concept de Semantic Web, il avait été décidé
de chasser cette ambiguïté en convenant de significations
communes à donner à un certain nombre de documents
et d'informations échangées. On a commencé
à définir des méta-données administratives
et commerciales en grand nombre (voir http://www.w3.org/Metadata/).
Des méta-données ont également été
développées pour faciliter la documentation
automatique. Par exemple, aujourd'hui, une codification
commune décrit l'auteur d'un document,
sa date, sa nature et, très sommairement, son objet.
Les éditeurs html que nous utilisons tous pour préparer
un article destiné à une mise en ligne permettent
aux auteurs, notamment à travers la rubrique Propriétés
de la page, de préciser ces données. Si les
auteurs ne le font pas spontanément, l'éditeur
extrait du texte un certain nombre de ces méta-données
qui seront édités dans l'en-tête
du code source du document.
Ces
conventions ont permis le traitement automatique à
grande échelle des documents respectant ces standards,
en accédant directement aux données qu'ils
contiennent. Ainsi, en rapprochant par une simple application
informatique des milliers de déclarations en douanes
utilisant la nomenclature douanière internationale,
il est possible de faire une étude sur les grands courants
d'échange intéressant, par exemple, les
produits pétroliers et dérivés.
Le
Web Sémantique en pratique
L'ambition
du Web Sémantique est de rendre ce processus applicable
au plus grand nombre possible de documents administratifs
ou commerciaux, voire à des documents de type «littéraire»
tel que le présent article. Mais pour cela, il faudra
que les architectes du Web proposent un cadre commun permettant
aux informations contenues dans ces documents d'être
traitées comme des données (data) normalisées.
Ainsi ces données pourront être partagées
et réutilisées indépendamment des applications,
des entreprises et des communautés d'auteurs
qui les auront générées. Il faudra ensuite
que les auteurs acceptent de n'utiliser que des données
ainsi normalisées. Ceci réduira leur liberté
de création mais facilitera la circulation de leurs
productions.
Le
travail à faire sera considérable. Il faudra
notamment définir, thèmes par thèmes
et de façon coopérative, un cadre commun de
description des ressources (Resource Description
Framework ou RDF) qui utilisera évidemment
les acquis syntaxiques (langage XML) ou d'adressage
(URL) déjà offerts par le web. Les informations
elles-mêmes seront progressivement normalisées
à travers le Web Ontology Language (OWL).
Par ontologie, on désigne le sens à donner
à tel ou tel concept. Il conviendra évidemment
de s'accorder sur des sens communs devant être
attribués aux concepts que l'on utilisera.
Le
W3C précise cela très bien (introduction de
http://www.w3.org/2001/sw/).
Nous traduisons:
" Le Web sémantique
est un web de données. De nombreuses données
que nous utilisons tous les jours sont présentes sur
l'Internet mais ne sont pas accessibles aux échanges
(le Web proprement dit). C'est le cas de mon compte en banque,
de mes photographies, de mes dates de rendez-vous. Mais je
ne peux pas les rapprocher pour connaître par exemple
ce que je faisais le jour où j'ai été
photographié, ni l'état de mon compte en banque
ce jour-là. Pourquoi ne peut-on pas le faire ? Parce
que les données sont encapsulées dans des applications
et que les applications ne sont pas conçues pour les
échanger.
Le Web Sémantique porte sur deux choses. Il définit
des formats communs pour l'échange des données,
alors que le Web traditionnel ne définit que les modalités
d'échange des documents. Par ailleurs, il offre un
langage commun permettant aux données de renvoyer à
des objets du monde réel d'une façon identique.
Ceci permet à une personne ou à une machine
de construire des bases de données puis des réseaux
de bases de données qui ne seront pas connectée
par des liens physiques mais par le fait qu'elles désignent
des objets identiques".
Ainsi, si je veux construire une base de données sur
les automobiles, je ne serai pas obligé de me connecter
physiquement à des documents concernant des automobiles
que j'aurai du identifier et trouver auparavant. Il me suffira
de rechercher les données par lesquels les auteurs
auront convenu de désigner de façon normalisée
le concept d'automobile, ceci quel que soit le document ou
l'application support de l'information.
Applications possibles du
Web Sémantique
Tout ceci, on le voit, est plus facile à dire qu'à
faire. Quand on connaît la lourdeur et le coût
des travaux de normalisation des données, tels que
ceux entrepris au plan international par l'Edifact Board concernant
les données administratives et commerciales, on peut
se demander si étendre l'ambition au traitement de
données plus générales sera utile. Ceci
d'autant plus que ce ne seront pas seulement les normalisateurs
qui devront travailler, afin notamment d'affiner ou de faire
évoluer constamment les normes, mais les auteurs. Ceux-ci
devront connaître les normes à utiliser et s'efforcer
de les respecter du mieux possible, si du moins ils veulent
être compris par les machines qui interpréteront
leurs créations.
Pour Tim Berners-Lee, qui est un idéaliste, l'enjeu
mérite l'investissement. Dans les articles et interventions
que nous avons évoqués, il explique que le Web
Sémantique constitue aujourd'hui la seule façon
de sauvegarder l'universalisme et la gratuité d'accès
aux informations qui a fait et continue à faire la
grandeur du Web. En effet, aujourd'hui, de nombreuses entreprises
cherchent à rendre propriétaire et payant l'accès
à leurs contenus. Or, la philosophie de l'Internet
repose sur le concept de neutralité du réseau.
Chacun a le même niveau d'accès aux contenus
et toutes les données figurant sur le web doivent être
traitées de façon égale. Microsoft et
Google, c'est à noter, se sont prononcés publiquement
pour la défense de cette philosophie. Mais des compagnies
de téléphone américaines en ont pris
récemment le contre-pied. Elles veulent définir
un Internet partagé (two-tier system) où
les émissions des entreprises capables de s'offrir
des voies de communication large bande auront priorité
sur les autres. Ceci est recherché, actuellement, dans
la perspective de la diffusion des shows télévisuels,
très gourmands en bande passante. Mais l'idée
devrait être étendue et généralisée
à tous usages. Avec le Web Sémantique, cette
facturation du temps d'accès en fonction du débit
deviendrait impossible ou très difficile, puisque ce
seraient les données elles-mêmes qui feraient
l'objet des échanges, sans références
à leurs auteurs ni à ceux qui les utilisent.
Pour Sir Tim, le seul modèle acceptable reste donc
celui où tous les fournisseurs de contenus payent tous
le même tarif pour accéder au réseau et
pour y diffuser leurs données. Ainsi les universités
et les associations ne sont pas défavorisées
par rapport aux grosses entreprises, ni en ce qui concerne
les facturations ni en ce qui concerne les conditions de connexion.
D'où le rôle éminent vertueux que jouera
le Web Sémantique.
Les utilisateurs que nous sommes peuvent cependant s'interroger
sur l'intérêt qu'ils trouveront à se couler
dans les lourdes procédures du Web Sémantique,
indépendamment du fait que celui-ci permettra de décourager
la segmentation des réseaux et des tarifications en
fonction des capacités financières des clients.
Pour notre part, nous nous sommes posés la question,
en tant qu'éditeur d'une revue scientifique en ligne
fonctionnant sur le mode de l'open source. Nos textes sont
accessibles gratuitement à tous. Les lecteurs ayant
accepté de louer des connections à large bande
les reçoivent plus vite que les autres, mais l'égalité
entre eux, à ce détail près (dont nous
ne tirons aucun profit) reste entière. Pourquoi alors
nous engagerions-nous dans la définition coopérative
de normes décrivant les données que nous utilisons,
ou dans la procédure, si ces normes existent déjà,
visant à les implémenter dans les codes sources
de nos articles ?
La réponse est que cette contrainte nous permettrait
d'assurer une meilleure diffusion de nos articles ou, au-delà
de ceux-ci, de nos idées. Nous retrouverions là,
considérablement augmenté, l'avantage qu'offrent
depuis quelques années les moteurs de recherche. Ceux-ci,
en associant sur une base désormais très large
les réponses aux questions, permettent à de
très nombreuses personnes qui ne connaissaient pas
notre publication de la découvrir, à propos
de la référence aux articles portant sur tel
ou tel concept précis que nous aurions traité
: par exemple celui de centrale nucléaire à
eau pressurisée (PWR). Dans la perspective élargie
du Web Sémantique, ce ne serait plus seulement notre
article qui serait référencé, mais le
sens que nous aurions donné au concept de PWR, par
comparaison avec de nombreux autres articles traitant du sujet.
Ainsi, un internaute cherchant à se documenter sur
le concept pourrait trouver, grâce au travail de rapprochement
fait par l'ordinateur, une vision contrasté du problème
des centrales PWR, résultant du rapprochement des sens
différents donnés par des auteurs différents.
La perspective reste encore lointaine, s'agissant de journaux
comme le nôtre traitant un grand nombre de sujets différents.
En revanche, dans l'immédiat, nous pensons que le Web
sémantique pourrait être utilisé au sein
de l'Education Nationale, par exemple pour mieux informer
les élèves de l'existence des nombreux documents
pédagogiques en ligne et des modes d'accès à
ces documents désormais mis à leur disposition
par les académies ou les établissements. Le
Web sémantique pourrait ainsi devenir le complément
des «portails élèves» ou des «portails
étudiants» qui, au cœur de réseaux
de type Intranet, s'efforcent de faciliter l'accès
des élèves aux ressources pédagogiques.
La charge supplémentaire imposée aux auteurs
qui se verraient obligés de participer aux travaux
d'indexation et de normalisation ne serait pas excessive.
Elle ferait en tous cas partie de leur métier d'enseignant.
D'ores et déjà, le Web sémantique est
très apprécié par les chercheurs scientifiques,
au niveau de l'enseignement supérieur, qui peuvent
accéder grâce à lui à de nombreuses
données expérimentales, afin de les analyser
automatiquement.
Mises en garde
Mais, contrairement à ce que pense Tim Berners-Lee,
le Web Sémantique ne risque-t-il pas de se révéler
un nouvel instrument permettant aux pouvoirs de police de
pénétrer dans l'intimité des comportements
et des pensées des citoyens ? Dans un article intitulé
« Keep out of MySpace » (N° 30 du 10 juin
2006, p. 30) le NewScientist britannique dénonce le
fait que la National Security Agency des Etats-Unis finance
des recherches visant à recueillir les données
personnelles que les individus publient sur eux-mêmes
ou rassemblent, au sein d'espace de documentation qui leur
sont offerts à cette fin par des sociétés
de service. C'est le cas de MySpace (http://www.myspace.com/),
espace de rencontre et de convivialité qui avait été
patronné par Microsoft, où les abonnés
sont invités à donner beaucoup d'informations
les concernant afin de favoriser l'établissement de
liens sociaux avec d'autres. Il existe de très nombreux
autres sites ludiques où chacun est obligé pour
participer de se raconter et de rapporter les comportements
et préférences de leurs amis. Par ailleurs,
les blogs personnels se multiplient, dont les auteurs n'hésitent
pas à se dévoiler ou à dévoiler
la vie privée de leurs relations. Les images et photographies
personnelles y abondent également.
La NSA espère que le développement du Web Sémantique
au sein de ces espaces permettra de rapprocher facilement
ces informations personnelles avec d'autres, bancaires, de
santé, administratives ou d'achat. Ainsi pourraient
être mis en évidence, sans que les intéressés
s'en aperçoivent, les profils et donc les personnes
qu'à tort ou à raison, les autorités
de police jugeraient suspectes. On serait loin alors du scandale
provoqué par le fait que la NSA se soit procuré
ces derniers mois, via les opérateurs de télécommunication,
les contenus des conversations téléphoniques
d'un certain nombre d'individus a priori honorables suspectés
de pouvoir éventuellement monter des réseaux
terroristes. La NSA et autres agences d''intelligence",
c'est-à-dire d'espionnage, pourraient pénêtrer
partout à l'insu des citoyens.
Les interconnections sont actuellement difficiles, mais avec
le Web Sémantique, les liens apparaîtront d'eux-mêmes,
à travers des applications visant à rapprocher
les données (data) sans difficulté. En effet,
le Resource Description Network précité visera
à conférer à chaque type de donnée
une identification (tag) unique, prédéfinie
et non ambiguë. Les services d'intelligence économique,
d'espionnage et de contre-espionnage seront les premiers à
en profiter, car ils se seront les premiers dotés des
outils permettant de le faire. Il est significatif de constater,
comme l'indique le NewScientist, qu'un article intitulé
Semantic Analytics on Social Networks, présenté
au dernier WWW2006 d'Edimbourg par des universitaires américains,
avait été en partie financé par une organisation
jusque là inconnue intitulée ARDA. ARDA, qui
ressemble étrangement à DARPA, signifie Advanced
Research Development Activity. Elle est budgétée
par la NSA pour résoudre certains des problèmes
que rencontre la communauté du Renseignement aux Etats-Unis.
On ne saurait être plus explicite.
Ces
jours-ci, l'ARDA a été rebaptisée Disruptive
Technology Office (voir Wikipedia : http://en.wikipedia.org/wiki/Disruptive_Technologies_Office).
Mais sa mission reste la même: faire du «profiling»
à partir de systèmes d'espionnage (intelligence)
automatisés. Les 80 millions d'abonnés des actuels
sites du genre de MySpace auront tout intérêt
à se méfier de ce qu'ils publieront sur eux-mêmes,
en s'imaginant que ces détails intimes n'intéresseront
jamais personne que leurs proches. Voici de quoi en éloigner
beaucoup des perspectives culturelles offertes par le Web
Sémantique.
Retour au sommaire