Retour au sommaire
Mieux
dénicher les pépites scientifiques grâce
à l'algorithme "PageRank" de Google
par Christophe Jacquemin
31/07/06 |
Automates
Intelligents s'enrichit du logiciel
Alexandria.
Double-cliquez sur chaque mot de cette page et s'afficheront
alors définitions, synonymes et expressions constituées
de ce mot. Une fenêtre déroulante permet
aussi d'accéder à la définition du
mot dans une autre langue (22 langues sont disponibles,
dont le Japonais). |
Vous
connaissez tous le fameux "PageRank" de Google,
cette petite barre verte plus où moins allongée
témoignant de l'indice de notoriété d'une
page web... Mais l'on sait moins que l'algorithme de classement
utilisé par Google, largement diffusé parmi
les chercheurs, fait l'objet de travaux dépassant le
cadre de l'Internet. Ainsi, selon
l'article "Finding Scientific Gems with Google"
publié dans Physics(1),
l'algorithme magique de Google serait tout simplement un très
bon candidat pour mesurer
la qualité d'un travail
scientifique.
En
effet, si la valeur et l'importance d'un travail publié
devrait être évaluée sur son réel
contenu et son originalité(2),
elle est en fait plus généralement jugée
par le nombre de citations dans d'autres articles. Et c'est
là où le bât blesse car cette technique
de comptage, qui aboutit à des indices de citations,
est bien loin d'être infaillible. Ainsi, il n'est pas
rare de voir des articles scientifiques, que l'on pourrait
qualifier de majeur, n'avoir suscité finalement que
peu de citations... et donc être candidats à
l'enterrement de première classe... Comment d'ailleurs
vraiment distinguer dans un article ce qui relève de
la citation "polie" et de la citation absolument
fondamentale ? Nombre d'articles incluent par exemple une
section introductive décrivant l'histoire et l'état
actuel de la spécialité abordée, partie
pouvant facilement contenir la moitié des références
de l'ensemble de l'article, celles-ci n'étant finalement
pas fortement appropriées sachant que peu des résultats
indiqués sont employés réellement dans
le travail présentés par les chercheurs. Résultat
: il peut arriver que certains articles sans portée
vraiment fondamentale soient abondamment cités, et
d'autres, bien plus importants, presque, voire jamais évoqués.
Une
nouvelle méthode, plus fiable...
Le corpus des articles scientifiques constitue une structure
assez similaire à celle du web. Tout comme les page
des sites web sont reliées les unes aux autres par
des liens, les articles scientifiques sont connectés
les uns aux autres par des citations : le nombre de sites
externes pointant vers un site dans le monde du web (ce qu'on
appelle le "in-degree)" est un peu analogue à
celui de l'indice de citation d'un article, dans le monde
de l'édition scientifique.
Quand les deux fondateurs de Google, -Larry Page et Serguei
Brin - se sont attaqués au problème de ranger
les sites selon leur influence(3),
ils n'ont pas considéré le "in-degree"
comme pertinent : il est en effet facile de gonfler artificiellement
l'importance d'un site, ne serait-ce qu'en créant massivement
des échanges de liens(4).
Ils ont alors conçu l'algorithme PageRank (rang de
page) dans lequel chaque lien d'une page à une autre
est compté comme un vote pour la page de destination
et le score de chaque page dépend des scores des pages
qui lient vers elle, et ainsi de suite. Au départ chaque
page a un score de 100. Le score de chaque page est ensuite
recalculé en y ajoutant celui de chaque page liant
vers elle et en divisant par le nombre de liens sortants.
Quand tous les scores ont été recalculés,
l'algorithme recommence jusqu'à ce que les scores cessent
d'évoluer (il s'agit d'un algorithme convergent). En
d'autres termes, chaque site dans le réseau peut être
vu comme une distribution de son influence sur tout les sites
auxquels ils renvoient. Une page gagne ainsi de l'influence
en étant citée par d'autres pages considérées
comme influentes (l'algorithme actuel, gardé aujourd'hui
secret, est en fait un peu plus compliqué et contient
notamment un système de pénalité à
l'encontre des webmasters tentant de contourner l'algorithme,
mais en gros voici l'idée).
Donc,
sachant qu'un corpus d'articles scientifiques peut être
vu comme un réseau de nuds et de liens - respectivement
les articles et les citations entre article, Patrick Chen
et son équipe [université de Boston/laboratoire
national de Brookhaven(1)]
ont appliqué la technique du PageRank(PR) et celle
plus classique des indices de citations sur la totalité
des articles de Physical Review et de leurs citations entre
1893 et juin 2003(5).
Si les deux méthodes sont linéairement corrélées
pour de nombreux articles, il n'en reste pas moins que certains
papiers se sont révélé avoir un PR très
important en comparaison de leur faible indice de citations.
Et d'exhumer alors des articles d'intérêt, souvent
oubliés, faisant remonter en haut de la liste
le fameux "Theory of the Fermi interaction" de
Feynman et Gell-Mann(6)
à lorigine -pardonnez du peu - du
modèle
standard pour les interactions faibles(7),
ou encore le "Photon correlations" de Roy
J. Glauber(8),
enfoui dans la littérature avec un indice relativement
faible de citation, mais dont l'importance des travaux présentés
lui valurent le... prix Nobel de physique 2005(9).
Un
bel exemple est aussi ce "Cluster formation in two
dimensional random walks : application to photolysis of silver
Halides", de H. Rosenstock et C. Marquardt, publié
le 15 décembre 1980, n'étant cité que...
3 fois dans la littérature et donc arrivant en 201853
ème position de la liste. L'application du PageRank
le fait remonter à la 85ème place (voir tableau
ci-dessous).
 |
Top
100 des articles classés selon leur PageRank
Google rank : place d'arrivée parmi les 100 premiers
articles du TOP 100
cite rank : place d'arrivée au sein du TOP 100
par la méthode des indices de citations
#cites : nombre de citations
|
Ayant
testé la robustesse de la méthode et des paramètres
employés, les auteurs de l'étude sont convaincus
que le protocole basé sur l'algorithme du PageRank
de Google est pertinent et vient enrichir la palette d'outils
pour juger de la qualité et de l'impact d'une publication
scientifique. L'avantage ici est la simplicité de la
méthode qui d'ailleurs, pourrait être sûrement
sophistiquée.
On ne peut qu'encourager les chercheurs à pousser plus
loin ce travail, par exemple en ne se limitant pas au simple
corpus des numéros de Physical Review, mais à
un domaine bien plus élargi, incluant de nombreuses
disciplines scientifiques... Peut-être déterreront-ils
alors les articles fondateurs, de portée vraiment transdisciplinaire.
Et pourquoi ne pas rêver alors de la publication d'une
telle liste, chaque mois, à destination des laboratoires....
Notes
(1)
Nature Physics 0604130 : "Finding Scientific Gems with
Google", par Patrick Chen, Huafeng Xie, Sergei Maslov,
& Sidney Redner 2006 http://lanl.arxiv.org/PS_cache/physics/pdf/0604/0604130.pdf

(2) Ceci supposant alors une grande sûreté
de jugement... Certains articles sont tellement novateurs
qu'ils ne peuvent être repérés que par
quelques initiés, leur valeur et leur interdisciplinarité
ne se dégageant souvent qu'à posteriori. 
(3) Collaboration qui a débuté
en 1996 à l'université de Stanford, lorsque
Larry Page et Sergey Brin développaient "Black
Rub", un nouveau moteur de recherche dont la particularité
était de pouvoir analyser les "BackLinks"
pointant vers un site Internet donné.
(4) Ce qu'on appelle aussi des "Fermes
de liens". 
(5) Soit un ensemble représenté
par une matrice de quelque 353 268 nuds (les articles
publiés durant la période) et 3 110 839 liens
(les citations entre articles de la revue). 
(6) Publié en 1958 dans le Physical
Review Letters n°109, pages 193198 
(7) Sans ces travaux, on peut se poser
la question de savoir si Carlo Rubia et Simon van der Meer
auraient eu en 1984 le prix Nobel de physique pour leur contribution
décisive au grand projet qui a mené à
la découverte des particules W et Z, vecteurs de l'interaction
faible. 
(8) Physical Review Letters n° 10,
pages 8486 (1963). 
(9) Pour sa description théorique
du comportement des particules de lumière, partageant
ce prix avec Theodor W. Hänsch et John L. Hall. 
Retour au sommaire