Vers le site Automates Intelilgents
La Revue mensuelle n° 74
Robotique, vie artificielle, réalité virtuelle

Information, réflexion, discussion
logo admiroutes

Tous les numéros


Archives
(classement par rubriques)

Image animée
 Dans La Revue
 

Retour au sommaire

Mieux dénicher les pépites scientifiques grâce à l'algorithme "PageRank" de Google
par Christophe Jacquemin 31/07/06

Automates Intelligents s'enrichit du logiciel Alexandria.
Double-cliquez sur chaque mot de cette page et s'afficheront alors définitions, synonymes et expressions constituées de ce mot. Une fenêtre déroulante permet aussi d'accéder à la définition du mot dans une autre langue (22 langues sont disponibles, dont le Japonais).

page rank d'automates intelligentsVous connaissez tous le fameux "PageRank" de Google, cette petite barre verte plus où moins allongée témoignant de l'indice de notoriété d'une page web... Mais l'on sait moins que l'algorithme de classement utilisé par Google, largement diffusé parmi les chercheurs, fait l'objet de travaux dépassant le cadre de l'Internet. Ainsi, selon l'article "Finding Scientific Gems with Google" publié dans Physics(1), l'algorithme magique de Google serait tout simplement un très bon candidat pour mesurer… la qualité d'un travail scientifique.

En effet, si la valeur et l'importance d'un travail publié devrait être évaluée sur son réel contenu et son originalité(2), elle est en fait plus généralement jugée par le nombre de citations dans d'autres articles. Et c'est là où le bât blesse car cette technique de comptage, qui aboutit à des indices de citations, est bien loin d'être infaillible. Ainsi, il n'est pas rare de voir des articles scientifiques, que l'on pourrait qualifier de majeur, n'avoir suscité finalement que peu de citations... et donc être candidats à l'enterrement de première classe... Comment d'ailleurs vraiment distinguer dans un article ce qui relève de la citation "polie" et de la citation absolument fondamentale ? Nombre d'articles incluent par exemple une section introductive décrivant l'histoire et l'état actuel de la spécialité abordée, partie pouvant facilement contenir la moitié des références de l'ensemble de l'article, celles-ci n'étant finalement pas fortement appropriées sachant que peu des résultats indiqués sont employés réellement dans le travail présentés par les chercheurs. Résultat : il peut arriver que certains articles sans portée vraiment fondamentale soient abondamment cités, et d'autres, bien plus importants, presque, voire jamais évoqués.

Une nouvelle méthode, plus fiable...

Le corpus des articles scientifiques constitue une structure assez similaire à celle du web. Tout comme les page des sites web sont reliées les unes aux autres par des liens, les articles scientifiques sont connectés les uns aux autres par des citations : le nombre de sites externes pointant vers un site dans le monde du web (ce qu'on appelle le "in-degree)" est un peu analogue à celui de l'indice de citation d'un article, dans le monde de l'édition scientifique.
Quand les deux fondateurs de Google, -Larry Page et Serguei Brin - se sont attaqués au problème de ranger les sites selon leur influence(3), ils n'ont pas considéré le "in-degree" comme pertinent : il est en effet facile de gonfler artificiellement l'importance d'un site, ne serait-ce qu'en créant massivement des échanges de liens(4). Ils ont alors conçu l'algorithme PageRank (rang de page) dans lequel chaque lien d'une page à une autre est compté comme un vote pour la page de destination et le score de chaque page dépend des scores des pages qui lient vers elle, et ainsi de suite. Au départ chaque page a un score de 100. Le score de chaque page est ensuite recalculé en y ajoutant celui de chaque page liant vers elle et en divisant par le nombre de liens sortants. Quand tous les scores ont été recalculés, l'algorithme recommence jusqu'à ce que les scores cessent d'évoluer (il s'agit d'un algorithme convergent). En d'autres termes, chaque site dans le réseau peut être vu comme une distribution de son influence sur tout les sites auxquels ils renvoient. Une page gagne ainsi de l'influence en étant citée par d'autres pages considérées comme influentes (l'algorithme actuel, gardé aujourd'hui secret, est en fait un peu plus compliqué et contient notamment un système de pénalité à l'encontre des webmasters tentant de contourner l'algorithme, mais en gros voici l'idée).

En ordonnée : valeur moyenne du PR  - en abscisse : nombre de citationsDonc, sachant qu'un corpus d'articles scientifiques peut être vu comme un réseau de nœuds et de liens - respectivement les articles et les citations entre article, Patrick Chen et son équipe [université de Boston/laboratoire national de Brookhaven(1)] ont appliqué la technique du PageRank(PR) et celle plus classique des indices de citations sur la totalité des articles de Physical Review et de leurs citations entre 1893 et juin 2003(5). Si les deux méthodes sont linéairement corrélées pour de nombreux articles, il n'en reste pas moins que certains papiers se sont révélé avoir un PR très important en comparaison de leur faible indice de citations. Et d'exhumer alors des articles d'intérêt, souvent oubliés, faisant remonter en haut de la liste
le fameux "Theory of the Fermi interaction" de Feynman et Gell-Mann(6) à l’origine -pardonnez du peu - du Publications avec le le plus grand PR pour chaque valeur de  citations, lorque celles-ci sont supéirieures à 100.modèle standard pour les interactions faibles(7), ou encore le "Photon correlations" de Roy J. Glauber(8), enfoui dans la littérature avec un indice relativement faible de citation, mais dont l'importance des travaux présentés lui valurent le... prix Nobel de physique 2005(9).

Un bel exemple est aussi ce "Cluster formation in two dimensional random walks : application to photolysis of silver Halides", de H. Rosenstock et C. Marquardt, publié le 15 décembre 1980, n'étant cité que... 3 fois dans la littérature et donc arrivant en 201853 ème position de la liste. L'application du PageRank le fait remonter à la 85ème place (voir tableau ci-dessous).

TOP 100 des articles : comparaison des places au sein du TOP 100  en fonctin de la méthode utilisée
Top 100 des articles classés selon leur PageRank
Google rank : place d'arrivée parmi les 100 premiers articles du TOP 100
cite rank : place d'arrivée au sein du TOP 100 par la méthode des indices de citations
#cites : nombre de citations

Ayant testé la robustesse de la méthode et des paramètres employés, les auteurs de l'étude sont convaincus que le protocole basé sur l'algorithme du PageRank de Google est pertinent et vient enrichir la palette d'outils pour juger de la qualité et de l'impact d'une publication scientifique. L'avantage ici est la simplicité de la méthode qui d'ailleurs, pourrait être sûrement sophistiquée.

On ne peut qu'encourager les chercheurs à pousser plus loin ce travail, par exemple en ne se limitant pas au simple corpus des numéros de Physical Review, mais à un domaine bien plus élargi, incluant de nombreuses disciplines scientifiques... Peut-être déterreront-ils alors les articles fondateurs, de portée vraiment transdisciplinaire.
Et pourquoi ne pas rêver alors de la publication d'une telle liste, chaque mois, à destination des laboratoires....

Notes
(1) Nature Physics 0604130 : "Finding Scientific Gems with Google", par Patrick Chen, Huafeng Xie, Sergei Maslov, & Sidney Redner 2006 http://lanl.arxiv.org/PS_cache/physics/pdf/0604/0604130.pdf
(2) Ceci supposant alors une grande sûreté de jugement... Certains articles sont tellement novateurs qu'ils ne peuvent être repérés que par quelques initiés, leur valeur et leur interdisciplinarité ne se dégageant souvent qu'à posteriori.
(3) Collaboration qui a débuté en 1996 à l'université de Stanford, lorsque Larry Page et Sergey Brin développaient "Black Rub", un nouveau moteur de recherche dont la particularité était de pouvoir analyser les "BackLinks" pointant vers un site Internet donné.
(4) Ce qu'on appelle aussi des "Fermes de liens".
(5) Soit un ensemble représenté par une matrice de quelque 353 268 nœuds (les articles publiés durant la période) et 3 110 839 liens (les citations entre articles de la revue).
(6) Publié en 1958 dans le Physical Review Letters n°109, pages 193–198
(7) Sans ces travaux, on peut se poser la question de savoir si Carlo Rubia et Simon van der Meer auraient eu en 1984 le prix Nobel de physique pour leur contribution décisive au grand projet qui a mené à la découverte des particules W et Z, vecteurs de l'interaction faible.
(8) Physical Review Letters n° 10, pages 84–86 (1963).
(9) Pour sa description théorique du comportement des particules de lumière, partageant ce prix avec Theodor W. Hänsch et John L. Hall.

Retour au sommaire