Editorial
2.
La
recherche assistée des causes grâce aux algorithmes
: une nouvelle façon de penser le monde
Jean-Paul Baquiast et Christophe Jacquemin - 10/03/2016

Face
aux faits de nature, fussent-ils observés par l'intermédiaire
d'instruments qui procèdent à une première
sélection, la science élabore de nombreuses
hypothèses permettant de les expliquer. A partir
de ces hypothèses, elle propose des expériences
dont certaines, en cas de succès, peuvent apporter
certaines réponses vérifiables expérimentalement,
mais qui à leur tour soulèveront de nouvelles
difficultés. Le cycle est sans fin. Les hypothèses
et les expériences reposent généralement
sur la recherche de causes permettant soit d'expliquer ce
qui est encore incompris, soit même d'envisager, avant
même tout recours à l'expérience, de
nouveaux domaines dans lesquels des hypothèses elles-mêmes
nouvelles pourraient être formulées, puis soumises
à l'expérimentation.
La recherche
des causes constitue donc un processus essentiel. Les logiciens
considèrent qu'elle fait appel à trois modes
de raisonnement différents. Il s'agit de processus
cognitifs aujourd'hui étudiés avec une nouvelle
attention par les sciences du même nom. Le premier
de ces modes est l'induction. En simplifiant beaucoup,
nous dirons que l'induction consiste à déduire
des lois par généralisation des observations.
Ainsi
si l'on observe régulièrement que le coq chante
avant le lever du soleil, on en induit la loi (en espèce
fausse) que le coq fait lever le soleil. La déduction
part d'une affirmation générale pour en
arriver à des conclusions particulières. Ainsi,
s'il est observé que le coq fait se lever le soleil
il est possible d'en déduire que d'autres oiseaux
sont dotés de la même propriété.
Il conviendra donc de les rechercher.
Le troisième mode est l'abduction (à
ne pas confondre avec la prétendue abduction d'humains
par des extraterrestres). Celle-ci, face à une observation,
produit des idées et des concepts à expliquer.
A partir de cette production il est possible de recourir
à l'induction et à la déduction. Ainsi,
dans l'exemple du coq, l'abduction pourra suggérer
que si le soleil se lève tous les matins, c'est en
application de règles (astronomiques) ne dépendant
pas du chant du coq. Il faudra donc rechercher ces règles.
Mais on voit facilement que l'abduction offre un champ quasi
infini d'hypothèses possibles. On pourrait par exemple
suggérer que le lever du soleil n'est qu'une illusion
d'optique, dont il conviendrait de rechercher les causes.

Applications
à l'épidémie à Zika
Ces
modes de raisonnement, quels qu'ils soient, n'ont d'intérêt
pour la découverte scientifique que si existe auparavant
un aussi grand nombre possible de faits nécessitant
une explication. Aujourd'hui, la plupart de ces faits d'observations
ne sont pas individuels, mais regroupés par catégories.
C'est la statistique qui permet ce regroupement. Ce faisant,
elle tend à suggérer des hypothèses
et des lois.
Aujourd'hui
par exemple les statistiques sur l'épidémie
à Zika montrent une corrélation entre la présence
du virus, lui même transmis par le moustique Tigre,
et la microcéphalie du nouveau-né. Il est
tentant d'en induire que le virus provoque la malformation.
Il sera aussi tentant d'en déduire que le virus peut
provoquer d'autres syndromes, dont celui de Guillain-Barré.
Les observateurs chercheront donc à vérifier
ces deux hypothèses, afin d'en obtenir un début
de loi concernant le Zika.
Mais
pour approfondir la question, les chercheurs n'ont pas manqué
de faire valoir qu'il faudrait envisager d'autres hypothèses
permettant d'expliquer la corrélation statistique
entre Zika, microcéphalie et syndrome de Guillain
Barré. Autrement dit, il faudrait recourir à
des abductions. Le champ des hypothèses possibles
devient alors, sinon infini, du moins très grand.
Certaines hypothèses déjà présentées
ont été considérées comme fantaisistes.
L'on avait cru établir une corrélation statistique
entre les troubles et l'épandage d'insecticides destinés
à combattre le moustique. D'autres corrélations
plus sérieuses existent peut-être. Mais ^pour
les découvrir, il faudrait disposer de statistiques
plus nombreuses et plus diversifiées. Certaines corrélations
ont d'ailleurs été envisagées, mais
ce n'est pas l'objet de cet article de les présenter.
Les
Big data
Avec
le développement des nouvelles technologies, les
faits d'observations et les statistiques de toute nature
permettant de les analyser se sont multipliées de
façon quasi exponentielle. On parle depuis quelques
années de "Big data ou données en masse",
phénomène que nous avons souvent évoqués
ici.
Ces
données sont évidemment intéressantes,
mais en contrepartie il est devenu très difficile
de procéder à des abductions sérieuses
les concernant. Tout au plus peut-on en induire ou en déduire
des corrélations, sans avoir la possibilité,
sauf moyens d'observations expérimentaux suffisants,
d'en abduire des règles possibles et moins encore
de vérifier leur pertinence.
C'est
ainsi que les statistiques fournies en masse chaque année
par les producteurs de Big data concernant l'achat d'aspirine
dans les pharmacies permettent de signaler l'établissement
d'une épidémie de grippe, mais elles ne donnent
pas d'indications sur le rôle effectif de l'aspirine
dans le traitement de la grippe. De très nombreuses
abductions resteront donc à faire pour suggérer
des hypothèses sur la grippe et les différents
traitements permettant d'y faire face.
Malheureusement, pour élaborer ces hypothèses,
l'épidémiologue aura le plus grand mal à
explorer toutes les données statistiques en masse
qui permettraient ou ne permettraient pas de suggérer
des hypothèses.
Inutile
de préciser que dans des domaines plus difficiles,
par exemple en cosmologie ou en physique fondamentale, il
faudra de nombreuses équipes de chercheurs pour collecter
(quand elles sont disponibles) des données d'observation
et pour ensuite en tirer des hypothèses. Dans beaucoup
de cas, les preuves expérimentales resteront actuellement
hors de portée. C'est ce que l'on constate aujourd'hui
par exemple dans le domaine de la théorie des cordes.
Mais l'accumulation de données en masse pouvant suggérer
des lois sera néanmoins indispensable.
Les
algorithmes pour la découverte des causes
C'est
pour faire ce travail qu'interviennent désormais
des algorithmes permettant de découvrir (ou tout
au moins de suggérer) des hypothèses causales.
On les désigne en anglais du terme de causal discovery
algorithms. Ils constituent ce que l'on nomme désormais
le Thinking 2.0, compte tenu, pour y faire appel, de la
nécessité de disposer de ressources informatiques
et numériques considérables. Mais il faut
aussi disposer de méthodes de raisonnement computationnels
nouvelles. Sinon l'immersion dans les statistiques ne donnera
aucun résultat.
Judea
Pearl, professeur en informatique et philosophe à
l'Université de Californie a été à
l'origine de cette nouvelle démarche. Il a mis au
point un langage mathématique permettant de coder
directement sur ordinateur des algorithmes destinés
à explorer les relations causales. Ils peuvent tester
avec une certaine sécurité les relations possibles
de cause à effet entre les variables. Pour cela,
ils génèrent automatiquement un ensemble hypothétique
de relations et vérifient leur adéquation
avec les données. Ceci, en fonction du nombre des
variables, constitue une tâche plus ou moins difficile,
hors de la portée des chercheurs non équipés.
Avec ces algorithmes, la possibilité de faire apparaître
des causes pertinentes aux effets observés s'accroît
considérablement.
Pour
mettre ceci en application, Pearl et d'autres collègues
ont fondé en 2014 le Center for Causal Discovery,
Nous y renvoyons le lecteur. Selon ces chercheurs, il est
possible d'y établir à propos d'un même
phénomène des millions de modèles,
de les expérimenter virtuellement sur la base des
Big data disponibles et de les modifier en cas d'échec.
L'expérimentation in vivo, c'est-à-dire dans
la nature, devient ensuite possible.
Il est
inutile de préciser ici les innombrables conséquences,
pratiques ou théoriques, qui découleront de
l'utilisation et du perfectionnement de ces algorithmes.
Nous y reviendrons
Tous
les scientifiques devraient en bénéficier.
Mais dans un premier temps, les Google, Facebook et, dans
le domaine du renseignement, la NSA et la DIA américaines,
seront plus que jamais incités à générer
des flots démesurés de Big data. Beaucoup
de celles-ci n'iront pas dormir dans les serveurs.
Références
* Site de
Judea Pearl
* Center for causal
discovery