Article.
Big
data. Subir ou accompagner ? Thierry Berthier 28/06/2013

Nous
avions présenté l'auteur, que nous remercions,
en introduction à un précédent article
de lui http://www.admiroutes.asso.fr/larevue/2013/136/OEA.htm
Les récentes
révélations d' Edward Snowden sur le programme
PRISM, initié en 2007 par la NSA, ont le mérite
de mettre en lumière une problématique et des
enjeux stratégiques largement sous-évalués
au sein du débat public. L'objectif de PRISM s'inscrit
dans une stratégie de lutte contre les menaces visant
l'Amérique et consiste principalement en la mise en
place d'un système d'écoute généralisé
capable d'agir directement sur les serveurs centraux des neuf
principales sociétés internet américaines.
Dans lhexagone, l'affaire fait peu de bruit en dehors
de la sphère informatique et ne semble pas suffisamment
porteuse pour occuper la une. Aveuglement ou négligence
assumée ? Le feu médiatique illumine durant
un instant l'affaire PRISM puis l'efface presque aussitôt
alors qu'il serait si pertinent et si profitable de saisir
cette occasion et de provoquer une réflexion nationale
impliquant chaque citoyen.
Par un argument facile et définitif, certains objecteront
que le citoyen d'aujourd'hui n'est guère disponible
pour un débat de cette nature, tout affairé
qu'il est à chercher des solutions lui permettant de
remplir son caddy, faire le plein de son automobile, conserver
son emploi ou se marier avec qui bon lui semble. Là
encore, ce serait sous-estimer les enjeux et mutations technologiques
qui vont l'impacter, avec ou sans son consentement. Ce serait
occulter la puissance des changements exponentiels que nous
et nos descendants devront subir ou accompagner dans un futur
très proche.
Car c'est bien là que se situe la question centrale
: Souhaitons-nous subir ou accompagner ?
Notre espérance de vie augmente de trois mois chaque
année ; la convergence NBIC (Nanotechnologies,
Biotechnologies, Informatique, Cognitique) provoque ce « recul
de la mort » et doit nous inciter à une
introspection positive sur notre rapport à l'espace
numérique et sur les arbitrages à fixer entre
une exigence accrue de sécurité et une indispensable
garantie des libertés individuelles (une forme de contrat
social numérique...). Le juste équilibre est
à chercher en un centre de gravité informationnel
qui nous permettra d'engager sereinement notre ascension technologique.
Ainsi, nous devons nous interroger sans tarder sur la place
du citoyen dans un espace dont la texture évolue fondamentalement,
fusionnant ses dimensions physiques et numériques.
Projection
algorithmique individuelle
Le questionnement nécessaire passe tout d'abord par
une prise de conscience absolue et exhaustive de notre projection
algorithmique personnelle. Cette entité désigne
l'ensemble fluctuant des informations que nous transférons
volontairement ou non vers les mémoires et archives
des systèmes numériques à la suite de
toutes nos interactions algorithmiques.
Lorsqu'un opérateur humain H décide d'utiliser
un algorithme A exécuté sur un système
de calcul S, une information est échangée entre
H et S et une fraction de cette information est archivée
sur S. Nous appelons projection algorithmique de H sur S selon
A, l'ensemble fini de mots binaires PS(H/A) archivés
sur S, résultant de l'exécution de A sur S décidée
par H.
Nos communications numériques (mail, sms, tweets, messages
postés sur des forums ou groupes de discussions) en
font partie, mais également toutes les métadonnées
associées (heure, durée, lieu d'émission
d'un message par exemple).
Nos transactions : virements, achats ou ventes en ligne, enchères,
échanges numériques, viennent compléter
les précédentes sans relever pour autant du
même type d'algorithmes.
Nos recherches en ligne via des moteurs ou annuaires fournissent
elles aussi données et métadonnées porteuses
de sens. L'information associée dépasse alors
souvent la seule description factuelle de lévénement
numérique ; elle en dit plus !
Un calcul déductif, croisant ces différentes
sources, fournit de nouvelles informations engendrées
par l'association ou la corrélation de données
collectées séparément.
L'entité informationnelle constituant notre projection
est souvent sous-estimée, quand elle n'est pas simplement
ignorée de l'utilisateur des systèmes informatiques.
Pourtant, cette empreinte numérique personnelle, constitue
une ressource informationnelle de première importance
et devient la cible de nombreux systèmes de collecte
et d'analyse automatisés. Les enjeux corrélatifs
de nos projections algorithmiques ne relèvent pas seulement
des secteurs du marketing ou du e-commerce, mais concernent
tout autant les sphères de la sécurité,
de la détection de menaces ou de l'acquisition automatique
de renseignements. L'identité numérique, qui
fait l'objet de nombreuses études, s'intègre
parfaitement, en tant que composante, à l'ensemble
plus large formé des projections algorithmiques.
Mieux encore, le formalisme des projections permet de décomposer
l'identité numériques en sous-ensembles associés
aux algorithmes utilisés par l'opérateur. Cette
décomposition peut alors être exploitée
par un système automatisé d'analyse sémantique
qui cherchera à structurer les données brutes
ouvertes avant de les exploiter.
Collecte
des données comme pratique stratégique
La surveillance généralisée et automatisée
sous-entend une collecte de données ouvertes ou non.
Il faut en premier lieu accepter l'idée rugueuse que
cette surveillance soit corrélative de l'agrégation
et de la structuration de l'information au niveau planétaire.
Il s'agit d'un postulat systémique qui peut facilement
heurter sensibilité et libre-arbitre, mais c'est aussi
une hypothèse qui permet d'aborder la réflexion
sans tomber dans le piège grossier du rejet global,
à la fois stérile et contre-productif.
Les tensions et conflits géostratégiques jusqu'à
présent confinés à l'espace physique
débordent et se projettent sur le cyberespace. Leurs
projections se réifient et influencent à leur
tour les événements géostratégiques.
Des boucles de rétro-actions émergent de façon
systémique entre les sphères cyber et
physiques. Elles déforment leurs frontières
initiales et accélèrent leur fusion.
La surveillance des territoires physiques induit la surveillance
des territoires numériques et réciproquement.
Il faut y voir un seul et même transfert d'information
sur des supports qui fusionnent. Cette tectonique informationnelle
doit nous guider vers la mise en place de stratégies
de collectes de données compatibles avec les notions
relatives de liberté individuelle et de « morale
numérique ». Abordée comme une ressource
disponible et ouverte, la donnée constitue à
la fois une garantie de souveraineté pour une nation
évoluant dans un contexte de fortes concurrences stratégiques
mais également un carburant nécessaire au bon
fonctionnement du moteur informationnel produisant une ascension
technologique.
Stockage
de l'information
Au niveau économique, une étude récente
« State
of information Survey » réalisée
par le groupe Symantec en 2012 auprès de plus de 4500
entreprises sur 38 pays, montre que les informations perdues
coûtent chaque année 1100 milliards de dollars !
Fichiers clients, transactions financières ou propriétés
intellectuelles, ces données numériques représentent
jusqu'à 49% de la valeur totale d'une entreprise. L'étude
montre en particulier que les sociétés françaises
ont tendance à minimiser la valeur de leurs données,
en estimant qu'elles représentent seulement 30% de
la valeur globale de l'entreprise.
Le volume total des informations stockées par toutes
les entreprises en 2012 était de 2.2 zettaoctets (un
zettaoctet = 10 puissance 21 octets), avec en moyenne 563
téraoctets (un téraoctet = 10 puissance 12 octets)
pour les PME et 100 000 téraoctets pour les grandes
entreprises. L'étude montre que le volume d'information
devrait augmenter de 67% durant 2013 pour les grands groupes
et de 178% pour les PME. L'information rapporte mais elle
a aussi un coût.
Ainsi, les PME dépensent en moyenne 332 000 dollars
par an pour leurs informations contre 38 millions pour les
grandes entreprises. La perte d'information pour une entreprise
peut être rapidement fatale : perte de clientèle,
dégradation de l'image de marque, dépenses supplémentaires
et chiffre d'affaires diminué. Le stockage et la duplication
de données s'imposent au premier rang de bonnes pratiques
de l'entreprise ; il en est de même pour un Etat.
L'organisme gouvernemental américain, responsable du
renseignement électronique, NSA, achève la construction
d'un important Datacenter dans l'Utah. Ce centre dénommé
Community Comprehensive National Cybersecurity Initiative
Data Center offre une capacité de stockage de l'ordre
du yottabytes (10 puissance 24 bytes) et est en mesure de
capturer toute forme de communication (messages électroniques,
appel téléphoniques, requêtes sur moteur
de recherche, reçus de transactions commerciales, empreintes
numériques privées...).
Le Sénat américain a voté en faveur d'une
loi autorisant la surveillance sans mandat dans le cadre de
la lutte contre le terrorisme FISAA ( Foreign Intelligence
Surveillance Amendment Act), légalisant ainsi l'accès
à toutes les données en ligne, en particulier
celles stockées dans les services cloud US comme ceux
de Google ou d'Apple.
Traitement
et analyse des données
Après la collecte et le stockage et comme pour toute
ressource minière, une phase de traitement, de structuration
et d'analyse des données s'avère indispensable
afin de rendre l'information exploitable. Puissance de calcul
et intelligence artificielle se conjuguent alors pour trier,
filtrer, détecter et sélectionner les données
pertinentes puis pour établir des relations, des corrélations
entre elles.
La qualité des machines et des algorithmes influence
directement celle des résultats obtenus.L'exploitation
des grosses bases de données, pour être efficace
et rentable, doit savoir détecter des ressemblances
fines liant des classes de données distinctes puis
quantifier de façon précise le niveau de similarité
mis en lumière, en un temps de calcul minimisé.
Mesurer les similarités existant entre deux objets
est une activité que notre cerveau, associé
à nos organes de perception, réalise presque
instantanément sur des jeux de données « de
taille humaine ». Les algorithmes d'analyse tentent
de réaliser les mêmes mesures sur des ensembles
d'informations de taille « big data »
forcément incompatibles avec un traitement humain.
Seules les puissances et les rapidités de calcul permettent
un traitement efficace à partir d'un algorithme pertinent.
On comprend alors la course engagée dans le domaine
du calcul haute performance (HPC) et en particulier la compétition
féroce opposant États-Unis et Chine sur l'obtention
de la pôle position HPC. On notera que la machine ou
supercomputer la plus puissante est une machine chinoise depuis
quelques jours. Il s'agit de Tianhe-2 (Milky way-2) offrant
3 120 000 cores et 33862.7 Tflop/s
exploitée par la National University of Defense Technology
à Changsha.
Cette machine vient de ravir la première place à
la machine américaine tenante du titre TITAN
Cray XK7. (ndlr. Cf notre
brève sur ce sujet)
La compétition, ou course aux armements de calcul que
se livrent Chine et USA doit nous interpeller et nous inciter
à maintenir un niveau minimal (vital) en HPC Français.
Symétriquement, la même forme de compétition
concerne les infrastructures de stockage et d'analyse de l'information :
se maintenir à un niveau minimal relève d'une
stratégie de bon sens. Cet effort nécessaire
doit nous assurer une indépendance informationnelle
(au même titre qu'une indépendance énergétique)
et consolider notre souveraineté technologique.
Il serait
du plus grand danger de laisser filer les navires chinois
ou américain de la collecte des données, perdant
ainsi tout contrôle sur cette ressource primordiale.