Nous voyons le monde non pas tel qu’il est, mais tel que nous sommes. Dans le domaine des données, les économistes doivent repenser la nature des informations qu’ils utilisent pour décrire la réalité de terrain, et réinventer la vérité qu’ils souhaitent enregistrer. Par déformation professionnelle, ils voient l’économie sous l’angle d’un monde de « petites données » qu’ils connaissent de longue date. Or dans un univers de « données massives », où la diversité, la fréquence et la granularité des sources de données (et des éléments à mesurer) sont autrement plus vastes, un nouvel état d’esprit s’impose.
Pour avoir une idée du choc qui oppose la multiplication des informations et la pensée traditionnelle, remontons un peu le temps dans le domaine de la santé.
En 1990, General Electric a mis à jour le logiciel de ses machines d’imagerie par résonance magnétique (IRM) Signa, utilisées pour des examens médicaux. Des ingénieurs avaient découvert une anomalie dans le système qui compressait les images des tissus contenant des lipides (graisses). Mais lorsqu’ils ont produit des images plus précises, de nombreux radiologues se sont rebellés. Peu habitués à se pencher sur des clichés d’une telle qualité, ils étaient plus à l’aise avec les anciens et redoutaient les erreurs de diagnostic. General Electric a donc été contraint d’ajouter une fonctionnalité aux machines d’IRM permettant aux radiologues de consulter les anciennes images, qualifiées de « classiques », clin d’œil au lancement désastreux du « nouveau Coca-Cola » quelques années auparavant.
Une IRM est une illustration qui apporte une information. Ce n’est pas la réalité. Considéré sous cet angle, le principe est un peu le même que pour les données économiques telles que la croissance, le chômage ou l’inflation. Dans les années 90, les radiologues ont préféré des informations moins précises, car ils s’étaient habitués à utiliser des images compressées : leurs compétences étaient affûtées pour composer avec ces contraintes. Ils se sont montrés réfractaires aux images de meilleure qualité. Les économistes d’aujourd’hui risquent-ils de tomber dans le même piège mental ?
Une galaxie de données
Songez à la galaxie de données et à l’intelligence artificielle (IA) qui nous entourent aujourd’hui et à la nouveauté qu’elles représentent. Il y a 25 ans, peu d’objets de la vie courante étaient dotés d’une puce informatique ou connectés à un réseau. C’était une époque à présent révolue où coexistaient des lettres, des tickets de métro, des réveils de voyage et des transactions par carte de crédit qui nécessitaient une signature sur un papier carbone après un passage dans une imprimante manuelle, dite « fer à repasser ». Votre montre ne suivait pas votre sommeil ni vos activités physiques. Votre téléphone sans fil ne pouvait pas reconnaître votre visage et votre banque ne contrôlait pas votre signature vocale. Les voitures n’étaient pas équipées de systèmes de navigation par satellite, si bien que les conducteurs devaient lire des cartes routières bien difficiles à replier. Trêve de nostalgie : le fait est qu’avec la transformation numérique de la société, ce qui était impossible hier, à savoir traduire des activités sous forme de données, est désormais chose aisée.
Il est ainsi possible de comprendre l’économie de façon plus précise, en ayant une meilleure image de la réalité de terrain, du phénomène qui est mesuré. Les informations peuvent être communiquées beaucoup plus rapidement, peut-être quasiment en temps réel, et d’une manière plus granulaire, les données étant décomposées en petits segments, voire en individus, ce dont les méthodes plus anciennes étaient incapables, car elles compressaient les informations, à l’instar de l’IRM avant 1990. On gagne en exactitude, en rapidité et en précision. En outre, l’objet des mesures peut lui-même évoluer, d’où de nouvelles méthodes pour appréhender le monde (et, ce faisant, l’améliorer, espérons-le).
Toutefois, les entités qui recueillent les informations seront issues du secteur privé, car c’est dans le cadre de leurs activités qu’elles génèrent leurs données. Ainsi, l’imagerie par satellite peut suivre l’évolution des rendements agricoles. Les sites d’offres d’emploi peuvent révéler quelles zones urbaines affichent une croissance plus rapide que les autres, tandis que les sites immobiliers peuvent mettre en évidence les zones où les ventes déclinent. Souvent, les entreprises se trouvent au cœur de flux de données résultant des activités d’autres entités. Le spécialiste du traitement de la paie ADP prend en charge un travailleur sur six aux États-Unis. Les économistes utilisent ses rapports mensuels sur l’emploi pour compléter les données du Bureau de statistiques sur l’emploi des États-Unis (Bureau of Labor Statistics).
Des indicateurs non traditionnels
De tels indicateurs non traditionnels ne sont pas toujours établis en employant les méthodes scientifiques rigoureuses des instituts nationaux de statistiques. Pour exploiter ces données, les spécialistes d’aujourd’hui devront changer de mentalité. Ils devront peut-être repenser leur mission, en délaissant la production d’informations au profit d’une collaboration avec le secteur privé pour renforcer et valider l’intégrité des données de façon à les utiliser à des fins plus générales. On en revient aux origines de la discipline.
Le terme statistique vient de l’allemand Statistik, concept forgé au milieu des années 1700 qui signifie la « science de l’État ». Ses instruments de mesure peuvent reposer sur la déduction : il s’agit de généraliser à partir de ce qui est facilement mesurable pour parvenir à des conclusions sur ce qui est difficile à connaître. Dénombrer les éléments eux-mêmes étant souvent onéreux ou impossible, il était d’usage de trouver des indicateurs de substitution et d’extrapoler. Cette méthode a marqué les débuts des statistiques. « La ville irlandaise de Dublin semble compter davantage de cheminées que Bristol, et par conséquent, plus d’habitants », a écrit William Petty au début d’un essai sur « l’arithmétique politique » dans les années 1680 pour estimer les populations.
Aujourd’hui, les pays développés dépensent des milliards de dollars par an pour produire des indicateurs économiques et sociaux fiables. Pour les apôtres des indicateurs officiels, c’est une mission sacrée, un pilier de la civilisation. « Le savoir, c’est le pouvoir : la statistique, c’est la démocratie », pour reprendre la célèbre citation d’Olavi Niitamo, qui a dirigé l’Office statistique de Finlande de 1979 à 1992.
Les données ne sont qu’un simulacre de ce qu’elles ambitionnent de chiffrer, d’interpréter et d’enregistrer. Il s’agit d’une abstraction, jamais du phénomène lui-même, tout comme une carte n’est pas un territoire et une simulation météorologique ne mouille personne. Les données contiennent une part d’information de ce qu’elles décrivent. Face aux mutations du monde, les statistiques à l’aide desquelles les spécialistes des sciences sociales prennent la mesure de l’être humain doivent elles aussi évoluer. Bien que les grands économistes aient adopté des méthodes plus sérieuses pour fonder la « science lugubre », on continue d’employer des variables de substitution informelles et des extrapolations.
Les « anecdonnées »
Alan Greenspan, qui a présidé la Réserve fédérale de 1987 à 2006, est tristement célèbre pour avoir adopté le concept d’« anecdonnées » (croisement entre « anecdote » et « données ») pour prendre une longueur d’avance sur les indicateurs officiels. Lorsqu’il était jeune économiste, parmi les données qu’il analysait figuraient les ventes de sous-vêtements masculins. Il considérait que c’était un indicateur économique, le type d’articles dont la consommation diminue lorsqu’il faut se serrer la ceinture.
Ses successeurs à la Fed ont suivi son exemple. Au début de la crise financière de 2008, quelques jours seulement après la faillite de Lehman Brothers, Janet Yellen, alors présidente de la Banque fédérale de réserve de San Francisco, avait mis en garde contre un grave ralentissement économique lors d’une réunion du Comité de politique monétaire de la Réserve fédérale (Federal Open Market Committee). « Les chirurgiens esthétiques et les dentistes de la baie de San Francisco constatent que les patients reportent des interventions non urgentes », a-t-elle indiqué, d’après des comptes rendus publiés cinq années plus tard. « Dans de nombreux restaurants haut de gamme, les réservations ne sont plus nécessaires ». Elle avait provoqué l’hilarité de ses collègues.
Comment l’institut de statistiques a-t-il procédé ? Au quatrième trimestre de 2008, le premier chiffre publié pour les États-Unis a été un recul du PIB de 3,8 %. Il a rapidement été révisé un mois plus tard et porté à 6,2 %. Dans la dernière révision, en juillet 2011, il a été recalculé pour aboutir à une chute de 8,9 %, soit la plus forte révision à la baisse du PIB de l’histoire et un repli plus de deux fois plus marqué qu’au départ. Des indicateurs non traditionnels auraient peut-être été utiles.
Les nouvelles sources de données auraient pu être plus rapides et efficaces que les indicateurs existants, et aussi plus précises. Ainsi, le prestataire de services de paie ADP aurait pu repérer une diminution du nombre de nouveaux salariés et un ralentissement de la hausse des rémunérations. Les recherches de logements à vendre sur Google ont pu chuter brutalement. De même, des sites professionnels d’offres d’emploi comme LinkedIn et Indeed apportent un éclairage sur les annonces de recrutement, non seulement celles qui sont publiées, mais aussi celles qui sont retirées. (Ces données sont d’ailleurs utilisées par les investisseurs, puisqu’elles sont un signe avant-coureur des difficultés des entreprises et des révisions à la baisse des prévisions des analystes, et donc des cours des actions.)