惑星の鼓動

ケネス・クキエ

写真: Alex Robbins

Less than a minute(0 words) Read
データの爆発的な増加は、経済を理解するための新しい視点を提供し、物事を測定する方法だけでなく、測定する対象を変える

われわれは世界を、あるがままではなく、主観的に見ている。経済学者は、データの分野において、グラウンドトュルースを表すために使用する情報を再考し、記録したい事実を全く新しい視点で見直す必要がある。この分野は、経済学者が慣れ親しんだ「スモールデータ」の世界のレンズを通して経済を見る職業病が蔓延している。しかし、「ビッグデータ」の世界では、データソース(および測定する対象)の多様性、頻度、精度がはるかに上がっておりり、新しい考え方が必要とされている。 

 より多くの情報と、伝統的な考え方が衝突すると、どうなるか。それを理解するために、ヘルスケアの分野の歴史を振り返ろう。

 ゼネラルエレクトリック(GE)は1990年に、医療スキャンに使用される磁気共鳴画像(MRI)装置「Signa」のソフトウェアのアップデートをリリースした。エンジニアが、古い措置において、脂質(脂肪)を含む組織を表示する上で画像を圧縮してしまうシステムの欠陥を発見したのだ。しかし、より正確な画像が利用できるようになると、多くの放射線科医が反発した。より良い画像を見ることに慣れておらず、古い装置の画像の方が慣れ親しんでいたためだ。新しい画像で誤った診断をしてしまうという懸念があった。GEは、数年前に発売された「新しいコーラ」をめぐる大失敗を踏まえ、放射線科医が「クラシック」 とラベル付けされた古いスキャンを見ることができる機能を新しい装置に追加することを余儀なくされた。

 MRIスキャンは写真であり、情報である。それはスキャンしている対象そのものではない。この面で、経済成長や失業率、インフレなどの経済データに少し似ている。1990年代の放射線科医は、精度の低い情報を好む傾向があった。というのも、圧縮されたスキャン画像を使うことに慣れており、その制約の中で技術を磨いてきたからだ。質が改善された画像に抵抗感があった。今日の経済学者が、同様の心理的な罠に陥っているリスクがあるだろうか。

データの銀河

今日、われわれの周りには、銀河のように無数のデータとAIが広がっている。それがどれほど斬新であるかを考えてみよう。四半世紀前、世の中の大半のものはコンピューターチップが内蔵されておらず、ネットワークに接続されていなかった。かつての時代は、手紙が主な通信手段で、地下鉄にはトークン(硬貨のような乗車券)が使われていた。旅行には携帯用の目覚まし時計が欠かせず、クレジットカードの支払いは、カーボン紙を使った伝票にサインをし、手動のインプリンター(別名「ジップザップマシン」)でカード番号を写し取るという方法が一般的だった。睡眠と運動量を腕時計で測ることはなかった。コードレス電話で顔認証することはできず、銀行が音声認証することもなかった。車には衛星ナビシステムが備わっていなかったため、運転手は使い込まれた地図に頼っていた。深い郷愁に駆られているわけではない。要するに、社会のデジタル化により、今まではなかなかデータ化できなかった活動が、データ化されるようになったということだ。

 これにより、より正確な方法で経済を理解できる。それは、測定しているものそのものである「グラウンドトュルース」をよりよく反映している。データは、おそらく準リアルタイムで、はるかに高速に生成される。それは、小さなセグメントや個人単位でも、よりきめ細かい方法で測れる。1990年以前のMRIスキャンのように情報を圧縮していた昔の方法では、不可能だったことだ。精度と速度、詳細さは改善する。さらに、測定する対象自体が変化する可能性があり、世界を理解するための新しい方法につながり得る。(そうすることによって、世界が改善することが望ましい)

 情報を集約するのは民間部門だ。業務の一環でデータを生成しているためだ。たとえば、衛星画像は農場の収穫量を追跡できる。求人サイトは他の都市部よりも急速に成長している都市を特定でき、住宅販売サイトはどの都市部が失速しているかを示すことができる。また、他社の業務から大量のデータを受けている企業も多くある。給与処理会社のADPが有するデータは、アメリカの労働者の6人に1人分だ。ADPの月次雇用報告書は、米国労働統計局のデータを補足するために経済学者が使っている。 

代替指標

このような代替指標(または 「代替データ」)は、国家統計機関の学術的に厳密な方法で集約されているわけではないかもしれない。代替データを活用するには、データの現場に今日いる人たちが、考え方を変えなければならない。こうした人たちは、情報を生成する役割から、民間部門と協力してデータの完全性を強化および検証し、より幅広い目的に使用できるようにする役割へと、職務内容を再考する必要があるかもしれない。それはこの分野の起源を再現している。

 統計学(statistics)という用語は、 1700年代半ばに 「国家の科学」を意味するドイツ語の「Statistik」に由来する。このような方法は、推論に基づいている場合がある。つまり、簡単に測定できるものを基に一般化して、学習が難しいものについての結論に辿り着くのだ。そのもの自体を数えることは費用がかかるか不可能であることが多かったため、プロキシを見つけて推定することが慣行となった。このアプローチは、初期の統計学の特徴だった。ウィリアム・ペティは1680年代に、「政治算術」に関するエッセイの冒頭で、人口を推定する上で、「アイルランドのダブリン市は、ブリストルよりも煙突が多く、その結果、人口がより多いようだ」と述べている。

 今日、先進国は信頼できる経済的・社会的指標を作るために年間数十億ドルを費やしている。公式な統計データを扱う専門家たちにとって、それは単なる仕事ではない。こうした指標を作ることは重要な使命であり、指標が文明の象徴とも言える。1979年から1992年にフィンランド統計局を率いたオラヴィ・ニイタモは「知識は力なり、統計は民主主義の基盤である」という名言を残した。

 データは、定量化し、性質を捉え、記録しようとする対象の表れにすぎない。地図が実際の場所ではなく、気象シミュレーションが実際の雨でないのと同じように、実物その物ではない。データには、測定する対象物の「情報の一部」が含まれている。世界が変化するにつれて、社会科学者が人間の行動を測る統計も変化しなければならない。世界有数の専門家が、より厳密な方法を取り入れて経済学を確立しようとしているが、それでもまだ、正式ではない代理指標や推定に頼ることがある。

アネクデータ

1987年から2006年まで連邦準備制度理事会の議長を務めたアラン・グリーンスパンは、公式指標を補足するために、逸話(アネクドート)とデータを混ぜ合わせた「アネクデータ」を採用したことで有名である。グリーンスパンが若い経済学者だった頃に精査したデータの中に、男性用下着の売り上げがある。彼の考えでは、それは経済指標であり、人々が生活を切り詰める際に削減する類いのものだ。

 FRBの後継者も先人に倣った。リーマン・ブラザーズの破綻からわずか数日後、2008年に金融危機が始まったとき、当時サンフランシスコ連邦準備銀行総裁だったジャネット・イエレンは、連邦公開市場委員会(FOMC)で、深刻な景気後退を警告した。5年後に発表された記録によると、イエレンは「イーストベイの形成外科医と歯科医は、患者が選択的処置を先送りしていると指摘している」と報告した。「多くの高級レストランでは予約がいらなくなった」。当時、FRBの同僚はそのようなコメントに笑ったそうだ。 

 一方、統計局はどうだったか。2008年第4四半期の米GDP速報値は3.8%減だった。1か月後にはすでに6.2%減へと下方修正された。20117月の最終改定値は、GDPの下方修正として過去最大となる8.9%減となり、落ち込み幅は当初報じられた数値よりも2倍以上となった。この時はおそらく代替指標が役立ったであろう。 

 新しいデータソースは、既存の指標よりも高速で優れた数値を出し、より詳細な分析ができた可能性がある。たとえば、給与処理会社であるADPは、新入社員の減少と昇給の減速を数値化できた可能性がある。住宅購入に関連するグーグル検索が急激に減ったことも考えられる。同様に、LinkedInIndeedのような求人情報サイトは、投稿される広告だけでなく、停止される広告を含め、求人広告への洞察がある。(このデータは、ビジネスのぐらつきやアナリストによる格下げ、ひいては株価下落を早期に予測する要因であるため、投資家が使っている)

Loading component...

透明性のためのツール

危機の時期は、報告の遅れから、公式な指標に頼れない可能性がある。新型コロナ危機の初期は、代替データが盛んに使われた。AppleAndroidの携帯電話に搭載されたGPSでは、小売店への客足が減ったことが分かったほか、どの場所の人々がロックダウンの命令に従わなかったかが明らかになった。同様に、202510月の米国政府の閉鎖時には、統計機関がデータを公表できなかったため、民間部門が穴埋めした。雇用動向は、ADPのほか、73万人の従業員を代表する277社を管理するプライベート・エクイティ・ファンドであるカーライルが提供した。 

 代替データによって、政府の説明責任が出てくる。アルゼンチンのインフレに関する公式データが2010年代初頭に、現実から非常にかけ離れたものになった際、経済誌「エコノミスト」は代わりに、ハーバードビジネススクールとマサチューセッツ工科大学の2人の経済学者が設立した会社であるPriceStatsの数値を使用した。25の経済圏における4,000万の製品の中から毎日、80万の商品の価格の変化を追跡するものだ。20258月に、不振な雇用統計を受けて、米労働統計局の局長がトランプ米大統領によって解雇された後、米国のデータの完全性について疑念が生じる中、代替データは透明性のための独立したツールになり得る。

 新しいデータソースや手法が急激に増えていることは、統計を収集・分析・報告するための制度的能力、資金、スキル、政治的意思が不足している発展途上国では特に重要である。創造性を活かせば、民間部門のデータは変革をもたらす可能性がある。例えば、多くの発展途上国では、洪水警報を事前に受けるために、降雨などの気象事象を測定するための気象機器を遠隔地に用意する経済的余裕がない。しかし、携帯電話会社は田舎のいたるところに電波塔を持っている。電波塔は、ネットワーク情報と交通情報を送受信するために常に相互に通信している。しかし、雨が降ると電波が弱くなるため、降雨量の測定に役立つ。貧困地域でのデータギャップを克服するためには、このような独創性をさらに高める必要がある。

 しかし、より正確で、きめ細かく、タイムリーな指標を作成しても、それらを効果的に活かす方法がなければ、ほとんど意味がない。グリーンスパンは、私が2014年に電子メールで行ったインタビューで「同時に、こうしたデータの導入をスピードアップしない限り、『ビッグデータ』 は役に立たない」と語った。 

未知なる新世界

さらに、既存のものを改善したり、既知のギャップを埋めたりする必要性よりも、利害が大きい。これまでデータ化されたことのない活動をデータ化することは、世界についての新しいことを学ぶユニークな機会となる。世の中は、社会を理解する上で大きな変革期を迎えている。

 この変革の初期の観測が、LinkedInの「経済グラフ」である。これは、12億人、6,700万社、1,500万人の雇用、41,000種のスキル、133,000校における労働活動を測定する。多くの国が、「最も急速に成長しているスキルや、雇用が増減している地域、中途採用の職業別難易度、女性がより上級管理職に就いている産業や国」などをここで把握する。この情報は、これまで追跡、分析、比較することができなかった。

 このように人々の個人情報を深く分析することは、プライバシーを脅かしているように思えるかもしれないが、そうである必要はない。連合学習、準同型暗号、安全なマルチパーティ計算、差分プライバシーなどの、斬新な名が付いた高度なデータ処理技術により、暗号化されたデータの分析ができるようになり、実際の記録がデータプロセッサに表示されないようになっている。こうした技術は、成功させるのが難しいため、まだ初期段階にあるが、企業や統計局はすでに実験している。

 もちろん、企業の「野生のデータ」を使うには限界がある。多くの場合、これらは副産物データである(つまり企業の通常の事業活動の副産物として生成される)。したがって、データはその環境のバイアスがかかっている。カーライルの企業は、プライベート・エクイティ・ファンドに所有されることを受け入れた(したがって、おそらく経営状態が最高だったわけではない)。LinkedInにはおそらく労働者階級よりも専門家が多くいる(したがって、おそらく裕福層に偏っている)。ADPは、乳母、ハウスクリーニング業者、洗車労働者などのインフォーマル経済については数字を出せない(こうした数字の方が経済的健全性を表すより強い指標となり得る)。

 さらに、代替データが常に存在するとは限らない場合、完全に頼ることができない。たとえば、米国のソフトウェア会社Intuitは、QuickBooks会計ソフトウェアからの集計データに基づいて中小企業の指標を作成した。しかし、2015年に指標の発表を止め、2023年によりしっかりとした手法で算出した別のデータの発表を再開した。したがって、未来は、代替データだけに基づくのではなく、公式・非公式の補完的な情報源に基づくことになる。それでも、これは未知なる新世界だ。

最新の測定基準

話をMRIに戻す。磁気共鳴画像法は、癌を検出するための非侵襲的な方法としてニューヨーク州立大学のレイモンド・ダマディアンが特許を取得した1974年にさかのぼる。その同じ年、米国はひどい不況に陥り、イェール大学の経済学者で元ホワイトハウス顧問のアーサー・オクンが、経済全体への打撃を表す抽象的な数字ではなく、個人へのダメージを表す新しい指標を作成するきっかけとなった。

 後に「悲惨指数」と呼ばれるようになった経済不快感指数 は、米国政治になくてはならないものとなった。ロナルド・レーガンは、1980年に大統領選でジミー・カーター大統領を破るためにそれを使った。しかし、この指数は単に失業率とインフレ率の合計だ。AI時代の最新の指標が容易に想像できるだろう。

 それは、支出パターンの変化から、人々が悲惨な状況を表し得るすべての方法を集めることができる。購入の減少ではなく(単純な数)、実際にステーキからラーメンに切り替えるなどの行動の変化もだ。公共料金の未払いや自動車ローンの延滞もしかり。運転中のイライラや、不規則な運転、小さな衝突事故などの出来事は、集合的ではなく、個人単位で追跡される。Appleウォッチは、日中の睡眠とストレスの質を追跡できる。街路、店舗、オフィスに設置されている顔認識機能を備えたCCTVカメラは、個人の感情を記録することができる 。バイオセンサーを備えたトイレは、 不安時に急上昇するコルチゾールやエピネフリンなどのホルモンの水準を追跡できる。 

 これは、グラウンドトュルースに限りなく近いものだ。そのようなサイエンスフィクションの統計は、おそらく多くの人々が悲惨なものとして捉えるだろう。理論的には、データが匿名化される可能性があるとしても、プライバシーへの影響は恐ろしい。そのような情報を手にした国家は、個人を助け、社会を守るために介入する義務があるのではないか。「そのようなことを知ってしまった後、赦しがあるだろうか」とTS・エリオットが嘆いたものだ。

 このような代替データが実用化されるのは、早くてもかなり先のことであり、もしかすると永遠に訪れないかもしれない。パラダイムシフトはゆっくりと起こるものだ。また、「テックラッシュ(テクノロジーへの反発)」の動きも強まっており、一般の人々は無制限なデータ利用に慎重になり、かつてのインターネットへの楽観的な期待は薄れている。理想的には、今日の社会科学者たちは、AIやビッグデータの良い面を最大限に活用し、その欠点を防ぐための配慮や倫理観、柔軟な思考を持っているべきだ。結局のところ、放射線科医はもはや「古典的な」MRI画像の見方に頼る必要はなくなっているのだ。

記事やその他書物の見解は著者のものであり、必ずしもIMFの方針を反映しているとは限りません。