Наше восприятие мира зависит не от того, какой он есть на самом деле, а того, какие мы сами. В области данных экономистам необходимо переосмыслить, какую информацию они используют для отображения реальной ситуации, и сформировать новый взгляд на то, какую реальность они хотят отразить. Эта область страдает от «профессиональной деформации», взгляда на экономику через призму мира «малых данных», с которым они давно знакомы. Однако во вселенной «больших данных», когда источники данных (и характеристики, подлежащие измерению) отличаются значительно большим разнообразием, частотностью и детализацией, необходимо мыслить по-новому.
Чтобы понять, что представляет собой такой конфликт между увеличением объема информации и традиционным мышлением, обратимся к примеру из области здравоохранения.
В 1990 году компания General Electric выпустила обновление программного обеспечения для своих аппаратов магнитно-резонансной томографии (МРТ) Signa, используемых для медицинских снимков. Инженеры обнаружили дефект в системе, который сжимал изображения тканей, содержащих липиды, или жир. Однако когда появились более точные снимки, многие радиологи пришли в негодование. Снимки более высокого качества были для них непривычны, и им было удобнее оценивать старые. Существовали опасения по поводу неправильной постановки диагноза из-за новых снимков. GE была вынуждена добавить в аппараты МРТ функцию, позволяющую радиологам видеть снимки старого формата, помеченного как «классический» в качестве ироничной отсылки к провальному опыту запуска «новой Кока-Колы» несколькими годами ранее.
Снимок МРТ — это наглядное и информативное изображение, а не сам объект этого изображения. В этом смысле он похож на экономические данные, такие как показатели роста, безработицы, инфляции и т. п. В 1990-е годы радиологи предпочитали менее точную информацию, поскольку привыкли использовать сжатые снимки, их навыки были в значительной степени отточены для работы с учетом этих ограничений. Они не хотели работать с более качественными изображениями. Есть ли риск, что современные экономисты могут попасть в ту же психологическую ловушку?
Галактика данных
Подумайте об окружающей нас сегодня галактике данных и искусственного интеллекта и о том, насколько она нова. Четверть века назад большинство окружавших нас предметов не имели компьютерного чипа и не подключались к сети. Это была ушедшая эпоха писем, жетонов метро, дорожных будильников и транзакций по кредитным картам, для которых требовалось поставить подпись на бланке с копиркой после того, как его пропускали через устройство для снятия отпечатка кредитной карты, известного как импринтер. Ваш сон и физическая активность не отслеживались наручными часами. Ваш беспроводной телефон не распознавал ваше лицо, банк не верифицировал вашу голосовую подпись. Отсутствие систем спутниковой навигации в автомобилях означало, что водители были вынуждены полагаться на неудобно сложенные карты. Не стоит предаваться ностальгии. Суть в том, что цифровизация общества означает, что для видов деятельности, которые ранее не поддавались простому представлению в виде данных, теперь это стало возможным.
Это позволяет более точно понять экономику, лучше отразить истинную ситуацию, реальный объект оценки. Представление данных может происходить гораздо быстрее, возможно, почти в режиме реального времени, и в более подробном виде, — вплоть до данных о небольших сегментах или даже отдельных людях, чего старые методы не могли обеспечить, сжимая вместо этого информацию, как на снимках МРТ до 1990 года. Точность, скорость и детализация повышаются. Более того, меняться может и состав измеряемых показателей, что приведет к новым способам понять мир (а через понимание, будем надеяться, и сделать его лучше).
Однако организации, составляющие такую информацию, будут из частного сектора, поскольку именно он генерирует эти данные в ходе своей деятельности. Например, спутниковые снимки могут отслеживать урожайность ферм. По сайтам с вакансиями можно определить, какие городские районы растут быстрее других, а сайты с объявлениями о продаже жилья могут показать, какие находятся в упадке. Во многих случаях компании оказываются в центре потока данных от операций других субъектов. ADP, организация, занимающаяся расчетом заработной платы, охватывает каждого шестого сотрудника в США. Экономисты используют ее ежемесячный отчет о занятости в дополнение к данным Бюро статистики труда США.
Альтернативные показатели
Такие альтернативные показатели (или «альтернативные данные») могут составляться без опоры на строгие научные методы государственных статистических ведомств. Для использования потенциала этих данных сегодняшним специалистам потребуется изменить мышление: возможно, им придется пересмотреть свои обязанности, перейти от генерации информации к работе с частным сектором с целью повышения достоверности данных и ее проверки, чтобы их можно было использовать в более широких целях. Это напоминает нам об истоках этой дисциплины.
Термин «статистика» происходит от немецкого слова «Statistik», появившегося в середине 1700-х годов и имевшего значение «наука государства». Такие метрики могут основываться на умозаключениях: обобщении того, что легко поддается измерению, чтобы сделать выводы о том, что трудно измерить. Поскольку подсчитать сами предметы часто было дорого или невозможно, общепринятой практикой было искать представительные переменные и экстраполировать данные. Такой подход был характерен для раннего периода развития статистики. «Представляется, что в городе Дублин в Ирландии дымоходов больше, чем в Бристоле, и, следовательно, больше людей», — писал Уильям Петти в 1680-х годах в начале эссе о «политической арифметике» как средстве оценки численности населения.
Сегодня страны с развитой экономикой ежегодно тратят миллиарды долларов на подготовку надежных экономических и социальных показателей. Для верховных жрецов и жриц официальных метрик это божественное призвание, признак цивилизации. «Знание — это сила, статистика — это демократия», — эта знаменитая фраза принадлежит Олави Ниитамо, который возглавлял статистическое ведомство Финляндии с 1979 по 1992 год.
Данные — это лишь представление о том, что с их помощью стремятся количественно оценить, охарактеризовать и учесть. Это абстракция, а не сама вещь, аналогично тому, что карта — это не сама территория и что вы не промокнете при работе с моделями метеорологической обстановки. Данные содержат в себе «информационный коэффициент» того, что они отражают. По мере того как мир меняется, должны меняться и статистические данные, с помощью которых социологи оценивают человека. Несмотря на то, что практичные философы задействуют более серьезные методы для создания унылой науки, все равно используются также неформальные представительные переменные и экстраполяции.
Анекдотические данные
Алан Гринспен, председатель Федеральной резервной системы с 1987 по 2006 год, известен использованием «анекдотических данных» (“anecdata”, от английских слов anecdote — история из жизни и data — данные), чтобы получить более полное представление о ситуации, чем могли дать официальные показатели. Когда он был молодым экономистом, он изучал, помимо прочих данных, сведения о продажах мужского нижнего белья. По его мнению, это показательный экономический индикатор: то, на чем люди начинают экономить, когда приходится затянуть пояса.
Его преемники в ФРС последовали его примеру. В начале финансового кризиса в 2008 году, всего через несколько дней после краха Lehman Brothers, Джанет Йеллен, в то время занимавшая пост председателя Федерального резервного банка Сан-Франциско, предупредила на заседании Комитета по операциям на открытом рынке о серьезном экономическом спаде. «Пластические хирурги и стоматологи в районе Восточного залива отмечают, что пациенты откладывают плановые процедуры, — сообщила она, согласно расшифровкам, опубликованным пять лет спустя. — А во многих элитных ресторанах больше не требуется бронировать столик». Эти наблюдения рассмешили ее коллег.
Насколько же это статистическое ведомство справилось со своей задачей? В четвертом квартале 2008 года первым опубликованным показателем по США стало снижение ВВП на 3,8 процента. Уже через месяц это снижение было пересмотрено до 6,2 процента. Итоговый пересмотр в июле 2011 года показал падение на 8,9 процента — самое крупное снижение оценки ВВП за всю историю и более чем вдвое хуже, чем сообщалось первоначально. Возможно, альтернативные показатели могли бы здесь помочь.
Новые источники данных, возможно, позволили бы получить результат быстрее и качественнее, чем существующие индикаторы, и с большей детализацией. Например, компания ADP, занимающаяся расчетом заработной платы, могла заметить снижение числа новых сотрудников и замедление повышения зарплат. Поиски в Google, связанные с покупкой жилья, могли резко сократиться. Аналогичным образом, сайты по поиску работы для квалифицированных специалистов, такие как LinkedIn и Indeed, анализируют не только те объявления о найме, которые публикуются, но и те, которые отзываются. (Инвесторы используют эти данные, поскольку они являются ранним предиктором нестабильности в деятельности предприятий и понижения аналитиками рейтингов, а значит, и снижения цен акций.)