3 апреля 2023

Цифры лгут: как нами манипулируют при помощи данных

Статистика не так объективна, как нам кажется.

Фото автора Лайфхакер и издательство «МИФ»

Любое сомнительное заявление может восприниматься истинным, если подкреплено статистикой, таблицами, графиками и наукообразными терминами. Чтобы не попадаться на такие уловки, важно уметь распознавать чушь и вообще понимать, что это такое. Новая книга от издательства МИФ «Полный бред!» поможет в этом. Её написали эволюционный биолог, профессор Карл Бергстром и доцент Информационной школы Вашингтонского университета Джевин Уэст. А Лайфхакер публикует отрывок из пятой главы.

Наш мир буквально оцифрован. Всё подсчитано, измерено, проанализировано и оценено. Интернет‑компании отслеживают нас в Сети и используют алгоритмы, чтобы предсказать, что мы купим. Смартфоны считают наши шаги, замеряют продолжительность звонков и отслеживают перемещения в течение дня. «Умные устройства» контролируют то, как мы их используем, и знают о нашем режиме дня больше, чем мы можем себе представить. Имплантированные медицинские устройства пропускают через себя непрерывный поток информации о пациентах и в реальном времени отслеживают признаки опасности. Во время техобслуживания наши машины выгружают данные о своей производительности и нашей манере вождения. Множество датчиков и камер, установленных в городах, следят за всем, от транспортных потоков до качества воздуха, и даже способны устанавливать личности прохожих.

Вместо того чтобы собирать данные о действиях потребителей с помощью дорогостоящих исследований и опросов, компании позволяют людям прийти к ним самостоятельно, а потом фиксируют всё, что те делают. Facebook* знает, с кем мы знакомы. Google — что мы хотим выяснить. Uber — куда мы намереваемся поехать. Amazon — что мы желаем купить. Match — с кем мы планируем создать семейный союз. Tinder — от кого мы ждём приглашения к общению.

Данные могут помочь нам понять мир, опираясь на объективные факты, но они далеко не так объективны, как нам кажется. Тут вспоминается старый анекдот. Математик, инженер и бухгалтер устраиваются на работу. Их заводят в кабинет и устраивают экзамен по математике. Первая задача, для разогрева: сколько будет два плюс два? Математик закатывает глаза, пишет «четыре» и переходит к следующим заданиям. Инженер на секунду задумывается, затем пишет «приблизительно четыре». Бухгалтер тревожно оглядывается по сторонам, затем встает со стула, подходит к человеку, который проводит тестирование, и приглушенным голосом спрашивает: «Прежде чем я что‑либо напишу, скажите, что вы хотите получить?»

Числа идеально подходят для изложения чуши. Они кажутся объективными, но ими легко манипулировать, чтобы рассказывать нужную историю.

Слова определённо продуцируются человеческим разумом, а как же числа? Числа как будто даны нам самой природой. Мы знаем, что слова субъективны. Мы знаем, что их используют, чтобы изворачиваться и искажать правду. Слова отражают интуицию, чувства, страсть. Числа же словно существуют отдельно от человека, который говорит о них.

Вера людей в числа невероятно сильна. Скептики заявляют, что они «просто хотят увидеть данные», или требуют, чтобы им показали «исходные данные», или настаивают на том, что «показатели должны говорить сами за себя». Нас убеждают, что «данные никогда не врут». Но эта точка зрения может быть опасной. Даже если величины или числа верны, их всё равно можно использовать, чтобы морочить голову [...] . Чтобы числа были понятными, они должны находиться в уместном контексте. Их нужно демонстрировать так, чтобы нам было доступно честное сравнение.

Давайте для начала задумаемся, откуда вообще берутся эти числа. Некоторые из них мы получаем непосредственно, с помощью точного подсчёта или измерения. В США 50 штатов. Существует 25 простых чисел меньше 100. В Эмпайр‑стейт‑билдинг 102 этажа. Легенда бейсбола Тони Гвин сделал 3 141 хит из 9 288 выходов на биту, его средняя результативность за время игры в Высшей лиге равна 0,388. В принципе, точный подсчёт и должен быть довольно прямолинейным. Существует определённый ответ, и обычно известна определённая процедура подсчёта или измерения, которой можно воспользоваться, чтобы его получить. Но этот процесс далеко не всегда прост. Вполне можно сделать ошибки в вычислениях, измерениях или в том, что именно мы считаем. Возьмите, например, планеты Солнечной системы. С тех пор как был открыт Нептун в 1846 году и до 1930 года, когда был обнаружен Плутон, мы считали, что в Солнечной системе восемь планет. После открытия Плутона мы сказали, что у нас девять планет. Затем в 2006 году невезучего «новичка» понизили до статуса карликовой планеты, и полноценных планет, вращающихся вокруг Солнца, снова стало восемь.

Однако куда чаще точный подсчёт или исчерпывающие измерения невозможны.

Мы не способны отдельно сосчитать каждую звезду в наблюдаемой Вселенной, чтобы прийти к текущему приблизительному результату в триллион триллионов.

Сходным образом мы полагаемся на приблизительные оценки, когда рассматриваем такие показатели, как, например, рост взрослого человека в определённой стране. Мужчины из Нидерландов считаются самыми высокими в мире — в среднем 183 сантиметра. Но чтобы получить эти данные, не измеряли всех жителей страны и не вычисляли среднее всех полученных величин. Вместо этого исследователи использовали случайную выборку местных мужчин, измерили тех, кто в неё попал, и экстраполировали выводы на всё население.

Если бы кто‑то измерил полдюжины мужчин и вычислил их средний рост, только по случайности результат мог бы получиться неверным. Предположим, среди них некоторые были необычайно высокими. Это называют ошибкой выборки. К счастью, обширная выборка, как правило, позволяет выровнять отклонения, так что такая ошибка минимально влияет на результат.

Проблемы могут возникнуть и с процедурой измерения. Допустим, исследователи попросили участников сообщить о своём росте, но мужчины склонны завышать цифры, причём мужчины маленького роста делают это чаще, чем высокие.

Другой источник ошибки — предвзятость самой выборки — ещё опаснее. Предположим, вы решили определить рост людей, отправились на местную баскетбольную площадку и стали измерять игроков. Баскетболисты, как правило, выше среднего роста, так что ваша выборка будет нерепрезентативной для населения в целом и в итоге значение окажется слишком высоким. Большинство ошибок такого рода не настолько очевидны. [...]

В этих примерах мы рассматривали группы людей в некотором диапазоне значений — например, диапазоне высоты, — а затем сводили эту информацию в единое число, что называется сводной статистикой. Например, описывая высокого голландца, мы говорим о среднем росте.

Сводная статистика может быть удобным способом обобщать информацию, но, если она некорректна, вы легко введёте свою аудиторию в заблуждение.

Политики используют этот трюк, когда предлагают ввести налоговый вычет, который сэкономит сотни тысяч долларов для 1% самых богатых граждан, но никак не облегчит налоговое бремя всех остальных. Они берут средний налоговый вычет и заявляют, что их план налогообложения сэкономит семьям в среднем 4 000 долларов в год. Может, и так, но средняя семья — если мы имеем в виду ту, что находится в середине диапазона распределения доходов, — ничего не сэкономит. Большинству из нас будет куда полезнее знать, каким окажется вычет для семьи с медианным доходом. В данном случае медиана — это «срединный» доход между половиной семей, зарабатывающих больше этого значения, и половиной семей, зарабатывающих меньше этого значения. Таким образом, медианная семья не получит никакого вычета вообще, потому что он полезен только для 1% населения с наибольшими доходами.

Иногда мы не можем непосредственно измерить тот показатель, который нас интересует. Недавно Карл попался на радар дорожной службы на прямом и ровном участке шоссе в пустыне штата Юта, где по необъяснимой причине было установлено ограничение скорости в пятьдесят миль в час. Он съехал на обочину, поглядывая на знакомые отблески красных и синих огней в зеркале заднего вида. «Вы знаете, как быстро вы ехали?» — спросил патрульный. «Думаю, что нет, офицер», — ответил Карл. «Восемьдесят три мили в час».

Восемьдесят три — серьёзное число, потенциально грозящее большими неприятностями. Но откуда оно взялось? Некоторые транспортные камеры вычисляют скорость, измеряя расстояние, которое вы проехали за определённое время, но дорожная служба штата поступает иначе. Патрульный измерял нечто другое — доплеровский сдвиг в радиоволнах, излучаемых его портативным радаром, когда они отразились от мчащейся машины Карла. Программное обеспечение, встроенное в радар, использует математическую модель, основанную на волновой механике, чтобы с помощью полученных измерений вычислить скорость машины. Поскольку патрульный не измеряет непосредственно скорость Карла, радар нужно регулярно калибровать. Стандартный способ избавиться от штрафа за превышение скорости — потребовать от офицера продемонстрировать записи о своевременной калибровке. Правда, Карлу это не понадобилось. Он знал, что превысил скорость, и был рад, что за свою поспешность отделался лишь штрафом, хотя и крупным.

Радары полагаются на весьма надёжные физические принципы, но модели, используемые для вычисления других показателей, могут быть более сложными и включать больше предположений. Международная китобойная комиссия публикует сведения о численности популяций некоторых видов китов. Когда она сообщает, что в водах Южного полушария водится 2 300 синих китов, она приходит к этому числу не потому, что отыскали и сосчитали каждое животное. И они не прочесали от и до какой‑то участок океана. Киты не стоят на месте, и большую часть времени их не видно с поверхности воды. Поэтому учёным необходимы косвенные способы определять численность популяции. Например, они подсчитывают встречи с уникальными особями, которых можно узнать по отметинам на хвостовых плавниках и хвосте. Так что их определение численности китов настолько же неточно, насколько неточна эта методика.

В расчёты и факты, которые кажутся совершенно очевидными, ошибки закрадываются по разным причинам. Можно запутаться в числах. Можно использовать слишком маленькую выборку, которая некорректно отражает особенности всей группы. Некорректными могут оказаться методики, с помощью которых мы выводим числа из иной информации. И наконец, числа могут просто быть полной чушью, выдуманной с нуля в попытке придать убедительности жалким аргументам. Мы должны помнить об этом, когда нам что‑то доказывают с помощью численных показателей. Говорят, что цифры никогда не лгут, но следует помнить, что они часто вводят в заблуждение.

«Полный бред!» рассказывает о том, как распространяется недостоверная информация, почему мы в неё верим и как научиться корректно оценивать причинно‑следственные связи. Эта книга доказывает, что необязательно быть экспертом в статистике, чтобы распознавать фейки и подмену понятий. Достаточно логики и критического мышления.

Купить книгу

3 способа манипуляции, которые важно вовремя замечать

Почему мы верим догадкам и слухам больше, чем статистике

10 убеждений, которые помогут противостоять манипуляциям

Ловушки восприятия: как органы чувств искажают реальность

Предвзятость подтверждения: почему мы никогда не бываем объективны

* Деятельность Meta Platforms Inc. и принадлежащих ей социальных сетей Facebook и Instagram запрещена на территории РФ.