• фрукт
• куклу в красной шляпе
• туфлю.
Продолжайте действовать таким образом, пока пол не будет полностью покрыт.
Задумайте желание.
Запишите его на листе бумаги.
Сложите бумагу и оберните вокруг ветки Древа желаний. Попросите своих друзей сделать то же.
Продолжайте желать, пока все ветки не будут покрыты желаниями.
7
Шорткаты данных
Вас пригласили на телевизионную игру. Перед вами 21 ящик, а внутри каждого ящика – денежный приз. Вы можете открывать ящики по одному и взять деньги из последнего ящика, которую вы открыли. Но, как только вы открываете следующий ящик, вы уже не можете вернуться к предыдущему и взять деньги из него. Трудность в том, что вы понятия не имеете, сколько денег лежит в каждом ящике. Там может быть миллион, а может и меньше фунта. Спрашивается, сколько ящиков вам нужно открыть, чтобы вероятность получения наибольшего среди всех ящиков приза была самой высокой?
Каждый день, лавируя по расширяющемуся цифровому миру, который мы помогаем заселять, мы генерируем все больше и больше данных. Сейчас человечество производит каждые два дня столько же данных, сколько было произведено с самого времени зарождения цивилизации до 2003 года. Цифровой мир, который мы можем исследовать, огромен. В данных скрыты сокровища, ценные для компаний, старающихся выявить шаблоны, которые могут помочь в предсказании будущей цифровой деятельности потребителей. Ориентироваться в этих цифровых джунглях нелегко, но математики открыли целый набор хитроумных шорткатов, помогающих находить сокровища и избавляющих от необходимости обследовать весь этот мир.
Уже в XVII веке, как только началась научная революция, мы тонули в данных, которые сами же и производили. В 1663 году Джон Граунт, один из первых демографов, сетовал на «непосильное количество информации», которой он оказался завален в исследовании бубонной чумы, бушевавшей в то время в Европе. Такие данные необходимы для борьбы с пандемией. Именно поэтому генеральный директор Всемирной организации здравоохранения Тедрос Аданом Гебреисус сказал на пресс-конференции в Женеве, что ключевой элемент преодоления вспышки коронавируса 2020 года – «тестирование, тестирование и еще раз тестирование». Без данных правительства понятия не имели бы, где и какие ресурсы следует применять.
Однако данные бесполезны, если нет способов выделять сигналы из шума. В 1880 году комиссия по переписи населения США жаловалась, что собранные данные оказались настолько обширными, что на их анализ уйдет более десяти лет, а к тому времени уже придет новая волна данных переписи 1890 года. Требовались инструменты, дающие шорткат к смысловому содержанию тех огромных массивов чисел, которые мы производили и собирали.
Мой герой Карл Фридрих Гаусс всегда был любителем данных. Он упивался полной чисел книгой, которую ему подарили на пятнадцатилетие: в ней были и таблицы логарифмов, и в самом конце список простых чисел. «Вы и представить себе не можете, сколько поэзии заключено в таблице логарифмов», – писал он. Часами напролет он пытался выискать закономерности, скрытые внутри кажущихся случайно расположенными простых чисел, и в конце концов понял, что существует связь между ними и приведенными в начале книги логарифмами. Это откровение впоследствии привело к появлению теоремы о распределении простых чисел, предсказывающей вероятность того, что случайно выбранное число может быть простым.
Ему удалось предсказать траекторию движения Цереры по ночному небу, исходя из наблюдений, сделанных астрономами до того, как этот астероид скрылся за Солнцем. Он вызвался анализировать данные переписи населения, проведенной правительством Ганновера, заявив: «Я надеюсь заняться редактированием переписи, списков родившихся и умерших по местным округам, не в качестве работы, а для собственного моего удовольствия и удовлетворения». Он даже потратил некоторое время на анализ пенсионной схемы для вдов профессоров Геттингенского университета и заключил, вопреки всеобщим опасениям, что пенсионный фонд находится в прекрасном состоянии и даже может позволить себе увеличить выплаты вдовам.
Залогом успешного выделения положения Цереры из хаоса ночного неба была разработанная им стратегия, названная методом наименьших квадратов. Предположим, у вас есть данные с большим количеством шума, и вы хотите выбрать прямую или кривую, лучше всего соответствующую этим данным. Гаусс показал, что это должна быть кривая, для которой сумма квадратов расстояний всех точек данных от кривой будет наименьшей.
Рис. 7.1. Гауссов метод наименьших квадратов
В опубликованной в 1809 году статье, в которой Гаусс обрисовал этот метод, он также указал, что данные часто образуют распределение, которое мы называем теперь гауссовым. По сути дела, если изобразить распределения многих и самых разных наборов данных – роста людей, артериального давления, экзаменационных оценок, ошибок астрономических наблюдений или геодезических съемок, – всюду получится одна и та же картина: большинство случаев скапливается в середине, а по краям оказываются немногочисленные отклонения. Эту кривую часто называют колоколообразной, так как ее форма напоминает колокол.
Статистические методы, созданные Гауссом и другими, стали теперь самыми используемыми шорткатами для всех, кто хочет разобраться в современном мире, богатом данными.