Книги

Искусство мыслить рационально. Шорткаты в математике и в жизни

22
18
20
22
24
26
28
30

8 из 10 кошек

В детстве меня всегда приводила в недоумение одна реклама кошачьего корма, которую регулярно передавали по телевизору. В ней утверждалось, что 8 из 10 кошек предпочитают Whiskas – корм рекламируемой марки[96]. Мне это казалось странным, потому что я не помнил, чтобы кто-нибудь приходил спросить нашу кошку, какую еду предпочитает она. Интересно, сколько кошек они опросили, чтобы это позволило им сделать такое решительное заявление? – думал я.

Может показаться, что для того, чтобы такое заявление было обоснованным, необходимо проделать огромную работу. В конце концов, считается, что в Великобритании около 7 миллионов владельцев кошек. Понятно, что производители Whiskas не обошли со своим опросом 7 миллионов домов. Однако оказывается, что математические методы статистики открывают поразительный шорткат к определению корма, самого любимого кошками всей страны. Если смириться с небольшой неточностью, число кошек, которых нужно опросить, становится на удивление небольшим. Предположим, я готов допустить в определении доли кошек, утверждающих, что им нравится Whiskas, 5-процентную погрешность. Такая неточность приведет к тому, что из моего опроса могут выпасть 5 процентов кошек. Это не страшно, но 5 процентов от 7 миллионов – это всего 350 000 кошек. Кошек, которых по-прежнему нужно опросить, все еще остается чрезвычайно много.

Но дело в том, что мне должно уж очень сильно не повезти, чтобы все 350 000 кошек, исключенные из опроса, не любили Whiskas. В большинстве случаев распределение этих 350 000 будет очень похоже на общее распределение всей популяции. Тут-то и открывается хитроумный шорткат. Предположим, я готов использовать выборку такого размера, чтобы в 19 случаях из 20 доля любящих Whiskas кошек в этой выборке отличалась от их доли во всей популяции не более чем на 5 процентов. Какого размера должна быть такая выборка? Как это ни удивительно, для определения предпочтений всех 7 миллионов кошек Соединенного Королевства с таким уровнем достоверности нужно опросить всего 246 кошек. То есть поразительно малое количество. Таково могущество математической статистики: она позволяет делать обоснованные утверждения по результатам опроса такого небольшого числа кошек. Когда я прошел курс статистики, я понял, почему нашу кошку никто не спрашивал, какая еда ей нравится.

Пользу методов, позволяющих судить о многом по малому, сознавали еще древние греки. В 479 году до н. э., когда союз городов-государств собирался напасть на город Платеи, нужно было узнать длину лестниц, необходимых, чтобы подняться на его стены. К городу отправили воинов, поручив им измерить образцы кирпичей, из которых были сложены городские стены. Взяв средний размер и умножив его на число кирпичей, которые были видны в стенах, нападавшие получили достаточно точную оценку высоты стен.

Но более замысловатые методы начали появляться лишь в XVII веке. В 1662 году Джон Граунт впервые оценил численность населения Лондона по числу похорон, проходящих в городе. Исходя из данных приходских книг, он предположил, что в каждых 11 семьях ежегодно умирают по 3 человека, а средний размер семьи составляет 8 человек. Поскольку в городе регистрировались 13 000 похорон в год, это позволило ему оценить численность населения Лондона в 384 000 человек. В 1802 году французский математик Пьер-Симон Лаплас пошел еще дальше: он использовал выборку записей о крещении в 30 приходах для получения оценки численности населения всей Франции. Из его анализа этих данных следовало, что на каждых 28,35 человека, живущих в каждом приходе, получалось по одному крещению. Воспользовавшись суммарным числом крещений во Франции за тот же год, он получил оценку численности населения страны – 28,3 миллиона человек.

Даже для определения количества кошек в Великобритании необходим статистический шорткат, позволяющий переходить от малого к большому. В случае кошачьего населения Великобритании можно использовать метод, сходный с тем, который применили греческие воины: измерить небольшую выборку и пропорционально увеличить результат. Зная число кошек на одного человека в малой выборке, можно получить оценку для всей страны, просто умножив его на суммарную численность населения. Но что делать, если нужно оценить суммарное количество барсуков, живущих в Великобритании в дикой природе? Поскольку ни один из этих барсуков не принадлежит людям, использовать количество людей, как в случае кошек, нельзя.

Вместо этого экологи используют хитроумный шорткат под названием «метод поимки с повторной поимкой». Он основан на той же стратегии, что и оценка Лапласа. Предположим, они пытаются оценить размеры популяции барсуков в графстве Глостершир. Сначала экологи ставят несколько ловушек и ловят барсуков в течение определенного периода. Откуда они знают, какую долю барсуков они поймали? Пока ниоткуда. Но вот на какую хитрость они идут. Они метят всех пойманных барсуков и снова отпускают их на волю, позволяя меченым животным вновь смешаться с общей популяцией. Затем устанавливают по всему графству видеокамеры, регистрирующие появление барсуков. Таким образом, они получают два разных числа: суммарное количество барсуков, замеченных камерами, и количество меченых барсуков. Это позволяет определить долю меченых животных среди попавших на камеру. Затем производится масштабирование. Зная, сколько всего в графстве меченых барсуков и какую часть всей популяции барсуков они составляют, можно оценить суммарное количество барсуков в графстве.

Предположим, например, что при первой поимке были пойманы и помечены 100 барсуков, а в выборке последующего видеонаблюдения меченым был 1 барсук из каждых 10. Предполагая, что во всей популяции такая же доля меченых животных, как и в наших видеозаписях, можно оценить ее суммарную численность в 1000 особей. В случае Лапласа новорожденные (число которых известно) соответствуют меченой части полной популяции (численность которой неизвестна), а подсчет количества новорожденных в 30 приходах (оба эти числа известны) соответствует этапу повторной поимки в эксперименте с барсуками.

Этот метод использовался для оценки всего на свете – от числа людей, находящихся сейчас в рабстве на территории Великобритании, до количества танков, производившихся в Германии во время Второй мировой войны.

Проблема с шорткатами заключается в том, что они не всегда ведут к знанию. Бывает так, что они сбивают с верной дороги, лишь создают иллюзию достижения ответа, тогда как на самом деле уводят за многие мили от той цели, до которой вам нужно добраться. Опасны этим и статистические шорткаты. Иногда они бывают не настоящими шорткатами, а способами срезать углы.

Хотя 246 кошек могут дать какое-то представление о предпочтении всего 7-миллионного кошачьего населения, на выборке из 10 кошек, разумеется, нечего и надеяться что-либо понять. Тем не менее в научной литературе есть масса примеров предполагаемых открытий, основанных на таких смехотворно малых выборках. Такое часто бывает во многих исследованиях по психофизике и нейрофизиологии, опубликованных в крупных журналах, просто потому, что набрать большое количество участников для таких исследований бывает трудно. Но можно ли в самом деле делать какие бы то ни было выводы из исследований, проведенных на двух макаках-резусах или четырех крысах?

К сожалению, о сенсационных открытиях типа «8 из 10 X предпочитают Y» часто объявляют, ничего не говоря о размерах использованной выборки, что не позволяет оценить вероятность того, что это открытие соответствует действительности.

Золотой стандарт для обоснованного сообщения о значительном открытии дают те параметры, которые я установил для создания представительной выборки в опросе о кошачьем корме. Тогда я решил, что меня устроит размер выборки, при котором предпочтения кошек будут правильно представлены в 19 случаях из 20.

Когда речь идет о научных открытиях и их потенциальной значимости, например, о действенности нового лекарства при лечении некоего заболевания, результаты можно считать значимыми, если вероятность того, что пациент выздоровел бы и без приема лекарства, составляет менее 1 шанса из 20. Предположим, вы придумали заклинание, делающее так, что подброшенная монета падает орлом. Большинство людей в это не поверит; что же вам нужно сделать, чтобы убедить их? Допустим, после применения вашего заклинания орел выпадает в 15 случаях из 20. Означает ли это, что заклинание, возможно, работает? Если подсчитать вероятность того, что при случайном подбрасывании «честной» (никак не измененной) монеты без заклинания в 15 случаях из 20 выпадет орел, окажется, что она составляет менее 1 шанса из 20. Значит, тот факт, что после применения вашего заклинания орел выпал 15 раз, позволяет предположить, что заклинание действительно работает.

Начиная с 1920-х годов пороговым уровнем вероятности случайного результата, необходимым, чтобы открытие можно было признать «статистически значимым» и пригодным для публикации, считают 1/20. Когда эта вероятность ниже, говорят, что P-значение меньше 0,05. Одна двадцатая означает 5-процентную вероятность того, что рассматриваемое событие произошло случайно.

Беда в том, что, если взять всего двадцать исследовательских групп, одна из них с очень высокой вероятностью может получить такой случайный результат. Девятнадцать групп займутся другими идеями, но двадцатая придет в чрезвычайно сильное волнение, так как будет считать, что получила значимый результат, соответствующий статистическому критерию пригодности для публикации. Легко понять, почему при использовании этого порогового критерия в научной литературе появляется такое количество сумасбродных гипотез. Именно поэтому появляются призывы перепроверять многие из результатов, опубликованных благодаря тому, что они прошли эту проверку на статистическую значимость.

Напротив, если P-значение результата равно 0,06 (то есть вероятность того, что он был получен случайно, составляет 6 процентов), его считают слишком недостоверным, чтобы его можно было признать статистически значимым, и часто отбрасывают. Однако такой критерий отбраковки гипотез может быть не менее опасен. Но об отрицательных результатах неинтересно писать в новостях. Поэтому девятнадцать исследовательских групп не пишут о том, что обнаружили отсутствие связи.

С такими порогами следует обращаться чрезвычайно осторожно. Если вы хотите определить, «честную» ли монету вы подбрасываете, такой критерий может быть вполне пригодным. Но представьте себе, что вы пытаетесь понять, связано ли количество неблагоприятных исходов у пациентов некоего врача с его некомпетентностью. Не хотелось бы расследовать деятельность каждого двадцатого врача. И все же в какой момент следует начинать беспокоиться?

Например, в сентябре 1998 года доктор Гарольд Шипман, уважаемый семейный врач, был арестован за то, что вколол по меньшей мере 215 пациентам смертельные дозы опиатов. Впоследствии группа статистиков, которую возглавлял Дэвид Шпигельхальтер, заявила, что аномалии в данных Шипмана можно было обнаружить гораздо раньше при помощи теста, применявшегося во время Второй мировой войны для контроля качества военных материалов; это могло спасти 175 жизней.