`
Читать книги » Книги » Научные и научно-популярные книги » Математика » Цифры врут. Как не дать статистике обмануть себя - Том Чиверс

Цифры врут. Как не дать статистике обмануть себя - Том Чиверс

1 ... 5 6 7 8 9 ... 38 ВПЕРЕД
Перейти на страницу:
всего на 1 %, отбросив конкурента с его 21 % на близкое, но все равно обидное второе место. Также в группу лидеров вошли сэндвичи с беконом (19 %), шоколадные кексы (19 %) и крекеры с сыром (18 %).

В предыдущей главе мы видели, как выборки небольшого объема, случайно оказавшись неудачными, искажают результаты. Вывод же о перекусах делался на основе опроса онлайн-банка Raisin, в котором участвовало две тысячи человек. Звучит убедительно?

Только вот исследование может оказаться недостоверным и по другим причинам. Самая очевидная – выборка не представляет население в целом.

Ранее мы проводили мысленный эксперимент – вычисляли средний рост населения, измеряя случайных прохожих. А теперь представьте, что вы делаете это на съезде баскетболистов, – и мимо вас – внезапно – дефилируют толпы двухметровых людей. Средний рост в вашей выборке резко подскочит, хотя для населения в целом останется неизменным.

Такая выборка называется смещенной, или предвзятой. Обычно так говорят о людях: судья предвзято относится к моей команде; СМИ предвзято подходят к моей любимой политической партии. Статистическая предвзятость – про то же самое. Представьте, что вы проводите опрос – «Назовите лучший футбольный клуб за всю историю Англии?» – сначала на Энфилд-Роуд, а потом на Сэр Мэтт Басби-Уэй. Вы получите совершенно разные результаты, потому что у вас будут совершенно разные выборки. [7][8]

Вред от смещенных выборок отличается от вреда маленьких. При выборе небольших групп случайным образом вы, по крайней мере, при увеличении размеров выборки приближаетесь к точному результату. А при смещенных выборках этого не происходит – будет расти лишь ваша уверенность в неверном результате.

Например, в преддверии общенациональных выборов 2019 года Джереми Корбин, тогдашний лидер лейбористской партии, и Борис Джонсон, премьер-министр и лидер тори, провели теледебаты.

После этого компания YouGov, специалист по политопросам, выяснила, что среди телезрителей мнения о том, кто же был убедительнее, разделились почти поровну: 48 % считали, что Джонсон, 46 % – Корбин и еще 7 % не могли определить победителя. (Да, в сумме получается 101 %. Так бывает, если округлять числа до ближайшего целого.)

Это вызвало споры в интернете. В одном вирусном твите (более 15 000 лайков на настоящий момент) упоминалось, что результаты других опросов резко отличались от данных YouGov[9] (см. рисунок на следующей странице).

Четыре из пяти опросов показали, что Корбин явно выиграл дебаты. У единственного, давшего иной результат, объем выборки был в несколько раз меньше, чем у каждого из остальных. Тем не менее только его и цитировали на всех новостных каналах. Говорит ли это о предвзятом отношении СМИ к Корбину?

Скорее, это пример смещенных выборок. Те четыре опроса проводились в твиттере. Обычно это – просто безобидное развлечение (полуфинал мировой лиги чипсов: Monster Munch Pickled Onion против Walkers Cheese & Onion и т. д.). Но иногда вопросы бывают политическими.[10]

Беда в том, что твиттер не представляет всего населения. Соцсетью пользуется 17 % британцев, и среди них, согласно опросу 2017 года, больше молодежи, женщин и представителей среднего класса, чем в целом по стране. А молодежь, женщины и средний класс чаще голосуют за лейбористов. (Ну и, конечно, те, кто увидел эти опросы и поучаствовал в них, не представляют твиттер в целом.)

Большее число опрошенных делу не помогло бы. Проблема сохранилась бы, ведь выборка оставалась бы нерепрезентативной. Даже миллион человек – это все равно опрос пользователей твиттера, а не населения страны. Вы бы получили только более точное значение неверного ответа.

Репрезентативную выборку вообще получить очень трудно. Опрашивая людей в твиттере, вы не узнаете мнения тех, кто им не пользуется. То же самое верно и во всех других случаях. Если проводить опрос в интернете, вы упустите из виду тех, у кого его нет; если на улице, то не охватите тех, кто сидит дома. Раньше при проведении политических опросов было принято обзванивать респондентов, потому что стационарные телефоны стояли почти у каждого и так можно было без труда получить случайную выборку – просто выбирая номера случайным образом. Но в наше время этот способ даст сильно смещенную выборку, потому что те, у кого есть домашние телефоны (и кто отвечает на звонки с неизвестных номеров), отличаются от тех, у кого их нет.[11]

Есть способы, которые отчасти помогают обходить подобные трудности при выборе респондентов. Но идеала достичь невозможно: никого нельзя заставить участвовать в опросе, поэтому вам никогда не удастся полноценно представить тех, кто их ненавидит. Так что приходится идти обходным путем – снабжать результаты весами.

Представьте, что, согласно переписи, и мужчины, и женщины составляют по 50 % населения. Вы проводите опрос, стараясь получить максимально репрезентативную выборку. Из вашей тысячи респондентов 400 – женщины и 600 – мужчины. Вы задаете вопрос: «Нравится ли вам сериал „Анатомия страсти“?» Оказывается, что 400 человек его любят, а 600 – нет. Можно было бы решить, что «Анатомии страсти» симпатизирует 40 % населения. Но, уточнив данные, вы обнаруживаете гендерный перекос: сериал нравится 100 % женщин и 0 % мужчин.

Вы получили 40 % потому, что ваша выборка не репрезентативна для населения страны в целом. К счастью, это легко исправить. Достаточно присвоить результатам веса. Вы знаете, что в вашей выборке женщин всего 40 %, хотя должно быть 50 %. И поскольку 50 на 25 % больше 40, увеличиваете 400 ответов «да» на 25 % и получаете 500.

С мужчинами делаете то же самое. В вашей выборке их 60 %, а в несмещенной должно быть 50 %. 50 составляет 0,833… от 60, следовательно, здесь вес составит 0,833…

Поэтому полученный вами результат 600 вы умножаете на 0,833… и получаете 500. Теперь взвешенные результаты показывают, что 50 % населения нравится сериал «Анатомия страсти».

Можно действовать более тонко. Например, если оказалось, что 50 % ваших респондентов на последних выборах голосовали за консерваторов, а вы знаете, что страна в целом отдала за них 40 % голосов, а за лейбористов – 35 %, то можете снабдить свою выборку соответствующими весами. Или, если в выборке преобладают люди старшего возраста, потому что вы со своими расспросами звонили на домашние телефоны, но вы знаете распределение населения по возрастам, то у вас тоже получится скорректировать это с помощью весов.

Конечно, это можно использовать, только когда вам известны точные статистические сведения. Если же вы думаете, что женщин и мужчин поровну, а на самом деле их 60 % и 40 %, то введение весов только ухудшит результаты. Но реальные цифры часто известны из результатов переписи или голосования.

Есть и другие способы смещения выборки. Первой приходит на ум формулировка вопроса. Например, если вы спрашиваете, дать ли лекарство 600 пациентам, ответ будет разным в зависимости от того, скажете ли вы, что «200 человек будет спасено» или что «400 человек умрут», хотя с точки зрения логики эти формулировки равноправны. Этот эффект обрамления

1 ... 5 6 7 8 9 ... 38 ВПЕРЕД
Перейти на страницу:

Откройте для себя мир чтения на siteknig.com - месте, где каждая книга оживает прямо в браузере. Здесь вас уже ждёт произведение Цифры врут. Как не дать статистике обмануть себя - Том Чиверс, относящееся к жанру Математика / Обществознание  / Публицистика. Никаких регистраций, никаких преград - только вы и история, доступная в полном формате. Наш литературный портал создан для тех, кто любит комфорт: хотите читать с телефона - пожалуйста; предпочитаете ноутбук - идеально! Все книги открываются моментально и представлены полностью, без сокращений и скрытых страниц. Каталог жанров поможет вам быстро найти что-то по настроению: увлекательный роман, динамичное фэнтези, глубокую классику или лёгкое чтение перед сном. Мы ежедневно расширяем библиотеку, добавляя новые произведения, чтобы вам всегда было что открыть "на потом". Сегодня на siteknig.com доступно более 200000 книг - и каждая готова стать вашей новой любимой. Просто выбирайте, открывайте и наслаждайтесь чтением там, где вам удобно.

Комментарии (0)