Аргумент "2 моих знакомых...", или как сесть в лужу, не понимая статистики

40 5692

Есть у людей такая беда: они любят судить о больших и масштабных явлениях по отдельным редким примерам и микроскопическим выборкам. Что довольно глупо. Почему же? И как вообще надо делать правильные выводы? Давайте разберёмся! Тем более что намедни мне попался типичный пример подобного рассуждения.

"А вот два моих знакомых не прививались и не заболели…"

Да-да, вот именно такой "убийственный" довод. Полагаю, аргументы подобного рода каждый мог слышать неоднократно, причём в самых разных вариациях и по любому поводу. Кто-то не верит, что у нас в стране многие поддерживают Путина, потому что среди собственных знакомых никто его не поддерживает. Кто-то считает, что диски Seagate хуже Beyern, потому что вот у него лично целых три диска Seagate досрочно накрылось медным тазом за последние 10 лет. И так во всём. Но личный опыт микроскопического количества людей, как и вообще незначительное количество наблюдений доказывает примерно ничего. Всё равно что судить о средней яркости звёзд на небе по яркости одной случайно выбранной звезды (которой совершенно случайно™ может оказаться некая звезда по имени Солнце).

Самое парадоксальное, что даже такие люди часто вполне себе понимают: по одному человеку, по одному примеру судить ни о чём нельзя. Но в то же время почему-то им кажется, что 2 случая - а тем более 3 - это сразу же невероятно убедительно и всё резко меняет. Это же в 2, а то и в ТРИ раза больше!!!1!111 (разумеется, число восклицательных знаков тут самым непосредственным образом влияет на убедительность только в глазах легко внушаемых людей)

Чтобы было понятнее, расскажу, как НА САМОМ ДЕЛЕ надо понимать примеры вида "два моих знакомых что-то там". Заодно станет немного понятнее то, каким образом из данных ограниченного объёма делают действительно обоснованные выводы.

Не очень точно и не очень дорого

Есть одна известная наука, которая постоянно оперирует очень приблизительными оценками на не очень больших выборках. Это социология.

Исследовать всё население страны и получить точные цифры невероятно дорого и сложно. Все мы представляем демократические выборы с урнами и избирательными комиссиями, сколько для этого нужно средств, людей, какая это длительная организационная работа. Но не будешь же каждый раз такие "выборы" устраивать, чтобы узнать предпочтения граждан в еде или их отношение к политике властей Южного Судана?

Нас выручает то, что на практике идеальная точность всеобщего анализа генеральной совокупности за такие огромные деньги нужна далеко не всегда, достаточно примерного результата. Опросить можно далеко не всех, при этом получить далеко не идеальный, но всё-таки осмысленный вывод. Социологи давно уже научились в хвост и гриву использовать методы математической статистики для получения практически полезных результатов допустимой точности.

И поэтому в наших исследованиях смело воспользуемся вот этим калькулятором от наших друзей социологов на сайте SocioLine.

Погрешность выборки из "двух знакомых"

Настало время для конкретных цифр. У нас есть выборка в 2 человека. Выберем точность 99%, размер выборки 2, генеральная совокупность 150000000 (примерное население России), число "положительных ответов" (100% выборки) - 2. Сайт расчитает нам доверительный интервал - 91.22%.

Что значит это странное число, как его понимать?

Под калькулятором есть пояснения для интересующихся, где на пальцах всё объясняется. Как нетрудно видеть, в нашем конкретном случае это всё значит, что с вероятностью не менее 99% (то есть в 99 случаях из 100) на выборках из двух человек "положительный" ("не привит и не заболел", "никто не поддерживает Путина", "все диски Seagate быстро сломались" итд итп) исход составит от 8.78% до 100%. То есть реально исход может быть почти какой угодно (с разнообразием возможных значений от 8% до 100%).

Вот так, к сожалению, мы ничего из этих "двух знакомых" извлечь не сможем. "Завтра днём в городе температура от -25℃ до +38℃", - как бы вы отнеслись к такому прогнозу погоды? Что это за "точность" такая, когда даже зиму от лета не отличишь?

В поисках статистической значимости...

После того, как стало понятно, что по выборке из двух случаев даже среднегодовую погоду на Марсе не посчитаешь, зададимся вопросом: насколько же большой должна быть выборка, чтобы всё-таки получить какой-нибудь более осмысленный результат? Ну, скажем, сколько нужно, чтобы с точностью 99% получить погрешность не в гигантские 91%, а всего лишь 1%?

Вбиваем в калькулятор точность 99%, доверительный интервал 1%, генеральную совокупность 150000000, и получаем расчётную выборку размера 16639. То есть нужно более 16 тыс. человек, чтобы получить настолько хороший статистически осмысленный результат. Сомневаюсь, что у кого-то есть столько знакомых - тем более непривитых.

О том, что и сама выборка "мои знакомые" в принципе не обладает репрезентативностью, а потому крайне плохо отражает генеральную совокупность, я уже особо и говорить не буду. Просто напомню древнее наблюдение: "Согласно опросу на главной странице Яндекса, 100% населения России пользуются доступом в сеть Интернет". Ценность подобных гениальных умозаключений так себе.

Точность типичного соцопроса

16 тыс. человек - это, конечно, невероятно много для непосредственных знакомств одного человека. Но очень мало в масштабах всей нашей страны. Социологи обычно проводят опросы с ещё меньшей выборкой - 1600 человек. Насколько же велика погрешность в таких исследованиях, можно ли им вообще верить?

Как следует из данных калькулятора, погрешность такой выборки составляет около 2.5% при точности 95%. Это и есть величина возможной ошибки. Так что если мы где-то видим новость типа "63% жителей страны не могут найти на карте Аргентину" и мелким шрифтом "выборка 1600 человек", то это значит, что реальное количество неспособных найти Аргентину с вероятностью не менее 95% составляет где-то от 61.5% до 66.5%. Ничего более точного из результатов этого опроса мы узнать не сможем. Но для примерной оценки степени ужасающего геокартографического кретинизма граждан этого более чем достаточно.

Почему именно выборка в 1600 испытуемых так популярна? Потому что работа с таким количеством людей стоит сравнительно недорого (это вам не 150 миллионов изучить), а примерная оценка с разбросом значений шириной в 5% для большинства социологических и маркетинговых исследований очень даже хороший результат. Такой вот компромисс между ценой и качеством.

Надеюсь, после такого экскурса в азы статистики наши читатели тоже начнут адекватнее воспринимать любые новости о каких-то там процентах чего бы то ни было.

Выводы

Сделаем выводы?

Как нетрудно видеть, метод оценки "два моих знакомых" работает примерно так же хорошо, как оценка средней яркости звёзд небосвода по яркости всего двух звёзд: Солнца и Проксимы Центавра. То есть никак не работает. Можно с той же точностью судить о чём угодно по среднегодовой погоде на Марсе.

Для по-настоящему обоснованных выводов нужно больше данных, существенно больше. Причём, на самом деле, не каких попало ("мои знакомые", "мои убеждённые сторонники" уж точно не годятся), а случайных и репрезентативных.

Чтобы не садиться в лужу и не показывать себя человеком совсем уж глупым, следует таких нелепых доводов избегать. Окружающие же засмеют. И вообще, любые проценты чего бы то ни было воспринимать нужно с умом, правильно и научно обоснованно.

Рекоммендую продолжение, в котором будет подробнее рассмотрена проблема нерепрезентативности круга знакомых.

«Крокус-покус» Агаларовых: здание в кадастре не числится, а работали дети и самозанятые

Многие наверняка обратили внимание на школьников, выводивших людей из «Крокус Холла» в ходе теракта 22 марта. Они прославились на всю страну и получили уже немало наград. Правда, юридич...

Русская ракета попала "куда нужно". Варшава спешно отправила в отставку инструктора ВСУ после смерти генерала
  • ATRcons
  • Вчера 20:06
  • В топе

Решение об отстранении было принято на основании данных контрразведки Польши. Кадровые перестановки в "Еврокорпусе"  Пресс-служба Министерства обороны Польши сообщает об уволь...

Наши спортфедерации потоком отказываются от Олимпиады

"Слать команду бомжей не будем!" Федерации одна за другой посылают Париж-2024 лесом.История с допуском-недопуском наших спортсменов на парижские ОИ уже изрядно приелась. Столько было сл...

Обсудить
  • "Интернет-опрос показал, что 100% населения пользуется интернетом" (с) :smirk:
  • Выборки тоже нужно делать по правилам. Потому что опрос на выходе университета будет разительно отличаться от опроса такого же количества подопытных на входе в храм божеский.
  • :thumbsup: жаль у нас даже в правительстве большинству не нужны реальные цифры
  • - Вы же знаете, у него есть счетная машинка, он теперь все подсчитывает. Услышал об урожае, пошевелил губами, достал машинку и что-то подсчитал. То ли разделил урожай на население минус скот, то ли помножил свои дни на количество съедаемого хлеба и сумму подставил под урожай в качестве знаменателя. У него есть счетная машинка, он все время считает, он как бы участвует в управлении страной. Он прикинул количество чугуна на каждую нашу душу. А бюджеты, расходы, займы... У нас же никогда не было времени считать, мы же не могли проверить. Теперь Госплану нужно действовать очень осторожно, потому что он его все время проверяет. Мальчику десять лет, и он такой способный. http://www.jvanetsky.ru/data/text/ap/utesovu/