«Руководство скептика по Вселенной»: Как отличить реальность от вымысла в мире, который тонет в фальши. - Steven Novella

Name: «Руководство скептика по Вселенной»: Как отличить реальность от вымысла в мире, который тонет в фальши. - Steven Novella
Author: Steven Novella

ВПЕРЕД

Перейти на страницу:

и Ури Симонсон раскрыли последствия использования «степеней свободы исследователя». Под этим понимается выбор момента для прекращения сбора данных, отслеживаемых переменных, проводимых сравнений и применяемых статистических методов — то есть всех тех решений, которые исследователям приходится принимать в ходе любого исследования. Если же при принятии этих решений они каким-либо образом отслеживают данные или промежуточные результаты, они могут сознательно или бессознательно злоупотреблять своими «степенями свободы», чтобы достичь заветного p-значения 0,05. На самом деле Симмонс показал, что получить p-значение, равное 0,05, можно в 60 процентах случаев даже на абсолютно отрицательных данных.

Симонсон отмечает, что p-значения в опубликованных работах подозрительно группируются около уровня 0,05 — а это указывает на то, что исследователи занимались p-хакингом до тех пор, пока не достигали этого минимального порога, необходимого для публикации.

Существуют и более прямые доказательства того, что p-хакинг действительно имеет место. Обзор, опубликованный в журнале PLOS One в 2009 году, показал, что 33 процента опрошенных исследователей признались в использовании одного или нескольких сомнительных методов. Каких именно сомнительных методов? Тех самых, которые сводятся к p-хакингу.

Скорее всего, по большей части p-хакинг совершается без злого умысла: исследователи просто не понимают, что, по сути, жульничают. Например, если вы просматриваете данные по мере их сбора, вы можете решить, что, как только преодолеете порог p = 0,05, сбор данных можно прекратить и отправлять работу в печать.

Само по себе отслеживание данных не является сомнительным и часто требуется в медицинских исследованиях для того, чтобы убедиться, что испытуемым не наносится вред. Но такое отслеживание должно проводиться независимо от главного исследователя, собирающего данные для публикации. Или, по крайней мере, количество испытуемых должно быть определено заранее, а не меняться в процессе мониторинга поступающих данных.

По сути, любые изменения, которые исследователь вносит в работу после ознакомления с данными, могут оказаться p-хакингом. Это происходит потому, что такие изменения меняют статистические показатели. P-хакинг — это, по сути, выуживание данных или многократное бросание костей с подсчетом только тех результатов, которые вам нравятся.

Еще одна причина, по которой многое из публикуемого не отражает действительность, кроется в проблеме воспроизводимости результатов.

Независимые повторные исследования — это действительно высший арбитр в определении того, что в науке реально. Любое единичное исследование может оказаться случайностью или продуктом предвзятости. Однако только реальные явления должны проявляться в данных, независимо от того, кто именно проводит исследование.

Точные репликации особенно полезны, поскольку по определению исключают все степени свободы. Все решения касательно сбора и анализа данных уже были приняты в том исследовании, которое воспроизводится.

Многие считают, что в современной науке существует проблема воспроизводимости результатов. В опросе 2016 года, опубликованном в журнале Nature, 52 процента опрошенных ученых выразили это мнение, основываясь на собственном опыте безуспешных попыток воспроизвести чужую работу.

Было предпринято несколько в основном безуспешных и ныне широко известных попыток воспроизвести знаковые исследования в области психологии и других наук. В ходе одной из таких попыток в 2015 году, охватившей сто психологических исследований, только тридцать девять из них были признаны успешно воспроизведенными.

Эта проблема касается не только психологии, но, как уже говорилось выше, такие области, как психология и медицина, которые отличаются высокой степенью «шума» при измерении результатов (то есть данные изначально изменчивы), как правило, отличаются более высокой долей ложноположительных результатов.

Помните нашего друга Дэрила Бема? Проблема с его исследованиями пси-явлений заключалась в том, что он занимался p-хакингом. Фактически в интервью 2017 года Бем по сути признал, что использовал методы исследования, предназначенные для «прочесывания» данных в поисках эффекта:

«Я полностью за строгость, — продолжил он, — но предпочитаю, чтобы этим занимались другие. Я понимаю ее важность — кому-то это даже нравится, — но у меня на это не хватает терпения». По его словам, ему было трудно перейти в область, где данные имеют столь решающее значение. «Если посмотреть на все мои прошлые эксперименты, они всегда были риторическими приемами. Я собирал данные, чтобы подтвердить свою правоту. Я использовал данные как инструмент убеждения и никогда особо не беспокоился о том, воспроизведется это или нет».

Бем не смог удержаться от p-хакинга, чтобы спасти свой провалившийся эксперимент с пси-явлениями. Он изменил правила специально для того, чтобы оказаться победителем, — и научное сообщество посмотрело на него точно так же, как моя дочь смотрела на своего двоюродного брата: «Хорошая попытка, Бем».

Как это исправить

Проблемы как с p-хакингом, так и с чрезмерным использованием p-значения вполне решаемы. Одно из важных решений, как уже говорилось выше, — начать выше ценить точные репликации. Ценность в науке определить легко: это то, что публикуют, что финансируют и что способствует вашему академическому продвижению.

Статистик Эндрю Гельман из Колумбийского университета предлагает исследователям проводить работу в несколько этапов. Сначала собрать предварительные данные и, если они выглядят многообещающе, разработать план репликации, где все решения по сбору данных будут определены заранее. Затем зарегистрировать методы исследования до начала сбора каких-либо данных. И наконец, собрать новый набор данных в соответствии с опубликованной методикой. По крайней мере, тогда мы получим честные p-значения и избавимся от p-хакинга.

Исследователи не должны полагаться только на p-значения. Им также следует указывать размер эффекта и доверительные интервалы, которые позволяют взглянуть на данные более детально. Крошечные величины эффекта (недельная простуда сократилась в среднем на один час — подумать только!), какими бы значимыми они ни были, всегда вызывают сомнения, поскольку на результаты могут повлиять едва заметные, но систематические искажения, ошибки или неизвестные факторы.

Саймонсон выступает за то, чтобы исследователи раскрывали абсолютно все, что они делают, — все решения касательно сбора и анализа данных. Так они, по крайней мере, не смогут скрыть свой p-хакинг, а сама необходимость раскрытия информации будет препятствовать такой практике. Нуццо и другие рекомендуют шире использовать байесовский анализ, о котором мы говорили ранее, задаваясь вопросом: какова общая вероятность того, что этот эффект реален?

Каково же положение дел?

Если отбросить всю математику, то для обычного любителя науки или для практикующего специалиста, опирающегося на научный подход, все это означает, что при оценке любого нового научного исследования или утверждения необходимо не ограничиваться только p-значениями. Кроме того, оценивая научное исследование, ищите признаки p-хакинга: было ли у исследователей пространство для маневра, позволявшее им при необходимости менять правила игры ради получения желаемого результата?

Мы все еще можем обрести высокую степень уверенности в том, что то или иное явление реально. Вот что требуется, чтобы исследование было убедительным:

1. Строгие исследования, которые, по всей видимости, сводят

ВПЕРЕД

Перейти на страницу: