Думай «почему?». Причина и следствие как ключ к мышлению - Джудиа Перл
Каково было определение конфаундеров тогда и каким оно должно быть теперь? Благодаря современным знаниям о логике причинности, на второй вопрос ответить проще. То, что мы наблюдаем и способны измерить, — это вероятность данного исхода при данном воздействии, P (Y | X). Вопрос, который мы задаем природе, имеет отношение к причинно-следственной связи между X и Y, которая выражается в интервенционной вероятности P (Y | do (X)). Конфаундеры, таким образом, должны быть определены просто как все, что приводит к несовпадению этих вероятностей: P (Y | X) ≠ P (Y | do (X)). Что тут сложного?
К сожалению, до 90-х годов XX века все было непросто, потому что оператор do еще не был формализован. Даже сегодня, если вы поймаете на улице статистика и спросите, что такое конфаундеры, вы, скорее всего, услышите самое запутанное и переусложненное объяснение, какое вам только доводилось слышать от ученого. Одна недавно вышедшая книга, написанная сразу двумя светилами статистики, объясняет, что это такое, на протяжении целых двух страниц, и мне еще, надеюсь, предстоит встретить ее читателя, который понял это объяснение.
Причина этих трудностей в том, что конфаундеры — понятие за рамками статистики. Это несоответствие того, что мы хотели бы получить (причинно-следственная связь), и того, что мы реально получаем статистическими методами. Если мы не в состоянии математически выразить то, что собираемся найти, то как мы определим несоответствие ему? Исторически концепция конфаундеров возникла вокруг двух связанных между собой концепций: несопоставимости и скрытой (вмешивающейся) третьей переменной. Обе эти концепции упорно не поддавались формализации. Когда мы говорили о сопоставимости в контексте эксперимента Даниила, мы утверждали, что подопытная и контрольная группы должны быть идентичны по всем важным параметрам. Но из этого неизбежно следует, что нам придется отличать важное от неважного. Откуда мы знаем, что в исследовании про ходьбу пожилых мужчин в Гонолулу возраст — это важный параметр? Почему мы знаем, что расположение фамилий участников этого исследования по алфавиту — параметр неважный? Можно сказать, что это очевидно или что это следует из здравого смысла, однако бесчисленные поколения ученых бьются над тем, чтобы как-то формализовать этот здравый смысл, поскольку робота поступать согласно человеческому здравому смыслу научить нельзя.
От такой же двусмысленности страдает и определение третьей переменной. Считать ли таковой только общую причину X и Y, или достаточно, чтобы эта переменная была скоррелирована с ними обеими? Сегодня мы отвечаем на такие вопросы, обращаясь к каузальной диаграмме и выясняя, какие переменные отвечают за несоответствие между P (X | Y) и P (X | do (Y)). Без диаграмм и оператора do пять поколений статистиков и медиков мучились с их суррогатами, ни один из которых не был полностью удовлетворяющим. То, что лекарства в вашей аптечке разработаны и испытаны на основе сомнительного определения конфаундеров, должно вызывать беспокойство.
Давайте взглянем на некоторые суррогатные дефиниции конфаундеров. Большинство их подпадает под одну из двух категорий — декларативную или процедурную. Типичное (и неверное) декларативное определение звучит так: «Конфаундер — это любая переменная, коррелирующая сразу и с X, и с Y». Процедурное определение, в свою очередь, будет пытаться определить конфаундер в терминах статистического анализа. Это нравится статистикам, которые обожают методы, применимые на имеющихся данных напрямую, без обращения к модели.
Вот процедурное определение, известное под пугающим названием «несхлопываемость». Оно появилось в статье 1996 года норвежского эпидемиолога Свена Хернберга: «Формально можно сравнить грубый относительный риск и относительный риск после поправок на потенциальные конфаундеры. Наличие разницы означает, что конфаундеры реально присутствуют, и в этом случае следует использовать скорректированную оценку риска. Если разницы нет или она пренебрежимо мала, конфаундеров нет и предпочтительнее использовать грубую оценку». Другими словами, чтобы узнать, есть ли влияние конфаундеров, попробуйте вводить по ним поправки или не вводить; если есть разница, есть и конфаундер. Конечно, Хернберг был далеко не первым, кто предложил такой подход; почти столетие он путал эпидемиологов, экономистов, социологов и до сих царит в некоторых областях практической статистики. Я выбрал определение Хернберга только потому, что он написал об этом неожиданно подробно и в 1996 году, когда Революция Причинности уже шла полным ходом.
Самое популярное из декларативных определений образовалось за некоторый промежуток времени. Альфредо Морабиа, автор книги «История методов и концепций в эпидемиологии», называет его «классическим эпидемиологическим определением конфаундеров» и оно состоит из трех частей. Конфаундером X (экспериментального воздействия) и Y (результата) называется переменная Z, которая: 1) ассоциирована с X в популяции в целом и 2) ассоциирована с Y среди тех, кто не получал экспериментального воздействия X. В последние годы к этому добавилось третье условие: Z не должно находиться на каузальном пути от X к Y.
Обратите внимание, что вся терминология в классической версии (1 и 2) чисто статистическая. В частности, допускается только, что Z ассоциировано с X и Y, а не является причиной их обеих. Эдвард Симпсон в 1951 году предложил довольно невразумительное условие: «Y ассоциируется с Z среди неэкспонированного». С каузальной точки зрения похоже, что идеей Симпсона было исключить ту часть корреляции Z с X, которая возникает благодаря каузальному воздействию X на Y; другими словами, он хотел сказать, что Z воздействует на Y независимо от его воздействия на X. Единственное, что ему удалось придумать для выражения этого исключения, сосредоточив внимание на контрольной группе (X = 0), было введение поправок по X. Статистический словарь, лишенный слова «воздействие», не оставлял ему возможности сказать это иначе.
Вам кажется, что это все сбивает с толку? Так оно и есть. Насколько проще было бы, если бы он мог просто нарисовать каузальную диаграмму, вроде той, что на рис. 26, и сказать «Y ассоциирована с Z через пути, не проходящие через X». Но у него не было этого инструмента, и он не мог говорить о путях, концепция которых была тогда под запретом.
У «классического эпидемиологического определения» конфаундеров есть и другие недостатки, как показывают следующие два примера:
1) X → Z → Y
и
2) X → M → Y
↓
Z
В первом примере Z удовлетворяет условиям (1) и (2), но
Откройте для себя мир чтения на siteknig.com - месте, где каждая книга оживает прямо в браузере. Здесь вас уже ждёт произведение Думай «почему?». Причина и следствие как ключ к мышлению - Джудиа Перл, относящееся к жанру Зарубежная образовательная литература / Прочая научная литература. Никаких регистраций, никаких преград - только вы и история, доступная в полном формате. Наш литературный портал создан для тех, кто любит комфорт: хотите читать с телефона - пожалуйста; предпочитаете ноутбук - идеально! Все книги открываются моментально и представлены полностью, без сокращений и скрытых страниц. Каталог жанров поможет вам быстро найти что-то по настроению: увлекательный роман, динамичное фэнтези, глубокую классику или лёгкое чтение перед сном. Мы ежедневно расширяем библиотеку, добавляя новые произведения, чтобы вам всегда было что открыть "на потом". Сегодня на siteknig.com доступно более 200000 книг - и каждая готова стать вашей новой любимой. Просто выбирайте, открывайте и наслаждайтесь чтением там, где вам удобно.


