Думай «почему?». Причина и следствие как ключ к мышлению - Джудиа Перл
Фишер уже рвался в бой. Он знал, что является ведущим статистиком мира и во многом практически изобрел этот предмет, однако ему было запрещено преподавать на отделении статистики. Отношения были необычайно напряженными. «Комнату преподавателей тщательно делили, — пишет Констанс Рид в своей биографии Неймана. — Группа Пирсона пила чай в 4 часа; в 4:30, когда они благополучно удалялись, десантировалась группа Фишера».
В 1935 году Нейман прочитал в Королевском статистическом обществе лекцию под названием «Статистические проблемы сельскохозяйственных экспериментов», в которой подверг сомнению некоторые методы Фишера, а также между прочим обсудил идею потенциальных результатов. Когда Нейман закончил, Фишер встал и заявил, что «надеялся, что статья доктора Неймана будет посвящена теме, с которой автор полностью знаком».
«[Нейман] утверждал, что Фишер был неправ, — писал Оскар Кемпторн много лет спустя об этом инциденте. — Это было непростительное преступление — Фишер никогда не ошибался, и предположение о том, что это, возможно, расценивалось как вооруженное нападение. Всякий, кто не принимал писания Фишера как данную Богом истину, был в лучшем случае глупцом, а в худшем — злодеем». Несколько дней спустя Нейман и Пирсон увидели всю силу его гнева, когда вечером пришли на факультет и обнаружили разбросанные по полу деревянные модели Неймана, которыми он иллюстрировал свою лекцию. Они пришли к выводу, что только Фишер мог устроить эти разрушения.
Хотя сейчас этот приступ ярости покажется забавным, позиция Фишера имела серьезные последствия. Конечно, он не был способен обуздать свою гордость и использовать запись потенциального результата, предложенную Нейманом, хотя это помогло бы ему позже с проблемами медиации. Отсутствие языка потенциальных результатов привело его и многих других к так называемой ошибке посредничества, которую мы обсудим в главе 9.
На этом этапе некоторые читатели, вероятно, все еще считают концепцию контрфактивности несколько мистической, поэтому я хотел бы показать, как некоторые последователи Рубина делают выводы о потенциальных результатах, и противопоставить этот безмодельный подход структурной причинно-следственной модели.
Представим, что мы изучаем конкретную компанию, пытаясь понять, что сильнее влияет на зарплату сотрудника — образование или многолетний стаж. Мы собрали данные о существующих зарплатах в этой компании и записали их в табл. 12. Условимся, что EX — стаж, ED — образование, S — зарплата. Также для простоты предположим, что существуют три уровня: 0 = средняя школа, 1 = высшее образование, 2 = ученая степень. Таким образом, SЕD = 0(u) или S0(u) представляет собой зарплату человека u, если u окончил среднюю школу, но не университет, а S1(u) представляет зарплату u, если бы тот окончил университет. Типичный контрфактивный вопрос, который можно было бы задать, звучит так: какой была бы зарплата Элис, если бы у нее было высшее образование? Другими словами, чему равна S1 (Элис)?
Первое, на что следует обратить внимание в табл. 12, — это отсутствующие данные, отмеченные вопросительными знаками. Для одного и того же человека нельзя увидеть более одного потенциального результата. Несмотря на всю очевидность, это важное утверждение. Статистик Пол Холланд однажды назвал его фундаментальной проблемой причинного вывода, и название прижилось. Если бы мы могли заполнить клетки с вопросительными знаками, то ответили бы на все наши вопросы о причинности.
Я никогда не был согласен с представлением Холланда об отсутствующих данных в табл. 12 как о «фундаментальной проблеме», возможно, потому, что я редко представлял проблемы причинности в виде таблицы. Но если подойти к делу фундаментально, становится понятно, что его подход чреват огромными заблуждениями, что мы вскоре увидим. Обратите внимание, что, помимо декоративных заголовков последних трех столбцов, табл. 12 полностью лишена каузальной информации о ED, EX и S, например о том, влияет образование на заработную плату или наоборот. Хуже того, она не позволяет нам представлять такую информацию, даже когда она доступна. Но статистикам, которые видят фундаментальную проблему в отсутствии данных, такая таблица, кажется, открывает безграничные возможности. Действительно, если смотреть на S0, S1 и S2 не как на потенциальные результаты, а как на обычные переменные, у нас есть десятки методов интерполяции для заполнения пробелов или, как сказали бы статистики, условного расчета недостающих данных некоторым оптимальным образом.
Таблица 12. Вымышленные данные для примера с потенциальными результатами
Один из распространенных подходов — сопоставление. Мы ищем пары людей, которые хорошо совпадают по всем переменным, кроме интересующей нас, а затем заполняем их строки, чтобы они соответствовали друг другу. Явный пример здесь — случай Берта и Кэролайн, которые идеально совпадают по стажу. Мы предполагаем, что, если бы у Берта была магистерская степень, он получал бы столько же, сколько Кэролайн (97,0 тысяч долларов), а если бы у Кэролайн была только степень бакалавра, она получал бы, как Берт (92,5 тысяч долларов). Обратите внимание, что сопоставление подразумевает ту же идею, что и ограничение по какому-то фактору (или расслоение): мы выбираем для группы, которые разделяют наблюдаемую характеристику, и используем сравнение, чтобы сделать вывод о характеристиках, которые у них, похоже, не совпадают.
Зарплату Элис трудно оценить таким образом, потому что в данных, которые я привел, для нее нет совпадения. Тем не менее статистики разработали весьма тонкие методы, чтобы сделать условный расчет на основе приблизительных совпадений, и Рубин был одним из пионеров этого подхода. К сожалению, даже самые одаренные его представители не могут превратить данные в потенциальные результаты — даже приблизительно. Ниже я покажу, что правильный ответ принципиально зависит от того, влияет образование на опыт или наоборот, о чем в таблице нет никакой информации.
Второй возможный метод — это линейная регрессия (не путать со структурными уравнениями). В этом подходе мы делаем вид, что данные пришли из какого-то неизвестного случайного источника, и используем стандартные статистические методы, чтобы найти линию (или в данном случае плоскость), которая наилучшим образом соответствует данным. Результатом такого подхода выступает уравнение, которое выглядит следующим образом:
S = $65 000 + 2 500 ¥ EX + 5 000 ¥ ED (4)
Уравнение (4) говорит нам, что базовая зарплата сотрудника без опыта и только с аттестатом об окончании средней школы составляет (в среднем) 65,0 тысяч долларов. За каждый год опыта заработная плата увеличивается на 2,5 тысяч, а за каждую дополнительную образовательную ступень (до двух) зарплата увеличивается на 5,0
Откройте для себя мир чтения на siteknig.com - месте, где каждая книга оживает прямо в браузере. Здесь вас уже ждёт произведение Думай «почему?». Причина и следствие как ключ к мышлению - Джудиа Перл, относящееся к жанру Зарубежная образовательная литература / Прочая научная литература. Никаких регистраций, никаких преград - только вы и история, доступная в полном формате. Наш литературный портал создан для тех, кто любит комфорт: хотите читать с телефона - пожалуйста; предпочитаете ноутбук - идеально! Все книги открываются моментально и представлены полностью, без сокращений и скрытых страниц. Каталог жанров поможет вам быстро найти что-то по настроению: увлекательный роман, динамичное фэнтези, глубокую классику или лёгкое чтение перед сном. Мы ежедневно расширяем библиотеку, добавляя новые произведения, чтобы вам всегда было что открыть "на потом". Сегодня на siteknig.com доступно более 200000 книг - и каждая готова стать вашей новой любимой. Просто выбирайте, открывайте и наслаждайтесь чтением там, где вам удобно.


