Парадокс Симпсона![]() Парадокс Симпсона (также Парадокс Юла — Симпсона или парадокс объединения) — явление в статистике, когда при наличии двух групп данных, в каждой из которых наблюдается одинаково направленная зависимость, при объединении этих групп направление зависимости меняется на противоположное. Например, подсчёты по некоторой группе людей могут говорить, что определённое лекарство увеличивает шанс выздоровления, и при этом если разделить группу на две (мужчин и женщин), то оказывается, что это лекарство уменьшает шанс выздоровления в каждой группе. Это явление было описано Эдвардом Симпсоном[англ.] в 1951 году и Удни Юлом в 1903 году. Название «парадокс Симпсона» впервые предложил Колин Блайт в 1972 году. Однако, так как Симпсон не был первооткрывателем этого эффекта, некоторые авторы используют безличные названия, например, «парадокс объединения». История открытия парадоксаПервый раз рассматриваемая ситуация отмечена Карлом Пирсоном в статье «Математический вклад в теорию эволюции»[1]. Он рассматривает зависимость признаков разнородных групп лошадей. Удни Юл делает более подробный анализ подобных популяционных изменений, изучая механизмы наследственности. Симпсон рассматривает то, что он называет «любопытным случаем» в нескольких разделах статьи «The Interpretation of Interaction in Contingency Tables»[2]. Симпсон был первым автором, изучавшим это явление с точки зрения статистики. Поэтому впоследствии математик К. Р. Блайт в статье «On Simpson’s Paradox and the Sure-Thing Principle»[3] вводит термин «парадокс Симпсона». ПримерыПример с фишкамиПусть есть четыре шляпы (две чёрных и две серых), 41 фишка (23 цветных и 18 белых) и два стола (А и Б). Фишки распределены по шляпам следующим образом:
Допустим, что вы хотите вытащить цветную фишку. Если вы находитесь около стола А, то вероятность извлечь цветную фишку из чёрной шляпы равна 5/11 = 35/77, а из серой шляпы на том же столе — 3/7 = 33/77; таким образом, цветную фишку больше шансов вытащить из чёрной шляпы, чем из серой. Если вы находитесь около стола Б, то вероятность извлечь цветную фишку из чёрной шляпы равна 6/9 = 84/126, а из серой шляпы — 9/14 = 81/126; таким образом, и здесь цветную фишку больше шансов вытащить из чёрной шляпы, чем из серой. Допустим теперь, что фишки из двух чёрных шляп сложены в одну чёрную шляпу, а фишки из двух серых шляп — в одну серую шляпу. На первый взгляд, логично было бы предположить, что вероятность вытащить цветную фишку из чёрной шляпы выше, чем из серой. Но это неверно:
то есть больше шансов извлечь цветную фишку из серой шляпы, чем из чёрной[4]. Пример с камнямиПусть мы имеем четыре набора камней. Вероятность вытащить чёрный камень из набора № 1 выше, чем из набора № 2. В свою очередь, вероятность вытащить чёрный камень из набора № 3 больше, чем из набора № 4. Объединим набор № 1 с набором № 3 (получим набор I), а набор № 2 — с набором № 4 (набор II). Интуитивно можно ожидать, что вероятность вытащить чёрный камень из набора I будет выше, чем из набора II. Однако в общем случае такое утверждение неверно. Действительно, пусть — число чёрных камней в -ом наборе (выборке), — общее число камней в -ом наборе при . По условию: Вероятность вытащить чёрный камень из наборов I и II, соответственно: Выражение для набора I не всегда больше выражения для набора II; то есть может случится, что Например, при , , , , , , , . Легко проверить, что , , в то время как . ПричиныПричина парадокса заключается в некорректном усреднении двух групп данных с различной долей контрольных наблюдений (нерепрезентативная выборка). Поскольку интуитивно предполагается, что при применении найденных зависимостей доля контрольных будет одинаковой в обеих группах, а в исходных данных это не выполняется, то к ним нельзя применять арифметическое усреднение. Для устранения проблемы, при усреднении необходимо использовать веса, устраняющие перекос доли контрольных. Так, в примере с фишками доля фишек в серой шляпе на столе А — 7 из 18 (39 %), а на столе Б — 14 из 23 (61 %). Для репрезентативного усреднения шанса вытянуть цветную фишку достаточно умножить количество фишек обоих цветов в одной из шляп на весовой коэффициент, устраняющий перекос. Например, если вместо одной серой шляпы на столе А поставить две таких же шляпы, то вероятности для каждого стола в отдельности не изменятся, но для объединения столов парадокс будет устранён: вероятность цветной фишки в серой шляпе станет 15/28, то есть меньше, чем из чёрной. Другой способ разрешения парадокса — использование формулы полной вероятности. Парадокс Симпсона показывает, что выводы из результатов социологических опросов с нерепрезентативной выборкой нельзя принимать как неопровержимые, доказанные научным путём. Практическая значимостьПарадокс Симпсона иллюстрирует неправомерность объединений нерепрезентативных выборок без учёта систематического перекоса выборки данных. Например, в ходе эксперимента в группе мужчин и группе женщин, больных одной и той же болезнью, к стандартному лечению прибавили новый лекарственный препарат. Результат по обеим группам в отдельности подтверждал эффективность нового средства.
Интуитивно предполагается, что если в обеих группах прослеживается зависимость, она должна проявиться и при объединении этих групп. Но хотя соотношение выздоровевших и больных среди и женщин, и мужчин, принимавших лекарство, больше, чем среди тех из них, кто его не использовал, в связи с нерепрезентативностью контрольной группы в агрегированных данных эта закономерность не сохраняется.
Соотношение в агрегированных данных 850/870<480/410, то есть 0,977<1,171, и доля выздоровевших среди принимавших лекарство оказывается меньше той же доли среди не принимавших. Для устранения парадокса нужно обратить внимание, что отношение контрольной группы к группе воздействия в приведённых группах резко различается: у мужчин составляет (80+130)/(700+800) = 14%, а у женщин (400+280)/(150+70) = 309%. Это явно систематическая погрешность, и для корректного усреднения нужно обеспечить репрезентативность контрольной группы в обеих выборках, введя весовые коэффициенты так, чтобы взвешенная доля контрольных в обеих группах стала одинаковой. В данном случае достаточно повысить вес результата тех редких мужчин, кто не принимал лекарства, в 22.07 раза. Измененные таблицы будут выглядеть так:
Соотношение взвешенного количества выздоровевших к не выздоровевшим среди не принимавших лекарство в этом случае составит 0,685, то есть ниже, чем у принимавших лекарство. Это устраняет парадокс и показывает отношение выздоровевших к не выздоровевшим без приема лекарства для такой же пропорции мужчин и женщин, как у принимавших лекарство, что позволяет сравнивать эти цифры. См. такжеПримечания
Ссылки
|
Portal di Ensiklopedia Dunia