Регресія Демінга

У статистиці регресія Демінга, названа на честь Едвардса Демінга, є моделлю з похибками у змінних^[en], що використовується для знаходження найкращого наближення прямої для двовимірного набору даних. На відміну від простої лінійної регресії, регресія Демінга враховує похибки в спостереженнях як на осі x, так і на осі y. Вона є окремим випадком методу найменших квадратів, який дозволяє використовувати будь-яку кількість показників для прогнозування та складнішу структуру помилок.

Регресія Демінга є аналогом методу максимальної правдоподібності для моделі з похибками у змінних. Вона припускає, що похибки обох змінних є незалежними та нормально розподіленими, а також що співвідношення їхніх відхилень, позначене як $\delta$ ^[1], є відомим. На практиці це співвідношення може бути оцінене за допомогою відповідних джерел даних; однак процедура регресії не враховує можливі похибки при оцінці цього співвідношення.

Обчислення регресії Демінга є трохи складнішим, ніж простої лінійної регресії. Проте більшість статистичних програм, що використовуються в клінічній хімії^[en], підтримують цей метод.

Історія

Модель була вперше запропонована Адкоком у 1878 році, який розглядав випадок, коли $\delta$ = 1. Пізніше Куммел у 1879 році розширив цю концепцію, ввівши довільне значення $\delta$ . Однак їхні ідеї залишалися маловідомими протягом понад 50 років, поки їх не відновив Коопманс у 1937 році. Подальша популяризація відбулася завдяки Демінгу у 1943 році. Його книга здобула велику популярність у клінічній хімії та суміжних галузях, внаслідок чого цей метод отримав назву регресії Демінга.

Уточнення моделі

Припустимо, що наявні дані (y_i, x_i) є виміряними спостереженнями «істинних» значень (y_i*, x_i*), які розташовані на лінії регресії:

{\begin{aligned}y_{i}&=y_{i}^{*}+\varepsilon _{i},\\x_{i}&=x_{i}^{*}+\eta _{i},\end{aligned}}

де помилки ε та η є незалежними, а співвідношення їх відхилень вважається відомим:

\delta ={\frac {\sigma _{\varepsilon }^{2}}{\sigma _{\eta }^{2}}}.

На практиці відхилення параметрів $x$ та $y$ часто залишаються невідомими, що ускладнює процес оцінки $\delta$ . Варто зазначити, що якщо метод вимірювання для $x$ та $y$ є однаковим, то ці відхилення, ймовірно, також будуть подібними, тому $\delta =1$ для цього випадку.

Ми прагнемо визначити лінію «найкращого підходу»,

y^{*}=\beta _{0}+\beta _{1}x^{*},

яка мінімізує зважену суму квадратних залишків моделі^[2]:

SSR=\sum _{i=1}^{n}{\bigg (}{\frac {\varepsilon _{i}^{2}}{\sigma _{\varepsilon }^{2}}}+{\frac {\eta _{i}^{2}}{\sigma _{\eta }^{2}}}{\bigg )}={\frac {1}{\sigma _{\varepsilon }^{2}}}\sum _{i=1}^{n}{\Big (}(y_{i}-\beta _{0}-\beta _{1}x_{i}^{*})^{2}+\delta (x_{i}-x_{i}^{*})^{2}{\Big )}\ \to \ \min _{\beta _{0},\beta _{1},x_{1}^{*},\ldots ,x_{n}^{*}}SSR

Для детального виведення дивіться Jensen (2007)^[3].

Рішення

Рішення можна виразити через моменти вибірки другого ступеня. Спочатку необхідно обчислити такі величини (усі суми беруться від i = 1 до n):

{\begin{aligned}&{\overline {x}}={\frac {1}{n}}\sum x_{i},\quad {\overline {y}}={\frac {1}{n}}\sum y_{i},\\&s_{xx}={\tfrac {1}{n-1}}\sum (x_{i}-{\overline {x}})^{2},\\&s_{xy}={\tfrac {1}{n-1}}\sum (x_{i}-{\overline {x}})(y_{i}-{\overline {y}}),\\&s_{yy}={\tfrac {1}{n-1}}\sum (y_{i}-{\overline {y}})^{2}.\end{aligned}}

В результаті, оцінки параметрів моделі за методом найменших квадратів будуть^[4]

{\begin{aligned}&{\hat {\beta }}_{1}={\frac {s_{yy}-\delta s_{xx}+{\sqrt {(s_{yy}-\delta s_{xx})^{2}+4\delta s_{xy}^{2}}}}{2s_{xy}}},\\&{\hat {\beta }}_{0}={\overline {y}}-{\hat {\beta }}_{1}{\overline {x}},\\&{\hat {x}}_{i}^{*}=x_{i}+{\frac {{\hat {\beta }}_{1}}{{\hat {\beta }}_{1}^{2}+\delta }}(y_{i}-{\hat {\beta }}_{0}-{\hat {\beta }}_{1}x_{i}).\end{aligned}}

Ортогональна регресія

У випадку рівних відхилень похибки, коли $\delta =1$ , регресія Демінга перетворюється на ортогональну регресію: вона мінімізує суму квадратів перпендикулярних відстаней від точок даних до регресійної лінії. У цьому випадку позначимо кожне спостереження як точку z_j у комплексній площині (тобто, точка (x_j, y_j) буде записана як z_j = x_j + iy_j, де i — Уявна одиниця). Нехай Z — це сума квадратів відхилень точок даних від центроїда (також вираженого в комплексних координатах), який є точкою, координати якої є середніми значеннями відповідних даних. Тоді^[5]:

Якщо Z = 0, то будь-яка лінія, що проходить через центроїд, є лінією з найкращим ортогональним підходом.
Якщо Z ≠ 0, лінія ортогональної регресії проходить через центроїд і є паралельною вектору, що веде від початку координат до ${\sqrt {Z}}$ .

Тригонометричне представлення лінії ортогональної регресії було вперше запропоновано Куліджем у 1913 році^[6].

Додаток

Для трьох неколінеарних точок у площині, трикутник, що має ці точки як свої вершини, містить унікальний еліпс Штейнера, який дотикається до сторін трикутника в їхніх серединах. Велика вісь цього еліпса співпадає з лінією ортогональної регресії для трьох вершин^[7].

Див. також

Наближення прямою

Примітки

↑ (Linnet, 1993)
↑ Fuller, ch.1.3.3
↑ Jensen, Anders Christian (2007)
↑ Glaister (2001)
↑ Minda and Phelps (2008), Theorem 2.3.
↑ Coolidge, J. L. (1913)
↑ Minda and Phelps (2008), Corollary 2.4

Список літератури

Adcock, R. J. (1878). A problem in least squares. The Analyst. Annals of Mathematics. 5 (2): 53—54. doi:10.2307/2635758. JSTOR 2635758.
Coolidge, J. L. (1913). Two geometrical applications of the mathematics of least squares. The American Mathematical Monthly. 20 (6): 187—190. doi:10.2307/2973072.
Cornbleet, P.J.; Gochman, N. (1979). Incorrect Least–Squares Regression Coefficients. Clin. Chem. 25 (3): 432—438. PMID 262186.
Deming, W. E. (1943). Statistical adjustment of data. Wiley, NY (Dover Publications edition, 1985). ISBN 0-486-64685-8.
Fuller, Wayne A. (1987). Measurement error models. John Wiley & Sons, Inc. ISBN 0-471-86187-1.
Glaister, P. (2001). Least squares revisited. The Mathematical Gazette. 85: 104—107. doi:10.2307/3620485.
Jensen, Anders Christian (2007). Deming regression, MethComp package (PDF).
Koopmans, T. C. (1937). Linear regression analysis of economic time series. DeErven F. Bohn, Haarlem, Netherlands.
Kummell, C. H. (1879). Reduction of observation equations which contain more than one observed quantity. The Analyst. Annals of Mathematics. 6 (4): 97—105. doi:10.2307/2635646. JSTOR 2635646.
Linnet, K. (1993). Evaluation of regression procedures for method comparison studies. Clinical Chemistry. 39 (3): 424—432. PMID 8448852.
Minda, D.; Phelps, S. (2008). Triangles, ellipses, and cubic polynomials (PDF). American Mathematical Monthly. 115 (8): 679—689. MR 2456092.^{[недоступне посилання з липня 2019]}