Регресія Демінга. Червоні відрізки ілюструють похибки як по осі x, так і по осі y. Цей метод відрізняється від традиційного підходу найменших квадратів, який враховує похибки лише для y, тобто вимірює відстань від відрізків, паралельних осі y. На графіку відхилення визначається перпендикулярно до прямої. Така ситуація виникає, коли похибки по обох осях x і y мають однакове відхилення.
Регресія Демінга є аналогом методу максимальної правдоподібності для моделі з похибками у змінних. Вона припускає, що похибки обох змінних є незалежними та нормально розподіленими, а також що співвідношення їхніх відхилень, позначене як [1], є відомим. На практиці це співвідношення може бути оцінене за допомогою відповідних джерел даних; однак процедура регресії не враховує можливі похибки при оцінці цього співвідношення.
Обчислення регресії Демінга є трохи складнішим, ніж простої лінійної регресії. Проте більшість статистичних програм, що використовуються в клінічній хімії[en], підтримують цей метод.
Історія
Модель була вперше запропонована Адкоком у 1878 році, який розглядав випадок, коли = 1. Пізніше Куммел у 1879 році розширив цю концепцію, ввівши довільне значення . Однак їхні ідеї залишалися маловідомими протягом понад 50 років, поки їх не відновив Коопманс у 1937 році. Подальша популяризація відбулася завдяки Демінгу у 1943 році. Його книга здобула велику популярність у клінічній хімії та суміжних галузях, внаслідок чого цей метод отримав назву регресії Демінга.
Уточнення моделі
Припустимо, що наявні дані (yi, xi) є виміряними спостереженнями «істинних» значень (yi*, xi*), які розташовані на лінії регресії:
де помилки ε та η є незалежними, а співвідношення їх відхилень вважається відомим:
На практиці відхилення параметрів та часто залишаються невідомими, що ускладнює процес оцінки . Варто зазначити, що якщо метод вимірювання для та є однаковим, то ці відхилення, ймовірно, також будуть подібними, тому для цього випадку.
Ми прагнемо визначити лінію «найкращого підходу»,
яка мінімізує зважену суму квадратних залишків моделі[2]:
Для детального виведення дивіться Jensen (2007)[3].
Рішення
Рішення можна виразити через моменти вибірки другого ступеня. Спочатку необхідно обчислити такі величини (усі суми беруться від i = 1 до n):
В результаті, оцінки параметрів моделі за методом найменших квадратів будуть[4]
Ортогональна регресія
У випадку рівних відхилень похибки, коли , регресія Демінга перетворюється на ортогональну регресію: вона мінімізує суму квадратів перпендикулярних відстаней від точок даних до регресійної лінії. У цьому випадку позначимо кожне спостереження як точку zj у комплексній площині (тобто, точка (xj, yj) буде записана як zj = xj + iyj, де i — Уявна одиниця). Нехай Z — це сума квадратів відхилень точок даних від центроїда (також вираженого в комплексних координатах), який є точкою, координати якої є середніми значеннями відповідних даних. Тоді[5]:
Якщо Z = 0, то будь-яка лінія, що проходить через центроїд, є лінією з найкращим ортогональним підходом.
Якщо Z ≠ 0, лінія ортогональної регресії проходить через центроїд і є паралельною вектору, що веде від початку координат до .
Тригонометричне представлення лінії ортогональної регресії було вперше запропоновано Куліджем у 1913 році[6].
Додаток
Для трьох неколінеарних точок у площині, трикутник, що має ці точки як свої вершини, містить унікальний еліпс Штейнера, який дотикається до сторін трикутника в їхніх серединах. Велика вісь цього еліпса співпадає з лінією ортогональної регресії для трьох вершин[7].
Koopmans, T. C. (1937). Linear regression analysis of economic time series. DeErven F. Bohn, Haarlem, Netherlands.
Kummell, C. H. (1879). Reduction of observation equations which contain more than one observed quantity. The Analyst. Annals of Mathematics. 6 (4): 97—105. doi:10.2307/2635646. JSTOR2635646.