Центральная статистика

В статистике центральная статистика[1] (также: пивот от англ. pivot и англ. pivotal quantity, центральная величина[2], опорная величина, ключевая величина) — это функция от наблюдений и неизвестных параметров, такая что распределение вероятностей [этой] функции не зависит от неизвестных параметров (включая мешающие параметры[3]. Центральная статистика не обязательно должна быть статистикой, функция и её значение могут зависеть от параметров в модели, но её распределение — не должно. Если функция является статистикой, то она называется вспомогательной статистикой[англ.].

Пусть[4]  — случайная выборка из распределения, которая зависит от параметра (или вектора параметров) . Пусть случайная переменная, распределение которой одинаково для всех . Тогда  — это центральная статистика (см. синонимы).

Центральные статистики часто используются для нормализации[англ.] для сравнения данных из разных наборов данных. Выразить центральные статистики для математического ожидания () и стандартного отклонения () довольно просто: для того, чтобы убрать первое, нужно взять разность, такую что сократится, а для последнего — отношение, такое что сократится.

Центральные статистики — это фундамент статистических критериев, поскольку они позволяют статистике не зависеть от параметров, например, t-статистика[англ.] для нормального распределения с неизвестной дисперсией и средним. Они также предоставляют метод построения доверительного интервала, а ещё использование центральных статистик улучшает результаты метода бутстрэп. Вспомогательная статистика используется для построения частотных интервалов предсказания[англ.] (доверительный интервал предсказания).

Примеры

Нормальное распределение

Одна из самых простых центральных статистик — это z-оценка. Дано нормальное распределение со средним и дисперсией и наблюдение , тогда z-оценка:

имеет распределение  — нормальное распределение со средним и дисперсией . Сходным образом, поскольку среднее выборки из элементов имеет выборочное распределение , то z-оценка среднего:

также имеет распределение . Обратим внимание, что хоть все эти функции зависят от параметров и мы можем их вычислить только если эти параметры известны (они не являются статистиками), — распределение z-оценки всё равно не зависит от параметров.

Дано наблюдений нормально распределённых независимых [одинаково распределённых] случайных величин с неизвестным средним и дисперсией . Тогда центральную статистику можно получить из функции:

,

где

и

это несмещённые оценки и соответственно. Функция  — это t-статистика Стьюдента[англ.] для нового значения , которое будет взято из той же генеральной совокупности, как и наблюдаемый набор данных .

Используя функция становится центральной статистикой, которая распределена по распределению Стьюдента с степеней свободы. Хоть является аргументом функции , распределение не зависит от параметров или нормального распределения из которого были получены наблюдения .

Это можно использовать для построения интервала предсказания[англ.] для следующего наблюдения ; См. Интервал предсказания $ Нормальное распределение[англ.].

Двумерное нормальное распределение

В более сложных случаях невозможно найти точные центральные статистики, тем не менее наличие приближённых центральных статистик улучшает сходимость к асимптотической нормальности[англ.].

Предположим, у нас есть выборка размера векторов , взятая из двумерного нормального распределения с неизвестной корреляцией .

В качестве оценщика можно взять выборочную корреляцию (Пирсона):

,

где ,  — выборочная дисперсия и . У выборочной статистики асимптотически нормальное распределение:

.

Тем не менее преобразование корреляционного коэффициента, стабилизирующее дисперсию[англ.],

,

известное как z-преобразование Фишера[англ.], позволяет сделать распределение асимптотически независимым от неизвестных параметров:

,

где соответствует параметру распределения. Для конечных выборок размером случайная величина будет иметь распределение ближе к нормальному, чем у [распределения] . Для получения ещё большей приближённости к стандартному нормальному распределению можно использовать для извлечения дисперсии лучшее приближение: обычно это

.

Робастность

С точки зрения робастной статистики, центральные статистики робастны относительно изменений в параметрах, в действительности не зависят от параметров, но в целом не робастны к изменениям в модели, поскольку нарушается предположение о нормальности. Это основополагающий момент для критики не-робастной статистики часто выводится из центральных статистик: такие статистики могут быть робастны внутри семейства, но не вне ей.

См. также

Примечания

  1. НИУ ВШЭ. Вероятностные коллоквиумы: Коллоквиум 4 (PDF). hse-tex.me. Дата обращения: 30 июня 2025.
  2. Э. Д. Лоувотер. Русско-английский словарь математических терминов. — Американское математическое общество, 1990. [1]
  3. Shao, J. Pivotal quantities // Mathematical Statistics. — 2nd. — New York : Springer, 2008. — P. 471–477. — ISBN 978-0-387-21718-5.
  4. DeGroot, Morris H. Probability and Statistics / Morris H. DeGroot, Mark J. Schervish. — 4th. — Pearson, 2011. — P. 489. — ISBN 978-0-321-70970-7.


Prefix: a b c d e f g h i j k l m n o p q r s t u v w x y z 0 1 2 3 4 5 6 7 8 9

Portal di Ensiklopedia Dunia

Kembali kehalaman sebelumnya