Центральная статистикаВ статистике центральная статистика[1] (также: пивот от англ. pivot и англ. pivotal quantity, центральная величина[2], опорная величина, ключевая величина) — это функция от наблюдений и неизвестных параметров, такая что распределение вероятностей [этой] функции не зависит от неизвестных параметров (включая мешающие параметры[3]. Центральная статистика не обязательно должна быть статистикой, функция и её значение могут зависеть от параметров в модели, но её распределение — не должно. Если функция является статистикой, то она называется вспомогательной статистикой[англ.]. Пусть[4] — случайная выборка из распределения, которая зависит от параметра (или вектора параметров) . Пусть случайная переменная, распределение которой одинаково для всех . Тогда — это центральная статистика (см. синонимы). Центральные статистики часто используются для нормализации[англ.] для сравнения данных из разных наборов данных. Выразить центральные статистики для математического ожидания () и стандартного отклонения () довольно просто: для того, чтобы убрать первое, нужно взять разность, такую что сократится, а для последнего — отношение, такое что сократится. Центральные статистики — это фундамент статистических критериев, поскольку они позволяют статистике не зависеть от параметров, например, t-статистика[англ.] для нормального распределения с неизвестной дисперсией и средним. Они также предоставляют метод построения доверительного интервала, а ещё использование центральных статистик улучшает результаты метода бутстрэп. Вспомогательная статистика используется для построения частотных интервалов предсказания[англ.] (доверительный интервал предсказания). ПримерыНормальное распределениеОдна из самых простых центральных статистик — это z-оценка. Дано нормальное распределение со средним и дисперсией и наблюдение , тогда z-оценка: имеет распределение — нормальное распределение со средним и дисперсией . Сходным образом, поскольку среднее выборки из элементов имеет выборочное распределение , то z-оценка среднего: также имеет распределение . Обратим внимание, что хоть все эти функции зависят от параметров и мы можем их вычислить только если эти параметры известны (они не являются статистиками), — распределение z-оценки всё равно не зависит от параметров. Дано наблюдений нормально распределённых независимых [одинаково распределённых] случайных величин с неизвестным средним и дисперсией . Тогда центральную статистику можно получить из функции:
где и это несмещённые оценки и соответственно. Функция — это t-статистика Стьюдента[англ.] для нового значения , которое будет взято из той же генеральной совокупности, как и наблюдаемый набор данных . Используя функция становится центральной статистикой, которая распределена по распределению Стьюдента с степеней свободы. Хоть является аргументом функции , распределение не зависит от параметров или нормального распределения из которого были получены наблюдения . Это можно использовать для построения интервала предсказания[англ.] для следующего наблюдения ; См. Интервал предсказания $ Нормальное распределение[англ.]. Двумерное нормальное распределениеВ более сложных случаях невозможно найти точные центральные статистики, тем не менее наличие приближённых центральных статистик улучшает сходимость к асимптотической нормальности[англ.]. Предположим, у нас есть выборка размера векторов , взятая из двумерного нормального распределения с неизвестной корреляцией . В качестве оценщика можно взять выборочную корреляцию (Пирсона):
где , — выборочная дисперсия и . У выборочной статистики асимптотически нормальное распределение:
Тем не менее преобразование корреляционного коэффициента, стабилизирующее дисперсию[англ.],
известное как z-преобразование Фишера[англ.], позволяет сделать распределение асимптотически независимым от неизвестных параметров:
где соответствует параметру распределения. Для конечных выборок размером случайная величина будет иметь распределение ближе к нормальному, чем у [распределения] . Для получения ещё большей приближённости к стандартному нормальному распределению можно использовать для извлечения дисперсии лучшее приближение: обычно это
РобастностьС точки зрения робастной статистики, центральные статистики робастны относительно изменений в параметрах, в действительности не зависят от параметров, но в целом не робастны к изменениям в модели, поскольку нарушается предположение о нормальности. Это основополагающий момент для критики не-робастной статистики часто выводится из центральных статистик: такие статистики могут быть робастны внутри семейства, но не вне ей. См. такжеПримечания
|
Portal di Ensiklopedia Dunia