Однофакторный дисперсионный анализ Фишера

Элементы дисперсионного анализа. Критерий Фишера

Приведем понятия, которые используем в дальнейшем. В математической статистике (а это основной математический аппарат обработки результатов моделирования) широко используется понятие гипотезы.

Гипотезойназывается предположение о:

  • законах распределения вероятностей случайных величин;
  • значениях характеристик случайных величин;
  • совпадении законов распределения двух и более случайных величин и др.

Обычно исходную гипотезу называют нулевой и обозначают Противоположное утверждение называют конкурирующей гипотезой и обозначают

Гипотеза подвергается проверке. Смысл этой проверки в том, чтобы принять или отклонить ее с допустимым минимальным риском. При этом возможны ошибки:

  • забраковать проверяемую гипотезу, если она верна, что соответствует так называемой ошибке первого рода ;
  • принять проверяемую гипотезу, когда она не верна,значит совершить ошибку второго рода.

Правило, которому принимается суждение об истинности или ложности основной гипотезы называют критерием проверки или критерием согласия.

В практике моделирования и обработки экспериментальных данных очень часто необходимо решать проблему подтверждения или опровержения гипотезы о принадлежности двух или более выборок одной генеральной совокупности.

К такой проблеме приводят такие задачи:

  • сравнительная оценка различных технологических процессов по их производительности, точности, экономичности;
  • сравнение конструктивных особенностей приборов, машин, средств вооружения и др.

Признаки, по которым проводится сравнительная оценка, часто не являются детерминированными, обладают рассеиванием. Например, точность никогда не может быть абсолютной, так как измерительные приборы всегда несут в себе ошибку.

Наиболее общим и часто применяемым на практике методом сравнения качеств объектов является дисперсионный анализ.

Сущность дисперсионного анализа состоит в проверке гипотезы о тождественности выборочных дисперсий одной и той же генеральной дисперсии.

Почему исследователей интересует сравнение именно дисперсий, а не каких-либо других характеристик? Заметим, что есть методики сравнения, например, матожиданий и др., но они не обладают такой общностью, как дисперсионный анализ.

А дело в том, что дисперсия характеризует важные конструкторские и технологические показатели как:

  • точность приборов;
  • рассеивание точек попадания при стрельбе и др.

И еще дисперсионный анализ одновременно решает проблему проверки гипотезы о равенстве средних значений выборок.

Задача сравнения дисперсий сводится к проверке исходной гипотезы (нулевой гипотезы ) о принадлежности двух выборок

одной и той же генеральной совокупности.

Для проверки гипотезы о равенстве дисперсий нужно иметь независимую функцию, вычислимую по данным эксперимента.

Такой функцией является функция Фишера (распределение Фишера, F -распределение), определяемая так:

где и случайные величины, имеющие распределение ;

и соответствующие степени свободы случайных величин и соответственно, , ;

и — количество испытаний (объемы выборок).

Почему является мерой сравнения дисперсий? А потому, что дисперсии, являясь суммой квадратов ошибок, имеют распределение .

Распределение хи-квадрат определяется следующим образом:

где — число степеней свободы, — число Эйлера (2,71…), — гамма-функция.

График плотности F -распределения показан на рис. 5.2.

Итак, случайная величина

где и — несмещенные оценки дисперсий, полученных из независимых выборок, взятых из нормальных совокупностей, имеет распределение Фишера ( F -распределение).

Рис. 5.2. График плотности F -распределения

Величина F — случайна, поэтому судить однозначно по ее величине о подтверждении или опровержении гипотезы об однородности исследуемых выборок нельзя.

Поэтому вводится уровень значимости, численно равный вероятности неприемлемых отклонений от принятой гипотезы. Области неприемлемых значений показаны на рис. 5.2 штриховкой. Граничные точки допустимых значений определяются точками и , соответствующих вероятностям .

Читайте также:  Анализ ассортимента категории товаров

Если вычисленное по данным эксперимента значение попадает в область между точками и :

Источник

Критерий Фишера

Критерий Фишера применяется для проверки равенства дисперсий двух выборок. Его относят к критериям рассеяния.

При проверке гипотезы положения (гипотезы о равенстве средних значений в двух выборках) с использованием критерия Стьюдента имеет смысл предварительно проверить гипотезу о равенстве дисперсий. Если она верна, то для сравнения средних можно воспользоваться более мощным критерием.

В регрессионном анализе критерий Фишера позволяет оценивать значимость линейных регрессионных моделей. В частности, он используется в шаговой регрессии для проверки целесообразности включения или исключения независимых переменных (признаков) в регрессионную модель.

В дисперсионном анализе критерий Фишера позволяет оценивать значимость факторов и их взаимодействия.

Критерий Фишера основан на дополнительных предположениях о независимости и нормальности выборок данных. Перед его применением рекомендуется выполнить проверку нормальности.

Примеры задач

Описание критерия

Обозначим через и дисперсии выборок и , и — выборочные оценки дисперсий и :

— выборочные средние выборок и .

Дополнительное предположение: выборки и являются нормальными. Критерий Фишера чувствителен к нарушению предположения о нормальности.

Статистика критерия Фишера:

имеет распределение Фишера с и степенями свободы. Обычно в числителе ставится большая из двух сравниваемых дисперсий. Тогда критической областью критерия является правый хвост распределения Фишера, что соотвествует альтернативной гипотезе .

Источник



Однофакторный дисперсионный анализ Фишера

Дисперсионный анализ — это статистический метод оценки связи между факторными и результативным признаками в различных группах, отобранный случайным образом, основанный на определении различий (разнообразия) значений признаков. В основе дисперсионного анализа лежит анализ отклонений всех единиц исследуемой совокупности от среднего арифметического. В качестве меры отклонений берется дисперсия (В)— средний квадрат отклонений. Отклонения, вызываемые воздействием факторного признака (фактора) сравниваются с величиной отклонений, вызываемых случайными обстоятельствами. Если отклонения, вызываемые факторным признаком, более существенны, чем случайные отклонения, то считается, что фактор оказывает существенное влияние на результативный признак.

Для того, чтобы вычислить дисперсию значения отклонений каждой варианты (каждого зарегистрированного числового значения признака) от среднего арифметического возводят в квадрат. Тем самым избавляются от отрицательных знаков. Затем эти отклонения (разности) суммируют и делят на число наблюдений, т.е. усредняют отклонения. Таким образом, получают значения дисперсий.

Важным методическим значением для применения дисперсионного анализа является правильное формирование выборки. В зависимости от поставленной цели и задач выборочные группы могут формироваться случайным образом независимо друг от друга (контрольная и экспериментальная группы для изучения некоторого показателя, например, влияние высокого артериального давления на развитие инсульта). Такие выборки называются независимыми.

Нередко результаты воздействия факторов исследуются у одной и той же выборочной группы (например, у одних и тех же пациентов) до и после воздействия (лечение, профилактика, реабилитационные мероприятия), такие выборки называются зависимыми.

Дисперсионный анализ, в котором проверяется влияние одного фактора, называется однофакторным (одномерный анализ). При изучении влияния более чем одного фактора используют многофакторный дисперсионный анализ (многомерный анализ).

Читайте также:  Анализ крови натощак рекомендации

Факторные признаки — это те признаки, которые влияют на изучаемое явление.

Результативные признаки — это те признаки, которые изменяются под влиянием факторных признаков.

Условия применения дисперсионного анализа:

Задачей исследования является определение силы влияния одного (до 3) факторов на результат или определение силы совместного влияния различных факторов (пол и возраст, физическая активность и питание и т.д.).

Изучаемые факторы должны быть независимые (несвязанные) между собой. Например, нельзя изучать совместное влияние стажа работы и возраста, роста и веса детей и т.д. на заболеваемость населения.

Подбор групп для исследования проводится рандомизированно (случайный отбор). Организация дисперсионного комплекса с выполнением принципа случайности отбора вариантов называется рандомизацией (перев. с англ. — random), т.е. выбранные наугад.

Можно применять как количественные, так и качественные (атрибутивные) признаки.

При проведении однофакторного дисперсионного анализа рекомендуется (необходимое условие применения):

1. Нормальность распределения анализируемых групп или соответствие выборочных групп генеральным совокупностям с нормальным распределением.

2. Независимость (не связанность) распределения наблюдений в группах.

3. Наличие частоты (повторность) наблюдений.

Сначала формулируется нулевая гипотеза, то есть предполагается, что исследуемые факторы не оказывают никакого влияния на значения результативного признака и полученные различия случайны.

Затем определяем, какова вероятность получить наблюдаемые (или более сильные) различия при условии справедливости нулевой гипотезы.

Если эта вероятность мала, то мы отвергаем нулевую гипотезу и заключаем, что результаты исследования статистически значимы. Это еще не означает, что доказано действие именно изучаемых факторов (это вопрос, прежде всего, планирования исследования), но все же маловероятно, что результат обусловлен случайностью.

При выполнении всех условий применения дисперсионного анализа, разложение общей дисперсии математически выглядит следующим образом:

Doбщ. = Dфакт + D ост.,

Doбщ. — общая дисперсия наблюдаемых значений (вариант), характеризуется разбросом вариант от общего среднего. Измеряет вариацию признака во всей совокупности под влиянием всех факторов, обусловивших эту вариацию. Общее разнообразие складывается из межгруппового и внутригруппового;

Dфакт — факторная (межгрупповая) дисперсия, характеризуется различием средних в каждой группе и зависит от влияния исследуемого фактора, по которому дифференцируется каждая группа. Например, в группах различных по этиологическому фактору клинического течения пневмонии средний уровень проведенного койко-дня неодинаков — наблюдается межгрупповое разнообразие.

D ост. — остаточная (внутригрупповая) дисперсия, которая характеризует рассеяние вариант внутри групп. Отражает случайную вариацию, т.е. часть вариации, происходящую под влиянием неуточненных факторов и не зависящую от признака — фактора, положенного в основание группировки. Вариация изучаемого признака зависит от силы влияния каких-то неучтенных случайных факторов, как от организованных (заданных исследователем), так и от случайных (неизвестных) факторов.

Поэтому общая вариация (дисперсия) слагается из вариации, вызванной организованными (заданными) факторами, называемыми факториальной вариацией и неорганизованными факторами, т.е. остаточной вариацией (случайной, неизвестной).

Для выборки объема n выборочная дисперсия вычисляется как сумма квадратов отклонений от выборочного среднего, деленная на n-1 (объем выборки минус единица). Таким образом, при фиксированном объеме выборки n дисперсия есть функция суммы квадратов (отклонений), обозначаемая, для краткости, SS (от английского Sum of Squares — Сумма квадратов). Далее слово выборочная мы часто опускаем, прекрасно понимая, что рассматривается выборочная дисперсия или оценка дисперсии. В основе дисперсионного анализа лежит разделение дисперсии на части или компоненты. Рассмотрим следующий набор данных:

Читайте также:  Контакты адрес телефон регистратуры официальный

Источник

Критерий Фишера и критерий Стьюдента в эконометрике

С помощью критерия Фишера оценивают качество регрессионной модели в целом и по параметрам.

Для этого выполняется сравнение полученного значения F и табличного F значения. F-критерия Фишера. F фактический определяется из отношения значений факторной и остаточной дисперсий, рассчитанных на одну степень свободы:

критерий Фишера

где n — число наблюдений;
m — число параметров при факторе х.

F табличный — это максимальное значение критерия под влиянием случайных факторов при текущих степенях свободы и уровне значимости а.

Уровень значимости а — вероятность не принять гипотезу при условии, что она верна. Как правило а принимается равной 0,05 или 0,01.

Если Fтабл > Fфакт то признается статистическая незначимость модели, ненадежность уравнения регрессии.

Таблицы по нахождению критерия Фишера и Стьюдента

Таблицы значений F-критерия Фишера и t-критерия Стьюдента Вы можете посмотреть здесь.

Табличное значение критерия Фишера вычисляют следующим образом:

  1. Определяют k1, которое равно количеству факторов (Х). Например, в однофакторной модели (модели парной регрессии) k1=1, в двухфакторной k=2.
  2. Определяют k2, которое определяется по формуле n — m — 1, где n — число наблюдений, m — количество факторов. Например, в однофакторной модели k2 = n — 2.
  3. На пересечении столбца k1 и строки k2 находят значение критерия Фишера

Для нахождения табличного значения критерия Стьюдента определяют число степеней свободы, которое определяется по формуле n — m — 1 и находят его значение при определенном уровне значимости (0,10, 0,05, 0,01).

Критерии Стьюдента

Для оценки статистической значимости модели по параметрам рассчитывают t-критерии Стьюдента.

Оценка значимости модели с помощью критерия Стьюдента проводится путем сравнения их значений с величиной случайной ошибки:

t-критерии Стьюдента

Случайные ошибки коэффициентов линейной регрессии и коэффициента корреляции определяются по формулам:

Случайные ошибки коэффициентов линейной регрессии

Сравнивая фактическое и табличное значения t-статистики и принимается или отвергается гипотеза о значимости модели по параметрам.

Зависимость между критерием Фишера и значением t-статистики Стьюдента определяется так

Зависимость между критерием Фишера и значением t-статистики Стьюдента

Как и в случае с оценкой значимости уравнения модели в целом, модель считается ненадежной если tтабл > tфакт

Видео лекциий по расчету критериев Фишера и Стьюдента

Для более подробного изучения расчетов критериев Фишера и Стьюдента советуем посмотреть это видео

Лекция 1. Критерии и Гипотезы

Лекция 2. Критерии и Гипотезы

Лекция 3. Критерии и Гипотезы

Определение доверительных интервалов

Для построения доверительного интервала определяется предельная ошибка А для обоих показателей:

предельная ошибка А

Формулы для нахождения доверительных интервалов выглядят так

доверительный интервал

Прогнозное значение у определяется с помощью подстановки в
уравнение регрессии прогнозного значения х. Вычисляется средняя стандартная ошибка прогноза

средняя стандартная ошибка прогноза

и находится доверительный интервал

Задача регрессионного анализа в предмете эконометрика состоит в анализе дисперсии изучаемого показателя y:

дисперсия изучаемого показателя y

общая сумма квадратов отклоненийобщая сумма квадратов отклонений (TSS)

сумма квадратов отклонений, обусловленная регрессиейсумма квадратов отклонений, обусловленная регрессией (RSS)

остаточная сумма квадратов отклоненийостаточная сумма квадратов отклонений (ESS)

Долю дисперсии, обусловленную регрессией, в общей дисперсии показателя у характеризует коэффициент детерминации R, который должен превышать 50% (R 2 > 0,5). В контрольных по эконометрике в ВУЗах этот показатель рассчитывается всегда.

Источник

Adblock
detector