Нормальное распределение Normal Distribution

Нормальное распределение (Normal Distribution)

Нормальным называется распределение вероятностей, которое для одномерного случая задаётся функцией Гаусса.

Нормальное распределение играет важнейшую роль во многих областях знаний. Случайная величина подчиняется нормальному закону распределения, когда она подвержена влиянию большого числа случайных факторов, что является типичной ситуацией в анализе данных. Поэтому нормальное распределение служит хорошей моделью для многих реальных процессов.

Нормальное распределение зависит от 4-х параметров:

    — «центр тяжести» распределения; — степень разброса случайной величины относительно математического ожидания;
  • коэффициент асимметрии — параметр формы распределения, определяющий его симметрию относительно математического ожидания;
  • коэффициент эксцесса — параметр распределения, задающий «остроту» пика распределения.

Типичные формы нормального распределения для различных средних и дисперсии представлены на рисунке:

Коэффициент асимметрии определяется следующим образом:

Коэффициент эксцесса вычисляется по формуле:

Возрастание коэффициента эксцесса увеличивают остроту пика распределения.

Смысл нормального распределения становится понятен из его формы. Наиболее вероятные значения случайной величины расположены вблизи его пика. По мере удаления от него, вероятность значений уменьшается и если значение расположено в «хвосте» распределения, то оно очень маловероятно.

Если случайная величина подчиняется нормальному закону распределения (о чем принимается соответствующая статистическая гипотеза, проверяемая по различным критериям), то статистический анализ описываемого ей процесса существенно упрощается.

В частности, предположение о нормальности распределения коэффициентов регрессии используется при построении регрессионных моделей, а в простом классификаторе Байеса – предположение о нормальности распределения непрерывных атрибутов, на основе которых производится классификация.

Источник

Нормальное распределение

Нормальное распределение (normal distribution) – играет важную роль в анализе данных.

Иногда вместо термина нормальное распределение употребляют термин гауссовское распределение в честь К. Гаусса (более старые термины, практически не употребляемые в настоящее время: закон Гаусса, Гаусса-Лапласа распределение).

Одномерное нормальное распределение

Нормальное распределение имеет плотность::

В этой формуле , фиксированные параметры, – среднее, – стандартное отклонение.

Графики плотности при различных параметрах приведены ниже.

Характеристическая функция нормального распределения имеет вид:

Дифференцируя характеристическую функцию и полагая t = 0, получаем моменты любого порядка.

Кривая плотности нормального распределения симметрична относительно и имеет в этой точке единственный максимум, равный

Параметр стандартного отклонения меняется в пределах от 0 до ∞.

Среднее меняется в пределах от -∞ до +∞.

При увеличении параметра кривая растекается вдоль оси х, при стремлении к 0 сжимается вокруг среднего значения (параметр характеризует разброс, рассеяние).

При изменении кривая сдвигается вдоль оси х (см. графики).

Варьируя параметры и , мы получаем разнообразные модели случайных величин, возникающие в телефонии.

Типичное применение нормального закона в анализе, например, телекоммуникационных данных – моделирование сигналов, описание шумов, помех, ошибок, трафика.

Графики одномерного нормального распределения

Рисунок 1. График плотности нормального распределения: среднее равно 0, стандартное отклонение 1

Рисунок 2. График плотности стандартного нормального распределения с областями, содержащими 68% и 95% всех наблюдений

Рисунок 3. Графики плотностей нормальных распределений c нулевым средним и разными отклонениями (=0.5, =1, =2)

Рисунок 4 Графики двух нормальных распределений N(-2,2) и N(3,2).

Заметьте, центр распределения сдвинулся при изменении параметра .

Замечание

В программе STATISTICA под обозначением N(3,2) понимается нормальный или гауссов закон с параметрами: среднее = 3 и стандартное отклонение =2.

В литературе иногда второй параметр трактуется как дисперсия, т.е. квадрат стандартного отклонения.

Вычисления процентных точек нормального распределения с помощью вероятностного калькулятора STATISTICA

С помощью вероятностного калькулятора STATISTICA можно вычислить различные характеристики распределений, не прибегая к громоздким таблицам, используемым в старых книгах.

Шаг 1. Запускаем Анализ / Вероятностный калькулятор / Распределения.

В разделе распределения выберем нормальное.

Рисунок 5. Запуск калькулятора вероятностных распределений

Шаг 2. Указываем интересующие нас параметры.

Например, мы хотим вычислить 95% квантиль нормального распределения со средним 0 и стандартным отклонением 1.

Укажем эти параметры в полях калькулятора (см. поля калькулятора среднее и стандартное отклонение).

Введем параметр p=0,95.

Галочка «Обратная ф.р». отобразится автоматически. Поставим галочку «График».

Нажмем кнопку «Вычислить» в правом верхнем углу.

Рисунок 6. Настройка параметров

Шаг 3. В поле Z получаем результат: значение квантиля равно 1,64 (см. следующее окно).

Рисунок 7. Просмотр результата работы калькулятора

Далее автоматически появится окно с графиками плотности и функции распределения нормального закона:

Рисунок 8. Графики плотности и функции распределения. Прямая x=1,644485

Рисунок 9. Графики функции нормального распределения. Вертикальные пунктирные прямые- x=-1.5, x=-1, x=-0.5, x=0

Рисунок 10. Графики функции нормального распределения. Вертикальные пунктирные прямые- x=0.5, x=1, x=1.5, x=2

Оценка параметров нормального распределения

Значения нормального распределения можно вычислить с помощью интерактивного калькулятора.

Двумерное нормальное распределение

Одномерное нормальное распределение естественно обобщается на двумерное нормальное распределение.

Например, если вы рассматриваете сигнал только в одной точке, то вам достаточно одномерного распределения, в двух точках – двумерного, в трех точках – трехмерного и т.д.

Общая формула для двумерного нормального распределения имеет вид:

Читайте также:  Экономический анализ отчетности это часть

Где – парная корреляция между X1 и X2;

– среднее и стандартное отклонение переменной X1 соответственно;

– среднее и стандартное отклонение переменной X2 соответственно.

Если случайные величины Х1 и Х2 независимы, то корреляция равна 0, = 0, соответственно средний член в экспоненте зануляется, и мы имеем:

Для независимых величин двумерная плотность распадается в произведение двух одномерных плотностей.

Графики плотности двумерного нормального распределения

Рисунок 11. График плотности двумерного нормального распределения (нулевой вектор средних, единичная ковариационная матрица)

Рисунок 12. Сечение графика плотности двумерного нормального распределения плоскостью z=0.05

Рисунок 13. График плотности двумерного нормального распределения (нулевой вектор мат. ожидания, ковариационная матрица с 1 на главной диагонали и 0.5 на побочной)

Рисунок 14. Сечение графика плотности двумерного нормального распределения (нулевой вектор мат. ожидания, ковариационная матрица с 1 на главной диагонали и 0.5 на побочной) плоскостью z= 0.05

Рисунок 15. График плотности двумерного нормального распределения (нулевой вектор мат. ожидания, ковариационная матрица с 1 на главной диагонали и -0.5 на побочной)

Рисунок 16. Сечение графика плотности двумерного нормального распределения (нулевой вектор мат. ожидания, ковариационная матрица с 1 на главной диагонали и -0.5 на побочной) плоскостью z=0.05

Рисунок 17. Сечения графиков плотностей двумерного нормального распределения плоскостью z=0.05

Для лучшего понимания двумерного нормального распределения попробуйте решить следующую задачу.

Задача. Посмотрите на график двумерного нормального распределения. Подумайте, можно ли его представить, как вращение графика одномерного нормального распределения? Когда нужно применить прием деформации?

Источник



Проверка на нормальность

Тестирование данных на нормальность часто является первым этапом их анализа, так как большое количество статистических методов исходит из предположения нормальности распределения изучаемых данных.

Например, пусть необходимо проверить гипотезу о равенстве средних значений в двух независимых выборках. Для этой цели подходит критерий Стьюдента. Но применение критерия Стьюдента обосновано, только если данные подчиняются нормальному распределению. Поэтому перед применением критерия необходимо проверить гипотезу о нормальности исходных данных. Или проверка остатков линейной регрессии на нормальность — позволяет проверить, соответствует ли применяемая модель регрессии исходным данным.

Нормальное распределение естественным образом возникает практически везде, где речь идёт об измерении с ошибками. Более того, в силу центральной предельной теоремы, распределение многих выборочных величин (например, выборочного среднего) при достаточно больших объёмах выборки хорошо аппроксимируется нормальным распределением вне зависимости от того, какое распределение было у выборки исходно. В связи с этим становится понятным, почему проверке распределения на нормальность стоит уделить особое внимание. В дальнейшем речь пойдёт о так называемых критериях согласия (goodness-of-fit tests). Проверяться будет не просто факт согласия с нормальным распределением с определёнными фиксированными значениями параметров, а несколько более общий факт принадлежности распределения к семейству нормальных распределений со всевозможными значениями параметров.

Проверку выборки на нормальность можно производить несколькими путями. Для начала можно вспомнить, какой вид у графика нормального распределения (гистограмма, график плотности и т.п.), как в нормальном распределении соотносятся среднее, мода, медиана, какими должны быть асимметрия и эксцесс, выполняется ли «правило 3-х сигм». Про всё это мы писали в статье про нормальное распределение. Вот с помощью такой описательной статистики можно оценить выборку на нормальность (обычно приемлемо отклонение на порядок ошибки рассчитываемого параметра). Вторая группа методов — критерии нормальности.

Критерии нормальности

Список критериев нормальности:

  • Критерий Шапиро-Уилка
  • Критерий асимметрии и эксцесса
  • Критерий Дарбина
  • Критерий Д’Агостино
  • Критерий Васичека
  • Критерий Дэвида-Хартли-Пирсона
  • Критерий хи-квадрат
  • Критерий Андерсона-Дарлинга
  • Критерий Филлибена
  • Критерий Колмогорова-Смирнова
  • Критерий Мартинса-Иглевича
  • Критерий Лина-Мудхолкара
  • Критерий Шпигельхальтера
  • Критерий Саркади
  • Критерий Смирнова-Крамера-фон Мизеса
  • Критерий Локка-Спурье
  • Критерий Оя
  • Критерий Хегази-Грина
  • Критерий Муроты-Такеучи

Подробно эти критерии с формулами и таблицами можно посмотреть здесь.

Проверка на нормальность в R (источник)

Самый простой графический способ проверки характера распределения данных — построение гистограммы (с помощью функции hist() — это сделать несложно). Если гистограмма имеет колоколообразный симметричный вид, можно сделать заключение о том, что анализируемая переменная имеет примерно нормальное распределение. Однако при интерпретации гистограмм следует соблюдать осторожность, поскольку их внешний вид может сильно зависеть как от числа наблюдений, так и от шага, выбранного для разбиения данных на классы.

норм распределение

Другим очень часто используемым графическим способом проверки характера распределения данных является построение т.н. графиков квантилей (Q-Q plots, Quantile-Quantile plots). На таких графиках изображаются квантили двух распределений — эмпирического (т.е. построенного по анализируемым данным) и теоретически ожидаемого стандартного нормального распределения. При нормальном распределении проверяемой переменной точки на графике квантилей должны выстраиваться в прямую линию, исходящую под улом 45 градусов из левого нижнего угла графика. Графики квантилей особенно полезны при работе с небольшими по размеру совокупностями, для которых невозможно построить гистограммы, принимающие какую-либо выраженную форму.

Читайте также:  Конспект урока по родной литературе В Я Ерошенко Сказка Умирание ивы

В R для построения графиков квантилей можно использовать базовую функцию qqnorm(), которая в качестве основного аргумента принимает вектор со значениями анализируемой переменной.

qq plot

Следует отметить, что интерпретация графиков квантилей при работе с небольшими выборками, происходящими из нормально распределенных генеральных совокупностей, требует определенного навыка. Дело в том, что при небольшом числе наблюдений точки на графике квантилей могут не всегда образовывать четко выраженную прямую линию. В качестве иллюстрации этого утверждения на следующем рисунке приведены графики квантилей для 5 случайным образом сгенерированных нормально распределенных выборок по 20 наблюдений каждая (если использованный в примере пакет DAAG у Вас не установлен, выполните команду install.packages(«DAAG»)):

library(DAAG)
qreference(m = 20, seed = 145, nrep = 5, nrows = 1)

квантили

Фигура, в которую выстраиваются точки на некоторых графиках далека от прямой линии. Причина данного эффекта — в небольшом объеме наблюдений.

Тесты проверки на нормальность в R

Существует целый ряд статистических тестов, специально разработанных для проверки нормальности распределения данных. В общем виде проверяемую при помощи этих тестов нулевую гипотезу можно сформулировать так: «Анализируемая выборка происходит из генеральной совокупности, имеющей нормальное распределение». Если получаемая при помощи того или иного теста вероятность ошибки Р оказывается меньше некоторого заранее принятого уровня значимости (например, 0.05), нулевая гипотеза отклоняется.

В R реализованы практически все имеющиеся тесты на нормальность — либо в виде стандарных функций, либо в виде функций, входящих в состав отдельных пакетов. Примером базовой функции является shapiro.test(), при помощи которой можно выполнить широко используемый тест Шапиро-Уилка:

shapiro.test(rnorm(500))
Shapiro-Wilk normality test
data: rnorm(500)
W = 0.9978, p-value = 0.7653 # P > 0.05 — нулевая гипотеза не отвергается

Основные классические критерии проверки на нормальность собраны в пакете nortest. Пакет можно установить с CRAN при помощи вызова функции install.packages():

Подключить установленный пакет можно при помощи функции library():

Может возникнуть вопрос: «А зачем столько много разных критериев для проверки одного факта? Нельзя ли выбрать наилучший и всегда его использовать?». Ответ на этот вопрос не утешителен: «В общем случае, к сожалению, нельзя».

Источник

Способы проверки нормальности распределения

Существует ряд методов проверки эмпирического распределения на нормальность. К таким методам относятся – графический способ, метод анализа асимметрии и эксцесса и их стандартных ошибок, критерии согласия распределения.

Графический способ: Строят либо квантильные графики, либо графики накопленных частот.

Критерии асимметрии и эксцесса. Эти критерии определяют допустимую степень отклонения эмпирических значений асимметрии и эксцесса от нулевых значений, соответствующих нормальному распределению. Допустимая степень отклонения — та, которая позволяет считать, что эти статистики существенно не отличаются от нормальных параметров. Величина допустимых отклонений определяется так называемыми стандартными ошибками асимметрии и эксцесса.

Статистический критерий нормальности Колмогорова-Смирнова считается наиболее состоятельным для определения степени соответствия эмпирического распределения нормальному. Он позволяет оценить вероятность того, что данная выборка принадлежит генеральной совокупности с нормальным распределением. Если эта вероятность р< 0,05, то данное эмпирическое распределение существенно отличается от нормального, а если р > 0,05, то делают вывод о приблизительном соответствии данного эмпирического распределения нормальному.

Причины отклонения от нормальности: общей причиной отклонения формы выборочного распределения признака от нормального вида чаще всего является особенность процедуры измерения: используемая шкала может обладать неравномерной чувствительностью к измеряемому свойству в разных частях диапазона его изменчивости.

Таким образом, такие отклонения от нормального вида, как право- или левосторонняя асимметрия или слишком большой эксцесс (больше 0), связаны с относительно низкой чувствительностью измерительной процедуры в области моды (вершины графика распределения частот).

Понятие корреляционной связи

Термин «корреляция» был введен в науку выдающимся английским естествоиспытателем Френсисом Гальтоном в 1886 г.

Первоначальноезначениетермина «корреляция» – взаимнаясвязь (Oxford Advanced Learner’s Dictionary of Current English, 1982). Когда говорят о корреляции, используют термины «корреляционная связь» и «корреляционная зависимость».

Корреляционная связь – это согласованные изменения двух при­знаков или большего количества признаков (множественная корреляци­онная связь). Корреляционная связь отражает тот факт, что изменчи­вость одного признака находится в некотором соответствии с изменчи­востью другого. С другой стороны, корреляционная связь может говорить не о зависимости признаков между собой, а о зависимости этих признаков от другого (других). Корреляционные связи не могут рассматриваться как свидетельство причинно-следственной связи, они свидетельствуют лишь о том, что изменениям одного признака, как правило, сопутствуют определенные изменения другого, но находится ли причина изменений в одном из признаков или она оказывается за пределами исследуемой пары признаков, нам неизвестно.

Корреляционная зависимость – это изменения, которые вносят значения одного признака в вероятность появления разных значений другого признака.

Читайте также:  Что показывает анализ крови при рассеянном склерозе

Зависимость подразумевает влияние, связь – любые согласованные изменения, которые могут объясняться сотнями причин.

Говорить в строгом смысле о зависимости мы можем только в тех случаях, когда сами оказываем какое–то контролируемое воздействие на испытуемых или так организуем исследование, что оказывается возможным точно определить интенсивность не зависящих от нас воздействий.

Независимые переменные – воздействия, которые можно качественно определить или даже измерить.

Зависимые переменные – признаки, которые измеряются и могут изменяться под влиянием независимых переменных.

Согласованные изменения независимой и зависимой переменных действительно могут рассматриваться как зависимость.

Виды корреляционных связей

Корреляционные связи различаются по форме, направлению и степени (силе).

По форме корреляционная связь может быть линейной и криволинейной.

Линейнаясвязь – если с увеличением или уменьшением одной переменной, вторая переменная в среднем либо также растет, либо убывает. Например, прямолинейной можно назвать связь между количеством тренировок на тренажере и количеством правильно решаемых задач в контрольной сессии.

Криволинейной может быть, например, связь между уровнем мотивации и эффективностью выполнения задачи. При повышении мотивации эффективность выполнения задачи сначала возрастает, затем достигается оптимальный уровень мотивации, которому соответствует максимальная эффективность выполнения задачи; дальнейшему повышению мотивации сопутствует уже снижение эффективности (рис.9.3).

По направлению корреляционная связь может быть положительной («прямой») и отрицательной («обратной»).

При положительной (прямой) корреляции более высоким значениям одного признака соответствуют более высокие значения другого, а более низким значениям одного признака – низкие значения другого.

При отрицательной (обратной) корреляции высокие значения одного признака соответствуют более низким значениям другого.

Коэффициент корреляции

Коэффициент корреляции — двумерная описательная статистика, количественная мера взаимосвязи (совместной изменчивости) двух переменных.

История разработки и применения коэффициентов корреляции для ис­следования взаимосвязей фактически началась одновременно с возникновением измерительного подхода к исследованию индивидуальных различий — в 1870—1880 гг. Пионером в измерении способностей человека, как и автором самого термина «коэффициент корреляции», был Френсис Гальтон, а самые популярные коэффициенты корреляции были разработаны его последователем Карлом Пирсоном. С тех пор изучение взаимосвязей с использованием коэффициентов корреляции является одним из наиболее популярных в психологии занятием.

К настоящему времени разработано великое множество различных коэффициентов корреляции. Однако самые важные меры связи — Пирсона, Спирмена и Кендалла. Их общей особенностью является то, что они отражают взаимосвязь двух признаков, измеренных в количественной шкале — ранговой или метрической.

Вообще говоря, любое эмпирическое исследование сосредоточено на изучении взаимосвязей двух или более переменных.

Если изменение одной переменной на одну единицу всегда приводит к изменению другой переменной на одну и ту же величину, функция является линейной (график ее представляет прямую линию); любая другая связь — нелинейная. Если увеличение одной переменной связано с увеличением другой, то связь — положительная (прямая); если увеличение одной переменной связано с уменьшением другой, то связь — отрицательная (обратная). Если направление изменения одной переменной не меняется с возрастанием (убыванием) другой переменной, то такая функция — монотонная; в противном случае функцию называют немонотонной.

Дата добавления: 2018-08-06 ; просмотров: 1734 ; Мы поможем в написании вашей работы!

Источник

Проверка нормальности распределения

Наиболее часто используемые методы статистической обработки первичных результатов эмпирических исследований по количественным шкалам делятся на две большие группы: параметрические и непараметрические. Параметрические методы применяются в тех случаях, когда эмпирическое распределение данных является нормальным, то есть соответствует закону нормального распределения Гаусса. Если же эмпирическое распределение отличается от нормального, то нужно использовать непараметрические методы.

Для того, чтобы результаты обработки данных были достоверными, нужно правильно выбрать методы обработки. Поэтому первое, что необходимо сделать при обработке данных по количественным шкалам, — это проверить данные на нормальность распределения.

Наиболее точный метод проверки нормальности распределения данных — это критерий Колмогорова-Смирнова. Распространенная компьютерная программа MS Excel не умеет считать этот критерий, но зато его умеют считать специальные статистические программы, такие как SPSS.

По результатам проверки нормальности распределения программа SPSS выдает показатель критерия Колмогорова-Смирнова и уровень его статистической значимости. Если уровень значимости выше, чем 0,05, то это значит, что распределение данных является нормальным, и для обработки данных подходят параметрические методы. Если же этот показатель меньше либо равен 0,05, то эмпирическое распределение отличается от нормального, и для основной обработки необходимо использовать непараметрические методы.

То есть сам по себе критерий Колмогорова-Смирнова не дает какой-либо информации по теме Вашего исследования. Он нужен только для того, чтобы правильно подобрать методы основной обработки — параметрические или непараметрические, а вот они уже раскроют закономерности в соответствии с темой, целью и задачами исследования.

Источник

Adblock
detector