Факторный анализ кластерный анализ дискриминантный анализ



Многомерный статистический анализ. Задачи классификации объектов: кластерный анализ. Дискриминантный анализ.

Данная тема знакомит студентов с некоторыми методами многомерного статистического анализа (МСА), которые получили наибольшее распространение. При изучении данной темы необходимо уделить особое внимание типам задач, для решения которых используются методы МСА. Технология решения задач подробно рассмотрена в [1]. Практическое применение методов МСА требует обязательного использования вычислительной техники и специального программного обеспечения.

Факторный и компонентный анализ в большинстве случаев проводятся совместно.

Компонентный анализ является методом определения структурной зависимости между случайными переменными. В результате его использования получается сжатое описание малого объема, несущее почти всю информацию, содержащуюся в исходных данных. Главные компоненты получаются из исходных переменных путем целенаправленного вращения, т.е. как линейные комбинации исходных переменных. Вращение производится таким образом, чтобы главные компоненты были ортогональны и имели максимальную дисперсию среди возможных линейных комбинаций исходных переменных X. При этом переменные не коррелированы между собой и упорядочены по убыванию дисперсии (первая компонента имеет наибольшую дисперсию). Кроме того, общая дисперсия после преобразования остается без изменений.

Факторный анализ является более общим методом преобразования исходных переменных по сравнению с компонентным анализом.

Кластерный анализ — это совокупность методов, позволяю­щих классифицировать многомерные наблюдения, каждое из которых описывается набором признаков (параметров) Х1, Х2, . Хk. Целью кластерного анализа является образование групп схо­жих между собой объектов, которые принято называть кластера­ми (класс, таксон, сгущение).

Кластерный анализ — одно из направлений статистического исследования. Особо важное место он занимает в тех отраслях науки, которые связаны с изучением массовых явлений и про­цессов. Необходимость развития методов кластерного анализа и их использования продиктована тем, что они по­могают построить научно обоснованные классификации, выявить внутренние связи между единицами наблюдаемой совокупности. Кроме того, методы кластерного анализа могут ис­пользоваться с целью сжатия информации, что является важным фактором в условиях постоянного увеличения и усложнения по­токов статистических данных.

Методы кластерного анализа позволяют решать следующие задачи [2]:

• проведение классификации объектов с учетом признаков, отражающих сущность, природу объектов. Решение такой задачи, как правило, приводит к углублению знаний о со­вокупности классифицируемых объектов;

• проверка выдвигаемых предположений о наличии некото­рой структуры в изучаемой совокупности объектов, т.е. поиск существующей структуры;

• построение новых классификаций для слабоизученных яв­лений, когда необходимо установить наличие связей внутри совокупности и попытаться привнести в нее структуру.

Дискриминантный анализ

Дискриминантный анализ являетсяразделом многомерного стати­стического анализа, который включает в себя методы классификации многомерных наблюдений по принципу максимального сходства при наличии обучающих признаков.

Напомним, что в кластерном анализе рассматриваются методы многомерной классификации без обучения. В дискриминантном анализе новые класте­ры не образуются, а формулируется правило, по которому объекты подмножества подлежащего классификации относятся к одному из уже существую­щих (обучающих) подмножеств (классов), на основе сравнения ве­личины дискриминантной функции классифицируемого объекта, рассчитанной по дискриминантным переменным, с некоторой константой дискриминации.

Предположим, что существуют две или более совокупности (группы) и что мы располагаем множеством выборочных наблюдений над ними. Основная задача дискриминантного анализа состоит в построении с помощью этих выборочных наблюдений правила, позволяющего отнести новое наблюдение к одной из совокупностей.

Рассмотрим более подробно факторный анализ

Факторный анализ — это совокупность методов, которые на основе реально существующих связей объектов (признаков) позволяют выявить латентные (неявные) обобщающие характеристики организационной структуры. При этом предполагается, что наблюдаемые переменные являются линейной комбинацией факторов. Под фактором понимается гипотетическая непосредственно не измеряемая, скрытая (латентная) переменная в той или иной мере связанная с исходными наблюдаемыми переменными. К факторному анализу относятся: метод главных компонент, методы многомерного шкалирования, применяемые для формирования факторного пространства по информации о близости объектов, методы кластерного анализа, применяемые для описания неколичественных факторов.

Основные цели факторного анализа:

1. сокращение числа переменных (редукция данных);

2. определение структуры взаимосвязей между переменными (классификация переменных);

3. косвенные оценки признаков, неподдающихся непосредственному измерению;

4. преобразование исходных переменных к более удобному для интерпретации виду.

Если кратко охарактеризовать факторный анализ, то наиболее важными являются следующие моменты:

1) факторный анализ, в противоположность контролируемому эксперименту, опирается в основном на наблюдения над естественным варьированием переменных;

2) При использовании факторного анализа совокупность переменных, изучаемых с точки зрения связей между ними, не выбирается произвольно: сам метод позволит выявить основные факторы, оказывающие существенное влияние в данной области;

Читайте также:  Основные стратегии по предотвращению банкротства

3) факторный анализ не требует предварительных гипотез, наоборот, он сам может служить методом выдвижения гипотез, а также выступать критерием гипотез, опирающихся на данные, полученные другими методами;

4) факторный анализ не требует априорных предположений относительно того, какие переменные независимы, а какие зависимы, метод не преувеличивает причинно-следственные связи и решает вопрос об их мере в процессе дальнейших исследований.

Метод факторного анализа первоначально был разработан в психологии с целью выделения отдельных компонентов человеческого интеллекта из многомерных данных по измерению различных проявлений умственных способностей. Однако очень быстро этот метод завоевал и такие области применения, как социология, экономика, география и многие другие.

Переменные, значения которых можно измерить, имеют для исследуемого объекта нередко достаточно условный характер, лишь опосредованно отражая его внутреннюю структуру, движущие механизмы или факторы. Например, исследователь ставит цель: провести сравнительный анализ темпов экономического роста отдельных регионов (соответствующий пример будет в дальнейшем рассмотрен). Закономерен вопрос: чем измерить экономическое развитие, и какие показатели следует включить в исследование?

Когда неизвестный фактор проявляется в изменении нескольких переменных, в процессе анализа можно наблюдать существенную корреляцию между переменными. Тем самым, факторов может быть существенно меньше, чем измеряемых переменных, число которых выбирается исследователем достаточно субъективно.

Степень влияния фактора на некоторый показатель (переменную) статистически характеризуется величиной дисперсии этого показателя при изменении значений фактора. Если расположить оси исходных переменных ортогонально друг к другу, то можно обнаружить, что в этом многомерном пространстве объекты группируются в виде эллипса рассеяния, более вытянутого в одних направлениях и почти плоского в других. Если теперь провести новые оси соответственно осям эллипса рассеяния, то можно говорить о выделении скрытых факторов и оценивать сравнительную значимость этих факторов в терминах дисперсии. При этом оказывается, что толщина такого эллипса по некоторым осям настолько не велика, что можно исключить их из исследования.

Как правило, применение методов факторного анализа включает три этапа:

1) выделение первоначальных факторов;

2) вращение выделенных факторов с целью облегчения их интерпретации в терминах исходных переменных (в частности, для исключения отрицательных значений);

3) содержательная интерпретация новых факторов в предметных терминах, что является творческой задачей исследователя, выходящей за рамки предлагаемого формального метода.

Наиболее часто факторный анализ используется для выявления в наблюдаемых признаках некоторых латентных (скрытых) переменных fm, называемых факторами. Гипотеза о наличии этих факторов основана на предположении о существовании чего-то общего в наблюдаемых признаках. Выводимые гипотетические факторы обладают следующими свойствами:

1. Они образуют линейно независимый набор переменных, т.е. ни один из факторов (компонент) не выводится как линейная комбинация остальных.

2. Переменные, являющиеся гипотетическими факторами, можно разделить на два основных вида – общие и характерные факторы. Они отличаются структурой весов в линейном уравнении, которое выводит значение наблюдаемой переменной из гипотетических факторов. Общий фактор имеет несколько переменных с ненулевым весом или факторной нагрузкой, соответствующей этому фактору. При этом фактор называется общим, если хотя бы две его нагрузки значительно отличаются от нуля. Характерный фактор имеет только одну переменную с ненулевым весом (т.е. только одна переменная от него зависит).

3. Всегда предполагается, что общие факторы не коррелируют с характерным фактором, также характерные факторы не коррелированы между собой.

4. Обычно предполагается, что число общих факторов меньше, чем число наблюдаемых переменных, однако число характерных факторов принимают равным числу наблюдаемых переменных.

Источник

Многомерный статистический анализ. Задачи классификации объектов: кластерный анализ, дискриминантный анализ

МСА – одно из направлений развития одномерной статистики. В наст. вр. в условиях рыночной экономики методы многомерного анализа актуальны, т.к. соответствуют многовариантному подходу. В МСА выделяют 3 группы методов: 1. факторный анализ, 2. кластерный анализ, 3. дискриминантный анализ. Факторный анализ предназначен для выявления в данной совокупности латентных (неявных) признаков, характеризующих систему. Экономическая система описывается большим числом показателей, что неудобно для анализа. За счет вращения этих показателей (опр. линейных комбинаций) исходная совокупность данных сокращается за счет замены ее главными факторами. Задачи: 1. отыскание скрытых, но объективно существующих закономерностей; 2. сжатие информации; 3. выделение главных факторов; 4. построение регрессионных моделей.

Читайте также:  Пест анализ шаблон эксель

Кластерный анализ — это совокупность методов, позволяю­щих классифицировать многомерные наблюдения, каждое из которых описывается набором признаков (параметров) Х <9Х2. Л^. Целью кластерного анализа является образование групп схо­жих между собой объектов, которые принято называть кластера­ми (класс, таксон, сгущение).

Кластерный анализ — одно из направлений статистического исследования. Особо важное место он занимает в тех отраслях на­уки, которые связаны с изучением массовых явлений и процессов. Необходимость развития методов кластерного анализа и их исполь­зования продиктована тем, что они помогают построить научно обоснованные классификации, выявить внутренние связи между единицами наблюдаемой совокупности. Кроме того, методы клас­терного анализа могут использоваться в целях сжатия информации, что является важным фактором в условиях постоянного увеличе­ния и усложнения потоков статистических данных.

Методы кластерного анализа позволяют решать следующие задачи [2]:

• проведение классификации объектов с учетом признаков, от­ражающих сущность, природу объектов. Решение такой задачи, как правило, приводит к углублению знаний о совокупности классифицируемых объектов;

• проверка выдвигаемых предположений о наличии некоторой структуры в изучаемой совокупности объектов, т.е. поиск суще­ствующей структуры;

Дискриминантный анализ является разделом многомерного статистического анализа, который включает в себя методы клас­сификации многомерных наблюдений по принципу максималь­ного сходства при наличии обучающих признаков.

Напомним, что в кластерном анализе рассматриваются методы многомерной классификации без обучения. В дискрими-нантном анализе новые кластеры не образуются, а формулиру­ется правило, по которому объекты подмножества подлежащего классификации относятся к одному из уже существующих (обу­чающих) подмножеств (классов), на основе сравнения величины дискриминантной функции классифицируемого объекта, рассчи­танной по дискриминантным переменным, с некоторой констан­той дискриминации.

Наиболее часто используется линейная форма дискрими­нантной функции, которая представляется в виде скалярного произведения векторов А=(а12. аp дискриминантных множи­телей и вектора Хi=(хi1i2,…,хip) дискриминантных переменных:

Здесь Xi – транспонированный вектор дискриминантных переменных; хij — значений j-х признаков у i-го объекта наблю­дения.

Источник

Многомерный статистический анализ. Задачи классификации объектов: кластерный анализ, дискриминантный анализ

МСА – одно из направлений развития одномерной статистики. В наст. вр. в условиях рыночной экономики методы многомерного анализа актуальны, т.к. соответствуют многовариантному подходу. В МСА выделяют 3 группы методов: 1. факторный анализ, 2. кластерный анализ, 3. дискриминантный анализ. Факторный анализ предназначен для выявления в данной совокупности латентных (неявных) признаков, характеризующих систему. Экономическая система описывается большим числом показателей, что неудобно для анализа. За счет вращения этих показателей (опр. линейных комбинаций) исходная совокупность данных сокращается за счет замены ее главными факторами. Задачи: 1. отыскание скрытых, но объективно существующих закономерностей; 2. сжатие информации; 3. выделение главных факторов; 4. построение регрессионных моделей.

Кластерный анализ — это совокупность методов, позволяю­щих классифицировать многомерные наблюдения, каждое из которых описывается набором признаков (параметров) Х <9Х2. Л^. Целью кластерного анализа является образование групп схо­жих между собой объектов, которые принято называть кластера­ми (класс, таксон, сгущение).

Кластерный анализ — одно из направлений статистического исследования. Особо важное место он занимает в тех отраслях на­уки, которые связаны с изучением массовых явлений и процессов. Необходимость развития методов кластерного анализа и их исполь­зования продиктована тем, что они помогают построить научно обоснованные классификации, выявить внутренние связи между единицами наблюдаемой совокупности. Кроме того, методы клас­терного анализа могут использоваться в целях сжатия информации, что является важным фактором в условиях постоянного увеличе­ния и усложнения потоков статистических данных.

Методы кластерного анализа позволяют решать следующие задачи [2]:

• проведение классификации объектов с учетом признаков, от­ражающих сущность, природу объектов. Решение такой задачи, как правило, приводит к углублению знаний о совокупности классифицируемых объектов;

• проверка выдвигаемых предположений о наличии некоторой структуры в изучаемой совокупности объектов, т.е. поиск суще­ствующей структуры;

Дискриминантный анализ является разделом многомерного статистического анализа, который включает в себя методы клас­сификации многомерных наблюдений по принципу максималь­ного сходства при наличии обучающих признаков.

Напомним, что в кластерном анализе рассматриваются методы многомерной классификации без обучения. В дискрими-нантном анализе новые кластеры не образуются, а формулиру­ется правило, по которому объекты подмножества подлежащего классификации относятся к одному из уже существующих (обу­чающих) подмножеств (классов), на основе сравнения величины дискриминантной функции классифицируемого объекта, рассчи­танной по дискриминантным переменным, с некоторой констан­той дискриминации.

Читайте также:  Имя твое птица в руке анализ стихотворения Цветаевой

Наиболее часто используется линейная форма дискрими­нантной функции, которая представляется в виде скалярного произведения векторов А=(а12. аp дискриминантных множи­телей и вектора Хi=(хi1i2,…,хip) дискриминантных переменных:

Здесь Xi – транспонированный вектор дискриминантных переменных; хij — значений j-х признаков у i-го объекта наблю­дения.

Источник

Дискриминантный и кластерный анализ в системе Statistica

Дискриминантный анализ относится к методам классификации многомерных наблюдений при наличии обучающих выборок (в отличие от кластерного анализа, осуществляющего классификацию автоматически — без обучения). Его цель состоит в идентификации новых объектов и их отнесении к уже имеющимся группам или совокупностям.

Например, при исследовании предприятий в одной из отраслей получен ряд групп, разбитых по степени эффективности производства; задача дискриминантного анализа — классифицировать новые предприятия путем отнесения к одному из уже имеющихся классов.

Считается, что дискриминантный анализ дает наилучшие результаты тогда, когда исходные данные удовлетворяют следующим требованиям, которые, однако, не являются обязательными:

  • рассматриваемые наблюдения имеют нормальный закон распределения;
  • однородность дисперсий и ковариаций;
  • отсутствие в изучаемых группах (или совокупностях) экстремальных наблюдений (выбросов).

Рассмотрим основные этапы проведения дискриминантного анализа на следующем примере.

Пример 1. Ниже приведена таблица с данными условной классификации 12 стран мира по уровню медицинского обеспечения населения. Страны условно разбиты на три группы в соответствии с высоким, удовлетворительным и низким уровнем медицинского обеспечения на основе следующих показателей:

ВВП — ВВП, определенное на основе паритета покупательной способности, в % к США;

РАСХЗДРА — расходы на здравоохранение, в % к ВВП;

ЧИСВРАЧ — число врачей на 10 тыс. человек населения;

СМЕРТНОС — смертность населения по причине болезней органов кровообращения на 100 тыс. человек населения.

В первую группу с высоким уровнем медицинского обеспечения вошли промышленно развитые страны Запада: Австрия, Бельгия, Великобритания, Германия и Австралия. Вторую группу с удовлетворительным уровнем составили: Болгария, Венгрия, Белоруссия. Третья группа образована кавказскими и среднеазиатскими странами бывшего СССР: Армения, Азербайджан, Киргизия, Грузия («низкий» уровень).

Задача состоит в том, чтобы классифицировать страны: Россию, Грецию, Данию и Казахстан.

Шаг 1. Запустим модуль Дискриминантный анализ (Discriminant Analysis) и выберем переменные.

В нашем примере группирующей переменной является УРОМЕДОБ — уровень медицинского обеспечения, а независимыми — ВВП, РАСХЗДРА, ЧИСВРАЧ, СМЕРТНОС.

Шаг 2. Зададим Коды для группирующей переменной и включим (поставим галочку) Пошаговый анализ.

Шаг 3. В этом окне определим параметры модели и нажмем ОК.

В окошке Метод (Method) можно выбрать один из трех методов анализа: стандартный (Standard), пошаговый с включением (Forward stepwise) и пошаговый с исключением (Backward stepwise).

В методе Пошаговый с включением на каждом шаге в модель выбирается переменная с наибольшим F-значением, при этом пользователь должен установить его минимальную величину. Процедура заканчивается, когда все переменные, имеющие F-значение больше значения, указанного в поле F to enter, вошли в модель.

Если выбран Пошаговый анализ с исключением, то в уравнение будут включены все выбранные пользователем независимые переменные, которые затем удаляются в зависимости от величины F-значения. Переменная с наименьшим значением исключается из модели первой. Шаги заканчиваются, когда нет переменных, имеющих F-значение меньше определенного пользователем в поле F to remove. Заметим, что значение в поле F to enter всегда должно быть больше, чем значение в поле F to remove.

Поле Число шагов (Number of steps) определяет максимальное число шагов анализа, по достижении которых процедура закончится, даже если еще не все переменные прошли отбор на основе их F-значений.

Поле Толерантность (Tolerance) позволяет исключить из модели неинформативные переменные.

Статистика лямбда Уилкса служит для проверки качества дискриминации (чем ближе к 0, тем меньше вероятность ошибочного разделения).

Переменные в модели

Переменные вне модели

Расстояния между группами

Канонический анализ и графики

Результаты пошагового анализа

Функции классификации

Матрица классификации

Классификация наблюдений

Квадраты расстояний Махаланобиса

Апостериорные вероятности

Сохранить результаты

Шаг 5. Нажав кнопку Канонический анализ и графики можно посмотреть график рассеяния канонических значений для канонических корней.

Шаг 6. Определить принадлежность классифицируемых наблюдений к определенному классу можно, воспользовавшись опцией Функции классификации.

Например, оценки квалификационной функции для группы наблюдений «высокий» имеет следующий вид:

Источник

Adblock
detector