Особенности анализа результатов кластерного анализа



Анализ кластерный

Что такое анализ кластерный – один из математических методов, заключающийся в том, что определенный набор объектов разбивают на группы, которые называются кластерами.

В каждом кластере объекты схожи, а меж различными кластерами существуют явные отличия. Главная цель, которую данный анализ преследует – выявить схожие объекты в исследуемой выборке.

Этот метод широко используется в разных областях человеческого знания: в биологии, психологии, медицине, химии, маркетинге, управлении и многих других дисциплинах.

Рассмотрим, более детально, что значит анализ кластерный. Кластерный анализ (англ. cluster analysis) — статистическая многомерная процедура, которая выполняет сбор данных, которые содержат информацию о выборе объектов, и потом упорядочивающая объекты в однородные сравнительно группы. Задачу кластеризации относят к статистической обработке и к широкому классу задач обучения без учителя.

Большая часть исследователей склоняется к тому, что термин «кластерный анализ» (англ. cluster — гроздь, сгусток, пучок) впервые был предложен математиком Трионом Р. В появился ряд терминов, которые принято в настоящее время считать синонимами термина «кластерный анализ»: ботриология, автоматическая классификация.

Спектр использований кластерного анализа весьма широк: его применяют в медицине, археологии, химии, психологии, государственном управлении, биологии, антропологии, филологии, социологии, маркетинге и прочих дисциплинах. Но универсальность использования вызвала появление большое количество несовместимых подходов, терминов, методов, которые затрудняют однозначное применение и непротиворечивую интерпретацию кластерного анализа.

Условия и задачи

Кластерный анализ исполняет такие главные задачи:

  • Изучение концептуальных полезных схем группирования объектов.
  • Разработка классификации или типологии.
  • Порождение гипотез на основании исследования данных.
  • Проверка исследования или гипотез для определения, действительно ли группы (типы), выделенные каким-либо методом, есть в имеющихся данных.

Вне зависимости от предмета изучения использование кластерного анализа предусматривает следующие стадии:

  • Отбор выборки для кластеризации. Понимается, что есть смысл кластеризовать лишь количественные данные.
  • Определение переменных, по которым будут оценивать объекты в выборке, то есть признаковое пространство.
  • Вычисление значений определенной меры различия или сходства меж объектами.
  • Использование способа кластерного анализа для того, чтобы создать группы сходных объектов.
  • Проверка достоверности итогов кластерного решения.

Можно встретить описание двух фундаментальных требований, которые предъявляются к данным — полнота и однородность . Однородность требует, чтобы все кластеризуемые сущности были одинаковой природы, описываться похожим набором свойств. Когда кластерному анализу предшествует факторный анализ, то выборка в «ремонте» не нуждается — изложенные требования исполняются автоматически непосредственно процедурой факторного моделирования (есть ещё одно достоинство — z-стандартизация без отрицательных последствий для выборки; если её непосредственно проводить для кластерного анализа, она может за собой повлечь уменьшение чёткости разделения групп). Иначе выборку необходимо корректировать.

Типология задач кластеризации

  • Признаковое описание объектов. Каждый объект описывают набором собственных характеристик, которые называются признаками. Признаки могут быть нечисловыми или числовыми.
  • Матрица расстояний меж объектами. Каждый объект описывают расстояниями до всех других объектов метрического пространства.
  • Матрица сходства меж объектами. Учитывают степень сходства объекта с прочими объектами выборки в метрическом пространстве. Сходство тут дополняет различие (расстояние) меж объектами до 1.

В современной науке используется несколько алгоритмов обработки для входных данных. Анализ при помощи сравнения объектов, учитывая признаки, (наиболее распространённый в биологических науках) называется Q-видом анализа, а при сравнении признаков, на основании объектов — R-видом анализа. Есть попытки использовать гибридные типы анализа (к примеру, RQ-анализ), но эта методология ещё не разработана должным образом.

Цели кластеризации

  • Понимание данных при помощи выявления кластерной структуры. Разбиение выборки на группы похожих объектов дает возможность упростить обработку данных в дальнейшем и принятие решений, к каждому кластеру применяя собственный метод анализа (стратегия «разделяй и властвуй»).
  • Сжатие данных. Когда исходная выборка сильно большая, то можно её сократить, оставив от каждого кластера по одному самому типичному представителю.
  • Обнаружение новизны (англ. novelty detection). Выделяют нетипичные объекты, которые не получается ни к одному из кластеров присоединить.

Число кластеров в первом случае стараются делать поменьше. Во втором случае более важным будет обеспечить большую степень сходства объектов в каждом кластере, а кластеров может быть сколько угодно. Наибольший интерес в третьем случае представляют отдельные объекты, которые не вписываются ни в один из кластеров.

Во всех данных ситуациях может использоваться иерархическая кластеризация, когда большие кластеры дробят на более мелкие, те дробятся в свою очередь ещё мельче, и так далее. Такие задачи называют задачами таксономии. Итог таксономии — иерархическая древообразная структура. Каждый объект при этом характеризуется перечислением кластеров, которым он принадлежит, от крупного к мелкому.

Способы кластеризации

Общепринятой классификации способов кластеризации нет, однако возможно выделить некоторые группы подходов (некоторые способы возможно отнести сразу к нескольким группам и потому предлагают рассматривать эту типизацию в качестве некоторого приближения к реальной классификации способов кластеризации):

  1. Вероятностный подход. Предполагают, что каждый рассматриваемый объект относят к одному из k классов. Некоторые авторы (к примеру, А. И. Орлов) полагают, что эта группа совсем не относится к кластеризации и противопоставляют её «дискриминации», то есть выбору отнесения объектов к одной известной группе (обучающим выборкам).
    • Дискриминантный анализ
    • K-medians
    • K-средних (K-means)
    • Алгоритмы семейства FOREL
    • EM-алгоритм
  2. Подходы на основании систем искусственного интеллекта: условная группа, так как способов весьма много и они весьма различны методически.
    • Генетический алгоритм
    • Нейронная сеть Кохонена
    • Метод нечеткой кластеризации C-средних
  3. Логический подход. Построение дендрограммы производится при помощи дерева решений.
  4. Теоретико-графовый подход.
    • Графовые алгоритмы кластеризации
  5. Иерархический подход. Предполагают наличие вложенных групп (кластеров разного порядка). В свою очередь алгоритмы подразделяются на объединительные (агломеративные) и разделяющие (дивизивные). По числу признаков порой выделяют политетические и монотетические способы классификации.
    • Таксономия или дивизивная иерархическая кластеризация. Задачи кластеризации рассматривают в числовой таксономии.
  6. Прочие способы, которые не вошли в прошлые группы.
    • Ансамбль кластеризаторов
    • Статистические алгоритмы кластеризации
    • Алгоритм, который основан на способе просеивания
    • Алгоритмы семейства KRAB
    • DBSCAN и др.

Подходы 4 и 5 порой объединяют под названием геометрического или структурного подхода, который обладает большей формализованностью понятия близости. Невзирая на большие различия меж перечисленными способами все они опираются на начальную «гипотезу компактности»: в пространстве объектов все близкие объекты относятся к одному кластеру, а все разные объекты должны соответственно находиться в разных кластерах.

Формальная постановка задачи кластеризации

Пусть х — множество объектов, номеров (меток, имён) кластеров. Задана функция расстояния меж объектами. Есть конечная обучающая выборка объектов. Необходимо разбить выборку на непересекающиеся подмножества, которые называются кластерами, так, чтобы каждый кластер включал в себя объекты, близкие по метрике, а объекты различных кластеров значительно отличались. Каждому объекту при этом приписывают номер кластера.

Источник

Кластерный анализ в трейдинге: особенности и методы

Данная статья посвящена такому техническому приему как кластерный анализ. Кто-то слышит об этом впервые, для кого-то это знакомо, но непонятно. На примере рекомендаций от брокера FinmaxFX разбираемся детально, что это такое и как грамотно применять в торговле на финансовых рынках.

Кластерный анализ выступает в роли весьма полезного инструмента, позволяющего найти лучшие точки для входа в сделку, таким образом, повышая эффективность работы трейдера. По нему можно понять, как представлена реальная картина на рынке и какое соотношение наблюдается между покупателями и продавцами.

Кратко о рыночном профиле

Перед тем как разбираться с кластерами, первым делом нужно понимать рыночный профиль. Под данным понятием подразумеваются данные по объему контрактов, которые были совершены на конкретном ценовом уровне. Если мы говорим о тиковом объеме Форекса, тогда рассматриваются исключительно эти данные и не обращается внимание на реальный поток ордеров.

Пример профиля рынка может выглядеть таким образом, как представлено на рисунке ниже.

кластерный анализ - профиль рынка

Кластерный анализ тоже является объемным профилем, однако по каждой конкретной свече или тику, где указывается конкретное количество совершенных сделок. Данное явление можно сравнить с графической интерпретацией стакана или ленты, однако объем в этом случае неполный.

Можно представить это следующим образом, как на изображении.

графическая интерпретация

Или же картинка может быть подана в таком виде, как на Volfix, в зависимости от настроек и спецификации торгового терминала.

Volfix и кластерный анализ

Инструменты кластерного анализа

Существует очень мало вариантов использовать кластерный анализ на бесплатной основе, при этом большинство вариантов – это пробные версии сроком до двух недель или же очень примитивный и неграмотный функционал.

Среди топовых вариантов кластерного анализа можно выделить следующие:

  • Volfix – самый популярный вариант для широкой аудитории трейдеров, в частности с опытом. Плата за услуги составляет 60 долларов ежемесячно;
  • Ninja Trader – вы платите 225 долларов поквартально и пользуетесь функционалом для проведения кластерного анализа;
  • CluterDelta – услуги использования оцениваются в 7,5 долларов в месяц;
  • SBPro – удобный вариант, чтобы сэкономить, так как трейдер вносит единоразовый платеж на сумму 100 долларов.

В функционале терминалов МТ4 и МТ5 есть не только платные, но и свободные к доступу версии объемных индикаторов и рыночных профилей, однако сам кластерный анализ присутствует только в названии, не более. Выделяют такие популярные инструменты:

  • ClusterDelta – оплачиваете ежемесячно 7,5 долларов;
  • YuClusters и YuClusters Demo – платная и бесплатная версии программы соответственно;
  • QScalp – скальперский привод с элементами кластерного анализа;
  • TPO-v3 – данный индикатор предоставляется на бесплатной основе;
  • HighVolumeBar-VerticalHistogram-v2 – бесплатное пользование для трейдеров.

Что такое кластер на финансовом рынке?

Когда-то Джозефом Гранвилом были произнесены такие слова, что объемом является количество пара, позволяющее ехать паровозу. Здесь можно провести аналогию с валютным рынком. Сегодня многие трейдеры акцентируют свое внимание на торговых объемах и их интерпретации, чтобы вычислять будущее ценовое движение. Это актуально для всех – и для тех, кто торгует в краткосроке, и для тех, кто предпочитает долгосрочные сделки. Именно кластерный анализ помогает работать в объемом рынка.

Под кластером следует подразумевать объединение нескольких похожих или одинаковых элементов, которые образуют самостоятельную единицу с конкретными свойствами. У нас происходит торговля на рынке, мы сосредоточены в рамках какого-либо таймфрейма, при этом на конкретных ценах будут проявляться однородные элементы в виде длинных и коротких позиций с активами. Суммируя такие элементы, мы получаем кластеры – общие объемы по покупкам и продажам валютных пар с учетом определенного временного интервала и ценовых показателей.

Кластерный анализ направлен на изучение таких ордеров и их объемов, присущих определенных ценовым уровням, а трейдер сможет более детально понимать, в каком направлении с наибольшей вероятностью будет продвигаться целевой актив.
Для наглядного представления такого типа анализа используется специальный график, когда на свечу каждого ценового уровня накладывается торговый объем.

Ниже на рисунке показано, как выглядит кластерный и свечной графики.

кластерный и свечной график

Если обратить к терминалу QUIK, в нем можно найти обезличенную таблицу всех проведенных сделок, при этом трейдер может выводить данные для интересующего его актива. В данной таблице объединены все текущие ордера и их объемы. Речь идет именно об активных сделках, ведь в стакане всегда присутствует спред между наилучшим ценовым значением на покупку и продажу. Для совершения сделки одному из контрагентов необходимо согласиться на цену, предлагаемую оппонентом. Все эти операции попадают в таблицу обезличенных сделок, которая также именуется как лента.

Важно учитывать тот факт, что в случае успеха по сделке у нас есть два действующих субъекта, которые формируют торговый объем: с одной стороны выступает инициатор, а с другой – контрагент, который и предоставил этот объем. Данные таких сделок будут попадать на кластерный график, а трейдер сможет получать еще более точные данные и важные детали о том, как образуются свечи и что происходит в такие моменты.

А что происходит в момент вырисовывания очередного бара на графике? Давайте разбираться. Сначала все заявки разделяются на две группы:

  • от профессионалов – это крупные денежные суммы;
  • от мелких трейдеров – намного меньшие объемы.

На кластерах наглядно представлена ситуация, как ведут себя влиятельные участники рынка – ориентированы на покупку или продажу, какие цены актуальны для них. Все данные по сделкам формируются в соответствующем кластере. Если на одной свече проводятся операции по одинаковым ценам от разных трейдеров, все объемы суммируются в единый и трейдер получает актуальные показатели проведенного анализа.

В системе кластерного анализа главными понятиями, которые важно знать и уметь применять, являются следующие:

  • маркет-дельта (дельта);
  • маркет-профиль.

Рассмотрим каждое из них.

Что такое маркет-дельта?

Дельта выражается в виде разницы между активными покупными и продажными ордерами на определенном таймфрейме. В случае ее положительного значения можно утверждать, что на свече доминирующими были покупные сделки, а если дельта будет отрицательной – это свидетельство преобладания продажных сделок.

Когда количество ордеров на покупку больше, обычно это сопровождается повышением цены, а превосходство ордеров на продажу указывает на дальнейшее ценовое снижение. Если отслеживать все нанесенные на свечу покупные и продажные объемы, можно разницу по количеству операций. Трейдер сможет самостоятельно понимать, с какой стороны было доминирование на интересующей его свече. Полученная разница в виде дельты должна пониматься в общем контексте других баров. Таким образом, напрашивается вывод, что при доминировании длинных позиций цена будет расти, а коротких – снижаться.

На рисунке ниже представлен пример маркет-дельты.

маркет-дельта

Что такое маркет-профиль?

Под маркет-профилем подразумеваются торговые объемы по операциям, соответствующие каждой конкретной цене, в рамках одного дня или за весь анализируемый период. Таким образом, это объем «вертикального» типа и он качественно показывает уровни, на которых фиксировался наибольший объем за временной промежуток. Если эту зону пробить в противоположную сторону, это грозит срывом стопов, следовательно, будет появляться импульс.

Читайте также:  Нарушение сердечного ритма и проводимости

Маркет-профиль помогает отслеживать ключевые уровни и интерпретировать их как области с максимальными объемами по сделкам. Также через данное понятие можно понять, на каких уровнях какие объемы по ордерам отслеживались (см. рисунок).

маркет-профиль

Применение кластерного анализа в торговых сделках

Кластеры могут применять дифференцированно, в зависимости от того, какая методика построения используется трейдером. Самыми эффективными считаются следующие:

  • дельта-профиль – считается самым удобным и информативным методом, который показывает присутствие самого влиятельного покупателя или продавца на конкретной свече. В этом случае вычисляется разница между бычьими и медвежьими объемами;
  • кластер-профиль – показываются общие объемы торгов на свече, при этом трейдер может наблюдать только факт активности, но не знает, кто выступает в роли инициатора.

Наибольшая эффективность обоих методов наблюдается на таймфреймах не старше 30-ти минут, а на крупных временных интервалах ситуация может быть вообще не предсказуема.

Анализ по методу дельта-профиля

Все значения из ленты сразу попадают на график кластерного анализа. При этом рассматриваются такие паттерны:

  • P – сосредоточение положительной дельты вверху бара, а под ней будет очень мало сделок. Это генерация разворотного бычьего сигнала;
  • b – в нижней части сконцентрирован поток продаж, а вверху свечи все спокойно. Это генерация медвежьего сигнала.

Ниже на картинке можно увидеть оба паттерна.

фьючерсы на евро

Важно следить не только за паттерном, а за дельтой в целом, иначе картина будет неоднозначной, что продемонстрировано на изображении ниже.

кластерный анализ и дельта

Если смотреть только на график свечей, трейдеру ничтожно мало такой информации и график бы просто дошел до уровня. Такая ситуация может рассматриваться и как разворот, и как продолжение тенденции, как видно ниже не рисунке.

дельта-профиль

Благодаря дельта-профилю трейдер воздерживается от покупки и находит прекрасный момент для продажи.

Анализ по методу кластер-профиля

Анализируя рынок по данной методике, трейдеру важно найти данные крупного объема. Если уровень сформируется, его будут удерживать быки или медведи в зависимости от силы рынка, а для нас это возможность выставлять ордер с наименьшим риском.

Пример приведен ниже.

кластер профиль

По графику видно, что крупные объемы находятся в пределах 0,7114-154, а также есть три момента в зоне 100-150. Таким образом, продавцами удерживаются позиции, чтобы цена актива не росла.

Здесь важно учитывать несколько спорных моментов:

  • не понятно, почему крупный игрок решает покупать актив по одинаковой ценней, если есть возможность постепенно совершать сделки по нескольким котировкам из одного диапазона;
  • чаще всего ценовое поведение непредсказуемо относительно больших объемов, поэтому идея может не сработать;
  • если отправлять крупные заявки на добор в противоположном движении, это позволяет легко манипулировать трейдерами.

Особенности кластерного анализа в терминалах МТ4 и МТ5

Наглядное представление кластерного графика в терминале MetaTrader выглядит таким образом.

кластер MT4

Если объем выше среднего значения, он будет выделяться цветом. Это удобно для зрительного восприятия данных трейдером.

Трейдер может определять не только дельту, но и начало сильного движения, его направление в точечном виде.

кластерный анализ mt4

Для вычисления уровня разворота необходимы значения таких параметров как:

  • гистограмма с объемами каждой свечи;
  • график кластеров по точечным объемам;
  • рыночный профиль, то есть объемы торгов каждого уровня цен.

Используя в комплексе всю информацию, можно создавать свои стратегии торговли и дополнять их вспомогательными инструментами.

гистограмма

Кластерный анализ позволяет мониторить активность рыночных участников, в частности самых крупных, чтобы отслеживать объемы на ценовых барах. Данный метод можно смело называть самым точным и детальным в работе трейдера.

Ключевая задача трейдера – это вычислить момент перехода дельты от умеренного значения к нормальному, когда рынок из флэта переходит в тренд. Наглядно можно объяснить на таком примере:

  • берем комбинацию таких активов – EUR-GBP+GBP-USD+EUR-USD;
  • предположим, курс EUR-USD вырос, а курс GBP-USD не изменился;
  • тогда будет укреплять свои позиции и EUR-GBP благодаря взаимосвязи всех трех пар;
  • если изменяется одна валютная пара, это отражается на позициях двух остальных.

переход дельты в кластерном анализе

Полезно применять индикатор YuClusters, который помогает формировать графики, используя тиковые данные и выбранную трейдером цену Аск, Бид или среднее их значение.

Точечное вливание в анализе кластеров

Суть такого приема заключается в том, чтобы определить уровни, которым свойственные высокие объемы, которые соответствуют действиям крупных игроков для входа в сделку или при закрытии ордера.

Точечный объем – это зона повышенного вливания ликвидности в рынок. Однако для каждого актива и таймфрейма подбирается свое значение кластера, которое сможет оказаться информативным и эффективным для дальнейшего анализа.
Также важными факторами влияния выступают такие как торговая сессия и общая рыночная активность.

Объемы, которые необходимо учитывать при проведении кластерного анализа, – это показатели, принадлежащие локальным трендам и разворотным точкам:

  1. 1-ый уровень – формирование произошло на шпильке крупного объема. Можно выдвинуть предположение, что какой-то крупный участник открыл короткую позицию или зафиксировал сделку, то есть завершил длинную позицию;
  2. 2-ой уровень – цена встретилась с сопротивление высокого объема, возможно, в этот момент участник доливал позиции в анализируемой области;
  3. 3-ий уровень – влитый объем превратился в уровень сопротивления для дальнейшего ценового движения;
  4. 4-ый уровень – когда произошел импульсный пробой локального дна и далее откат, появился еще один уровень, на котором предположительно выставлялись ордера на продажу по выгодным коррекционным ценам;
  5. 5-ый уровень – позиции добавлены по тренду, когда произошел пробой локального экстремума.

кластерный анализ и точечное влияние

На данном примере явно видно применение точечных вливаний объема в виде уровней сопротивления и поддержки. А сама свеча будет подсказывать, как корректно воспринимать объемные уровни:

  • импульсная свеча – вливание по трендовому движению;
  • свеча со шпилькой или разворотная – закрытие позиции крупным участником, высокий шанс того, что произойдет локальный разворот.

Рекомендуется сочетать кластерный анализ с другими видами, чтобы выявлять точки для выставления ордера или завершения сделки.

Можно рассмотреть следующий пример:

  1. 1-я область – представлена разворотная свеча в рамках 1-часового интервала, происходит вливание объема. Можно предположить, что наивысшие точки станут место формирования локальной трендовой смены;
  2. 2-я область – точечное вливание и последующий пробой экстремумов, цена рвется вверх. Это может говорить о том, что крупный трейдер добавил короткие позиции;
  3. 3-я область – наблюдается повышенный объем, однако происходит остановка цены. Значит, предположительно крупный игрок покидает рынок на кластере.

области на графике

Для определения более точных уровней необходимо анализировать самые узкие временные отрезки, в том числе просматривать данные минутного таймфрейма.

Вертикальный торговый объем

Речь идее о гистограмме, которая показывает данные по объему проторгованных позиций и их соответствие каждой свече.
Когда проводится такой анализ, нужно искать моменты возникновения вброса ликвидности и на каком уровне это случилось:

  • пробой уровня;
  • отскок от ключевой отметки.

кластерный анализ и торговый объем

Рассматривая рисунок, можно отметить, что столбцы гистограммы 1-4 показывают, как на сильном вливании объема случился отскок от уровня поддержки. Зона столбцов 5-6 демонстрирует, что при выбросе объема тормозилось движение вверх, а крупный трейдер входил на продажные сделки.

Горизонтальный торговый объем

Такой подход служит эффективным способом для изучения рынка и определения уровней влияния, а также поиска точек потенциальных разворотов. Он называется также рыночным профилем и изображается как гистограмма, указывающая данные проторгованного объема на каждом рыночном участке.

Когда формируется профиль рынка, вы должны указать конкретный участок для исследования – день, неделя и т.д. Временной интервал задается индивидуально трейдером, так как зависит от его торговой системы.

На рисунке ниже виден горизонтальный объем, который помогает получить сигналы о локальных ключевых уровнях в рамках кластерного анализа.

горизонтальный объем

Вывод

Кластерный анализ на рынке позволяет определять моменты повышенной торговой активности в виде данных объема, где крупные рыночные игроки набирали свои позиции. Относится к категории современных и высокоточных методик прогнозирования, поскольку в его основу заложена детализация входящих объемов в активе.

Источник

Особенности анализа результатов кластерного анализа

Кластерный анализ

Термин кластерный анализ (впервые ввел Tryon, 1939) в действительности включает в себя набор различных алгоритмов классификации. Общий вопрос, задаваемый исследователями во многих областях, состоит в том, как организовать наблюдаемые данные в наглядные структуры, т.е. развернуть таксономии. Например, биологи ставят цель разбить животных на различные виды, чтобы содержательно описать различия между ними. В соответствии с современной системой, принятой в биологии, человек принадлежит к приматам, млекопитающим, амниотам, позвоночным и животным. Заметьте, что в этой классификации, чем выше уровень агрегации, тем меньше сходства между членами в соответствующем классе. Человек имеет больше сходства с другими приматами (т.е. с обезьянами), чем с "отдаленными" членами семейства млекопитающих (например, собаками) и т.д. В последующих разделах будут рассмотрены общие методы кластерного анализа, см. Объединение (древовидная кластеризация), Двувходовое объединение и Метод K средних.

Проверка статистической значимости

Заметим, что предыдущие рассуждения ссылаются на алгоритмы кластеризации, но ничего не упоминают о проверке статистической значимости. Фактически, кластерный анализ является не столько обычным статистическим методом, сколько "набором" различных алгоритмов "распределения объектов по кластерам". Существует точка зрения, что в отличие от многих других статистических процедур, методы кластерного анализа используются в большинстве случаев тогда, когда вы не имеете каких-либо априорных гипотез относительно классов, но все еще находитесь в описательной стадии исследования. Следует понимать, что кластерный анализ определяет "наиболее возможно значимое решение". Поэтому проверка статистической значимости в действительности здесь неприменима, даже в случаях, когда известны p-уровни (как, например, в методе K средних).

Техника кластеризации применяется в самых разнообразных областях. Хартиган (Hartigan, 1975) дал прекрасный обзор многих опубликованных исследований, содержащих результаты, полученные методами кластерного анализа. Например, в области медицины кластеризация заболеваний, лечения заболеваний или симптомов заболеваний приводит к широко используемым таксономиям. В области психиатрии правильная диагностика кластеров симптомов, таких как паранойя, шизофрения и т.д., является решающей для успешной терапии. В археологии с помощью кластерного анализа исследователи пытаются установить таксономии каменных орудий, похоронных объектов и т.д. Известны широкие применения кластерного анализа в маркетинговых исследованиях. В общем, всякий раз, когда необходимо классифицировать "горы" информации к пригодным для дальнейшей обработки группам, кластерный анализ оказывается весьма полезным и эффективным.

Приведенный в разделе Основная цель пример поясняет цель алгоритма объединения (древовидной кластеризации). Назначение этого алгоритма состоит в объединении объектов (например, животных) в достаточно большие кластеры, используя некоторую меру сходства или расстояние между объектами. Типичным результатом такой кластеризации является иерархическое дерево.

Рассмотрим горизонтальную древовидную диаграмму. Диаграмма начинается с каждого объекта в классе (в левой части диаграммы). Теперь представим себе, что постепенно (очень малыми шагами) вы "ослабляете" ваш критерий о том, какие объекты являются уникальными, а какие нет. Другими словами, вы понижаете порог, относящийся к решению об объединении двух или более объектов в один кластер.

В результате, вы связываете вместе всё большее и большее число объектов и агрегируете (объединяете) все больше и больше кластеров, состоящих из все сильнее различающихся элементов. Окончательно, на последнем шаге все объекты объединяются вместе. На этих диаграммах горизонтальные оси представляют расстояние объединения (в вертикальных древовидных диаграммах вертикальные оси представляют расстояние объединения). Так, для каждого узла в графе (там, где формируется новый кластер) вы можете видеть величину расстояния, для которого соответствующие элементы связываются в новый единственный кластер. Когда данные имеют ясную "структуру" в терминах кластеров объектов, сходных между собой, тогда эта структура, скорее всего, должна быть отражена в иерархическом дереве различными ветвями. В результате успешного анализа методом объединения появляется возможность обнаружить кластеры (ветви) и интерпретировать их.

Объединение или метод древовидной кластеризации используется при формировании кластеров несходства или расстояния между объектами. Эти расстояния могут определяться в одномерном или многомерном пространстве. Например, если вы должны кластеризовать типы еды в кафе, то можете принять во внимание количество содержащихся в ней калорий, цену, субъективную оценку вкуса и т.д. Наиболее прямой путь вычисления расстояний между объектами в многомерном пространстве состоит в вычислении евклидовых расстояний. Если вы имеете двух- или трёхмерное пространство, то эта мера является реальным геометрическим расстоянием между объектами в пространстве (как будто расстояния между объектами измерены рулеткой). Однако алгоритм объединения не "заботится" о том, являются ли "предоставленные" для этого расстояния настоящими или некоторыми другими производными мерами расстояния, что более значимо для исследователя; и задачей исследователей является подобрать правильный метод для специфических применений.

Евклидово расстояние. Это, по-видимому, наиболее общий тип расстояния. Оно попросту является геометрическим расстоянием в многомерном пространстве и вычисляется следующим образом:

Заметим, что евклидово расстояние (и его квадрат) вычисляется по исходным, а не по стандартизованным данным. Это обычный способ его вычисления, который имеет определенные преимущества (например, расстояние между двумя объектами не изменяется при введении в анализ нового объекта, который может оказаться выбросом). Тем не менее, на расстояния могут сильно влиять различия между осями, по координатам которых вычисляются эти расстояния. К примеру, если одна из осей измерена в сантиметрах, а вы потом переведете ее в миллиметры (умножая значения на 10), то окончательное евклидово расстояние (или квадрат евклидова расстояния), вычисляемое по координатам, сильно изменится, и, как следствие, результаты кластерного анализа могут сильно отличаться от предыдущих.

Читайте также:  Герои романа Толстого Анна Каренина

Квадрат евклидова расстояния. Иногда может возникнуть желание возвести в квадрат стандартное евклидово расстояние, чтобы придать большие веса более отдаленным друг от друга объектам. Это расстояние вычисляется следующим образом (см. также замечания в предыдущем пункте):

Расстояние городских кварталов (манхэттенское расстояние). Это расстояние является просто средним разностей по координатам. В большинстве случаев эта мера расстояния приводит к таким же результатам, как и для обычного расстояния Евклида. Однако отметим, что для этой меры влияние отдельных больших разностей (выбросов) уменьшается (так как они не возводятся в квадрат). Манхэттенское расстояние вычисляется по формуле:

Расстояние Чебышева. Это расстояние может оказаться полезным, когда желают определить два объекта как "различные", если они различаются по какой-либо одной координате (каким-либо одним измерением). Расстояние Чебышева вычисляется по формуле:

Степенное расстояние. Иногда желают прогрессивно увеличить или уменьшить вес, относящийся к размерности, для которой соответствующие объекты сильно отличаются. Это может быть достигнуто с использованием степенного расстояния. Степенное расстояние вычисляется по формуле:

где r и p — параметры, определяемые пользователем. Несколько примеров вычислений могут показать, как "работает" эта мера. Параметр p ответственен за постепенное взвешивание разностей по отдельным координатам, параметр r ответственен за прогрессивное взвешивание больших расстояний между объектами. Если оба параметра — r и p , равны двум, то это расстояние совпадает с расстоянием Евклида.

Процент несогласия. Эта мера используется в тех случаях, когда данные являются категориальными. Это расстояние вычисляется по формуле:

расстояние(x,y) = (Количество xi yi)/ i

Правила объединения или связи

На первом шаге, когда каждый объект представляет собой отдельный кластер, расстояния между этими объектами определяются выбранной мерой. Однако когда связываются вместе несколько объектов, возникает вопрос, как следует определить расстояния между кластерами? Другими словами, необходимо правило объединения или связи для двух кластеров. Здесь имеются различные возможности: например, вы можете связать два кластера вместе, когда любые два объекта в двух кластерах ближе друг к другу, чем соответствующее расстояние связи. Другими словами, вы используете "правило ближайшего соседа" для определения расстояния между кластерами; этот метод называется методом одиночной связи. Это правило строит "волокнистые" кластеры, т.е. кластеры, "сцепленные вместе" только отдельными элементами, случайно оказавшимися ближе остальных друг к другу. Как альтернативу вы можете использовать соседей в кластерах, которые находятся дальше всех остальных пар объектов друг от друга. Этот метод называется метод полной связи. Существует также множество других методов объединения кластеров, подобных тем, что были рассмотрены.

Одиночная связь (метод ближайшего соседа). Как было описано выше, в этом методе расстояние между двумя кластерами определяется расстоянием между двумя наиболее близкими объектами (ближайшими соседями) в различных кластерах. Это правило должно, в известном смысле, нанизывать объекты вместе для формирования кластеров, и результирующие кластеры имеют тенденцию быть представленными длинными "цепочками".

Полная связь (метод наиболее удаленных соседей). В этом методе расстояния между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах (т.е. "наиболее удаленными соседями"). Этот метод обычно работает очень хорошо, когда объекты происходят на самом деле из реально различных "рощ". Если же кластеры имеют в некотором роде удлиненную форму или их естественный тип является "цепочечным", то этот метод непригоден.

Невзвешенное попарное среднее. В этом методе расстояние между двумя различными кластерами вычисляется как среднее расстояние между всеми парами объектов в них. Метод эффективен, когда объекты в действительности формируют различные "рощи", однако он работает одинаково хорошо и в случаях протяженных ("цепочного" типа) кластеров. Отметим, что в своей книге Снит и Сокэл (Sneath, Sokal, 1973) вводят аббревиатуру UPGMA для ссылки на этот метод, как на метод невзвешенного попарного арифметического среднегоunweighted pair-group method using arithmetic averages.

Взвешенное попарное среднее. Метод идентичен методу невзвешенного попарного среднего, за исключением того, что при вычислениях размер соответствующих кластеров (т.е. число объектов, содержащихся в них) используется в качестве весового коэффициента. Поэтому предлагаемый метод должен быть использован (скорее даже, чем предыдущий), когда предполагаются неравные размеры кластеров. В книге Снита и Сокэла (Sneath, Sokal, 1973) вводится аббревиатура WPGMA для ссылки на этот метод, как на метод взвешенного попарного арифметического среднего — weighted pair-group method using arithmetic averages.

Невзвешенный центроидный метод. В этом методе расстояние между двумя кластерами определяется как расстояние между их центрами тяжести. Снит и Сокэл (Sneath and Sokal (1973)) используют аббревиатуру UPGMC для ссылки на этот метод, как на метод невзвешенного попарного центроидного усредненияunweighted pair-group method using the centroid average.

Взвешенный центроидный метод (медиана). тот метод идентичен предыдущему, за исключением того, что при вычислениях используются веса для учёта разницы между размерами кластеров (т.е. числами объектов в них). Поэтому, если имеются (или подозреваются) значительные отличия в размерах кластеров, этот метод оказывается предпочтительнее предыдущего. Снит и Сокэл (Sneath, Sokal 1973) использовали аббревиатуру WPGMC для ссылок на него, как на метод невзвешенного попарного центроидного усредненияweighted pair-group method using the centroid average.

Метод Варда. Этот метод отличается от всех других методов, поскольку он использует методы дисперсионного анализа для оценки расстояний между кластерами. Метод минимизирует сумму квадратов (SS) для любых двух (гипотетических) кластеров, которые могут быть сформированы на каждом шаге. Подробности можно найти в работе Варда (Ward, 1963). В целом метод представляется очень эффективным, однако он стремится создавать кластеры малого размера.

Для обзора других методов кластеризации, см. Двухвходовое объединение и Метод K средних.

Ранее этот метод обсуждался в терминах "объектов", которые должны быть кластеризованы (см. Объединение (древовидная кластеризация)). Во всех других видах анализа интересующий исследователя вопрос обычно выражается в терминах наблюдений или переменных. Оказывается, что кластеризация, как по наблюдениям, так и по переменным может привести к достаточно интересным результатам. Например, представьте, что медицинский исследователь собирает данные о различных характеристиках (переменные) состояний пациентов (наблюдений), страдающих сердечными заболеваниями. Исследователь может захотеть кластеризовать наблюдения (пациентов) для определения кластеров пациентов со сходными симптомами. В то же самое время исследователь может захотеть кластеризовать переменные для определения кластеров переменных, которые связаны со сходным физическим состоянием.

После этого обсуждения, относящегося к тому, кластеризовать наблюдения или переменные, можно задать вопрос, а почему бы не проводить кластеризацию в обоих направлениях? Модуль Кластерный анализ содержит эффективную двувходовую процедуру объединения, позволяющую сделать именно это. Однако двувходовое объединение используется (относительно редко) в обстоятельствах, когда ожидается, что и наблюдения и переменные одновременно вносят вклад в обнаружение осмысленных кластеров.

Так, возвращаясь к предыдущему примеру, можно предположить, что медицинскому исследователю требуется выделить кластеры пациентов, сходных по отношению к определенным кластерам характеристик физического состояния. Трудность с интерпретацией полученных результатов возникает вследствие того, что сходства между различными кластерами могут происходить из (или быть причиной) некоторого различия подмножеств переменных. Поэтому получающиеся кластеры являются по своей природе неоднородными. Возможно это кажется вначале немного туманным; в самом деле, в сравнении с другими описанными методами кластерного анализа (см. Объединение (древовидная кластеризация) и Метод K средних), двувходовое объединение является, вероятно, наименее часто используемым методом. Однако некоторые исследователи полагают, что он предлагает мощное средство разведочного анализа данных (за более подробной информацией вы можете обратиться к описанию этого метода у Хартигана (Hartigan, 1975)).

Этот метод кластеризации существенно отличается от таких агломеративных методов, как Объединение (древовидная кластеризация) и Двувходовое объединение. Предположим, вы уже имеете гипотезы относительно числа кластеров (по наблюдениям или по переменным). Вы можете указать системе образовать ровно три кластера так, чтобы они были настолько различны, насколько это возможно. Это именно тот тип задач, которые решает алгоритм метода K средних. В общем случае метод K средних строит ровно K различных кластеров, расположенных на возможно больших расстояниях друг от друга.

В примере с физическим состоянием (см. Двувходовое объединение), медицинский исследователь может иметь "подозрение" из своего клинического опыта, что его пациенты в основном попадают в три различные категории. Далее он может захотеть узнать, может ли его интуиция быть подтверждена численно, то есть, в самом ли деле кластерный анализ K средних даст три кластера пациентов, как ожидалось? Если это так, то средние различных мер физических параметров для каждого кластера будут давать количественный способ представления гипотез исследователя (например, пациенты в кластере 1 имеют высокий параметр 1, меньший параметр 2 и т.д.).

С вычислительной точки зрения вы можете рассматривать этот метод, как дисперсионный анализ (см. Дисперсионный анализ) "наоборот". Программа начинает с K случайно выбранных кластеров, а затем изменяет принадлежность объектов к ним, чтобы: (1) — минимизировать изменчивость внутри кластеров, и (2) — максимизировать изменчивость между кластерами. Данный способ аналогичен методу "дисперсионный анализ (ANOVA) наоборот" в том смысле, что критерий значимости в дисперсионном анализе сравнивает межгрупповую изменчивость с внутригрупповой при проверке гипотезы о том, что средние в группах отличаются друг от друга. В кластеризации методом K средних программа перемещает объекты (т.е. наблюдения) из одних групп (кластеров) в другие для того, чтобы получить наиболее значимый результат при проведении дисперсионного анализа (ANOVA).

Обычно, когда результаты кластерного анализа методом K средних получены, можно рассчитать средние для каждого кластера по каждому измерению, чтобы оценить, насколько кластеры различаются друг от друга. В идеале вы должны получить сильно различающиеся средние для большинства, если не для всех измерений, используемых в анализе. Значения F-статистики, полученные для каждого измерения, являются другим индикатором того, насколько хорошо соответствующее измерение дискриминирует кластеры.

Все права на материалы электронного учебника принадлежат компании StatSoft

Источник

Кластерный анализ

В статье более детально рассмотрено значение кластерного анализа, который является основой для многих научных исследований.

Кластерный анализ — это совокупность методов, позволяющих классифицировать многомерные наблюдения. Он не накладывает ограничения на представление исследуемых объектов, позволяет анализировать показатели различных типов данных (интервальным данным, частотам, бинарным данным). Большое достоинство кластерного анализа в том, что он позволяет производить разбиение объектов не по одному параметру, а по целому набору признаков. Кроме того, кластерный анализ в отличие от большинства математико-статистических методов не накладывает никаких ограничений на вид рассматриваемых объектов, и позволяет рассматривать множество исходных данных практически произвольной природы. При этом необходимо помнить, что переменные должны измеряться в сравнимых шкалах. Кластерный анализ позволяет рассматривать достаточно большой объем информации и резко сокращать, сжимать большие массивы социально-экономической информации, делать их компактными и наглядными.

Кластерный анализ представляет собой класс методов, используемых для классификации объектов или событий в относительно однородные группы, которые называются кластерами. Объекты в каждом кластере должны быть похожи между собой и отличаться от других объектов в других кластерах. Его также называют классификационным. В случае если кластерный анализ использовать именно таким образом, то он становится частью факторного анализа, так как уменьшают число объектов, а не число переменных, сгруппировывая их в меньшее число кластеров.

Цель кластеризации группирование схожих объектов, в связи с этим для того, чтобы оценить, насколько они похожи или не похожи, крайне важно использовать некую измерительную единицу. Наиболее распространенный метод состоит, по сути, в том, что в качестве такой меры используют расстояние между объектами. Объекты с меньшими расстояниями между собой более похожи, чем объекты с большими расстояниями.

Существует несколько способов вычисления расстояния между объектами. Наиболее часто используют меру сходства – Евклидово расстояние или его квадрат.

Евклидово расстояние – квадратный корень из суммы квадратов разностей в значениях для каждой переменной.

Процесс кластеризации начинается с вычисления матрицы различий между группами объектов – матрицы Евклидовых расстояний, элементы которой вычисляется, исходя из матрицы Х.

Этапы выполнения кластерного анализа:

  1. формулировка проблемы
  2. выбор меры расстояния
  3. выбор метода кластеризации
  4. принятие решения о количестве кластеров
  5. интерпретация и профилирование кластеров
  6. оценка достоверности кластеризации

Самая важная часть формулирования проблемы кластеризации — это выбор переменных, на основе которых проводят кластеризацию.

Кластерный анализ применяется для решения широкого спектра задач. В отличие от большинства других методов многомерного анализа, кластерный анализ параллельно развивался в 52 нескольких дисциплинах (психология, биология, экономика и др.), поэтому у большинства методов существует по 2 и более названий, что существенно затрудняет взаимопонимание исследователей, в особенности, если речь идет о разных отраслях знания.

Другая проблема связана с обилием вариантов при выборе метрики и метода кластеризации, а также согласования между ними.

Выделяют две группы методов кластерного анализа: иерархические и неиерархические.

Иерархические методы могут быть агломеративными и дивизивными. Агломеративная кластеризация начинается с каждого объекта в отдельном кластере. Кластеры объединяют, группируя объекты каждый раз во все более и более крупные кластеры. Этот процесс продолжают до тех пор, пока все объекты не станут членами одного единственного кластера. Разделяющая, или дивизивная, кластеризация начинается со всех объектов, сгруппированных в единственном кластере. Кластеры делят до тех пор, пока каждый объект не окажется в отдельном кластере.

Основными методами иерархического кластерного анализа являются метод ближнего соседа, метод полной связи, метод средней связи и метод Варда. Существуют также центроидные методы и методы, использующие медиану, но их применение может привести к некоторым весьма нежелательным последствиям.

Читайте также:  Разработка и анализ внеклассного занятия

Методы связи — агломеративные методы иерархической кластеризации, которые объединяют объекты в кластер, исходя из вычисленного расстояния между ними. В основе полного метода лежит максимальное расстояние между объектами, или правило дальнего соседа. В этом методе расстояние между двумя кластерами вычисляют как расстояние между двумя их самыми удаленными точками.

В методе средней связи расстояние между двумя кластерами определяют как среднее значение всех расстояний, измеренных между объектами двух кластеров, при этом в каждую пару входят объекты из разных кластеров. Метод средней связи использует информацию обо всех расстояния между парами, а не только минимальное или максимальное расстояние. По этой причин обычно предпочитают использовать именно этот метод.

В центроидных методах расстояние между двумя кластерами представляет собой расстояние между их центроидами. Центроидный метод — дисперсионный метод иерархической кластеризации.

Каждый раз объекты группируют и вычисляют новый центроид. Изо всех иерархических методов методы средней связи и Варда показывают наилучшие результаты по сравнению с другими методами.

Неиерархических методов больше, хотя работают они на одних и тех же принципах. По сути, они представляют собой итеративные методы дробления исходной совокупности. В процессе деления формируются новые кластеры, и так до тех пор, пока не будет выполнено правило остановки. Между собой методы различаются выбором начальной точки, правилом формирования новых кластеров и правилом остановки. Чаще всего используется алгоритм К- средних. Он подразумевает, что аналитик заранее фиксирует количество кластеров в результирующем разбиении.

Метод К- средних — метод, который вначале определяет центр кластера, а затем группирует все объекты в пределах заданного от центра порогового значения. Эти методы включают последовательный пороговый метод, параллельный пороговый метод и оптимизирующее распределение.

Однако, во многих задачах даже после того, как правило, остановки рекомендовало нам прекратить дальнейшие вычисления, нет оснований считать, что полученное решение является адекватным. Результаты процедуры кластерного анализа обязательно требуют проверки с помощью формальных и неформальных тестов. Говоря о формальных статистиках, следует рекомендовать рассчитать значение статистики «С». Неформальная проверка результатов кластерного анализа включает в себя такие процедуры, как анализ результатов, полученных на подвыборках, кросс-проверка на «внешних» данных, вменение порядка наблюдений, удаление небольшого количества наблюдений и повторение кластерного анализа на коротких выборках и т.д.

Источник

КЛАСТЕРНЫЙ АНАЛИЗ

Кластерный анализ решает задачу построения классификации, то есть разделения исходного множества объектов на группы (классы, кластеры). При этом предполагается, что у исследователя нет исходных допущений ни о составе классов, ни об их отличии друг от друга. Приступая к кластерному анализу, исследователь располагает лишь информацией о характеристиках (признаках) для объектов, позволяющей судить о сходстве (различии) объектов, либо только данными об их попарном сходстве (различии). В литературе часто встречаются синонимы кластерного анализа: автоматическая классификация, таксономический анализ, анализ образов (без обучения).

Несмотря на то, что кластерный анализ известен относительно давно (впервые изложен Тгуоп в 1939 году), распространение эта группа методов получила существенно позже, чем другие многомерные методы, такие, как факторный анализ. Лишь после публикации книги «Начала численной таксономии» биологами Р. Сокэл и П. Снит в 1963 году начинают появляться первые исследования с использованием этого метода. Тем не менее, до сих пор в психологии известны лишь единичные случаи удачного применения кластерного анализа, несмотря на его исключительную простоту. Вызывает удивление настойчивость, с которой психологи используют для решения простой задачи классификации (объектов, признаков) такой сложный метод, как факторный анализ. Вместе с тем, как будет показано в этой главе, кластерный анализ не только гораздо проще и нагляднее решает эту задачу, но и имеет несомненное преимущество: результат его применения не связан с потерей даже части исходной информации о различиях объектов или корреляции признаков.

Варианты кластерного анализа — это множество простых вычислительных процедур, используемых для классификации объектов. Классификация объектов — это группирование их в классы так, чтобы объекты в каждом классе были более похожи друг на друга, чем на объекты из других классов. Более точно, кластерный анализ— это процедура упорядочивания объектов в сравнительно однородные классы на основе попарного сравнения этих объектов по предварительно определенным и измеренным критериям.

Существует множество вариантов кластерного анализа, но наиболее широко используются методы, объединенные общим названием иерархический кластерный анализ(Hierarchical Cluster Analysis). В дальнейшем под кластерным анализом мы будем подразумевать именно эту группу методов. Рассмотрим основной принцип иерархического кластерного анализа на примере.

ПРИМЕР .1

Предположим, 10 студентам предложили оценить проведенное с ними занятие по двум критериям: увлекательность (Pref) и полезность (Use). Для оценки использовалась 10-балльная шкала. Полученные данные (2 переменные для 10 студентов) графически представлены в виде графика двумерного рассеивания (рис. 19.1). Конечно, классификация объектов по результатам измерения всего двух переменных не требует применения кластерного анализа: группировки и так можно выделить путем визуального анализа. Так, в данном случае наблюдаются четыре группировки: 9,2, Ъ — занятие полезное, но не увлекательное; 1, 10, 8 — занятие увлекательное, но бесполезное; 5, 7 — занятие и полезное и увлекательное; 4, 6 — занятие умеренно увлекательное и умеренно полезное. Даже для трех переменных можно обойтись и без кластерного анализа, так как компьютерные программы позволяют строить трехмерные графики. Но для 4 и более переменных визуальный анализданных практически невозможен. Тем не менее, общий принцип классификации объектов при помощи кластерного анализа не зависит от количества измеренных признаков, так как непосредственной информацией для этого метода являются различия между классифицируемыми объектами.

Рис 1. График двумерного рассеивания переменных «увлекательность» (Pref) и «польза» (Use) для 10 студентов

Кластерный анализ объектов, для которых заданы значения количественных признаков начинается с расчета различий для всех пар объектов. Пользователь может выбрать по своему усмотрению меру различия. В качестве меры различия выбирается расстояние между объектами в Р-мерном пространстве признаков, чаще всего — евклидово расстояние или его квадрат. В данном случае Р= 2 и евклидово расстояние между объектами i и j определяется формулой:

где х — это значения одного, а у — другого признака.

На первом шаге кластерного анализа путем перебора всех пар объектов определяется пара (или пары) наиболее близких объектов, которые объединяются в первичные кластеры. Далее на каждом шаге к каждому первичному кластеру присоединяется объект (кластер), который к нему ближе. Этот процесс повторяется до тех пор, пока все объекты не будут объединены в один кластер. Критерий объединения объектов (кластеров) может быть разным и определяется методом кластерного анализа. Основным результатом применения иерархического кластерного анализа является дендрограмма — графическое изображение последовательности объединения объектов в кластеры. Для данного примера дендрограмма приведена на рис. 2

Рис. 19.2. Дендрограмма для 10 студентов (метод средней связи)

На дендрограмме номера объектов следуют по вертикали. По горизонтали отмечены расстояния (в условных единицах), на которых происходит объединение объектов в кластеры. На первых шагах происходит образование кластеров: (3,9,2) и (5,7). Далее образуется кластер (8, 10, 1) — расстояния между этими объектами больше, чем между теми, которые были объединены на предыдущих шагах. Следующий кластер — (4, 6). Далее в один кластер объединяются кластеры (5, 7) и (4, 6), и т. д. Процесс заканчивается объединением всех объектов в один кластер. Количество кластеров определяет по дендрограмме сам исследователь. Так, судя по дендрограмме, в данном случае можно выделить три или четыре кластера.

Как видно из примера, кластерный анализ — это комбинаторная процедура, имеющая простой и наглядный результат. Широта возможного применения кластерного анализа очевидна настолько же, насколько очевиден и его смысл. Классифицирование или разделение исходного множества объектов на различающиеся группы — всегда первый шаг в любой умственной деятельности, предваряющий поиск причин обнаруженных различий.

Можно указать ряд задач, при решении которых кластерный анализ является более эффективным, чем другие многомерные методы:

□ разбиение совокупности испытуемых на группы по измеренным признакам с целью дальнейшей проверки причин межгрупповых различий по внешним критериям, например, проверка гипотез о том, проявляются ли типологические различия между испытуемыми по измеренным признакам;

□ применение кластерного анализа как значительно более простого и наглядного аналога факторного анализа, когда ставится только задача группировки признаков на основе их корреляции;

□ классификация объектов на основе непосредственных оценок различий между ними (например, исследование социальной структуры коллектива по данным социометрии — по выявленным межличностным предпочтениям).

Несмотря на различие целей проведения кластерного анализа, можно выделить общую его последовательность как ряд относительно самостоятельных шагов, играющих существенную роль в прикладном исследовании:

1. Отбор объектов для кластеризации. Объектами могут быть, в зависимости от цели исследования: а) испытуемые; б) объекты, которые оцениваются испытуемыми; в) признаки, измеренные на выборке испытуемых.

2. Определение множества переменных, по которым будут различаться объекты кластеризации. Для испытуемых — это набор измеренных признаков, для оцениваемых объектов — субъекты оценки, для признаков — испытуемые. Если в качестве исходных данных предполагается использовать результаты попарного сравнения объектов, необходимо четко определить критерии этого сравнения испытуемыми (экспертами).

3. Определение меры различия между объектами кластеризации. Это первая проблема, которая является специфичной для методов анализа различий: многомерного шкалирования и кластерного анализа. Применяемые меры различия и требования к ним подробно изложены в главе 18 (раздел «Меры различия»),

4. Выбор и применение метода классификации для создания групп сходных объектов. Это вторая и центральная проблема кластерного анализа. Ее весомость связана с тем, что разные методы кластеризации порождают разные группировки для одних и тех же данных. Хотя анализ и заключается в обнаружении структуры, наделе в процессе кластеризации структура привносится в данные, и эта привнесенная структура может не совпадать с реальной.

5. Проверка достоверности разбиения на классы.

Последний этап не всегда необходим, например, при выявлении социальной структуры группы. Тем не менее следует помнить, что кластерный анализ всегда разобьет совокупность объектов на классы, независимо от того, существуют ли они на самом деле. Поэтому бесполезно доказывать существенность разбиения на классы, например, на основании достоверности различий между классами по признакам, включенным в анализ. Обычно проверяют устойчивость группировки — на повторной идентичной выборке объектов. Значимость разбиения проверяют по внешним критериям — признакам, не вошедшим в анализ.

Основная:

1. Сидоренко Е.В. Методы математической обработки в психологии. СПб, 2007 .

2. Наследов А.Д. Математические методы психологического исследования. Анализ и интерпретация данных. СПб., Речь, 2006.

3. Наследов А.Д. SPSS компьютерный анализ данных в психологии и социальных науках. СПб., Питер. 2007.

4. Наследов А.Д. SPSS 19. Профессиональный статистический анализ данных. – Спб,: П. 2011. – 400 с. : ил.итер

5. Суходольский Г.В. Математическая психология. Харьков: Изд. Гуманитарный центр, 2006. – 306 с.

6. Ермолаев О.Ю. Математическая статистика для психологов. — М.: МПСИ, Флинта, 2003

1.Артемьева Е.Ю., Мартынов Е.М. Вероятностные методы в психологии. — М Изд. МГУ, 1975.-206 с.

2. Басимов М.М. Изучение статистических связей в психологических исследованиях. Монография. М.: Издательство Московского психолого-социального института; Воронеж: НПО «МОДЭК», 2008. – 432 с.

3. Гласс Дж., Стенли Дж. Статистические методы в педагогике и психологии. М.: Прогресс, 1976. — 495 с.

4. Годфруа Ж. Что такое психология? М.: Мир, 1996.

5. Дюк В.А. Компьютерная психодиагоностика. Спб, 1994.

6. Рабочая книга социолога. — М.: Наука. 1983. — 477 с.

7. Как провести социологическое исследование. — М.: Политиздат, 1985.- 225.

8. Плис А.И., Сливина Н.А. Практикум по прикладной статистике в среде SPSS. М.: Финансы и статистика, 2004.

9. stat-msu.narod.ru — Учебные материалы по статистике для психологов. Учебные материалы по курсу математической статистики для психологического факультета МГУ. [электронный ресурс]

ОБРАЗОВАТЕЛЬНЫЕ ИНТЕРНЕТ РЕСУРСЫ

1. www.statsoft.ru (портал статистической обработки данных и электронный учебник по статистике в среде “Statistica 6.0”)

2. http://www.spss.ru/ (Сайт посвященный работе в среде SPSS, включая примеры и электронный учебник).

Перечень вопросов к зачету:

1. Шкалирование. Виды шкал.

2. Математическое ожидание случайной величины

3. Параметрические критерии различия.

4. Непараметрические критерии различия.

5. Математическое ожидание случайной величины.

6. Дисперсия случайной величины.

7. Двух модальное распределение случайной величины

8. Зависимые и независимые выборки. Стратифицированные выборки.

9. Репрезентативность и валидность выборки.

10. Гистограмма. Разброс выборки.

11. Нормальное распределение случайной величины.

12. Размах в пределах +/- 3 σ — стандартное отклонение от среднего для нормального распределения.

13. Понятие о статистических гипотезах. Нулевая и альтернативная гипотеза.

14. Понятие уровня статистической значимости. Мощность критерия.

15. Непараметрические критерии различия.

16. Критерий знаков (G- критерий) и критерий Вилкоксона. Типичный и нетипичный сдвиг.

17. Критерий Фридмана.

18. Критерий Манна-Уитни

19. Критерий Розенбаума.

20. Критерий Крускала – Уоллиса.

21. Параметрические критерии различий: t-критерий Стьюдента и его смысл.

22. Критерий Хи-квадрат и его смысл.

23. Корреляционный анализ: понятие корреляционной связи; коэффициент корреляции Пирсона.

24. Корреляционный анализ: ранговый коэффициент корреляции Спирмена.

25. Корреляционный анализ: коэффициент корреляции «τ» Кендала.

26. Кластерный анализ: основные идеи кластерного анализа.

27. Элементы факторного анализа. Вращение факторов. Основные задачи психологии, решаемые с использованием кластерного анализа.

Источник

Adblock
detector