Исследуемая группа для статистического анализа



Статистический анализ — это. Понятие, методы, цели и задачи статистического анализа

Достаточно часто возникают явления, которые можно проанализировать исключительно при помощи статистических методов. В этой связи для каждого субъекта, стремящегося глубоко изучить проблему, проникнуть в суть темы, важно иметь представление о них. В статье разберемся, что такое статистический анализ данных, каковы его особенности, а также какие методы применяют при его проведении.

Особенности терминологии

Статистику рассматривают в качестве специфичной науки, системы госорганов, а также как набор цифр. Между тем далеко не все цифры можно считать статистикой. Разберемся в этом вопросе.

Для начала следует вспомнить, что слово «статистика» имеет латинские корни и происходит от понятия status. В буквальном переводе термин означает «определенное положение предметов, вещей». Следовательно, статистическими признаются только такие данные, с помощью которых фиксируются относительно устойчивые явления. Анализ, собственно, и выявляет эту устойчивость. Его используют, к примеру, при изучении социально-экономических, политических явлений.

Назначение

Применение статистического анализа позволяет отображать количественные показатели в неразрывной связи с качественными. В результате исследователь может увидеть взаимодействие фактов, установить закономерности, выявить типичные признаки ситуаций, сценарии развития, обосновать прогноз.

Статистический анализ – это один из ключевых инструментов СМИ. Чаще всего его используют в деловых изданиях, таких как, например, «Ведомости», «Коммерсант», «Эксперт-профи» и пр. В них всегда публикуются «аналитические рассуждения» о валютном курсе, котировке акций, учетных ставках, инвестициях, рынке, экономике в целом.

Разумеется, чтобы результаты анализа были достоверными, постоянно проводится сбор данных.

Источники информации

Сбор данных может осуществляться по-разному. Главное, чтобы способы не нарушали закон и не ущемляли интересы других лиц. Если говорить о СМИ, то для них ключевыми источниками информации выступают государственные статистические органы. Эти структуры должны:

  1. Собирать отчетные сведения в соответствии с утвержденными программами.
  2. Группировать информацию по тем или иным критериям, наиболее значимым для исследуемого явления, формировать сводки.
  3. Проводить собственный статистический анализ.

В задачи уполномоченных госорганов входит также предоставление полученных ими данных в отчетах, тематических подборках или пресс-релизах. В последнее время статистика публикуется на официальных сайтах госструктур.

Кроме указанных органов, информацию можно получить в Едином госреестре предприятий, учреждений, объединений и организаций. Цель его создания состоит в формировании единой информационной базы.

Для проведения анализа можно использовать информацию, полученную от межправительственных организаций. Существуют специальные базы данных экономической статистики стран.

Часто информация поступает от частных лиц, общественных организаций. Эти субъекты обычно ведут свою статистику. Так, к примеру, Союз охраны птиц в России регулярно устраивает так называемые соловьиные вечера. В конце мая через СМИ организация приглашает всех желающих поучаствовать в подсчете соловьев на территории Москвы. Полученные сведения обрабатываются группой экспертов. После этого сведения переносятся в специальную карту.

Многие журналисты обращаются за информацией к представителям других авторитетных СМИ, пользующихся у аудитории популярностью. Распространенным способом получения данных является опрос. При этом опрашиваемыми могут стать как рядовые граждане, так и эксперты в какой-либо области.

Специфика выбора методики

Перечень показателей, необходимых для проведения анализа, зависит от специфики исследуемого явления. К примеру, если изучается уровень благосостояния населения, приоритетными считаются данные о качестве жизни граждан, прожиточном минимуме на данной территории, размере МРОТ, пенсии, стипендии, потребительской корзины. При исследовании демографической ситуации важны показатели смертности и рождаемости, число мигрантов. Если изучается сфера промышленного производства, важные сведения для статистического анализа – это количество предприятий, их виды, объем продукции, уровень производительности труда и т. д.

Средние показатели

Как правило, при описании тех или иных явлений используются средние арифметические величины. Для их получения числа складывают друг с другом, а полученный результат делят на их количество.

Средние величины используются в качестве обобщающих показателей. Однако они не позволяют описать конкретные моменты. К примеру, в ходе анализа установлено, что средняя зарплата по России составляет 30 тыс. р. Этот показатель не говорит о том, что все работающие граждане страны получают именно эту сумму. Более того, у кого-то зарплата может быть и выше, а у кого-то – ниже этой цифры.

Источник

7 методов статистического анализа, которые может применять каждый

Деятельность людей во множестве случаев предполагает работу с данными, а она в свою очередь может подразумевать не только оперирование ими, но и их изучение, обработку и анализ. Например, когда нужно уплотнить информацию, найти какие-то взаимосвязи или определить структуры. И как раз для аналитики в этом случае очень удобно пользоваться не только разными техниками мышления, но и применять статистические методы.

Особенностью методов статистического анализа является их комплексность, обусловленная многообразием форм статистических закономерностей, а также сложностью процесса статистических исследований. Однако мы хотим поговорить именно о таких методах, которые может применять каждый, причем делать это эффективно и с удовольствием.

Статистическое исследование может проводиться посредством следующих методик:

  • Статистическое наблюдение;
  • Сводка и группировка материалов статистического наблюдения;
  • Абсолютные и относительные статистические величины;
  • Вариационные ряды;
  • Выборка;
  • Корреляционный и регрессионный анализ;
  • Ряды динамики.

Далее мы рассмотрим каждый из них более подробно. Но отметим, что представим лишь основные характеристики без подробного описания алгоритмов действий. Впрочем, понять их не составит никакого труда.

Статистическое наблюдение

Статистическое наблюдение является планомерным, организованным и в большинстве случаев систематическим сбором информации, направленным, главным образом, на явления социальной жизни. Реализуется данный метод через регистрацию предварительно определенных наиболее ярких признаков, цель которой состоит в последующем получении характеристик изучаемых явлений.

Статистическое наблюдение должно выполняться с учетом некоторых важных требований:

  • Оно должно полностью охватывать изучаемые явления;
  • Получаемые данные должны быть точными и достоверными;
  • Получаемые данные должны быть однообразными и легкосопоставимыми.

Также статистическое наблюдение может иметь две формы:

  • Отчетность – это такая форма статистического наблюдения, где информация поступает в конкретные статистические подразделения организаций, учреждений или предприятий. В этом случае данные вносятся в специальные отчеты.
  • Специально организованное наблюдение – наблюдение, которое организуется с определенной целью, чтобы получить сведения, которых не имеется в отчетах, или же для уточнения и установления достоверности информации отчетов. К этой форме относятся опросы (например, опросы мнений людей), перепись населения и т.п.

Кроме того, статистическое наблюдение может быть категоризировано на основе двух признаков: либо на основе характера регистрации данных, либо на основе охвата единиц наблюдения. К первой категории относятся опросы, документирование и прямое наблюдение, а ко второй – наблюдение сплошное и несплошное, т.е. выборочное.

Для получения данных при помощи статистического наблюдения можно применять такие способы как анкетирование, корреспондентская деятельность, самоисчисление (когда наблюдаемые, например, сами заполняют соответствующие документы), экспедиции и составление отчетов.

Сводка и группировка материалов статистического наблюдения

Говоря о втором методе, в первую очередь следует сказать о сводке. Сводка представляет собой процесс обработки определенных единичных фактов, которые образуют общую совокупность данных, собранных при наблюдении. Если сводка проводится грамотно, огромное количество единичных данных об отдельных объектах наблюдения может превратиться в целый комплекс статистических таблиц и результатов. Также такое исследование способствует определению общих черт и закономерностей исследуемых явлений.

С учетом показателей точности и глубины изучения можно выделить простую и сложную сводку, но любая из них должна основываться на конкретных этапах:

  • Выбирается группировочный признак;
  • Определяется порядок формирования групп;
  • Разрабатывается система показателей, позволяющих охарактеризовать группу и объект или явление в целом;
  • Разрабатываются макеты таблиц, где будут представлены результаты сводки.

Важно заметить, что есть и разные формы сводки:

  • Централизованная сводка, требующая передачи полученного первичного материала в вышестоящий центр для последующей обработки;
  • Децентрализованная сводка, где изучение данных происходит на нескольких ступенях по восходящей.

Выполняться же сводка может при помощи специализированного оборудования, например, с использованием компьютерного ПО или вручную.

Что же касается группировки, то этот процесс отличается разделением исследуемых данных на группы по признакам. Особенности поставленных статистическим анализом задач влияют на то, какой именно будет группировка: типологической, структурной или аналитической. Именно поэтому для сводки и группировки либо прибегают к услугам узкопрофильных специалистов, либо применяют конкретные техники мышления.

Абсолютные и относительные статистические величины

Абсолютные величина считаются самой первой формой представления статистических данных. С ее помощью удается придать явлениям размерные характеристики, например, по времени, по протяженности, по объему, по площади, по массе и т.д.

Если требуется узнать об индивидуальных абсолютных статистических величинах, можно прибегнуть к замерам, оценке, подсчету или взвешиванию. А если нужно получить итоговые объемные показатели, следует использовать сводку и группировку. Нужно иметь в виду, что абсолютные статистические величины отличаются наличием единиц измерения. К таким единицам относят стоимостные, трудовые и натуральные.

А относительные величины выражают количественные соотношения, касающиеся явлений социальной жизни. Чтобы их получить, одни величины всегда делятся на другие. Показатель, с которым сравнивают (это знаменатель), называют основанием сравнения, а показатель, которой сравнивают (это числитель), называют отчетной величиной.

Относительные величины могут быть разными, что зависит от их содержательной части. Например, существуют величины сравнения, величины уровня развития, величины интенсивности конкретного процесса, величины координации, структуры, динамики и т.д. и т.п.

Чтобы изучить какую-то совокупность по дифференцирующимся признакам, в статистическом анализе применяются средние величины – обобщающие качественные характеристики совокупности однородных явлений по какому-либо дифференцирующемуся признаку.

Крайне важным свойством средних величин является то, что они говорят о значениях конкретных признаков во всем их комплексе единым числом. Невзирая на то, что у отдельных единиц может наблюдаться количественная разница, средние величины выражают общие значения, свойственные всем единицам исследуемого комплекса. Получается, что при помощи характеристики чего-то одного можно получить характеристику целого.

Следует иметь в виду, что одним из самых важных условий применения средних величин, если проводится статистический анализ социальных явлений, считается однородность их комплекса, для которого и нужно узнать среднюю величину. А от такого, как именно будут представлены начальные данные для исчисления средней величины, будет зависеть и формула ее определения.

Вариационные ряды

В некоторых случаях данных о средних показателях тех или иных изучаемых величин может быть недостаточно, чтобы провести обработку, оценку и глубокий анализ какого-то явления или процесса. Тогда во внимание следует брать вариацию или разброс показателей отдельных единиц, который тоже представляет собой важную характеристику исследуемой совокупности.

На индивидуальные значения величин могут воздействовать многие факторы, а сами изучаемые явления или процессы могут быть очень многообразны, т.е. обладать вариацией (это многообразие и есть вариационные ряды), причины которой следует искать в сущности того, что изучается.

Вышеназванные абсолютные величины находятся в непосредственной зависимости от единиц измерения признаков, а значит, делают процесс изучения, оценки и сравнения двух и более вариационных рядов более сложным. А относительные показатели нужно вычислять в качестве соотношения абсолютных и средних показателей.

Выборка

Смысл выборочного метода (или проще – выборки) состоит в том, что по свойствам одной части определяются численные характеристики целого (это называется генеральной совокупностью). Основной выборочного метода является внутренняя связь, объединяющая части и целое, единичное и общее.

Метод выборки отличается рядом существенных преимуществ перед остальными, т.к. благодаря уменьшению количества наблюдений позволяет сократить объемы работы, затрачиваемые средства и усилия, а также успешно получать данные о таких процессах и явлениях, где либо нецелесообразно, либо просто невозможно исследовать их полностью.

Соответствие характеристик выборки характеристикам изучаемого явления или процесса будет зависеть от комплекса условий, и в первую очередь от того, как вообще будет реализовываться выборочный метод на практике. Это может быть как планомерный отбор, идущий по подготовленной схеме, так и непланомерный, когда выборка производится из генеральной совокупности.

Но во всех случаях выборочный метод должен быть типичным и соответствовать критериям объективности. Данные требования нужно выполнять всегда, т.к. именно от них будет зависеть соответствие характеристик метода и характеристик того, что подвергается статистическому анализу.

Таким образом, перед обработкой выборочного материала необходимо провести его тщательную проверку, избавившись тем самым от всего ненужного и второстепенного. Одновременно с этим, составляя выборку, в обязательном порядке нужно обходить стороной любую самодеятельность. Это означает, что ни в коем случае не следует делать выборку только из вариантов, кажущихся типичными, а все другие – отбрасывать.

Эффективная и качественная выборка должна составляться объективно, т.е. производить ее нужно так, чтобы были исключены любые субъективные влияния и предвзятые побуждения. И чтобы это условие было соблюдено должным образом, требуется прибегнуть к принципу рандомизации или, проще говоря, к принципу случайного отбора вариантов из всей их генеральной совокупности.

Представленный принцип служит основой теории выборочного метода, и следовать ему нужно всегда, когда требуется создать эффективную выборочную совокупность, причем случаи планомерного отбора исключением здесь не являются.

Корреляционный и регрессионный анализ

Корреляционный анализ и регрессионный анализ – это два высокоэффективных метода, позволяющие проводить анализ больших объемов данных для изучения возможной взаимосвязи двух или большего количества показателей.

В случае с корреляционным анализом задачами являются:

  • Измерить тесноту имеющейся связи дифференцирующихся признаков;
  • Определить неизвестные причинные связи;
  • Оценить факторы, в наибольшей степени воздействующие на окончательный признак.

А в случае с регрессионным анализом задачи следующие:

  • Определить форму связи;
  • Установить степень воздействия независимых показателей на зависимый;
  • Определить расчетные значения зависимого показателя.

Чтобы решить все вышеназванные задачи, практически всегда нужно применять и корреляционный и регрессионный анализ в комплексе.

Ряды динамики

Посредством этого метода статистического анализа очень удобно определять интенсивность или скорость, с которой развиваются явления, находить тенденцию их развития, выделять колебания, сравнивать динамику развития, находить взаимосвязь развивающихся во времени явлений.

Ряд динамики – это такой ряд, в котором во времени последовательно расположены статистические показатели, изменения которых характеризуют процесс развития исследуемого объекта или явления.

Ряд динамики включает в себя два компонента:

  • Период или момент времени, связанный с имеющимися данными;
  • Уровень или статистический показатель.

В совокупности эти компоненты представляют собой два члена ряда динамики, где первый член (временной период) обозначается буквой «t», а второй (уровень) – буквой «y».

Исходя из длительности временных промежутков, с которыми взаимосвязаны уровни, ряды динамики могут быть моментными и интервальными. Интервальные ряды позволяют складывать уровни для получения общей величины периодов, следующих один за другим, а в моментных такой возможности нет, но этого там и не требуется.

Ряды динамики также существуют с равными и разными интервалами. Суть же интервалов в моментных и интервальных рядах всегда разная. В первом случае интервалом является временной промежуток между датами, к которым привязаны данные для анализа (удобно использовать такой ряд, например, для определения количества действий за месяц, год и т.д.). А во втором случае – временной промежуток, к которому привязана совокупность обобщенных данных (такой ряд можно использовать для определения качества тех же самых действий за месяц, год и т.п.). Интервалы могут быть равными и разными, независимо от типа ряда.

Читайте также:  Управление затратами предприятия

Естественно, чтобы научиться грамотно применять каждый из методов статистического анализа, недостаточно просто знать о них, ведь, по сути, статистика – это целая наука, требующая еще и определенных навыков и умений. Но чтобы она давалась проще, можно и нужно тренировать свое мышление и улучшать когнитивные способности.

В остальном же исследование, оценка, обработка и анализ информации – очень интересные процессы. И даже в тех случаях, когда это не приводит к какому-то конкретному результату, за время исследования можно узнать множество интересных вещей. Статистический анализ нашел свое применение в огромном количестве сфер деятельности человека, а вы можете использовать его в учебе, работе, бизнесе и других областях, включая развитие детей и самообразование.

Источник

Исследуемая группа для статистического анализа

Данная статья посвящена обработке и анализу данных в социологических исследованиях. В статье рассмотрены методы анализа социологических данных и проведен сравнительный анализ статистических пакетов для обработки данных.

Развитие социологии означает и развитие социологических исследований, которые обогащают теорию и позволяют разрабатывать механизмы регулирования социальных процессов. Социологические исследования дополняют статистическую информацию определенными данными, в которых собрана информация об интересах и особенностях населения, личных мнениях и настроениях людей, о жизненных планах на будущее, уровне и качестве жизни. Социологические исследования ориентированы на расширение социологических знаний, характеристику исходной познавательной ситуации, разработку гипотез, контролируемое применение методик, полноту отчетов об исследовании и проч.

Проанализировав и обобщив результаты социологических исследований можно дать прогноз развития социальных процессов и явлений. Работа современного социолога и других специалистов невозможна без применения приемов и методов статистики.

Многомерный анализ социологических данных актуален в наше время, потому что социологические данные можно обработать не одним, а несколькими методами, рассмотреть их с нескольких сторон.

В отличие от простых одномерных методов, многомерные методы имеют дело с безграниченными и разрозненными наборами исследуемых объектов, а так же неоднозначными и, как правило, всевозможными и по преимуществу разнонаправленными взаимосвязями между их признаками.

Характер социологических данных

Анализ социологической информации, собранной в ходе эмпирических социологических исследований, является не просто совокупностью технических приемов и методов. Это ключевой этап всего исследования, в котором происходит конкретная проверка соответствия собранной информации тем моделям социальных явлений, которые, явно или скрыто, имеются у социолога. И более того, в процессе анализа определяют и проверяются новые модели, которые в соответствии отображают те закономерности, которые есть в собранных данных.

На первом этапе обработки социолог применяет стандартный набор средств (как правило — это одномерные распределения, таблицы, гистограммы и графики) для наиболее наглядного представления полученных данных. На втором показывается соответствие (или противоречие) данных исследовательской модели, а так же ведется дальнейшая разработка именно самой модели, отходя от самих данных.

При работе с эмпирическими социологическими данными социолог использует основные понятия:

  • единица анализа (анкета, случай);
  • переменная, признак;
  • шкала измерения.

Единица анализа — это элементарная, единичная часть объекта исследования.

Переменная и признак — это измеряемые психологические явления. Такими явлениями могут быть время решения задачи, количество допущенных ошибок, уровень тревожности, показатель интеллектуальной лабильности и множество других переменных.

Шкала измерения – упорядоченная последовательность значений. [1].

Методы сбора данных

Для сбора первичных эмпирических данных используют три класса методов: прямое наблюдение, анализ документов и опросы. Методика их применения очень многообразна, поэтому некоторые модификации приняли статус самостоятельных методов, например, такие как интервью или анкетный опрос.

Особенное положение в системе приемов сбора первичных данных занимают экспериментальные методики и психологические тесты. Те и другие предполагают одновременную регистрацию фактов и жестко фиксированные приемы их обработки. Психологические и социально–психологические тесты берутся социологом из соседней области знания. Экспериментальные процедуры следует отнести к приемам анализа, потому что здесь социолог является автором построения логики изучения связей и зависимостей явлений, фиксированных путем наблюдения, опроса или по документам[2].

Данные, полученные в ходе социологических исследований, хранятся в различных источниках, которые находятся в Интернете. Они лежат в открытом доступе. В некоторых возможна онлайн обработка данных. Наиболее популярные источники это – Единый архив экономических и социологических данных (ЕАЭСД), Федеральная служба государственной статистики (Росстат), Институт социологии РАН, Исследовательская группа ЦИРКОН и прочие.

Единый архив экономических и социологических данных (ЕАЭСД) – организация, в которой собраны результаты эмпирических исследований, касающиеся сферы наук об обществе, и имеющая свободный и открытый доступ к результатам этих исследований. Архив был основан в 2000 году. На сегодняшний день в базе данных архива насчитывается около 1000 социологических исследований и более 125 временных рядов основных показателей экономики нашей страны.

Федеральная служба государственной статистики (Росстат) является федеральным органом исполнительной власти, в котором осуществляются функции по обобщению официальной статистической информации о социальных, экономических, демографических, экологических и других общественных процессах в РФ, а также в порядке и случаях, установленных законодательством РФ, функции по контролю в сфере государственной статистической деятельности.

Институт социологии РАН образовался в 1968 г. В то время его называли Институт конкретных социальных исследований АН СССР.

В настоящее время институт занимается разработкой практического направления социологии и политологии, проводит масштабные эмпирические исследования, работает над социологической экспертизой решений, которые разрабатываются и принимаются властными структурами.

Исследовательская группа ЦИРКОН – одна из старейших в России независимая частная исследовательская компания, специализирующаяся на проведении социологических и маркетинговых исследований, информационно-аналитическом обслуживании, политическом и управленческом консультировании.

Сегодня Исследовательская группа ЦИРКОН имеет очень развитую сетевую структуру, в которую входят несколько коллективов специалистов, функция которых заключается в выполнении различного рода исследовательских и социоинженерных задач.

Методы многомерного анализа

Для анализа социологических данных в социологии применяют многомерные методы. Это такие методы, как регрессионный, факторный, кластерный, дисперсионный ну и другие виды анализа данных.

Регрессионный анализ

Основная цель множественного регрессионного анализа построить регрессионную модель с большим количеством факторов (переменных), определить давление каждого из них в отдельности, а также совместное их взаимодействие на зависимую переменную [3].

Назначение регрессионного анализа состоит в том, что бы построить модель, которая будет позволять по значению независимых показателей принимать оценки значения зависимой переменной. Регрессионный анализ считается основным методом исследования зависимостей между социально–экономическими переменными.

Особенностью социологических исследований является то, что постоянно нужно изучать и предсказывать социальные события.

Факторный анализ

Социологический смысл метода факторного анализа заключается в том, что измеряемые эмпирические показатели, переменные являются следствием других, скрытых от непосредственного измерения характеристик — латентных переменных. Латентность характеристик означает их не наблюдаемость, скрытость. Так как количество общих факторов значительно меньше количества анализируемых признаков, то можно сказать что, методы факторного анализа, направлены на уменьшение размеров анализируемого признакового пространства[4]. Допустим, мы закрепляем уровень доверия респондента к различным государственным институтам. Отсюда будет уместно предположить, что нет отдельных «доверий» к Совету Федерации, Государственной Думе, Счетной палате и проч. Возможно, что у респондента существует общее отношение к институтам центральной власти, которое влияет на то, как респондент будет отвечать на определенные вопросы по доверию к каждому отдельному институту.

Важным имеет значение то, что это общее, единое отношение к институтам государственной власти, формируя отношение к каждому из институтов, не определяет отношения к определенному институту на все 100%. Поэтому, ответ респондента на вопрос о том, насколько он доверяет определенному институту государственной власти, будет зависеть от общего фактора отношения к этим институтам и отдельного отношения именно к конкретному институту.

Метод главных компонент

Наиболее известным из методов поиска факторов выступает метод главных компонент, который заключается в последовательном нахождении факторов. Первым делом находят первый из факторов, который будет объяснять основную часть дисперсии, потом независимый от первого второй фактор, который объясняет большую часть оставшейся дисперсии, и т.д. [5].

Оценка факторов

Математический аппарат, который используется при факторном анализе, в реальности позволяет не вычислять собственно главные оси. За счет операций с корреляционной матрицей вычисляются факторные нагрузки до и после вращения факторов. От сюда следует, что одной из проблем факторного анализа является оценка факторов для объектов.

Когда для анализа применяют метод главных компонент, то факторы , которые имеют свойства, полученные этим методом, находятся с помощью регрессионного уравнения. Для того что бы выполнить оценку регрессионных коэффициентов стандартных переменных, нужно только знать корреляционную матрицу переменных. Корреляционная матрица по переменным Xi и Fk находится из модели и уже имеющейся матрицы корреляций Xi. А от сюда уже с помощью регрессионного метода определяются факторы в виде линейных комбинаций исходных переменных: [1].

Кластерный анализ

Этот вид анализа сжимает данные в классификацию объектов в отличии от факторного, который эти же данные сжимает в малое число количественных переменных.

Задачей кластерного анализа является выделение «сгущений точек», разбиение совокупности на однородные подмножества объектов, при условии, что данные будут восприниматься как точки в признаковом пространстве.

Во время проведения кластерного анализа всегда определяют расстояние на множестве объектов; алгоритмы кластерного анализа формулируют в терминах этих расстояний. Между объектами существует огромное количество мер близости и расстояний, которые подбирают исходя из целей социологического исследования. В частности, евклидово расстояние лучше всего применять для количественных переменных, расстояние хи–квадрат – для исследования частотных таблиц, так же существует множество мер для бинарных переменных.

Данный вид анализа считается описательной процедурой, он не делает ни каких статистических выводов, он всего лишь изучает структуру совокупности.

Кластерный анализ производит разбиение объектов не по одному параметру, а по целому набору признаков. Кластерный анализ позволяет работать с множеством различных данных фактически любой природы и при этом в отличие от большинства математико–статистических методов, не накладывает никаких ограничений на вид рассматриваемых объектов. Это имеет огромное значение, например, для прогнозирования положения социальных групп, когда показатели имеют разнообразный вид, затрудняющий применение традиционных эконометрических подходов. Кластерный анализ предоставляет возможность рассмотреть довольно большой объем информации и резко сводить к минимуму или сжимать большие массивы социально–экономической информации, делать их тесными и наглядными. Особо важную роль кластерный анализ играет тогда, когда его применяют к совокупностям временных рядов, которые характеризуют экономическое развитие (например, общехозяйственной и товарной конъюнктуры). Здесь существует возможность, позволяющая выделить периоды, когда значения соответствующих показателей были достаточно близкими, а также определять группы временных рядов, динамика которых наиболее схожа [6].

Сравнительный анализ статистических пакетов

После проведения социологического опроса, социолог должен провести анализ социологических данных и сделать выводы. Для этого он использует статистические пакеты для обработки социологических данных. О платных пакетах известно больше, поэтому остановимся на свободно распространяемом программном обеспечении.

В процессе анализа данных используются такие универсальные методы и программные средства, что они могут быть использованы в таких областях науки, как в социология, экономика, менеджмент. Но применять анализ данных в каждой из областей имеет свои особенности, которые связаны со структурой данных, содержанием задач и интерпретацией результатов.

PSPP является программой для статистического анализа выборочных данных. Это бесплатная замена для оригинальной программы SPSS, и является очень похожей на него с некоторыми исключениями. Наиболее важными из этих исключений является то, что она абсолютно бесплатная. Имеется графический интерфейс и можно пользоваться консольными командами. Синтаксис и файлы данных совместимы с SPSS.

PSPP является стабильным и надежным приложением. Она может выполнять описательные статистики, Т–тесты, дисперсионный анализ, линейные и логистические регрессии, меры по ассоциации, кластерный анализ, надежность и факторный анализ, непараметрические критерии и др. PSPP предназначена для выполнения своих анализов так быстро, как это возможно, независимо от размера входных данных.

Прежде чем проводить анализ данных, они должны быть загружены в PSPP и расположены таким образом, чтобы программа и человек могли понять, что представляют собой данные. Есть два аспекта данных:

  • Переменные – это те параметры количество, которых было измерено или оценено в некотором роде. Например, длинна, ширина.
  • Наблюдения (или «случаи») переменных – каждое наблюдение представляет собой случай, когда переменные были измерены или наблюдались.

Deductor Studio

Deductor Studio – это программа, которая включает функции обработки, визуализации, импорта и экспорта данных. Программа настолько универсальна, что способна работать и без базы данных. Она способна брать данные для анализа из любых других источников, но наиболее оптимальным является их совместное использование. В данной программе используется огромно количество инструментов и методов, которые позволяют получать информацию из любых источников данных, проводить весь цикл обработки (очистку, трансформацию данных, построение моделей). Результаты, полученные в ходе анализа, выводятся на экран самым удобным способом (OLAP, таблицы, диаграммы, деревья и т.д.), а так же экспортируются в самых разных форматах.

Epi Info

EpiInfo оптимален для использования при ограниченных сетевых подключениях, а также при небольшом финансовом обеспечении проекта. EpiInfo является гибким, масштабируемым и бесплатным пакетом. Позволяет осуществлять сбор данных, применить все классические методы статистического анализа.

В настоящее время социология динамично развивается. Следовательно, и практика социологических исследований тоже не стоит на месте. Данные о населении (его численности, составе, размещении, занятости, закономерностях воспроизводства социальных групп, изучения социального поведения) имеют большое научное и практическое значение. [7, 8, 9, 10]

Полная и точная информация о населении необходима для объективной оценки уровня социально–экономического развития и демографической ситуации как в стране в целом, так и в отдельных регионах.

Существуют три основных классификации методов сбора социологических данных. Это такие методы как прямое наблюдение, анализ документов и опросы.

Данные, полученные в ходе социологических исследований, хранятся в таких источниках как: Единый Архив Экономических и Социологических Данных (ЕАЭСД), Федеральная служба государственной статистики (Росстат), Институт социологии РАН, Исследовательская группа ЦИРКОН™ и др. В некоторых из них доступна онлайн обработка данных.

Анализ социологических данных является основным этапом социологического исследования. На этом этапе осуществляется конкретная проверка соответствия собранной информации тем моделям социальных явлений, которые, явно или скрыто, имеются у социологов. Для анализа социологических данных в социологии применяют многомерные методы. Это такие методы, как регрессионный, факторный, кластерный, дисперсионный ну и другие виды анализа данных.

Читайте также:  Анализ это какое действие

Заключительный этап социологического исследования включает обработку и анализ данных. В современном информационно организованном мире невозможно обойтись без всестороннего исследования данных и, следовательно, без системы, позволяющей провести этот анализ. Что бы проанализировать социологические данные и дать им оценку, социологи используют различные статистические пакеты для обработки социологических данных.

Источник

VI Международная студенческая научная конференция Студенческий научный форум — 2014

Статистическая методология представляет собой совокупность приемов, правил и методов исследования. Под термином "метод" понимают способ теоретического исследования или практического осуществления чего-либо (например, философский метод, передовой метод). Когда речь идет о методе науки вообще, то имеют в виду наиболее общие способы подхода к изучению любых явлений.

Особенность (специфика) статистических методов заключается в их комплексности, что обусловлено как разнообразием форм статистических закономерностей, так и сложностью самого процесса статистического исследования. Специфика методов объясняется содержанием выполняемой работы в процессе исследования тех или иных социально-экономических явлений. Природа последних достаточно сложная и непредсказуемая, поэтому изучать их надо в взаимосвязь связи и взаимообусловленности. Для этого статистическая теория разработала достаточно широкий круг методологических и методических средств, позволяющих количественно измерять исследуемые связи.

1. Метод статистического наблюдения

Статистическое наблюдение — это планомерный, научно-организованный и, как правило, систематический сбор данных о явлениях общественной жизни. Оно осуществляется путем регистрации заранее намеченных существенных признаков с целью получения в дальнейшем обобщающих характеристик этих явлений.

К статистическому наблюдению предъявляются следующие требования: полнота охвата изучаемой совокупности, достоверность и точность данных, их однообразие и сопоставимость.

Статистическое наблюдение осуществляется в двух формах: отчетность и специально организованное статистическое наблюдение.

Отчетностью называют такую организационную форму статистического наблюдения, при которой сведения поступают в статистические органы от предприятий, учреждений и организаций в виде обязательных отчетов об их деятельности.

Специально-организованное статистическое наблюдение — наблюдение, организуемое с какой-нибудь особой целью для получения сведений, которых нет в отчетности, или для проверки и уточнения данных отчетности. Это перепись населения, скота, оборудования, всевозможные единовременные учеты. Как, например, бюджетные обследования домашних хозяйств, опросы общественного мнения и т.п.

Виды статистического наблюдения можно сгруппировать по двум признакам: по характеру регистрации фактов и по охвату единиц совокупности.

По охвату единиц совокупности наблюдение может быть сплошным и несплошным. Несплошное наблюдение можно подразделить на подвиды: выборочное, монографическое, метод основного массива.

По источнику сведений различают непосредственное наблюдение, документальное и опрос.

В статистике сведения об изучаемом явлении могут быть собраны различными способами: отчетным, экспедиционным, самоисчислением, анкетным, корреспондентским.

2. Сводка и группировка материалов статистического наблюдения

Сводка — это операция по отработке конкретных единичных фактов, образующих совокупность и собранных в результате наблюдения. В результате сводки множество индивидуальных показателей относящихся к каждой единице объекта наблюдения, превращаются в систему статистических таблиц и итогов, проявляются типические черты и закономерности изучаемого явления в целом.

По глубине и точности обработки различают сводку простую и сложную.

Проведение сводки включает следующие этапы:

выбор группировочного признака;

определение порядка формирования группы;

разработка системы показателей для характеристики групп и объекта в целом;

разработка макетов таблиц для представления результатов сводки.

По форме обработки сводка бывает:

централизованная (весь первичный материал поступает в одну вышестоящую организацию, например, Госкомстат РФ, и там полностью обрабатывается);

децентрализованная (обработка собранного материала идет по восходящей линии, т.е. материал подвергается сводке и группировке на каждой ступени).

По технике выполнения сводка бывает механизированной и ручной.

Группировкой называется расчленение изучаемой совокупности на однородные группы по определенным существенным признакам.

В зависимости от задач, решаемых с помощью группировок, выделяют 3 типа группировок: типологические, структурные и аналитические.

По сложности группировка бывает простой и сложной (комбинированной).

3. Абсолютные и относительные статистические величины.

Исходной, первичной формой выражения статистических показателей являются абсолютные величины. Абсолютные величины характеризуют размер явлений в мерах массы, площади, объема, протяженности, времени и т.д.

Индивидуальные абсолютные показатели получаются, как правило, непосредственно в процессе наблюдения в результате замера, взвешивания, подсчета, оценки. В некоторых случаях абсолютные индивидуальные показатели представляют собой разность.

Сводные, итоговые объемные абсолютные показатели получают в результате сводки и группировки.

Абсолютные статистические показатели всегда являются числами именованными, т.е. имеют единицы измерения. Существует 3 типа единиц измерения абсолютных величин: натуральные, трудовые и стоимостные.

Относительными величинами в статистике называются величины, выражающие количественное соотношение между явлениями общественной жизни. Они получаются в результате деления одной величины на другую.

Величина с которой производится сравнение (знаменатель) называется основанием, базой сравнения; а та, которая сравнивается (числитель) — называется, сравниваемой, отчетной или текущей величиной.

Виды относительных величин подразделяются в зависимости от их содержания. Это относительные величины: планового задания, выполнения плана, динамики, структуры, координации, интенсивности и уровня экономического развития, сравнения.

Относительная величина структуры представляет собой отношение размеров части к целому. Она характеризует структуру, состав той или иной совокупности. Эти же величины в процентах называют удельным весом.

Для изучения какой-либо совокупности по варьирующим (количественно изменяющимся) признакам статистика использует средние величины.

Средняя величина — это обобщающая количественная характеристика совокупности однотипных явлений по одному варьирующему признаку.

Важнейшее свойство средней величины заключается в том, что она представляет значение определенного признака во всей совокупности одним числом, несмотря на количественные различия его у отдельных единиц совокупности, и выражает то общее, что присуще всем единицам изучаемой совокупности. Таким образом, через характеристику единицы совокупности она характеризует всю совокупность в целом.

Важнейшим условием научного использования средних величин в статистическом анализе общественных явлений является однородность совокупности, для которой исчисляется средняя

От того, в каком виде представлены исходные данные для расчета средней величины, зависит по какой формуле она будет определятся. Рассмотрим наиболее часто применяемые в статистике виды средних величин:

4. Вариационные ряды

Информация о средних уровнях исследуемых показателей обычно бывает недостаточной для глубокого анализа изучаемого процесса или явления.

Необходимо учитывать и разброс или вариацию значений отдельных единиц, которая является важной характеристикой изучаемой совокупности. Каждое индивидуальное значение признака складывается под совместным воздействием многих факторов. Социально-экономические явления, как правило, обладают большой вариацией. Причины этой вариации содержатся в сущности явления.

Абсолютные показатели вариации зависят от единиц измерения признака и затрудняют сравнение двух или нескольких различных вариационных рядов.

Относительные показатели вариации вычисляются как отношение различных абсолютных показателей вариации к средней арифметической. Наиболее распространённым из них является коэффициент вариации.

5. Выборочный метод

Сущность выборочного метода заключается в том, чтобы по свойствам части (выборки) судить о численных характеристиках целого (генеральной совокупности), по отдельным группам вариантов их общей совокупности, которая иногда мыслится как совокупность неограниченно большого объема. Основу выборочного метода составляет та внутренняя связь, которая существует в популяциях между единичным и общим, частью и целым.

Выборочный метод имеет очевидные преимущества перед сплошным изучением генеральной совокупности, так как сокращает объем работы (за счет уменьшения числа наблюдении) позволяет экономить силы и средства, получать информацию о таких совокупностях, полное обследование которых практически невозможно или нецелесообразно.

Репрезентативность выборки зависит от целого ряда условий и прежде всего от того, как она осуществляется, или планомерно (т. е. по заранее намеченной схеме), или путем непланомерного отбора вариант из генеральной совокупности. В любом случае выборка должна быть типичной и вполне объективной. Эти требования должны выполняться неукоснительно как наиболее существенные условия репрезентативности выборки. Прежде чем обрабатывать выборочный материал, его нужно тщательно проверить и освободить выборку от всего лишнего, что нарушает условия репрезентативности. В то же время при образовании выборки нельзя поступать по произволу, включать в ее состав только те варианты, которые кажутся типичными, а все остальные браковать. Доброкачественная выборка должна быть объективной, т. е. производиться без предвзятых побуждений, при исключении субъективных влияний на ее состав. Выполнению этого условия репрезентативности отвечает принцип рендомизации (от англ. rendom-случай), или случайного отбора вариант из генеральной совокупности.

Этот принцип положен в основу теории выборочного метода и должен соблюдаться во всех случаях образования репрезентативной выборочной совокупности, не исключая и случаев планомерного или преднамеренного отбора.

Существуют различные способы отбора. В зависимости от способа отбора различают выборки следующих типов:

— случайная выборка с возвратом;

— случайная выборка без возврата;

6. Корреляционный и регрессионный анализ

Регрессионный и корреляционный анализы — это эффективные методы, которые разрешают анализировать значительные объемы информации с целью исследования вероятной взаимосвязи двух или больше переменных.

Задачи корреляционного анализа сводятся к измерению тесноты известной связи между варьирующими признаками, определению неизвестных причинных связей (причинный характер которых должен быть выяснен с помощью теоретического анализа) и оценки факторов, оказывающих наибольшее влияние на результативный признак.

Задачами регрессионного анализа являются выбор типа модели (формы связи), установление степени влияния независимых переменных на зависимую и определение расчётных значений зависимой переменной (функции регрессии).

Решение всех названных задач приводит к необходимости комплексного использования этих методов.

7. Ряды динамики

Рядом динамики называется ряд последовательно расположенных во времени статистических показателей, которые в своем изменении отражают ход развития изучаемого явления.

Ряд динамики состоит из двух элементов: момента или периода времени, которым относятся данные и статистических показателей (уровней). Оба элемента вместе образуют члены ряда. Уровни ряда обычно обозначают через "y", а период времени — через "t".

По длительности времени, к которым относятся уровни ряда, ряды динамики делятся на моментные и интервальные.

В интервальных рядах динамики уровни ряда можно суммировать и получить общую величину за ряд следующих друг за другом периодов. В моментных рядах эта сумма не имеет смысла.

В зависимости от способа выражения уровней ряда различают ряды динамики абсолютных величин, относительных величин и средних величин.

Ряды динамики могут быть с равным и неравным интервалами. Понятие интервала в моментных и интервальных рядах различные. Интервал моментного ряда — это период времени от одной даты до другой даты, на которые приведены данные. Если это данные о числе вкладов на конец года, то интервал равен от конца одного года, до конца другого года. Интервал интервального ряда — это период времени за который обобщены данные. Если это производство часов по годам, то интервал равен одному году.

Интервал ряда может быть равным и неравным как в моментных, так и в интервальных рядах динамики.

С помощью рядов динамики определяют скорость и интенсивность развития явлений, выявляют основную тенденцию их развития, выделяют сезонные колебания, сравнивают развитие во времени отдельных показателей разных стран, выявляют связи между развивающимися во времени явлениями.

8. Статистические индексы

Слово "index" латинское и означает "показатель", "указатель". В статистике под индексом понимается обобщающий количественный показатель, выражающий соотношение двух совокупностей, состоящих из элементов, непосредственно не поддающихся суммированию. Например, объем продукции предприятия в натуральном выражении суммировать нельзя (кроме однородной), а для обобщающей характеристики объема это необходимо. Нельзя суммировать цены на отдельные виды продукции и т.д. Для обобщающей характеристики таких совокупностей в динамике, в пространстве и по сравнению с планом применяются индексы. Кроме сводной характеристики явлений индексы позволяют дать оценку роли отдельных факторов в изменении сложного явления. Индексы используются и для выявления структурных сдвигов в народном хозяйстве.

Индексы рассчитываются как для сложного явления (общие или сводные), так и для отдельных его элементов (индивидуальные индексы).

В индексах, характеризующих изменение явления во времени различают базисный и отчетный (текущий) периоды. Базисный период — это период времени к которому относится величина, принятая за базу сравнения. Обозначается он подстрочным знаком "0". Отчетный период — это период времени, к которому относится величина, подвергающаяся сравнению. Обозначается он подстрочным знаком "1".

Индивидуальные индексы — это обычная относительная величина.

Сводный индекс — характеризует изменение всей сложной совокупности в целом, т.е. состоящей из несуммируемых элементов. Следовательно, чтобы рассчитать такой индекс надо преодолеть несуммарность элементов совокупности.

Индексируемая величина — это показатель, для которого рассчитывается индекс. Вес (соизмеритель) — это дополнительный показатель вводимый для целей соизмерения индексируемой величины. В сводном индексе в числителе и знаменателе всегда сложная совокупность, выраженная суммой произведений индексируемой величины и веса.

В зависимости от объекта исследования как общие, так и индивидуальные индексы подразделяются на индексы объемных (количественных) показателей (физического объема продукции, посевной площади, численности рабочих и др.) и индексы качественных показателей (цены, себестоимости, урожайности, производительности труда, заработной платы и др.).

В зависимости от базы сравнения индивидуальные и общие индексы могут быть цепными и базисными.

В зависимости от методологии расчета общие индексы имеют две формы: агрегатную и форму среднего индекса.

Статистические исследования всегда интересны, даже если они и не доведены до конца намеченного исследователем пути (в науке это иногда случается), но на самом пути исследований познается очень много

Будущее статистики, как науки, очевидно. Но надо всегда помнить, что любой науке присущи ошибки, а потому она всегда требует усовершенствования Ошибки, которые встречаются в статистике, чаще е возникают не по причине несовершенства статистической науки, а из-за неумелого (неправильное) применение статистических методов.

Источник

ГЛАВА 16 Примеры анализа данных в системе STATISTICA

В этой главе мы рассмотрим несколько примеров анализа данных с помощью системы STATISTICA. Первый пример относится к области маркетинга (мы показываем возможности модуля Множественная регрессия), три следующие примера к промышленным приложениям (мы показываем возможности модулей Планирование эксперимента и Карты контроля качества), пятый пример иллюстрирует возможности STATISTICA по наложению результатов анализа на географические карты.

Еще раз отметим, что современная STATISTICA — это средство разработки приложений в конкретных областях (бизнесе, медицине, промышленности и др.). Библиотека STATISTICA содержит более 10 000 тщательно отлаженных и проверенных на практике процедур анализа данных. Развитие системы естественно приводит к созданию средств разработки собственного интерфейса и использования библиотеки STATISTICA для создания оригинальных модулей, включающих, наряду с процедурами STATISTICA, алгоритмы разработчика. Все эти процедуры объединяются общим интерфейсом, средствами управления данными и графикой STATISTICA.

Именно в создании средств для разработки приложений мы видим будущее систем анализа данных.

Пример основан на реальных данных, описывающих рынок пива в Греции (см. статью Kioulofas К. Е. «An Application of Multiple Regression Analysis to the Greek Beer Market» в журнале «Journal of Operational Research Society», Vol. 36, № 8, p. 689-696,1985).

Читайте также:  Масс спектральный метод анализа реферат

Известно, что этот рынок поделен между 5 фирмами, обозначенными далее А, В, С, D и Е. До 1981 года на рынке присутствовали фирмы А, В и С, в 1981 году на рынок пришли фирмы D и Е. Но уже в’ 1983 году фирма D не выдержала конкуренции, а у фирмы А возникли финансовые проблемы.

В следующей таблице представлены объемы продаж в отрасли и доля каждой фирмы.

Можно заметить, что после появления фирм D и Е произошло резкое снижение доли фирмы А. Две новые фирмы D и Е по-разному освоили рынок. Фирма D имела большие производительные способности, чем фирма Е, но заметно отстала по объемам продаж. Этот пример интересен тем, что показывает соотношение затрат на рекламу и производство.

Будем считать, что основным показателем эффективности рекламы является объем продаж фирмы. В этой таблице представлены расходы на рекламу каждой фирмы и ее доля в рекламе.

Понятно, что вхождение в отрасль фирм D и Е потребовало больше расходов на рекламу (в процентном отношении к объему продаж). Это отчетливо видно из следующей таблицы:

Заметим, фирма D в 1982 году резко снизила расходы на рекламу, что, возможно, стало причиной потери рынка.

Предполагается, что для рекламы используются следующие средства массовой информации: телевидение, газеты, журналы и радио.

Эффективность рекламы в каждом случае различна, и возникает вопрос о количественных зависимостях между объемом продаж и расходами на рекламу в каждом из средств массовой информации. Обычно доля телевидения составляет 70-90%, и поэтому в таблице, представляющей распределение расходов на рекламу между средствами массовой информации, все СМИ, кроме телевидения, объединены в одну группу «другие».

На реальный объем продаж пива влияют также такие факторы, как температура воздуха, число туристов и индекс потребительских цен (инфляция).

В предлагаемой модели теоретическая зависимость основывается на предположении, что объем продаж за период t (далее это месяцы) является функцией объема продаж за прошлый период расходов на рекламу в периоды t и t-1, количества туристов, значений температуры и индекса розничных цен.

St — объем продаж (в драхмах);

At — ассигнования на рекламу;

Tt — число туристов в месяц t;

Wt — средняя температура воздуха;

Pt — индекс розничных цен.

Итак, мы построили модель зависимости, но коэффициенты этой модели неизвестны. Эти коэффициенты оцениваются из исходных данных в модуле Множественная регрессия.

Оценка коэффициентов по методу наименьших квадратов выявила статистическую незначимость переменных Wt и Pt, и они были исключены из дальнейшего анализа.

В результате получилось уравнение, содержащее меньшее число переменных:

Оценим коэффициенты этого уравнения, используя реальные данные. Для анализа использовались данные о месячных продажах за 2 года. Число наблюдений равнялось 24. Результаты регрессии приведены в таблице:

Значения коэффициента детерминации R 2 , близкие к единице, говорят о хорошем приближении линии регрессии к наблюдаемым данным и о возможности построения качественного прогноза.

Низкое значение коэффициента детерминации R 2 для фирмы D объясняется низкой эффективностью рекламной кампании и трудностями на административном уровне. Можно сделать вывод, что модель плохо применима к фирме D.

Статистики Дарбина—Уотсона свидетельствуют об отсутствии автокорреляции остатков при 5%-м уровне значимости, т. к. все ее значения по модулю меньше 1,96.

Все значения регрессионных коэффициентов значимы при уровне значимости 0,5, за исключением коэффициентов при At для фирм В, D и Е.

Одним из возможных объяснений этого факта является то, что показатели этих фирм зависят от рекламной деятельности за прошлый период времени, то есть от Аt-1

Это подтверждается тем, что для этих фирм коэффициенты при At-1 значимы на уровне 95%. Более того, можно заметить, что показатели всех фирм, кроме фирмы Е, имеют положительную корреляцию с числом туристов. Незначительную корреляцию между туризмом и объемами продаж фирмы Е можно объяснить недавним появлением этой фирмы. Объемы продаж всех фирм также находятся под влиянием объемов продаж в прошлом периоде, St-1 возможно, благодаря эффекту «привычки» потребителей к торговым маркам. Значимость этого параметра с распределенным лагом также наводит на мысль о некоторых обучающих эффектах.

Продажи фирмы А имеют значительную положительную корреляцию с ее расходами на рекламу за период t, что отличает ее от других фирм. Окончательно взаимосвязь между рыночными продажами и совокупными расходами на рекламу положительна и значима при уровне 5%.

Представленные выше результаты регрессии образуют основу оценки эффективности совокупных расходов на рекламу.

Покажем, как строятся такие модели в системе STATISTICA. Для этих целей обычно используется модуль Множественная регрессия.

В этом модуле собраны методы, позволяющие оценить зависимость одной переменной от нескольких других переменных.

Переменная, для которой строится зависимость, называется зависимой (по-английски dependent variable). Эта переменная входит в левую часть уравнения, описывающего зависимость (см. уравнение (*)). Переменные, от которых мы хотим построить зависимость, называются независимыми переменными (по-английски independent variables) или предикторами (от английского predict — предсказывать). Эта переменная входит в правую часть уравнения, описывающего зависимость. Сам термин множественная регрессия (по-английски multiple regression) означает, что модель может содержать несколько предикторов, позволяющих предсказывать зависимую переменную.

Итак, общая идея состоит в том, чтобы по значениям предикторов предсказывать значения зависимой переменной, например, по значениям продаж и расходам на рекламу в текущем и предыдущем месяце предсказывать продажи в следующем месяце.

Конечно, количество предикторов можно увеличить, например, ввести объем продаж у конкурентов или какие-то другие, имеющие смысл и доступные наблюдению переменные. Однако здесь имеется тонкость, предикторы могут оказаться зависимыми между собой.

Переменные, которые следует включить в модель, определяет специалист в предметной области. Затем нужно выполнить следующие действия.

Шаг 1. Запустите модуль Множественная регрессия.

Шаг 2. Введите исходные данные в файл системы STATISTICA. Назовите его, например, Beer.sta.

Шаг 3. Определите переменные в модели. Задайте S в качестве зависимой переменной и S1. P — в качестве независимых переменных, или предикторов. После этого стартовая панель модуля будет выглядеть так:

Шаг 4. Нажмите кнопку ОК. Появится диалоговое окно результатов, в котором отображаются итоги стандартной процедуры.

Измените процедуру на Пошаговую с включением. Для этого нажмите на кнопку Отмена и в появившемся диалоговом окне Определение модели выберите в поле Процедура опцию Пошаговая с включением. В этой процедуре система начинает построение модели с одного предиктора, затем, используя F-критерий, в модель включается еще один предиктор и т. д. На каждом шаге вычисляется коэффициент множественной корреляции. Квадрат коэффициента множественной корреляции, коэффициент детерминации, свидетельствует о качестве построенной модели. Нажмите кнопку ОК.

В появившемся окнеПошаговая множественная регрессия снова нажмите ОК.

Теперь перед вами диалоговое окно результатов, полученных с помощью пошаговой процедуры с включением. Следует отметить, что в нем указаны стандартизованные коэффициенты регрессии.

Заметим, если вы предполагаете, что в модели должно присутствовать небольшое число предикторов, то естественно использовать пошаговый метод с включением предикторов. Если вы предполагаете, что в модели должно присутствовать большое число предикторов, то естественно использовать метод с исключением.

Шаг 5. Нажмите кнопку Итоговая таблица регрессии. Появится таблица результатов с подробными статистиками.

В столбце БЕТА показаны стандартизованные коэффициенты регрессии, а в столбце В — нестандартизованные коэффициенты. Все коэффициенты в таблице значимы, так как р-значения для каждого из них меньше заданной величины 0»05.

Шаг 6. В окне результатов нажмите кнопку Анализ остатков.

Шаг 7. В диалоговом окне Анализ остатков нажмите кнопку Статистика Дарбина—Уотсона. Эта статистика позволяет исследовать зависимость между остатками. Формально остатки представляют собой разность: наблюдаемые значения зависимой переменной минус оцененные с помощью модели значения зависимой переменной.

Зачем проверять зависимость остатков? Идея проста: если остатки существенно коррелированны (зависимы), то модель неадекватна (нарушено важное предположение о независимости ошибок в регрессионной модели).

Рассмотрим более подробно статистику Дарбина—Уотсона. Мы уделяем этой статистике так много внимания, потому что статистика Дарбина—Уотсона является стандартом для проверки некоторых видов зависимости остатков и с ней нужно научиться работать.

Статистика Дарбина—Уотсона используется для проверки гипотезы о том, что остатки построенной регрессионной модели некоррелированы (корреляции равны нулю), против альтернативы: остатки связаны авторегрессионной зависимостью вида:

где di независимые случайные величины, имеющие нормальное распределение с параметрами (0, s), i = 1 . n».

Формально статистика Дарбина—Уотсона вычисляется следующим образом:

Иными словами, сумма квадратов первых разностей остатков нормируется суммой квадратов остатков. Проведя вычисления, вы легко выразите статистику Дарбина—Уотсона через коэффициент корреляции: d = 2(1 — р).

Критические точки статистики Дарбина—Уотсона табулированы (см. например, Драйпер Н., Смит Г. Прикладной регрессионный анализ. М.: Финансы и статистика, т. 1. с. 211, см. также таблицу, показанную ниже).

В таблице приведены два критических значения статистики Дарбина—Уотсо-на: DL_k и DU_k — нижнее и верхнее, зависящие как от числа наблюдений, по которым оцениваются параметры, так и от числа предикторов k, которые включены в модель.

На графике видно, как меняются значения DL_k и DU_k в зависимости от числа наблюдений (k = 1, 2, 3, 4, 5).

Число наблюдений, для которого рассчитаны критические значения, указано в заголовках строк приведенной таблицы.

Итак, вы находите строку с нужным числом наблюдений и два смежных столбца с нужным числом предикторов. На пересечении строки и столбцов располагаются нижние и верхние критические точки статистики Дарбина—Уотсона.

Если нужно проверить гипотезу: «остатки независимы, то есть р =0», против общей альтернативы р не равно 0, поступают следующим образом. Вычисляют значение статистики Дарбина—Уотсона d. Для данного числа наблюдений и числа предикторов находят критические точки DL_k и DU_k в таблице, составленной для определенного уровня а. В приведенной таблице уровень a=0,05

Если d < DL_k или 4 — d < DL_k, то гипотеза о независимости остатков отвергается на уровне 2ос. Если d > DU_k и 4 — d > DU_k, то гипотеза о независимости остатков не отвергается на уровне 2a.

Если нужно проверить гипотезу: «остатки независимы р = 0», против альтернативы р > 0, то есть остатки положительно автокоррелированы, поступают следующим образом. Вычисляют значение статистики Дарбина—Уотсона d. Находят по таблице критические точки DL_k и DU_k, вычисленные для определенного уровня a. Заметьте, в приведенной таблице a=0,05.

Если d < DL_k то гипотеза о независимости остатков отвергается на уровне а в пользу альтернативы.

Если d > DU_k, то гипотеза о независимости не отвергается на уровне a.

Случай DL_k < d < DU_k является сомнительным.

Если нужно проверить гипотезу: «остатки независимы р = 0», против альтернативы: р < 0, то есть остатки отрицательно автокоррелированы, то вместо d следует рассмотреть значение 4 — d и повторить рассуждения предыдущего абзаца, которые использовались для проверки гипотезы «остатки независимы р = 0», против альтернативы р > 0.

После того как мы познакомились со статистикой Дарбина—Уотсона, продолжим работу в модуле Множественная регрессия.

Шаг 8. Нажмите кнопку Предсказанные и наблюдаемые.

Шаг 9. Вернитесь в окно Результаты множественной регрессии и нажмите кнопку Предсказать зависимую переменную. Далее в полях А1 и S1 укажите значения текущего месяца, а в полях Т и А — значения на следующий месяц.

Нажмите кнопку ОК. Появится таблица результатов предсказания. На рисунке выделена ячейка, содержащая прогнозируемый объем продаж на следующий месяц.

Этот пример относится к промышленной статистике (см. Cornell J. А. (1990). How to Apply Response Surface Methodology, vol. 8 in Basic References in Quality Control: Statistical Techniques, edited by S. S. Shapiro and E. Mykytka. Milwaukee: American Society for Quality Control).

Любая машина или станок, используемые на производстве, позволяют операторам производить настройки, чтобы воздействовать на качество производимого продукта. Изменяя настройки, инженер стремится добиться максимального эффекта, а также выяснить, какие факторы играют наиболее важную роль в улучшении качества продукции.

В системе STATISTICA имеется мощный модуль планирования экспериментов, позволяющий эффективно планировать и анализировать эксперименты.

Задача состояла в том, чтобы исследовать факторы, влияющие на качество производимых пластиковых дисков.

Известно, что наибольшее влияние на качество оказывают следующие два фактора:

1) материал, характеризующийся отношением наполнителя к эпоксидной резине,

2) расположение диска в форме.

В качестве зависимой переменной рассматривалась плотность полученного диска.

Сначала использовался дробный факторный план 2 2 для того, чтобы определить адекватность модели первого порядка. В этой модели оба фактора комбинировались друг с другом на верхних и нижних значениях (всего имеется 4 комбинации). Но оказалось, что модель оказалась адекватной лишь для некоторой области значений факторов и неадекватной для всей значений факторов. На самом деле зависимость между факторами и откликом была нелинейной. Поэтому было решено использовать центральный композиционный план и применить модель второго порядка.

Центральный композиционный план может состоять из куба и звезды. Куб соответствует полному факторному плану — точки эксперимента располагаются в вершинах куба (фактически это факторный план 22).

Звезда содержит дополнительное множество точек, расположенных на одинаковых расстояниях от центра куба на отрезках, исходящих из центра и проходящих через каждую сторону куба.

В данном исследовании применялся ротатабельный план, в котором дисперсия отклика является постоянной во всех точках, одинаково удаленных от центра плана.

Пусть фактор А — это характеристика материала, из которого изготовлен диск, более точно, так называемое композиционное отношение (disk composition ratio), фактор В — положение диска в форме (position of disk in mold). Зависимая переменная, или отклик эксперимента, — плотность диска (Thickness).

Запустите модуль Планирование эксперимента.

На стартовой панели выберите Центральные композиционные планы, поверхности отклика и нажмите кнопку ОК.

В появившемся диалоговом окне выберите опцию Построение плана, а в поле Факторы/блоки/опыты — строку 2/1/10. Нажмите кнопку ОК.

Появится диалоговое окно План эксперимента для поверхности отклика. Нажмите на кнопку Имена факторов, значения и заполните таблицу в диалоговом окнеИтоги для переменных .

Нажмите кнопку Далее и выберите опции для настройки .отображения плана так, как показано на следующем рисунке. Сделайте точно все показанные настройки, чтобы получить нужный результат!

Просмотрите план. Для этого нажмите Просмотр/Правка/Сохранение.

Задание имени и сохранение экспериментального плана

Выберите Сохранить как файл данных. ; появится соответствующее диалоговое окно. Задайте имя плана disk.sta и нажмите кнопку ОК.

Вернитесь в диалоговое окно План эксперимента для поверхности отклика.

Нажмите кнопку Печать итогов. В зависимости от настроек вывода в диалоговом окне Параметры страницы/вывода результаты плана будут распечатаны на принтере или выведены в отчет.

Источник

Adblock
detector