Краткие содержания

Основные этапы статистической работы. Организация статистического исследования. Основные понятия и категории статистической науки

Понятие об исследовании количественных сторон объектов и явлений сформировалось давно, с момента развития у человека элементарных навыков работы с информацией. Однако, термин «статистика», дошедший до нашего времени заимствован гораздо позднее из латинского языка и происходит от слова «status», что означает «определенное состояние вещей». «Status» употреблялось также в значении «политическое состояние» и закрепилось почти во всех европейских языках именно в этом смысловом значении: английское «state», немецкое «Staat», итальянское «stato» и производное от него «statistа» - знаток государства.

Широкое применение слово «статистика» получило в XVIII веке и применялось в значение «государствоведение». Статистикой называют отрасль практической деятельности, направленной на собирание, обработку, анализ и предоставление в публичное пользование данных о явлениях и процессах общественной жизни.

Анализ - это метод научного исследования объекта путем рассмотрения его отдельных сторон и составных частей.

Экономико-статистический анализ - это разработка методики, основанной на широком применении традиционных статистических и математико-статистических методов, с целью контроля адекватного отражения исследуемых явлений и процессов.

Этапы статистического исследования. Статистическое исследование проходит в три этапа:

  • 1) статистическое наблюдение;
  • 2) сводка полученных данных;
  • 3) статистический анализ.

На первом этапе с помощью метода массовых наблюдений собирают первичные статистические данные.

На втором этапе статистического исследования собранные данные подвергаются первичной обработки, сводке и группировке. Метод группировок позволяет выделить однородные совокупности, разделить их на группы и подгруппы. Сводка - это получение итогов по совокупности в целом и отдельным ее группам и подгруппам.

Результаты группировки и сводки излагаются в виде статистических таблиц. Основное содержание этого этапа заключается в переходе от характеристик каждой единицы наблюдения к сводным характеристикам совокупности в целом или ее групп.

На третьем этапе полученные сводные данные анализируются методом обобщающих показателей (абсолютные, относительные и средние величины, показатели вариации, индексные системы, методы математической статистики, табличный метод, графический метод и др.).

Основы статистического анализа:

  • 1) утверждение фактов и установление их оценки;
  • 2) выявление характерных особенностей и причин явления;
  • 3) сравнение явления с нормативными, плановыми и другими явлениями, которые приняты за базу сравнения;
  • 4) формулирование выводов, прогнозов, предположений и гипотез;
  • 5) статистическая проверка выдвинутых предположений (гипотез).

Анализ и обобщение статистических данных - заключительный этап статистического исследования, конечной целью которого является получение теоретических выводов и практических заключений о тенденциях и закономерностях изучаемых социально-экономических явлений и процессов. Задачами статистического анализа являются: определение и оценка специфики и особенностей изучаемых явлений и процессов, изучение их структуры, взаимосвязей и закономерностей их развития.

Статистический анализ данных проводится в неразрывной связи теоретического, качественного анализа сущности исследуемых явлений и соответствующего количественного инструментария, изучения их структуры, связей и динамики.

Статистический анализ - исследование характерных особенностей структуры, связи явлений, тенденций, закономерностей развития социально-экономических явлений, для чего используются специфические экономико-статистические и математико-статистические методы. Статистический анализ завершается интерпретаций полученных результатов.

В статистическом анализе признаки подразделяются по характеру влияния друг на друга:

  • 1. Признак-результат - признак, анализируемый в данном исследовании. Индивидуальные размеры такого признака у отдельных элементов совокупности подвержены влиянию одного или нескольких других признаков. Другим словами, признак-результат рассматривается как следствие взаимодействия других факторов;
  • 2. Признак-фактор - признак, оказывающий влияние на исследуемый признак (признак-результат). Причем зависимость между признаком-фактором и признаком-результатом может быть количественно определенна. Синонимами данного термина в статистике являются, «факторный признак», «фактор». Следует различать понятия признака-фактора и признака-веса. Признаком-весом называют такой признак, который необходимо учесть при расчетах. Но, признак-вес не оказывает влияния на исследуемый признак. Признак-фактор может рассматриваться как признак-вес, т. е., учитываться при расчетах, но не всякий признак-вес является признаком-фактором. Например, при исследовании в группе студентов зависимости между временем подготовки к экзамену и количеством баллов, полученных на экзамене должен учитываться и третий признак: «Количество человек, аттестованных на определенный балл». Последний признак не является влияющим на результат, однако, будет включен в аналитические расчеты. Именно такой признак и называется признаком-весом, а не признаком-фактором.

Прежде чем приступить к анализу, необходимо проверить, соблюдены ли условия, обеспечивающие его достоверность и правильность:

  • - Достоверность первичных цифровых данных;
  • - Полнота охвата изучаемой совокупности;
  • - Сопоставимость показателей (по единицам учета, территории, методике подсчета).

Основными понятиями статистического анализа являются:

  • 1. Гипотеза;
  • 2. Решающая функция и решающее правило;
  • 3. Выборка из генеральной совокупности;
  • 4. Оценка характеристик генеральной совокупности;
  • 5. Доверительный интервал;
  • 6. Тренд;
  • 7. Статистическая взаимосвязь.

Анализ является завершающей стадией статистического исследования, сутью которой является выявление взаимосвязей и закономерностей изучаемого явления, формулировка выводов и предложений.

Статистическая работа, как правило, строится в виде ряда последовательных стадий, или этапов (рис. 2.6.). Однако эта схема не является раз и навсегда установленным шаблоном и в повседневной практике учреждений здравоохранения, где осуществляются все перечисленные этапы может видоизменяться в зависимости от задач и целей исследования. Так, заполнение учетных документов соответствует этапу статистического наблюдения. Составление периодических отчетов - этапу статистической сводки и группировки материалов. Анализ деятельности медицинского учреждения заключается в составлении текстовых отчетов, объяснительных записок и конъюнктурных обзоров, дающих научно-медицинское толкование и объяснение цифровых данных.

Этапы статистического исследования

Всякая правильно организованная статистическая работа строится по однотипной схеме, равнозначной в своих основных этапах и стадиях. Санитарно-статистическое исследование складывается, как уже отмечалось, из четырех последовательных этапов, распадающихся, в свою очередь, на ряд отдельных статистических операций.

Первый этап представляет собой подготовительную работу, которая включает составление заранее продуманного, четкого плана и программы исследования. От тщательности и скрупулезности подготовительной работы во многом зависит результат всего исследования в целом.

Второй этап - это статистическое наблюдение или собирание материалов, заключающееся в регистрации отдельных явлений, единичных фактов, их признаков и элементов. В медицинских учреждениях этот этап осуществляется в виде заполнения определенных учетных документов.

Третьим этапом является статистическая (табличная) сводка и группировка полученных материалов, т.е. первая счетная операция по обработке «статистического сырья». Таким образом, сводка заключается в систематизации и обобщении отдельных записей и подведении итогов в виде статистических таблиц. Практическим примером сводки могут служить отчеты медицинских учреждений.

Четвертый этап - счетная обработка и анализ материалов. Он заключается в получении абсолютных чисел производных величин, их качественном анализе и научно-медицинском толковании (сравнение с другими материалами, итоги и выводы, литературное и графическое оформление, публикация). Практическим выражением анализа является составление объяснительной записки, т.е. текстовой части отчета, сводно-аналитического или конъюнктурного обзора.

Выделение некоторыми авторами трех этапов (объединение двух первых) или расширение до пяти этапов (разделение счетной обработки и анализа) не является существенным. Можно принять схему с любым количеством этапов, т.к. важно не их число, а преемственность, неразрывная связь, строгая последовательность, взаимозависимость и обусловленность, происходящие на основе правильной группировки. Ошибки, допущенные в одном звене, могут свести на нет всю последующую работу.

Подготовительная работа и ее содержание . Задача подготовительной работы заключается в составлении программы и плана исследования. Организационный план намечается в целом и по отдельным этапам. Важнейшим направлением при этом является определение цели исследования, плана и программы наблюдения и сводки.

Отдельные элементы первого этапа могут быть представлены в определенной последовательности:

Установление цели и задач исследования, т.е. формулировка теоретических положений и определение реальных потребностей, вызвавших необходимость данного исследования, его пределы и содержание.

Так формулировка «изучение заболеваемости населения» является неясной и весьма расплывчатой, поэтому следует уточнить виды подлежащих изучению заболеваний (общие, профессиональные, с временной утратой трудоспособности и т.п.), целенаправленность работы (выяснение влияния на стоматологическое здоровье населения условий труда, условий быта, качества лечебно-профилактических или санитарно-противоэпидемических мероприятий и т.п.).

Исследователь должен предварительно детально ознакомиться с существом вопроса и с опубликованными литературными или документальными источниками.

Определение объекта наблюдения, т.е. основной совокупности исследуемых лиц или явлений, ее численности и характера. Объект наблюдения - кто или что подлежит исследованию - это, как правило, определенные контингенты лиц (рабочие, служащие, школьники, призывники и т.п.). Объектом могут служить и источники водоснабжения, общежития, торговые предприятия и другие учреждения, подлежащие санитарному надзору, в специальных экспериментальных работах - животные и растения. Таким образом, объектом наблюдения могут быть люди, предметы, явления, события и т.п.

Определение объема наблюдения. Вопрос о количестве материала (больных, опытов, экспериментальных животных) связан со степенью однородности изучаемой совокупности. Чем совокупность однороднее, тем меньше потребуется наблюдений. Кроме предполагаемой численности наблюдений, в понятие объема работы входит и степень детализации изучения, т.е. количество регистрируемых признаков.

Одним из наиболее важных разделов подготовительной работы является установление единицы наблюдения, или первичного случая счета, т.е. тех лиц, предметов или явлений, которые стали бы элементом подсчета, своего рода «атомом» изучаемой совокупности, который несёт на себе его признаки.

Установление унифицированной единицы наблюдения обеспечивает сопоставимость материалов, возможность «сравнивать сравнимое», ведь сравнение является душой статистики, ее основой. Четкое определение единицы наблюдения необходимо для точности и однородности собираемых материалов, для правильности последующих обобщений. Содержание единицы наблюдения обусловлено целями и задачами исследования. Например, при изучении различных видов заболеваемости каждому из них присуща своя единица наблюдения.

Требуют уточнения даже такие, казалось бы, простые вопросы, входящие в переписной бланк, как грамотность (как учесть человека, умеющего читать, но не умеющего писать), семейное положение (зарегистрированный или фактический брак), национальность (ребенка родителей разных национальностей) и т.п.

Необходимы уточнения и при учете врачей (включать ли работающих не по специальности или пенсионеров), при переписи жилого фонда (что считать квартирой); при определении оперативного вмешательства (считать ли операцией аборт, биопсию, пересадку кожи и т.п.). Например, если задать вопрос «Каково здоровье Ваших зубов?» нескольким людям, один оценит его как плохое, другой - как хорошее, третий - как удовлетворительное и т.п. Но все это субъективные оценки, и объективное изучение здоровья зубов тех же лиц может привести к одинаковым оценкам стоматологического здоровья у всех исследуемых или к другим, отличающимся от субъективных, оценкам.

Серьезного внимания требует субъект наблюдения, т.е. это организаторы и участники работы. Следует заранее предусмотреть силы и квалификацию кадров, заполняющих и разрабатывающих документацию, контролирующих и отвечающих за сбор материала. Причем количество участников на разных этапах работы может изменяться. От подготовленности и квалификации участников работы нередко зависят объем и программа исследования.

Организационный или организационно-технический план наблюдения включает также вопросы о месте и времени наблюдения. Место наблюдения - это административно-территориальные границы: село или несколько сел (пунктовые поселения с наличием врачей), район административный, город или его район, край, область, республика. В медико-географических исследованиях, посвященных в частности вопросам краевой патологии, избираются определенные местности (например, изучение физического развития детей в Заполярье, распространение зубочелюстных аномалий у жителей Сахалина, распространение патологии щитовидной железы у подростков Магаданской обл.). Время исследования, т.е. конкретные сроки, определяется и для периода наблюдения, и для проведения всего исследования в целом (и разработки, и анализа). В зависимости от задач исследования намечается его период. Например, исследование за истекшие 5 лет или с первого января будущего года, за определенный сезон (при изучении эффективности летней оздоровительной кампании или курортного лечения). Иногда вопрос о сроке теснейшим образом связан с методом исследования (анамнестический, катамнестический и др.). Наряду с обычными единовременными «поперечными» исследованиями за короткий период времени, применяют так называемые «продольные» или когортные, исследования, т.е. длительные наблюдения за одной и той же группой населения («когортой»).

Следует также указать источники получения материалов. Чаще всего ими являются первичные учетные медицинские документы: «Статистический талон» (учетная форма №25-2/у), «Карта выбывшего из стационара» (учетная форма №066/у), «Экстренное извещение об инфекционном заболевании, пищевом, остром профессиональном отравлении» (учетная форма №058/у) и другие. Нередко это бывают специально разработанные документы. Иногда в основу исследования кладутся отчетные документы. Но т.к. они содержат готовые и к тому же ограниченные группировки, то для углубленного анализа они мало пригодны. Для некоторых работ используются такие литературные источники, как бюллетени Всемирной организации здравоохранения (ВОЗ) и других органов ООН, официальные справочные издания и т.п.

В плане наблюдения необходимо предусмотреть различные формы практической реализации результатов исследования (составление отчета и объяснительной записки к нему, сводно-аналитического обзора, доклада, публикации, статьи, брошюры, монографии, справочника). Подводя итог, можно сказать, что план наблюдения должен отвечать на вопросы: что, где, когда, кем, и как будет изучаться. Говоря о плане и программе наблюдения, необходимо подчеркнуть, что перечень данных, подлежащих сбору, определяется программой наблюдения, а порядок выполнения программы устанавливается планом наблюдения.

Программа исследования включает в себя несколько частей посвященных выбору цели, задачам для её достижения, методам исследования, способам наблюдения, определению единицы наблюдения и сбора соответствующей информации.

Практически перечень вопросов программы и их отдельных признаков выражается в виде учетно-статистического документа, преимущественно карточного типа (бланк, формуляр, анкета) и реже - списочного типа (журнал, ведомость, учетная книга). Общепринятые официально действующие однотипные медицинские документы утверждаются соответствующими инстанциями (учетные - Министерством здравоохранения, отчетные - Государственным Комитетом Статистики и др.).

Чрезвычайно ответственный этап работы, имеющий исключительно важное значение, - это создание специальных программ для углубленных исследований.

Одновременно с программой исследования составляется план и программа предстоящей сводки (проекты и макеты рабочих таблиц). Составлению программы предшествует теоретическая разработка проблемы и практических задач, создание рабочих гипотез, патогенетических группировок, а также разработка системы показателей будущего анализа. Английский статистик А. Бредфорд Хилл (1958) указывает: «Основным и решающим шагом в проведении специальных обследований является составление бланка учета. Как бы много внимания вы ни уделили этой задаче, оно никогда не может оказаться слишком большим».

При переходе к механизированному учету и разработке, следует оставить место для шифров разметки, и предусмотреть четкую формулировку вопросов и их количество. Ответы должны носить конкретный характер и относиться к определенным условиям (в частности с учетом места и времени).

Пример программы статистического исследования в педиатрии

Существуют определенные правила для составления статистической карты.

Во-первых, ее не следует перегружать. Надо включать только нужные и необходимые вопросы, которые понадобятся в последующей разработке.

Во-вторых, вопросы должны быть ясно и точно сформулированы и не вызывать различного толкования (а подчас - недоверия или опасения). Примерами неясных формулировок могут служить такие как «предполагаемое место инфицирования» (то ли входные ворота инфекции, то ли местность), «питание язвенного больного» (неясно - имеется в виду режим питания или упитанность, «пониженное питание»).

В-третьих, ответы должны носить четкий и категоричный характер (да, нет, число, диагноз). Еще лучше, если их можно обозначить подсказом для подчеркивания.

В-четвертых, построение программы предусматривает координацию и взаимный контроль вопросов (диагноз, пол, возраст, профессия и стаж работы, год окончания учебного заведения и т.п.).

Необходимым дополнением к статистической карте является инструкция (иногда отпечатанная на карте), разъясняющая значение терминов, порядок заполнения и ведения документов на конкретных примерах.

В статистике нет мелочей, и сжатый характер вопросов особенно это подчеркивает. Н.И. Пирогов указывал на значение лаконичности статистической программы: «Нет надобности вдаваться в подробности о каждом предмете: одно слово, внесенное в графу, иногда скажет все, что нужно знать». Н.И. Пирогов писал также, что статистики должны действовать по единому определенному плану.

Иногда для проверки программы и методики сбора материалов предварительно проводится пробная разработка в ограниченном масштабе.

Очень важной предпосылкой успешности исследования является коллективное обсуждение плана и программы (а впоследствии также и результатов) с заинтересованными и компетентными лицами, а также с участниками работы.

Современные статистические исследования могут носить обширный, крупномасштабный характер. В любом случае целесообразно заранее оценить объем предстоящих работ и необходимые для этого затраты. Часть последних может покрываться в определенных случаях за счет традиционных источников (например, зарплаты медицинских работников), но часть может потребовать специальных ассигнований, выделения дополнительных людских и материальных ресурсов.

Результатом первого этапа статистического исследования -- статистического наблюдения -- являются сведения, характеризующие каждую единицу статистической совокупности. Однако, возможности отразить закономерности и тенденции динамики изучаемых явлений с помощью даже самой полной характеристики единичных фактов ограничены. Такие данные получают только в результате статистической сводки. Сводка - это упорядочение, систематизация и обобщение статистических данных, полученных при статистическом наблюдении. Только надлежащая обработка статистического материала позволяет выявить сущность социально-экономических явлений, характерные черты и существенные особенности отдельных типов, обнаружить закономерности и тенденции их развития. Различают сводку простую и групповую, или сводку в узком и широком понимании. Простая сводка -- это подсчет общих итогов в группах и подгруппах и оформление этого материала в таблицы. В результате простой сводки статистических данных можно определить количество предприятий, общую численность персонала, объем произведенной продукции в денежном выражении. Эти общие итоги носят в основном информативный характер. Они дают обобщенную характеристику совокупности в виде абсолютных величин.

Групповая сводка, или сводка в широком понимании, представляет собой сложный процесс по многосторонней обработке первичных статистических данных, т.е. данных, полученных в результате наблюдения. Он включает группировку статистических данных, разработку системы показателей для характеристики групп, подсчет групповых и общих итогов, расчет обобщающих показателей. Задача статистической сводки как второго этапа статистического исследования - получение обобщающих показателей для информационно-справочных и аналитических целей. Сводка массовых статистических данных осуществляется по заранее разработанным программе и плану. В процессе разработки программы определяются подлежащее и сказуемое сводки. Подлежащее -- это объект исследования, расчлененный на группы и подгруппы. Сказуемое -- показатели, которые характеризуют подлежащее сводки. Программа сводки определяется задачами статистического исследования.

Статистическая сводка выполняется по заранее составленному плану. В плане сводки решаются вопросы о способах проведения работы по обобщению информации -- вручную или механизированным способом, о последовательности отдельных операций сводки. Устанавливаются сроки выполнения каждого этапа и сводки в целом, а также способы изложения результатов сводки. Это могут быть ряды распределения, статистические таблицы и статистические графики.

2.1 Схема проведения статистического исследования

Системы статистического анализа данных – это современный эффективный инструмент статистического исследования. Широкие возможности для обработки статистических данных имеют специальные системы статистического анализа, а также универсальные средства – Excel, Matlab, Mathcad и др..

Но даже самый совершенный инструмент не может заменить исследователя, который должен сформулировать цель исследования, провести сбор данных, выбрать методы, подходы, модели и средства проведения обработки и анализа данных, а также интерпретировать полученные результаты.

На рисунке 2.1 представлена схема проведения статистического исследования.

Рис.2.1 - Принципиальная схема статистического исследования

Исходным пунктом статистического исследования является формулировка проблемы. При ее определении учитывается цель исследования, определяется, какая информация необходима и как она будет использоваться при принятии решения.

Само статистическое исследование начинается с подготовительного этапа. В ходе подготовительного этапа аналитики изучают техническое задание – документ, составляемый заказчиком исследования. В техническом задании должны быть четко сформулированы цели исследования:

    определен объект исследования;

    перечислены предположения и гипотезы, которые в ходе исследования должны быть подтверждены или опровергнуты;

    описано то, как будут использоваться результаты исследования;

    сроки, в которые исследование должно быть проведено и бюджет исследования.

На основе технического задания разрабатывается структура аналитического отчета - то, в каком виде должны быть представлены результаты исследования, а также программа статистического наблюдения . Программа представляет собой перечень признаков, подлежащих регистрации в процессе наблюдения (или вопросов на которые должны быть получены достоверные ответы по каждой обследуемой единице наблюдения). Содержание программы определяется как особенностями наблюдаемого объекта и целями исследования, так и методами, выбранными аналитиками для дальнейшей обработки собранной информации.

Основной этап статистического исследования включает сбор необходимых данных и их анализ.

Финальным этапом исследования является составление аналитического отчета и предоставление его заказчику.

На рис. 2.2 представлена схема статистического анализа данных.

Рис.2.2 – Основные этапы статистического анализа

2.2 Сбор статистической информации

Сбор материалов подразумевает анализ технического задания исследования, определение источников необходимой информации и (при необходимости) разработку анкет. При исследовании источников информации все требуемые данные разделяют на первичные (данные, которых нет в наличии и которые должны быть собраны непосредственно для данного исследования), и вторичные (собранные ранее для иных целей).

Сбор вторичных данных часто называют "кабинетным" или "библиотечным" исследованием.

Примеры сбора первичных данных: наблюдения за посетителями магазина, анкетирование пациентов больницы, обсуждение проблемы на совещании.

Вторичные данные делят на внутренние и внешние.

Примеры источников внутренних вторичных данных:

    информационная система организации (включающая в себя бухгалтерскую подсистему, подсистему управления продажами, CRM (CRM-система, сокращение от англ. Customer Relationship Management) - прикладное программное обеспечение для организаций, предназначенное для автоматизации стратегий взаимодействия с заказчиками) и другие);

    ранее проведенные исследования;

    письменные отчеты сотрудников.

Примеры источников внешних вторичных данных:

    отчеты органов статистики и других государственных учреждений;

    отчеты маркетинговых агентств, профессиональных ассоциаций и т.п.;

    электронные базы данных (адресные справочники, ГИС и т.п.);

    библиотеки;

    средства массовой информации.

Основными выходными данными на этапе сбора данных являются:

    планируемый объем выборки;

    структура выборки (наличие и размер квот);

    вид статистического наблюдения (сбор данных опрос, анкетирование, измерение, эксперимент, экспертиза, др.);

    информация о параметрах опроса (например, возможность факта фальсификации анкет);

    схема кодировки переменных в базе данных программы, выбранной для обработки;

    план-схема преобразования данных;

    план-схема используемых статистических процедур.

Этот же этап включает непосредственно процедуру анкетирования. Разумеется, анкеты разрабатываются только для получения первичной информации.

Полученные данные должны быть соответствующим образом отредактированы и подготовлены. Каждая анкета или форма наблюдения проверяется и, если нужно, корректируется. Каждому ответу присваиваются числовые или буквенные коды – производится кодировка информации. Подготовка данных включает в себя редактирование, расшифровку и проверку данных, их кодирование и необходимые преобразования.

2.3 Определение характеристик выборки

Как правило, данные, собранные в результате статистического наблюдения для проведения статистического анализа являются выборочной совокупностью. Последовательность преобразования данных в процесс статистического исследования можно схематично представить следующим образом (рис. 2.3)

Рис 2.3 Схема преобразования статистических данных

Анализируя выборку, можно делать выводы о генеральной совокупности, представленной выборкой.

Окончательное определение общих параметров выборки производят, когда все анкеты собраны. Оно включает:

    определение реального количества респондентов,

    определение структуры выборки,

    распределение по месту опроса,

    установление доверительного уровня статистической надежности выборки,

    расчет статистической ошибки и определение репрезентативности выборки.

Реальное количество респондентов может оказаться большим либо меньшим запланированного. Первый вариант лучше для анализа, но невыгоден заказчику исследования. Второй может отрицательно сказаться на качестве исследования, а, следовательно, невыгоден ни аналитикам, ни заказчикам.

Структура выборки может быть случайной или неслучайной (респонденты отбирались на основе заранее известного критерия, например методом квотирования). Случайные выборки априори являются репрезентативными. Неслучайные выборки могут быть намерено нерепрезентативными относительно генеральной совокупности, но давать важную информацию для исследований. В этом случае также следует внимательно отнестись к фильтрационным вопросам анкеты, которые предназначены специально для отсеивания неподходящих под требования респондентов.

Для определения точности оценивания , прежде всего, необходимо установить уровень доверительной вероятности (95% или 99%). Тогда максимальная статистическая ошибка выборки рассчитывается как

или
,

где - объем выборки,- вероятность наступления исследуемого события (попадание респондента в выборку),- вероятность обратного события (непопадания респондента в выборку),- коэффициент доверительной вероятности,
- дисперсия признака.

В таблице 2.4 приведены наиболее употребляемые значения доверительной вероятности и коэффициентов доверительной вероятности.

Таблица 2.4

2.5 Обработка данных на компьютере

Анализ данных с применением компьютера включает выполнение ряда необходимых шагов.

1. Определение структуры исходных данных.

2. Ввод данных в компьютер в соответствии с их структурой и требованиями программы. Редактирование и преобразование данных.

3. Задание метода обработки данных в соответствии с задачами исследования.

4. Получение результата обработки данных. Его редактирование и сохранение в нужном формате.

5. Интерпретация результата обработки.

Шаги 1 (подготовительный) и 5 (заключительный) не способна выполнить ни одна компьютерная программа - их исследователь делает сам. Шаги 2-4 выполняются исследователем с использованием программы, но именно исследователь определяет необходимые процедуры редактирования и преобразования данных, методы обработки данных, а также формат представления результатов обработки. Помощь компьютера (шаги 2–4) заключается, в конечном итоге, в переходе от длинной последовательности чисел к более компактной. На «вход» компьютера исследователь подает массив исходных данных, который недоступен осмыслению, но пригоден для компьютерной обработки (шаг 2). Затем исследователь дает программе команду на обработку данных в соответствии с поставленной задачей и структурой данных (шаг 3). На «выходе» он получает результат обработки (шаг 4) - тоже массив данных, только уже меньший, доступный осмыслению и содержательной интерпретации. При этом исчерпывающий анализ данных обычно требует многократной их обработки с применением разных методов.

2.6 Выбор стратегии анализа данных

Выбор стратегии анализа собранных данных основывается на знании теоретических и практических аспектов исследуемой предметной области, специфики и известных характеристик информации, свойств конкретных статистических методов, а также на опыте и взглядах исследователя.

Необходимо помнить, что анализ данных - это вовсе не конечная цель исследования. Его цель - получить информацию, которая поможет решить определенную проблему и принять адекватные управленческие решения. Выбор стратегии анализа должен начинаться с исследования итогов предыдущих этапов процесса: определение проблемы и разработка плана исследования. В качестве "черновика" используется предварительный план анализа данных, разработанный как один из элементов плана исследования. Затем, в ходе поступления на последующих стадиях процесса исследования дополнительной информации, может понадобиться внесение определенных изменений.

Статистические методы делятся на одно- и многомерные. Одномерные методы(univariatetechniques) используются тогда, когда все элементы выборки оцениваются одним показателем, либо если этих показателей несколько для каждого элемента, но каждая переменная анализируется при этом отдельно ото всех остальных.

Многомерные методы (multivariate techniques) прекрасно подходят для анализа данных, если для оценки каждого элемента выборки используется два или больше показателей и эти переменные анализируются одновременно. Такие методы применяются для определения зависимостей между явлениями.

Многомерные методы отличаются от одномерных прежде всего тем, что при их использовании центр внимания смещается с уровней (средних показателей) и распределений (дисперсий) явлений и сосредотачивается на степени взаимосвязи (корреляции или ковариации) между этими явлениями.

Одномерные методы можно классифицировать на основе того, какие данные анализируются: метрические или неметрические (рис. 3). Метрические данные (metric data) измеряются по интервальной шкале или относительной шкале. Неметрические данные (nonmetric data) оцениваются по номинальной или порядковой шкале

Кроме того, эти методы делят на классы на основе того, сколько выборок - одна, две или более - анализируется в ходе исследований.

Классификация одномерных статистических методов представлена на рис.2.4.

Рис. 2.4 Классификация одномерных статистических методов в зависимости от анализируемых данных

Число выборок определяется тем, как ведется работа с данными для конкретного анализа, а не тем, каким способом собирались данные. Например, данные по лицам мужского и женского пола можно получить в пределах одной выборки, но если их анализ нацелен на выявление разницы в восприятии, основанной на разнице полов, исследователю придется оперировать двумя разными выборками. Выборки считаются независимыми, если они экспериментально не связаны между собой. Измерения, проведенные в одной выборке, не оказывают влияния на значения переменных в другой. Для анализа данные, относящиеся к разным группам респондентов, например собранные от лиц женского и мужского пола, обычно обрабатываются как независимые выборки.

С другой стороны, если данные по двум выборкам относятся к одной и той же группе респондентов, выборки считаются объединенными в пары - зависимыми.

Если существует только одна выборка метрических данных, может использоваться z- и t-критерий. Если же независимых выборок две или больше, в первом случае можно воспользоваться z- и t-критерием для двух выборок, в во втором - методом однофакторного дисперсионного анализа. Для двух связанных выборок используется парный t-критерий. Если речь идет о неметрических данных по одной выборке, исследователь может воспользоваться критериями частотного распределения, хи-квадратом, критерием Колмогорова-Смирнова (K~S), критерием серий и биномиальным критерием. Для двух независимых выборок с неметрическими данными можно прибегнуть к следующим методам анализа: хи-квадрат, Манна-Уитни, медианы, К-С, однофакторным дисперсионным анализом Крускала-Уоллиса (ДА К-У). В отличие от этого, если существует две или больше взаимосвязанных выборок, следует воспользоваться критериями знаков, Мак-Немара и Уилкоксона.

Многомерные статистические методы нацелены на выявление существующих закономерностей: взаимозависимости переменных, взаимосвязи или последовательности событий, межобъектного сходства.

Достаточно условно можно выделить пять стандартных типов закономерностей, исследование которых представляет существенный интерес: ассоциация, последовательность, классификация, кластеризация и прогнозирование

Ассоциация имеет место в том случае, если несколько событий связаны друг с другом. Например, исследование, проведенное в супермаркете, может показать, что 65% купивших кукурузные чипсы берут также и "кока-колу", а при наличии скидки за такой комплект "колу" приобретают в 85% случаев. Располагая сведениями о подобной ассоциации, менеджерам легко оценить, насколько действенна предоставляемая скидка.

Если существует цепочка связанных во времени событий, то говорят о последовательности. Так, например, после покупки дома в 45% случаев в течение месяца приобретается и новая кухонная плита, а в пределах двух недель 60% новоселов обзаводятся холодильником.

С помощью классификации выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект. Это делается посредством анализа уже классифицированных объектов и формулирования некоторого набора правил.

Кластеризация отличается от классификации тем, что сами группы заранее не заданы. С помощью кластеризации выделяют различные однородные группы данных.

Основой для всевозможных систем прогнозирования служит историческая информация, хранящаяся в виде временных рядов. Если удается построить найти закономерности, адекватно отражающие динамику поведения целевых показателей, есть вероятность, что с их помощью можно предсказать и поведение системы в будущем.

Многомерные статистические методы можно разделить на методы анализа взаимосвязи и классификационный анализ (рис. 2.5).

Рис.2.5 – Классификация многомерных статистических методов

Обработка собранных первичных данных, включающая их группировку, обобщение и оформление в таблицах, составляет второй этап статистического исследования, который называется сводкой .

Существует 3 основных формы представления обработанных статистических данных: текстовая, табличная и графическая .

На третьем этапе статистического исследования на основе итоговых данных сводки осуществляется научный анализ исследуемых явлений : рассчитываются различные обобщающие показатели в виде средних и относительных величин, выявляются определенные закономерности в распределениях, динамике показателей и т. п. На основе выявленных закономерностей делаются прогнозы на будущее.

Статистическое наблюдение – первая стадия статистического исследования. Почти всегда, в соответствии, конечно, с целями и задачами исследования начинают работу с учета фактов и сбора первичного материала. Первичный материал – это фундамент статистического исследования. От качества статистического наблюдения зависит успех всего исследования в целом. Оно должно быть организовано таким образом, чтобы в результате были получены объективные, точные данные об изучаемом явлении. Неполные, неточные данные, недостаточно хорошо характеризующие процесс, тем более искажающие его приводят к ошибкам. И анализ, проведенный на такой основе – будет ошибочным. Отсюда следует, что учет фактов и сбор первичного материала должны быть тщательно продуманы и организованы.

Необходимо еще раз отметить, что статистические наблюдения – всегда массовые. В силу вступает закон больших чисел - чем больше совокупность, тем объективнее будут полученные результаты.

В статистическом наблюдении можно выделить три этапа: 1. Подготовка наблюдения. Это формулировка программы наблюдения, определение показателей, сгруппированных в макеты конечных статистических таблиц.

Вопросы, составляющие содержание программы, должны вытекать из цели исследования или гипотезы, подтверждению которой предполагается посвятить исследование. Важным элементом являются макеты конечных статистических таблиц. Именно они являются проектом разработки результатов наблюдения и только при их наличии можно выявить все вопросы, которые необходимо включить в программу и избежать включения ненужной информации.

2. Непосредственный сбор материала . Это самая трудоемкая стадия исследования. Статистическая отчетность, как особая форма организации сбора данных, присуща только государственной статистике. Вся иная информация собирается посредством разнообразного статического инструментария. Необходимо указать на два основных требования к собранным данным: достоверность и сопоставимость. И крайне желаемое (в условиях рынка оно возрастает многократно) – своевременность.



3. Контроль материала перед его анализом. Как бы тщательно не был составлен инструментарий наблюдения, проведен инструктаж исполнителей, всегда материалы наблюдения нуждаются в контроле. Это объясняется массовым характером статистических работ и сложностью их содержания.

Объектом любого статистического исследования является совокупность единиц изучаемого явления. Объектом может быть население при переписи, предприятия, города, персонал фирмы и т.д. Словом, объект наблюдения – исследуемая статистическая совокупность. Очень важно определить и границы изучаемой совокупности, которые четко определяют изучаемую совокупность. Например, если ставится цель изучить деятельность малых предприятий области, то следует определить, к какой форме собственности оно относится (государственное, частное, совместное и т.д.), по какому критерию будут отбираться предприятия: отраслевые особенности, объем реализации, время с момента регистрации, состояние (действующее, бездействующее, во временном простое) и т.д. Совокупность должна быть однородной, иначе в процессе анализа возникнут дополнительные сложности и почти всегда неминуемы ошибки.

Наряду с определением объектом наблюдения и границ важно определить единицу совокупности и единицу наблюдения. Единица совокупности – индивидуальный составной элемент статистической совокупности. Единица наблюдения – это то явление, объект, признаки которого подлежат регистрации. Совокупность единиц наблюдения составляет объект наблюдения. Например, цель: исследовать влияние разных факторов на производительность труда рабочих на шахтах ОАО «Испат-Кармет». В этом случае – совокупность определена самой целью – шахтеры, работающие на шахтах «Испат-Кармет», единицей совокупности является шахтер, как носитель информации, а единицей наблюдения является шахта. Кратко: единица совокупности – то, что подвергается обследованию, единица наблюдения – источник сведений.
Для осуществления статистического наблюдения необходимо произвести сбор данных по заданному признаку, а именно: обозначить статистическую совокупность, которая состоит из материально существующих объектов, единицу и цель единовременного обследования объекта, составить программу статистического наблюдения.



На первом этапе формируется выборка собранных данных по обозначенным признакам, данные упорядочиваются по возрастанию. Затем следует составить таблицу распределения частот с последовательным заполнением соответствующих столбцов в таблице.

На втором этапе для обработки собранных первичных данных необходимо произвести группировку и обобщение отобранных элементов по заданному признаку, обозначить числовые характеристики выборки. Этот этап статистического исследования называется сводка . Сводка – научная обработка первичных данных в целях получения обобщенных характеристик изучаемого явления по ряду существенных для него признаков, т. е. первичные материалы сводятся вместе, образуют статистические совокупности, которые характеризуются итоговыми абсолютными обобщающими показателями. На стадии сводки мы переходим от характеристики отдельных варьирующих признаков единиц совокупности – к характеристике всей совокупности в целом или к характеристике их общего проявления в массе.

Следует найти размах по формуле:

R=x(max) – x(min);

моду M(0), которая показывает значение, встречающееся чаще других, медиану M(e), которая характеризует среднее значение (его не превышает половина членов ряда) соответствует варианте, стоящей в середине ранжированного вариационного ряда. Положение медианы определяется ее номером:Nме = (n+1) /2 , где n – число единиц в совокупности и среднее арифметическое значение для обозначенной группы, которая вычисляется по формуле:

Результаты работы могут быть представлены графически в виде гистограммы и полигона распределения частот.

Полученные данные отражают то общее, что присуще всем единицам исследуемой совокупности. В результате статистического наблюдения должна быть получена объективная, сопоставимая, полная информация, позволяющая на последующих этапах исследования обеспечить научно-обоснованные выводы о характере и закономерностях развития изучаемого явления.

Практическое задание

Провести статистическое исследование, выяснив сведенья о росте 2 5 случайным образом выбранных студентовТомского политехнического университета.

Составить таблицу распределения частот, найти размах, моду, медиану и среднее арифметическое значение роста (в см) для обозначенных юношей.