Тема: Выборочный метод в статистике
1. Понятие о выборочном наблюдении, его задачи
Статистическое наблюдение можно организовать сплошное и несплошное. Сплошное наблюдение предусматривает обследование всех единиц изучаемой совокупности и связано с большими трудовыми и материальными затратами. Изучение не всех единиц совокупности, а лишь некоторой части, по которой следует судить о свойствах всей совокупности в целом, можно осуществить несплошным наблюдением. В статистической практике самым распространенным является выборочное наблюдение.
Выборочное наблюдение - это такой вид несплошного наблюдения, при котором отбор подлежащих обследованию единиц осуществляется в случайном порядке, отобранная часть изучается, а результаты распространяются на всю исходную совокупность. Наблюдение организуется таким образом, что эта часть отобранных единиц в уменьшенном масштабе репрезентирует (представляет) всю совокупность.
Совокупность, из которой производится отбор, называется генеральной, генеральными.
Совокупность отобранных единиц именуют выборочной совокупностью, и все ее обобщающие показатели - выборочными.
Имеется ряд причин, в силу которых, во многих случаях выборочному наблюдению отдается предпочтение перед сплошным. Наиболее существенны из них следующие:
Экономия времени и средств в результате сокращения объема работы;
Сведение к минимуму порчи или уничтожения исследуемых объектов (определение прочности пряжи при разрыве, испытание электрических лампочек на продолжительность горения, проверка консервов на доброкачественность);
Необходимость детального исследования каждой единицы наблюдения при невозможности охвата всех единиц (при изучении бюджета семей);
Достижение большой точности результатов обследования благодаря сокращению ошибок, происходящих при регистрации.
Преимущество выборочного наблюдения по сравнению со сплошным можно реализовать, если оно организовано и проведено в строгом соответствии с научными принципами теории выборочного метода. Такими принципами являются: обеспечение случайности (равной возможности попадания в выборку) отбора единиц и достаточного их числа. Соблюдение этих принципов позволяет получить объективную гарантию репрезентативности полученной выборочной совокупности. Понятие репрезентативности отобранной совокупности не следует понимать как ее представительство по всем признакам изучаемой совокупности, а только в отношении тех признаков, которые изучаются или оказывают существенное влияние на формирование сводных обобщающих характеристик.
Основная задача выборочного наблюдения в экономике состоит в том, чтобы на основе характеристик выборочной совокупности (средней и доли) получить достоверные суждения о показателях средней и доли в генеральной совокупности. При этом следует иметь в виду, что при любых статистических исследованиях (сплошных и выборочных) возникают ошибки двух видов: регистрации и репрезентативности.
Ошибки регистрации могут иметь случайный (непреднамеренный) и систематический (тенденциозный) характер. Случайные ошибки обычно уравновешивают друг друга, поскольку не имеют преимущественного направления в сторону преувеличения или преуменьшения значения изучаемого показателя. Систематические ошибки направлены в одну сторону вследствие преднамеренного нарушения правил отбора (предвзятые цели). Их можно избежать при правильной организации и проведении наблюдения.
Ошибки репрезентативности присущи только выборочному наблюдению и возникают в силу того, что выборочная совокупность не полностью воспроизводит генеральную. Они представляют собой расхождение между значениями показателей, полученных по выборке, и значениями показателей этих же величин, которые были бы получены при проведенном с одинаковой степенью точности сплошном наблюдении, т. е. между величинами выборных и соответствующих генеральных показателей.
Для каждого конкретного выборочного наблюдения значение ошибки репрезентативности может быть определено по соответствующим формулам, которые зависят от вида, метода и способа формирования выборочной совокупности.
По виду различают индивидуальный, групповой и комбинированный отбор. При индивидуальном отборе в выборочную совокупность отбираются отдельные единицы генеральной совокупности; при групповом отборе - качественно однородные группы или серии изучаемых единиц; комбинированный отбор предполагает сочетание первого и второго видов.
По методу отбора различают повторную и бесповторную выборки.
При повторной выборке общая численность единиц генеральной совокупности в процессе выборки остается неизменной. Ту или иную единицу, попавшую в выборку, после регистрации снова возвращают в генеральную совокупность, и она сохраняет равную возможность со всеми прочими единицами при повторном отборе единиц вновь попасть в выборку («отбор по схеме возвращенного шара»). Повторная выборка в социально-экономической жизни встречается редко. Обычно выборку организуют по схеме бесповторной выборки.
При бесповторной выборке единица совокупности, попавшая в выборку, в генеральную совокупность не возвращается и в дальнейшем в выборке не участвует; т. е. последующую выборку делают из генеральной совокупности уже без отобранных ранее единиц («отбор по схеме невозвращенного шара»). Таким образом, при бесповторной выборке численность единиц генеральной совокупности сокращается в процессе исследования.
Способ отбора определяет конкретный механизм или процедуру выборки единиц из генеральной совокупности.
По степени охвата единиц совокупности различают большие и малые (n <30) выборки.
В практике выборочных исследований наибольшее распространение получили следующие виды выборки: собственно-случайная, механическая, типическая, серийная, комбинированная.
Основные характеристики параметров генеральной и выборочной совокупностей обозначаются символами:
N-объем генеральной совокупности (число входящих в нее единиц);
п - объем выборки (число обследованных единиц);
- генеральная средняя (среднее значение признака в генеральной совокупности);
Выборочная средняя;
P - генеральная доля (доля единиц, обладающих данным значением признака в общем числе единиц генеральной совокупности);
w - выборочная доля;
- генеральная дисперсия (дисперсия признака в генеральной совокупности);
S 2 - выборочная дисперсия того же признака;
- среднее квадратическое отклонение в генеральной совокупности;
S - среднее квадратическое отклонение в выборке.
2. Ошибки выборки
При выборочном наблюдении должна быть обеспечена случайность отбора единиц. Каждая единица должна иметь равную с другими возможность быть отобранной. Именно на этом основывается собственно-случайная выборка.
К собственно-случайной выборке относится отбор единиц из всей генеральной совокупности (без предварительного расчленения ее на какие-либо группы) посредством жеребьевки (преимущественно) или какого-либо иного подобного способа, например, с помощью таблицы случайных чисел. Случайный отбор - это отбор не беспорядочный. Принцип случайности предполагает, что на включение или исключение объекта из выборки не может повлиять какой-либо фактор, кроме случая. Примером собственно-случайного отбора могут служить тиражи выигрышей: из общего количества выпущенных билетов наугад отбирается определенная часть номеров, на которые приходятся выигрыши. Причем всем номерам обеспечивается равная возможность попадания в выборку. При этом количество отобранных в выборочную совокупность единиц обычно определяется исходя из принятой доли выборки.
Доля, выборки есть отношение числа единиц выборочной совокупности к числу единиц генеральной совокупности:
Так, при 5%-ной выборке из партии деталей в 1000 ед. объем выборки п составляет 50 ед., а при 10%-ной выборке -100 ед. и т.д. При правильной научной организации выборки ошибки репрезентативности можно свести к минимальном значениям, в результате - выборочное наблюдение становится достаточно точным.
Собственно-случайный отбор «в чистом виде» применяется в практике выборочного наблюдения редко, но он является исходным среди всех других видов отбора, в нем заключаются и реализуются основные принципы выборочного наблюдения.
Рассмотрим некоторые вопросы теории выборочного метода и формулы ошибок для простой случайной выборки.
Применяя выборочный метод в статистике, обычно используют два основных вида обобщающих показателей: среднюю величину количественного признака и относительную величину альтернативного признака (долю или удельный вес единиц в статистической совокупности, которые отличаются от всех других единиц этой совокупности только наличием изучаемого признака).
Выборочная доля ( w ), или частость, определяется отношением числа единиц, обладающих изучаемым признаком т, к общему числу единиц выборочной совокупности п:
w = т/п.
Например, если из 100 деталей выборки (и = 100), 95 деталей оказались стандартными (т =95), то выборочная доля
w = 95 / 100 = 0,95 .
Для характеристики надежности выборочных показателей различают среднюю и предельную ошибки выборки.
Ошибка выборки или, иначе говоря, ошибка репрезентативности представляет собой разность соответствующих выборочных и генеральных характеристик:
(1)
(2)
Ошибка выборки свойственна только выборочным наблюдениям. Чем больше значение этой ошибки, тем в большей степени выборочные показатели отличаются от соответствующих генеральных показателей.
Выборочная средняя и выборочная доля по своей сути являются случайными величинами, которые могут принимать различные значения в зависимости от того, какие единицы совокупности попали в выборку. Следовательно, ошибки выборки также являются случайными величинами и могут принимать различные значения. Поэтому определяют среднюю из возможных ошибок - среднюю ошибку выборки.
От чего зависит средняя ошибка выборки! При соблюдении принципа случайного отбора средняя ошибка выборки определяется, прежде всего объемом выборки: чем больше численность при прочих равных условиях, тем меньше величина средней ошибки выборки. Охватывая выборочным обследованием все большее количество единиц генеральной совокупности, всё более точно характеризуем всю генеральную совокупность.
Средняя ошибка выборки также зависит от степени варьирования изучаемого признака. Степень варьирования, как известно, характеризуется дисперсией или w (1 - w ) - для альтернативного признака. Чем меньше вариация признака, а следовательно, и дисперсия, тем меньше средняя ошибка выборки, и наоборот. При нулевой дисперсии (признак не варьирует) средняя ошибка выборки равна нулю, т. е. любая единица генеральной совокупности будет совершенно точно характеризовать всю совокупность по этому признаку.
Зависимость средней ошибки выборки от ее объема и степени варьирования признака отражена в формулах, с помощью которых можно рассчитать среднюю ошибку выборки в условиях выборочного наблюдения, когда генеральные характеристики (х,р) неизвестны, и следовательно, не представляется возможным нахождение реальной ошибки выборки непосредственно по формулам (1), (2).
При случайном повторном отборе средние ошибки теоретически рассчитывают по следующим формулам:
для средней количественного признака
(3)
для доли (альтернативного признака)
(4)
Поскольку практически дисперсия признака в генеральной совокупности точно неизвестна, на практике пользуются
значением дисперсии S 2 , рассчитанным для выборочной совокупности на основании закона больших чисел, согласно которому выборочная совокупность при достаточно большом объеме выборки достаточно точно воспроизводит характеристики генеральной совокупности.
Таким образом, расчетные формулы средней ошибки выборки при случайном повторном отборе будут следующие:
для средней количественного признака
для доли (альтернативного признака)
(6)
Однако дисперсия выборочной совокупности не равна дисперсии генеральной совокупности, и следовательно, средние ошибки выборки, рассчитанные по формулам (5) и (6), будут приближенными. Но в теории вероятностей доказано, что генеральная дисперсия выражается через выборочную следующим соотношением:
(7)
Так как п / (n -1) при достаточно больших п - величина, близкая к единице, то можно принять, что = S 2 , а следовательно, в практических расчетах средних ошибок выборки можно использовать формулы (5) и (6). И только в случаях малой выборки (когда объем выборки не превышает 30) необходимо учитывать коэффициент п/(п-1) и исчислять среднюю ошибку малой выборки по формуле:
(8)
в приведенные выше формулы расчета средних ошибок выборки необходимо подкоренное выражение умножить на 1-(п/ N ), поскольку в процессе бесповторной выборки сокращается численность единиц генеральной совокупности. Следовательно, для бесповторной выборки расчетные формулы средней ошибки выборки примут такой вид:
для средней количественного признака
(9)
для доли (альтернативного признака)
(10)
Так как п всегда меньше N , то дополнительный множитель 1 - (n / N ) всегда будет меньше единицы. Отсюда следует, что средняя ошибка при бесповторном отборе всегда будет меньше, чем при повторном. В то же время при сравнительно небольшом проценте выборки этот множитель близок к единице (например, при 5%-ной выборке он равен 0,95; при 2%-ной - 0,98 и т.д.). Поэтому иногда на практике пользуются для определения средней ошибки выборки формулами (5) и (6) без указанного множителя, хотя выборку и организуют как бесповторную. Это имеет место в тех случаях, когда число единиц генеральной совокупности N неизвестно или безгранично, или когда п очень мало по сравнению с N, и по существу, введение дополнительного множителя, близкого по значению к единице, практически не повлияет на значение средней ошибки выборки.
Механическая выборка состоит в том, что отбор единиц в выборочную совокупность из генеральной, разбитой по нейтральному признаку на равные интервалы (группы), производится таким образом, что из каждой такой группы в выборку отбирается лишь одна единица. Чтобы избежать систематической ошибки, отбираться должна единица, которая находится в середине каждой группы.
При организации механического отбора единицы совокупности предварительно располагают (обычно в списке) в определенном порядке (например, по алфавиту, местоположению, в порядке возрастания или убывания значений какого-либо показателя, не связанного с изучаемым свойством, и т.д.), после чего отбирают заданное число единиц механически, через определенный итервал. При этом размер интервала в генеральной совокупности равен обратному значению доли выборки. Так, при 2%-ной выборке отбирается и проверяется каждая 50-я единица (1: 0,02), при 5 %-ной выборке - каждая 20-я единица (1: 0,05), например, сходящая со станка деталь.
При достаточно большой совокупности механический отбор по точности результатов близок к собственно-случайному. Поэтому для определения средней ошибки механической выборки используют формулы собственно-случайной бесповторной выборки (9), (10).
Для отбора единиц из неоднородной совокупности применяется, так называемая типическая выборка, которая используется в тех случаях, когда все единицы генеральной совокупности можно разбить на несколько качественно однородных, однотипных групп по признакам, влияющим на изучаемые показатели.
При обследовании предприятий такими группами могут быть, например, отрасль и подотрасль, формы собственности. Затем из каждой типической группы собственно-случайной или механической выборкой производится индивидуальный отбор единиц в выборочную совокупность.
Типическая выборка обычно применяется при изучении сложных статистических совокупностей. Например, при выборочном обследовании семейных бюджетов рабочих и служащих в отдельных отраслях экономики, производительности труда рабочих предприятия, представленных отдельными группами по квалификации.
Типическая выборка дает более точные результаты по сравнению с другими способами отбора единиц в выборочную совокупность. Типизация генеральной совокупности обеспечивает репрезентативность такой выборки, представительство в ней каждой типологической группы, что позволяет исключить влияние межгрупповой дисперсии на среднюю ошибку выборки,
При определении средней ошибки типической выборки в качестве показателя вариации выступает средняя из внутригрупповых дисперсий.
Среднюю ошибку выборки находят по формулам:
для средней количественного признака
(повторный отбор); (11)
(бесповторный отбор); ( 12)
для доли (альтернативного признака)
(повторный отбор); (13)
(бесповторный отбор), (14)
где - средняя из внутригрупповых дисперсий по выборочной совокупности;
Средняя из внутригрупповых дисперсий доли (альтернативного
признака) по выборочной совокупности.
Серийная выборка предполагает случайный отбор из генеральной совокупности не отдельных единиц, а их равновеликих групп (гнезд, серий) с тем, чтобы в таких группах подвергать наблюдению все без исключения единицы.
Применение серийной выборки обусловлено тем, что многие товары для их транспортировки, хранения и продажи упаковываются в пачки, ящики и т.п. Поэтому при контроле качества упакованного товара рациональнее проверить несколько упаковок (серий), чем из всех упаковок отбирать необходимое количество товара.
Поскольку внутри групп (серий) обследуются все без исключения единицы, средняя ошибка выборки (при отборе равновеликих серий) зависит только от межгрупповой (межсерийной) дисперсии.
Среднюю ошибку выборки для средней количественного признака при серийном отборе находят по формулам:
(повторный отбор); (15 )
(бесповторный отбор), (16 )
где r - число отобранных серий; R - общее число серий.
Межгрупповую дисперсию серийной выборки вычисляют следующим образом:
где - средняя i-й серии; - общая средняя по всей выборочной совокупности.
Средняя ошибка выборки для доли (альтернативного признака) при серийном отборе:
(повторный отбор); (17 )
(бесповторный отбор). (18 )
Межгрупповую (межсерийную) дисперсию доли серийной выборки определяют по формуле:
(19)
где w i - доля признака в i-и серии; - общая доля признака во всей выборочной совокупности.
В практике статистических обследований помимо рассмотренных ранее способов отбора применяется их комбинация (комбинированный отбор).
3. Распространение выборочных результатов на генеральную совокупность
Конечной целью выборочного наблюдения является характеристика генеральной совокупности на основе выборочных результатов.
Выборочные средние и относительные величины распространяют на генеральную совокупность с учетом предела их возможной ошибки.
В каждой конкретной выборке расхождение между выборочной средней и генеральной, т. е. может быть меньше средней ошибки выборки , равно ей или больше ее.
Причем каждое из этих расхождений имеет различную вероятность (объективную возможность появления события). Поэтому фактические расхождения между выборочной средней и генеральной можно рассматривать как некую предельную ошибку, связанную со средней ошибкой и гарантируемую с определенной вероятностью Р.
Предельную ошибку выборки для средней () при повторном отборе можно рассчитать по формуле:
(20)
где t - нормированное отклонение - «коэффициент доверия», зависящий от вероятности, с которой гарантируется предельная ошибка выборки;
Средняя ошибка выборки.
Аналогичным образом может быть записана формула предельной ошибки выборки для доли при повторном отборе:
(21)
При случайном бесповторном отборе в формулах расчета предельных ошибок выборки (20) и (21) необходимо умножить подкоренное выражение на 1 - (n / N ) .
Формула предельной ошибки выборки вытекает из основных положений теории выборочного метода, сформулированных в ряде теорем теории вероятностей, отражающих закон больших чисел.
На основании теоремы П.Л. Чебышева (с уточнениями А.М. Ляпунова) с вероятностью, сколь угодно близкой к единице, можно утверждать, что при достаточно большом объеме выборки и ограниченной генеральной дисперсии выборочные обобщающие показатели (средняя, доля) будут сколь угодно мало отличаться от соответствующих генеральных показателей.
Применительно к нахождению среднего значения признака эта теорема может быть записана так:
(22)
а для доли признака:
(23 )
где(24)
Таким образом, величина предельной ошибки выборки может быть установлена с определенной вероятностью.
Значения функции Ф( t ) при различных значениях t как коэффициента кратности средней ошибки выборки, определяются на основе специально составленных таблиц. Приведем некоторые значения, применяемые наиболее часто для выборок достаточно большого объема (n 30):
t 1,000 1,960 2,000 2,580 3,000
Ф( t ) 0,683 0,950 0,954 0,990 0,997
Предельная ошибка выборки отвечает на вопрос о точности выборки с определенной вероятностью, значение которой определяется коэффициентом t (в практических расчетах, как правило, заданная вероятность не должна быть менее 0,95). Так, при t = 1 предельная ошибка составит = . Следовательно, с вероятностью 0,683 можно утверждать, что разность между выборочными и генеральными показателями не превысит одной средней ошибки выборки. Другими словами, в 68,3% случаев ошибка репрезентативности не выйдет за пределы ±1.
При t = 2 с вероятностью 0,954 она не выйдет за пределы ±2 ,
при t = 3 с вероятностью 0,997 - за пределы ±3 и т.д.
Как видно из приведённых выше значений функции Ф (t ) (см. последнее значение), вероятность появления ошибки, равной или большей утроенной средней ошибки выборки, т. е. 3 крайне мала и равна 0,003, т. е. 1-0,997. Такие маловероятные события считаются практически невозможными, а потому величину = 3можно принять за предел возможной ошибки выборки.
Выборочное наблюдение проводится в целях распространения выводов, полученных по данным выборки, на генеральную совокупность. Одной из основных задач является оценка по данным выборки исследуемых характеристик (параметров) генеральной совокупности.
Предельная ошибка выборки позволяет определить предельные значения характеристик генеральной совокупности и их доверительные интервалы:
для средней (25)
для доли (26)
Это означает, что с заданной вероятностью можно утверждать, что значение генеральной средней следует ожидать в пределах от - до +
Аналогичным образом может быть записан доверительный интервал генеральной доли:
Наряду с абсолютным значением предельной ошибки выборки рассчитывается и предельная относительная ошибка выборки, которая определяется как процентное отношение предельной ошибки выборки к соответствующей характеристике выборочной совокупности:
для средней, %: (27)
для доли, %: (28)
Рассмотрим нахождение средних и предельных ошибок выборки, определение доверительных пределов средней и доли на конкретных примерах.
Задача 1. Для определения скорости расчетов с кредиторами предприятий корпорации в коммерческом банке была проведена случайная выборка 100 платежных документов, по которым средний срок перечисления и получения денег оказался равным 22 дням ( = 22) со стандартным отклонением 6 дней (S= 6).
Необходимо с вероятностью Р = 0,954 определить предельную ошибку выборочной средней и доверительные пределы средней продолжительности расчетов предприятий данной корпорации.
Решение. Предельную ошибку = t определяем по формуле повторного отбора (6.20), так как численность генеральной совокупности N неизвестна. Из представленных значений Ф (t ) (см. с. 98) для вероятности Р = 0,954 находим t = 2.
Следовательно, предельная ошибка выборки, дней:
Генеральная средняя будет равна = ± , а доверительные интервалы (пределы) генеральной средней исчисляем, исходя из двойного неравенства:
Таким образом, с вероятностью 0,954 можно утверждать, что средняя продолжительность расчетов предприятий данной корпорации колеблется в пределах от 20,8 до 23,2 дней.
Задача 2. Среди выборочно обследованных 1000 семей региона по уровню душевого дохода (выборка 2%-ная, механическая) малообеспеченных оказалось 300 семей.
Требуется с вероятностью 0,997 определить долю малообеспеченных семей во всем регионе.
Решение. Выборочная доля (доля малообеспеченных семей среди обследованных семей) равна:
По представленным ранее данным Ф(t ) для вероятности 0,997 находим t = 3 (см. с. 99). Предельную ошибку доли определяем по формуле бесповторного отбора (механическая выборка всегда является бесповторной):
Предельная относительная ошибка выборки, %:
Генеральная доляа доверительные пределы генеральной доли исчисляем, исходя из двойного неравенства:
В нашем примере:
Таким образом, почти достоверно, с вероятностью 0,997 можно утверждать, что доля малообеспеченных семей среди всех семей региона колеблется от 28,6 до 31,4%.
Задача 3. Для определения урожайности зерновых культур проведено выборочное обследование 100 хозяйств региона различных форм собственности, в результате которого получены сводные данные (табл.6.1). Необходимо с вероятностью 0,954 определить предельную ошибку выборочной средней и доверительные пределы средней урожайности зерновых культур по всем хозяйствам региона.
Таблица 6.1
Распределение урожайности по хозяйствам региона, имеющим различную форму собственности
Решение. Поскольку обследованные хозяйства региона сгруппированы по формам собственности, предельную ошибку средней урожайности определяем по формуле для типической выборки, осуществляемой методом повторного отбора (численность генеральной совокупности N неизвестна):
В этой формуле неизвестна средняя из внутригрупповых дисперсий.
Она исчисляется по формуле:
По представленным ранее (см. с. 98) данным Ф (t ) для вероятности Р =0,954 находим t = 2.
Тогда предельная ошибка выборки, ц/га:
Генеральная средняя: = ± . Для нахождения ее границ вначале нужно исчислить среднюю урожайность по выборочной совокупности , ц/га:
Предельная относительная ошибка выборки, %:
Доверительные пределы генеральной средней исчисляем, исходя из двойного неравенства:
Таким образом, с вероятностью 0,954 можно гарантировать, что средняя урожайность зерновых культур по региону будет не менее чем 20 ц/га, но и не более чем 22 ц/га.
Определение необходимого объема выборки. При проектировании выборочного наблюдения с заранее заданным значением допустимой ошибки выборки очень важно правильно определить численность (объем) выборочной совокупности, которая с определенной вероятностью обеспечит заданную точность результатов наблюдения. Формулы для определения необходимой численности выборки п легко получить непосредственно из формул ошибок выборки.
Так, из формул предельной ошибки выборки для повторного отбора нетрудно (предварительно возведя в квадрат обе части равенства) выразить необходимую численность выборки:
для средней количественного признака
для доли (альтернативного признака)
(30 )
Аналогично из формул предельной ошибки выборки для бесповторного отбора находим, что
(для средней); (31 )
(для доли). (32 )
Эти формулы показывают, что с увеличением предполагаемой ошибки выборки значительно уменьшается необходимый объем выборки.
Для расчета объема выборки нужно знать дисперсию. Она может быть заимствована из проводимых ранее обследований данной или аналогичной совокупности, а если таковых нет, тогда для определения дисперсии надо провести специальное выборочное обследование небольшого объема.
Задача 4. Для определения среднего возраста 1200 студентов факультета необходимо провести выборочное обследование методом случайного бесповторного отбора. Предварительно установлено, что среднее квадратическое отклонение возраста студентов равно 10 годам.
Сколько студентов нужно обследовать, чтобы с вероятностью 0,954 средняя ошибка выборки не превышала 3 года?
Решение. Рассчитаем необходимую численность выборки, чел., по формуле бесповторного отбора (6.31), учитывая, что t = 2 при Р = 0,954:
Таким образом, выборка численностью 47 чел. обеспечивает заданную точность при бесповторном отборе.
Выборочный метод широко используется в статистической практике для получения экономической информации.
Большую актуальность приобретает выборочный метод в современных условиях перехода к рыночной экономике. Изменения в характере экономических отношений, аренда, собственность отдельных коллективов и лиц обусловливают изменения функций учета и статистики, сокращение и упрощение отчетности. Вместе с тем, возрастающие требования к менеджменту усиливают потребность в обеспечении надежной информацией, дальнейшего повышения ее оперативности. Все это обусловливает более широкое применение выборочного метода в экономике.
В отечественной статистике уже накоплен определенный опыт выборочных обследований.
Статистическая совокупность - множество единиц, обладающих массовостью, типичностью, качественной однородностью и наличием вариации.
Статистическая совокупность состоит из материально существующих объектов (Работники, предприятия, страны, регионы), является объектом .
Единица совокупности — каждая конкретная единица статистической совокупности.
Одна и таже статистическая совокупность может быть однородна по одному признаку и неоднородна по другому.
Качественная однородность — сходство всех единиц совокупности по какому-либо признаку и несходство по всем остальным.
В статистической совокупности отличия одной единицы совокупности от другой чаще имеют количественную природу. Количественные изменения значений признака разных единиц совокупности называются вариацией.
Вариация признака — количественное изменение признака (для количественного признака) при переходе от одной единицы совокупности к другой.
Признак - это свойство, характерная черта или иная особенность единиц, объектов и явлений, которая может быть наблюдаема или измерена. Признаки делятся на количественные и качественные. Многообразие и изменчивость величины признака у отдельных единиц совокупности называется вариацией .
Атрибутивные (качественные) признаки не поддаются числовому выражению (состав населения по полу). Количественные признаки имеют числовое выражение (состав населения по возрасту).
Показатель — это обобщающая количественно качестванная характеристика какого-либо свойства единиц или совокупности в цельм в конкретных условиях времени и места.
Система показателей — это совокупность показателей всесторонне отражающих изучаемое явление.
Например, изучается зарплата:- Признак — оплата труда
- Статистическая совокупность — все работники
- Единица совокупности — каждый работник
- Качественная однородность — начисленная зарплата
- Вариация признака — ряд цифр
Генеральная совокупность и выборка из нее
Основу составляет множество данных, полученных в результате измерения одного или нескольких признаков. Реально наблюдаемая совокупность объектов, статистически представленная рядом наблюдений случайной величины , является выборкой , а гипотетически существующая (домысливаемая) — генеральной совокупностью . Генеральная совокупность может быть конечной (число наблюдений N = const ) или бесконечной (N = ∞ ), а выборка из генеральной совокупности — это всегда результат ограниченного ряда наблюдений. Число наблюдений , образующих выборку, называется объемом выборки . Если объем выборки достаточно велик (n → ∞ ) выборка считается большой , в противном случае она называется выборкой ограниченного объема . Выборка считается малой , если при измерении одномерной случайной величины объем выборки не превышает 30 (n <= 30 ), а при измерении одновременно нескольких (k ) признаков в многомерном пространстве отношение n к k не превышает 10 (n/k < 10) . Выборка образует вариационный ряд , если ее члены являются порядковыми статистиками , т. е. выборочные значения случайной величины Х упорядочены по возрастанию (ранжированы), значения же признака называются вариантами .
Пример . Практически одна и та же случайно отобранная совокупность объектов — коммерческих банков одного административного округа Москвы, может рассматриваться как выборка из генеральной совокупности всех коммерческих банков этого округа, и как выборка из генеральной совокупности всех коммерческих банков Москвы, а также как выборка из коммерческих банков страны и т.д.
Основные способы организации выборки
Достоверность статистических выводов и содержательная интерпретация результатов зависит от репрезентативности выборки, т.е. полноты и адекватности представления свойств генеральной совокупности, по отношению к которой эту выборку можно считать представительной. Изучение статистических свойств совокупности можно организовать двумя способами: с помощью сплошного и несплошного . Сплошное наблюдение предусматривает обследование всех единиц изучаемой совокупности , а несплошное (выборочное) наблюдение — только его части.
Существуют пять основных способов организации выборочного наблюдения:
1. простой случайный отбор , при котором объектов случайно извлекаются из генеральной совокупности объектов (например с помощью таблицы или датчика случайных чисел), причем каждая из возможных выборок имеют равную вероятность. Такие выборки называются собственно-случайными ;
2. простой отбор с помощью регулярной процедуры осуществляется с помощью механической составляющей (например, даты, дня недели, номера квартиры, буквы алфавита и др.) и полученные таким способом выборки называются механическими ;
3. стратифицированный отбор заключается в том, что генеральная совокупность объема подразделяется на подсовокупности или слои (страты) объема так что . Страты представляют собой однородные объекты с точки зрения статистических характеристик (например, население делится на страты по возрастным группам или социальной принадлежности; предприятия — по отраслям). В этом случае выборки называются стратифицированными (иначе, расслоенными, типическими, районированными );
4. методы серийного отбора используются для формирования серийных или гнездовых выборок . Они удобны в том случае, если необходимо обследовать сразу "блок" или серию объектов (например, партию товара, продукцию определенной серии или население при территориально-административном делении страны). Отбор серий можно осуществить собственно-случайным или механическим способом. При этом проводится сплошное обследование определенной партии товара, или целой территориальной единицы (жилого дома или квартала);
5. комбинированный (ступенчатый) отбор может сочетать в себе сразу несколько способов отбора (например, стратифицированный и случайный или случайный и механический); такая выборка называется комбинированной .
Виды отбора
По виду различаются индивидуальный, групповой и комбинированный отбор. При индивидуальном отборе в выборочную совокупность отбираются отдельные единицы генеральной совокупности, при групповом отборе — качественно однородные группы (серии) единиц, а комбинированный отбор предполагает сочетание первого и второго видов.
По методу отбора различают повторную и бесповторную выборку.
Бесповторным называется отбор, при котором попавшая в выборку единица не возвращается в исходную совокупность и в дальнейшем выборе не участвует; при этом численность единиц генеральной совокупности N сокращается в процессе отбора. При повторном отборе попавшая в выборку единица после регистрации возвращается в генеральную совокупность и таким образом сохраняет равную возможность наряду с другими единицами быть использованной в дальнейшей процедуре отбора; при этом численность единиц генеральной совокупности N остается неизменной (метод в социально-экономических исследованиях применяется редко). Однако, при большом N (N → ∞) формулы для бесповторного отбора приближаются к аналогичным для повторного отбора и практически чаще используются последние (N = const ).
Основные характеристики параметров генеральной и выборочной совокупности
В основе статистических выводов проведенного исследования лежит распределение случайной величины , наблюдаемые же значения (х 1 , х 2 , … , х n) называются реализациями случайной величины Х (n — объем выборки). Распределение случайной величины в генеральной совокупности носит теоретический, идеальный характер, а ее выборочный аналог является эмпирическим распределением. Некоторые теоретические распределения заданы аналитически, т.е. их параметры определяют значение функции распределения в каждой точке пространства возможных значений случайной величины . Для выборки же функцию распределения определить трудно, а иногда невозможно, поэтому параметры оценивают по эмпирическим данным, а затем их подставляют в аналитическое выражение, описывающее теоретическое распределение. При этом предположение (или гипотеза ) о виде распределения может быть как статистически верным, так и ошибочным. Но в любом случае восстановленное по выборке эмпирическое распределение лишь грубо характеризует истинное. Важнейшими параметрами распределений являются математическое ожидание и дисперсия .
По своей природе распределения бывают непрерывными и дискретными . Наиболее известным непрерывным распределением является нормальное . Выборочными аналогами параметров идля него являются: среднее значение и эмпирическая дисперсия . Среди дискретных в социально-экономических исследованиях наиболее часто применяется альтернативное (дихотомическое) распределение. Параметр математического ожидания этого распределения выражает относительную величину (или долю ) единиц совокупности, которые обладают изучаемым признаком (она обозначена буквой ); доля совокупности, не обладающая этим признаком, обозначается буквой q (q = 1 — p) . Дисперсия же альтернативного распределения также имеет эмпирический аналог .
В зависимости от вида распределения и от способа отбора единиц совокупности по-разному вычисляются характеристики параметров распределения. Основные из них для теоретического и эмпирического распределений приведены в табл. 9.1.
Долей выборки k n называется отношение числа единиц выборочной совокупности к числу единиц генеральной совокупности:
k n = n/N .
Выборочная доля w — это отношение единиц, обладающих изучаемым признаком x к объему выборки n :
w = n n /n .
Пример. В партии товара, содержащей 1000 ед., при 5% выборке доля выборки k n в абсолютной величине составляет 50 ед. (n = N*0,05); если же в этой выборке обнаружено 2 бракованных изделия, то выборочная доля брака w составит 0,04 (w = 2/50 = 0,04 или 4%).
Так как выборочная совокупность отлична от генеральной, то возникают ошибки выборки .
Таблица 9.1 Основные параметры генеральной и выборочной совокупностейОшибки выборки
При любом (сплошном и выборочном) могут встретиться ошибки двух видов: регистрации и репрезентативности. Ошибки регистрации могут иметь случайный и систематический характер. Случайные ошибки складываются из множества различных неконтролируемых причин, носят непреднамеренный характер и обычно по совокупности уравновешивают друг друга (например, изменения показателей прибора при температурных колебаниях в помещении).
Систематические ошибки тенденциозны, так как нарушают правила отбора объектов в выборку (например, отклонения в измерениях при изменении настройки измерительного прибора).
Пример. Для оценки социального положения населения в городе предусмотрено обследовать 25% семей. Если при этом выбор каждой четвертой квартиры основан на ее номере, то существует опасность отобрать все квартиры только одного типа (например, однокомнатные), что обеспечит систематическую ошибку и исказит результаты; выбор же номера квартиры по жребию более предпочтителен, так как ошибка будет случайной.
Ошибки репрезентативности присущи только выборочному наблюдению, их невозможно избежать и они возникают в результате того, что выборочная совокупность не полностью воспроизводит генеральную. Значения показателей, получаемых по выборке, отличаются от показателей этих же величин в генеральной совокупности (или получаемых при сплошном наблюдении).
Ошибка выборочного наблюдения есть разность между значением параметра в генеральной совокупности и ее выборочным значением. Для среднего значения количественного признака она равна: , а для доли (альтернативного признака) — .
Ошибки выборки свойственны только выборочным наблюдениям. Чем больше эти ошибки, тем больше эмпирическое распределение отличается от теоретического. Параметры эмпирического распределения и являются случайными величинами, следовательно, ошибки выборки также являются случайными величинами, могут принимать для разных выборок разные значения и поэтому принято вычислять среднюю ошибку .
Средняя ошибка выборки есть величина , выражающая среднее квадратическое отклонение выборочной средней от математического ожидания. Эта величина при соблюдении принципа случайного отбора зависит прежде всего от объема выборки и от степени варьирования признака: чем больше и чем меньше вариация признака (следовательно, и значение ), тем меньше величина средней ошибки выборки . Соотношение между дисперсиями генеральной и выборочной совокупностей выражается формулой:
т.е. при достаточно больших можно считать, что . Средняя ошибка выборки показывает возможные отклонения параметра выборочной совокупности от параметра генеральной. В табл. 9.2 приведены выражения для вычисления средней ошибки выборки при разных методах организации наблюдения.
Таблица 9.2 Средняя ошибка (m) выборочных средней и доли для разных видов выборкиГде - средняя из внутригрупповых выборочных дисперсий для непрерывного признака;
Средняя из внутригрупповых дисперсий доли;
— число отобранных серий, — общее число серий;
,
где — средняя -й серии;
— общая средняя по всей выборочной совокупности для непрерывного признака;
,
где — доля признака в -й серии;
— общая доля признака по всей выборочной совокупности.
Однако о величине средней ошибки можно судить лишь с определенной, вероятностью Р (Р ≤ 1). Ляпунов А.М. доказал, что распределение выборочных средних , a следовательно, и их отклонений от генеральной средней, при достаточно большом числе приближенно подчиняется нормальному закону распределения при условии, что генеральная совокупность обладает конечной средней и ограниченной дисперсией.
Математически это утверждение для средней выражается в виде:
а для доли выражение (1) примет вид:
где - есть предельная ошибка выборки , которая кратна величине средней ошибки выборки , а коэффициент кратности — есть критерий Стьюдента ("коэффициент доверия"), предложенный У.С. Госсетом (псевдоним "Student"); значения для разного объема выборки хранятся в специальной таблице.
Значения функции Ф(t) при некоторых значениях t равны:Следовательно, выражение (3) может быть прочитано так: с вероятностью Р = 0,683 (68,3%) можно утверждать, что разность между выборочной и генеральной средней не превысит одной величины средней ошибки m (t = 1) , с вероятностью Р = 0,954 (95,4%) — что она не превысит величины двух средних ошибок m (t = 2) , с вероятностью Р = 0,997 (99,7%) — не превысит трех значений m (t = 3) . Таким образом, вероятность того, что эта разность превысит трехкратную величину средней ошибки определяет уровень ошибки и составляет не более 0,3% .
В табл. 9.3 приведены формулы для вычисления предельной ошибки выборки.
Таблица 9.3 Предельная ошибка (D) выборки для средней и доли (р) для разных видов выборочного наблюденияРаспространение выборочных результатов на генеральную совокупность
Конечной целью выборочного наблюдения является характеристика генеральной совокупности. При малых объемах выборки эмпирические оценки параметров ( и ) могут существенно отклоняться от их истинных значений ( и ). Поэтому возникает необходимость установить границы, в пределах которых для выборочных значений параметров ( и ) лежат истинные значения ( и ).
Доверительным интервалом какого-либо параметра θгенеральной совокупности называется случайная область значений этого параметра, которая с вероятностью близкой к 1 (надежностью ) содержит истинное значение этого параметра.
Предельная ошибка выборки Δ позволяет определить предельные значения характеристик генеральной совокупности и их доверительные интервалы , которые равны:
Нижняя граница доверительного интервала получена путем вычитания предельной ошибки из выборочного среднего (доли), а верхняя — путем ее добавления.
Доверительный интервал для средней использует предельную ошибку выборки и для заданного уровня достоверности определяется по формуле:
Это означает, что с заданной вероятностью Р
, которая называется доверительным уровнем и однозначно определяется значением t
, можно утверждать, что истинное значение средней лежит в пределах от ,а истинное значение доли — в пределах от
При расчете доверительного интервала для трех стандартных доверительных уровней Р = 95%, Р = 99% и Р = 99,9% значение выбирается по . Приложения в зависимости от числа степеней свободы . Если объем выборки достаточно велик, то соответствующие этим вероятностям значения t равны: 1,96, 2,58 и 3,29 . Таким образом, предельная ошибка выборки позволяет определить предельные значения характеристик генеральной совокупности и их доверительные интервалы:
Распространение результатов выборочного наблюдения на генеральную совокупность в социально-экономических исследованиях имеет свои особенности, так как требует полноты представительности всех ее типов и групп. Основой для возможности такого распространения является расчет относительной ошибки :
где Δ % - относительная предельная ошибка выборки; , .
Существуют два основных метода распространения выборочного наблюдения на генеральную совокупность: прямой пересчет и способ коэффициентов .
Сущность прямого пересчета заключается в умножении выборочного среднего значения!!\overline{x} на объем генеральной совокупности .
Пример . Пусть среднее число детей ясельного возраста в городе оценено выборочным методом и составило человека. Если в городе 1000 молодых семей, то число необходимых мест в муниципальных детских яслях получают умножением этой средней на численность генеральной совокупности N = 1000, т.е. составит 1200 мест.
Способ коэффициентов целесообразно использовать в случае, когда выборочное наблюдение проводится с целью уточнения данных сплошного наблюдения.
При этом используют формулу:
где все переменные — это численность совокупности:
Необходимый объем выборки
Таблица 9.4 Необходимый объем (n) выборки для разных видов организации выборочного наблюденияПри планировании выборочного наблюдения с заранее заданным значением допустимой ошибки выборки необходимо правильно оценить требуемый объем выборки . Этот объем может быть определен на основе допустимой ошибки при выборочном наблюдении исходя из заданной вероятности , гарантирующей допустимую величину уровня ошибки (с учетом способа организации наблюдения). Формулы для определения необходимой численности выборки n легко получить непосредственно из формул предельной ошибки выборки. Так, из выражения для предельной ошибки:
непосредственно определяется объем выборки n :
Эта формула показывает, что с уменьшением предельной ошибки выборки Δ существенно увеличивается требуемый объем выборки , который пропорционален дисперсии и квадрату критерия Стьюдента .
Для конкретного способа организации наблюдения требуемый объем выборки вычисляется согласно формулам, приведенным в табл. 9.4.
Практические примеры расчета
Пример 1. Вычисление среднего значения и доверительного интервала для непрерывного количественного признака.
Для оценки скорости расчета с кредиторами в банке проведена случайная выборка 10 платежных документов. Их значения оказались равными (в днях): 10; 3; 15; 15; 22; 7; 8; 1; 19; 20.
Необходимо с вероятностью Р = 0,954 определить предельную ошибку Δ выборочной средней и доверительные пределы среднего времени расчетов.
Решение. Среднее значение вычисляется по формуле из табл. 9.1 для выборочной совокупности
Дисперсия вычисляется по формуле из табл. 9.1.
Средняя квадратическая погрешность дня.
Ошибка средней вычисляется по формуле:
т.е. среднее значение равно x ± m = 12,0 ± 2,3 дней .
Достоверность среднего составила
Предельную ошибку вычислим по формуле из табл. 9.3 для повторного отбора, так как численность генеральной совокупности неизвестна, и для Р = 0,954 уровня достоверности.
Таким образом, среднее значение равно `x ± D = `x ± 2m = 12,0 ± 4,6, т.е. его истинное значение лежит в пределах от 7,4 до16,6 дней.
Использование таблицы Стьюдента. Приложения позволяет заключить, что для n = 10 — 1 = 9 степеней свободы полученное значение достоверно с уровнем значимости a £ 0,001, т.е. полученное значение среднего достоверно отличается от 0.
Пример 2. Оценка вероятности (генеральной доли) р.
При механическом выборочном способе обследования социального положения 1000 семей выявлено, что доля малообеспеченных семей составила w = 0,3 (30%) (выборка была 2% , т.е. n/N = 0,02 ). Необходимо с уровнем достоверности р = 0,997 определить показатель р малообеспеченных семей во всем регионе.
Решение. По представленным значениям функции Ф(t) найдем для заданного уровня достоверности Р = 0,997 значение t = 3 (см. формулу 3). Предельную ошибку доли w определим по формуле из табл. 9.3 для бесповторного отбора (механическая выборка всегда является бесповторной):
Предельная относительная ошибка выборки в % составит:
Вероятность (генеральная доля) малообеспеченных семей в регионе составит р=w±Δ w , а доверительные пределы р вычисляются исходя из двойного неравенства:
w — Δ w ≤ p ≤ w — Δ w , т.е. истинное значение р лежит в пределах:
0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.
Таким образом, с вероятностью 0,997 можно утверждать, что доля малообеспеченных семей среди всех семей региона составляет от 28,6% до 31,4%.
Пример 3. Вычисление среднего значения и доверительного интервала для дискретного признака, заданного интервальным рядом.
В табл. 9.5. задано распределение заявок на изготовление заказов по срокам их выполнения предприятием.
Таблица 9.5 Распределение наблюдений по срокам появленияРешение. Средний срок выполнения заявок вычисляется по формуле:
Средний срок составит:
= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 мес.
Тот же ответ получим, если используем данные о р i из предпоследней колонки табл. 9.5, используя формулу:
Заметим, что середина интервала для последней градации находится путем искусственного ее дополнения шириной интервала предыдущей градации равной 60 — 36 = 24 мес.
Дисперсия вычисляется по формуле
где х i - середина интервального ряда.
Следовательно!!\sigma = \frac {20^2 + 14^2 + 1 + 25^2 + 49^2}{4}, а средняя квадратическая погрешность .
Ошибка средней вычисляется по формуле мес., т.е. среднее значение равно!!\overline{x} ± m = 23,1 ± 13,4.
Предельную ошибку вычислим по формуле из табл. 9.3 для повторного отбора, так как численность генеральной совокупности неизвестна, для 0,954 уровня достоверности:
Таким образом, среднее значение равно:
т.е. его истинное значение лежит в пределах от 0 до 50 мес.
Пример 4. Для определения скорости расчетов с кредиторами N = 500 предприятий корпорации в коммерческом банке необходимо провести выборочное исследование методом случайного бесповторного отбора. Определить необходимый объем выборки n, чтобы с вероятностью Р = 0,954 ошибка среднего значения выборки не превышала 3-х дней, если пробные оценки показали, что среднее квадратическое отклонение s составило 10 дней.
Решение . Для определения числа необходимых исследований n воспользуемся формулой для бесповторного отбора из табл. 9.4:
В ней значение t определяется из для уровня достоверности Р = 0,954. Оно равно 2. Среднее квадратическое значение s = 10, объем генеральной совокупности N = 500, а предельная ошибка среднего значения Δ x = 3. Подставляя эти значения в формулу, получим:
т.е. выборку достаточно составить из 41 предприятия, чтобы оценить требуемый параметр — скорость расчетов с кредиторами.
Тема: Выборочный метод в статистике
1. Понятие о выборочном наблюдении, его задачи
Статистическое наблюдение можно организовать сплошное и несплошное. Сплошное наблюдение предусматривает обследование всех единиц изучаемой совокупности и связано с большими трудовыми и материальными затратами. Изучение не всех единиц совокупности, а лишь некоторой части, по которой следует судить о свойствах всей совокупности в целом, можно осуществить несплошным наблюдением. В статистической практике самым распространенным является выборочное наблюдение.
Выборочное наблюдение - это такой вид несплошного наблюдения, при котором отбор подлежащих обследованию единиц осуществляется в случайном порядке, отобранная часть изучается, а результаты распространяются на всю исходную совокупность. Наблюдение организуется таким образом, что эта часть отобранных единиц в уменьшенном масштабе репрезентирует (представляет) всю совокупность.
Совокупность, из которой производится отбор, называется генеральной, генеральными.
Совокупность отобранных единиц именуют выборочной совокупностью, и все ее обобщающие показатели - выборочными.
Имеется ряд причин, в силу которых, во многих случаях выборочному наблюдению отдается предпочтение перед сплошным. Наиболее существенны из них следующие:
Экономия времени и средств в результате сокращения объема работы;
Сведение к минимуму порчи или уничтожения исследуемых объектов (определение прочности пряжи при разрыве, испытание электрических лампочек на продолжительность горения, проверка консервов на доброкачественность);
Необходимость детального исследования каждой единицы наблюдения при невозможности охвата всех единиц (при изучении бюджета семей);
Достижение большой точности результатов обследования благодаря сокращению ошибок, происходящих при регистрации.
Преимущество выборочного наблюдения по сравнению со сплошным можно реализовать, если оно организовано и проведено в строгом соответствии с научными принципами теории выборочного метода. Такими принципами являются: обеспечение случайности (равной возможности попадания в выборку) отбора единиц и достаточного их числа. Соблюдение этих принципов позволяет получить объективную гарантию репрезентативности полученной выборочной совокупности. Понятие репрезентативности отобранной совокупности не следует понимать как ее представительство по всем признакам изучаемой совокупности, а только в отношении тех признаков, которые изучаются или оказывают существенное влияние на формирование сводных обобщающих характеристик.
Основная задача выборочного наблюдения в экономике состоит в том, чтобы на основе характеристик выборочной совокупности (средней и доли) получить достоверные суждения о показателях средней и доли в генеральной совокупности. При этом следует иметь в виду, что при любых статистических исследованиях (сплошных и выборочных) возникают ошибки двух видов: регистрации и репрезентативности.
Ошибки регистрации могут иметь случайный (непреднамеренный) и систематический (тенденциозный) характер. Случайные ошибки обычно уравновешивают друг друга, поскольку не имеют преимущественного направления в сторону преувеличения или преуменьшения значения изучаемого показателя. Систематические ошибки направлены в одну сторону вследствие преднамеренного нарушения правил отбора (предвзятые цели). Их можно избежать при правильной организации и проведении наблюдения.
Ошибки репрезентативности присущи только выборочному наблюдению и возникают в силу того, что выборочная совокупность не полностью воспроизводит генеральную. Они представляют собой расхождение между значениями показателей, полученных по выборке, и значениями показателей этих же величин, которые были бы получены при проведенном с одинаковой степенью точности сплошном наблюдении, т. е. между величинами выборных и соответствующих генеральных показателей.
Для каждого конкретного выборочного наблюдения значение ошибки репрезентативности может быть определено по соответствующим формулам, которые зависят от вида, метода и способа формирования выборочной совокупности.
По виду различают индивидуальный, групповой и комбинированный отбор. При индивидуальном отборе в выборочную совокупность отбираются отдельные единицы генеральной совокупности; при групповом отборе - качественно однородные группы или серии изучаемых единиц; комбинированный отбор предполагает сочетание первого и второго видов.
По методу отбора различают повторную и бесповторную выборки.
При повторной выборке общая численность единиц генеральной совокупности в процессе выборки остается неизменной. Ту или иную единицу, попавшую в выборку, после регистрации снова возвращают в генеральную совокупность, и она сохраняет равную возможность со всеми прочими единицами при повторном отборе единиц вновь попасть в выборку («отбор по схеме возвращенного шара»). Повторная выборка в социально-экономической жизни встречается редко. Обычно выборку организуют по схеме бесповторной выборки.
При бесповторной выборке единица совокупности, попавшая в выборку, в генеральную совокупность не возвращается и в дальнейшем в выборке не участвует; т. е. последующую выборку делают из генеральной совокупности уже без отобранных ранее единиц («отбор по схеме невозвращенного шара»). Таким образом, при бесповторной выборке численность единиц генеральной совокупности сокращается в процессе исследования.
Способ отбора определяет конкретный механизм или процедуру выборки единиц из генеральной совокупности.
По степени охвата единиц совокупности различают большие и малые (n <30) выборки.
В практике выборочных исследований наибольшее распространение получили следующие виды выборки: собственно-случайная, механическая, типическая, серийная, комбинированная.
Основные характеристики параметров генеральной и выборочной совокупностей обозначаются символами:
N-объем генеральной совокупности (число входящих в нее единиц);
п - объем выборки (число обследованных единиц);
- генеральная средняя (среднее значение признака в генеральной совокупности);
- выборочная средняя;P - генеральная доля (доля единиц, обладающих данным значением признака в общем числе единиц генеральной совокупности);
w - выборочная доля;
- генеральная дисперсия (дисперсия признака в генеральной совокупности);
S 2 - выборочная дисперсия того же признака;
- среднее квадратическое отклонение в генеральной совокупности;
S - среднее квадратическое отклонение в выборке.
2. Ошибки выборки
При выборочном наблюдении должна быть обеспечена случайность отбора единиц. Каждая единица должна иметь равную с другими возможность быть отобранной. Именно на этом основывается собственно-случайная выборка.
К собственно-случайной выборке относится отбор единиц из всей генеральной совокупности (без предварительного расчленения ее на какие-либо группы) посредством жеребьевки (преимущественно) или какого-либо иного подобного способа, например, с помощью таблицы случайных чисел. Случайный отбор - это отбор не беспорядочный. Принцип случайности предполагает, что на включение или исключение объекта из выборки не может повлиять какой-либо фактор, кроме случая. Примером собственно-случайного отбора могут служить тиражи выигрышей: из общего количества выпущенных билетов наугад отбирается определенная часть номеров, на которые приходятся выигрыши. Причем всем номерам обеспечивается равная возможность попадания в выборку. При этом количество отобранных в выборочную совокупность единиц обычно определяется исходя из принятой доли выборки.
Доля, выборки есть отношение числа единиц выборочной совокупности к числу единиц генеральной совокупности:
Так, при 5%-ной выборке из партии деталей в 1000 ед. объем выборки п составляет 50 ед., а при 10%-ной выборке -100 ед. и т.д. При правильной научной организации выборки ошибки репрезентативности можно свести к минимальном значениям, в результате - выборочное наблюдение становится достаточно точным.
Собственно-случайный отбор «в чистом виде» применяется в практике выборочного наблюдения редко, но он является исходным среди всех других видов отбора, в нем заключаются и реализуются основные принципы выборочного наблюдения.
Рассмотрим некоторые вопросы теории выборочного метода и формулы ошибок для простой случайной выборки.
Применяя выборочный метод в статистике, обычно используют два основных вида обобщающих показателей: среднюю величину количественного признака и относительную величину альтернативного признака (долю или удельный вес единиц в статистической совокупности, которые отличаются от всех других единиц этой совокупности только наличием изучаемого признака).
Выборочная доля ( w ), или частость, определяется отношением числа единиц, обладающих изучаемым признаком т, к общему числу единиц выборочной совокупности п:
Один из главных компонентов тщательно продуманного исследования – определение выборки и что такое репрезентативная выборка. Это как в примере с тортом. Ведь не обязательно съедать весь десерт, чтобы понять его вкус? Достаточно небольшой части.
Так вот, торт – это генеральная совокупность (то есть все респонденты, которые подходят для опроса). Она может быть выражена территориально, например, лишь жители Московской области. Гендерно – только женщины. Или иметь ограничения по возрасту – россияне старше 65 лет.
Высчитать генеральную совокупность сложно: нужно иметь данные переписи населения или предварительных оценочных опросов. Поэтому обычно генеральную совокупность «прикидывают», а из полученного числа высчитывают выборочную совокупность или выборку .
Что такое репрезентативная выборка?
Выборка – это чётко определенное количество респондентов. Её структура должна максимально совпадать со структурой генеральной совокупности по основным характеристикам отбора.
Например, если потенциальные респонденты – всё население России, где 54% — это женщины, а 46% — мужчины, то выборка должна содержать точно такое же процентное соотношение. Если совпадение параметров происходит, то выборку можно назвать репрезентативной. Это значит, что неточности и ошибки в исследовании сводятся к минимуму.
Объем выборки определяется с учётом требований точности и экономичности. Эти требования обратно пропорциональны друг другу: чем больше объем выборки, тем точнее результат. При этом чем выше точность, тем соответственно больше затрат необходимо на проведение исследования. И наоборот, чем меньше выборка, тем меньше на неё затрат, тем менее точно и более случайно воспроизводятся свойства генеральной совокупности.
Поэтому для вычисления объема выбора социологами была изобретена формула и создан специальный калькулятор :
Доверительная вероятность и доверительная погрешность
Что означают термины «доверительная вероятность » и «доверительная погрешность »? Доверительная вероятность – это показатель точности измерений. А доверительная погрешность – это возможная ошибка результатов исследования. К примеру, при генеральной совокупности более 500 00 человек (допустим, проживающие в Новокузнецке) выборка будет равняться 384 человека при доверительной вероятности 95% и погрешности 5% ИЛИ (при доверительном интервале 95±5%).
Что из этого следует? При проведении 100 исследований с такой выборкой (384 человека) в 95 процентов случаев получаемые ответы по законам статистики будут находиться в пределах ±5% от исходного. И мы получим репрезентативную выборку с минимальной вероятностью статистической ошибки.
После того, как подсчет объема выборки выполнен, можно посмотреть есть ли достаточное число респондентов в демо-версии Панели Анкетолога . А как провести панельный опрос можно подробнее узнать .
План
- Введение
- 1. Роль выборки
- Заключение
- Список литературы
Введение
Статистика - аналитическая наука, которая необходима всем современным специалистам. Современный специалист не может быть грамотным, если он не владеет статистической методологией. Статистика - важнейший инструмент связи предприятия с обществом. Статистика одна из важнейших дисциплин в учебном плане всех специальностей, т.к. статистическая грамотность - неотъемлемая составляющая высшего образования, а по количеству отведенных часов в учебном плане она занимает одно из первых мест. Работая с цифрами, каждый специалист должен знать, как получены те или иные данные, какова их природа исчисления, насколько они полны и достоверны.
1. Роль выборки
Множество всех единиц совокупности, обладающих определенным признаком и подлежащих изучению, носит в статистике название генеральной совокупности.
На практике по тем или иным причинам не всегда возможно или же нецелесообразно рассматривать всю генеральную совокупность. Тогда ограничиваются изучением лишь некоторой части ее, конечной целью которого является распространение полученных результатов на всю генеральную совокупность, т.е. применяют выборочный метод.
Для этого из генеральной совокупности особым образом отбирается часть элементов, так называемая выборка, и результаты обработки выборочных данных (например, средние арифметические значения) обобщаются на всю совокупность.
Теоретической основой выборочного метода является закон больших чисел. В силу этого закона при ограниченном рассеивании признака в генеральной совокупности и достаточно большой выборке с вероятностью, близкой к полной достоверности, выборочная средняя может быть сколь угодно близка к генеральной средней. Закон этот, включающий в себя группу теорем, доказан строго математически. Таким образом, средняя арифметическая, рассчитанная по выборке, может с достаточным основанием рассматриваться как показатель, характеризующий генеральную совокупность в целом.
2. Методы вероятностного отбора, обеспечивающие репрезентативность
Для того чтобы можно было по выборке делать вывод о свойствах генеральной совокупности, выборка должна быть репрезентативной (представительной), т.е. она должна полно и адекватно представлять свойства генеральной совокупности. Репрезентативность выборки может быть обеспечена только при объективности отбора данных.
Выборочная совокупность формируется по принципу массовых вероятностных процессов без каких бы то ни было исключений от принятой схемы отбора; необходимо обеспечить относительную однородность выборочной совокупности или ее разделение на однородные группы единиц. При формировании выборочной совокупности должно быть дано четкое определение единицы отбора. Желателен приблизительно одинаковый размер единиц отбора, причем результаты будут тем точнее, чем меньше единица отбора.
Возможны три способа отбора: случайный отбор, отбор единиц по определенной схеме, сочетание первого и второго способов.
Если отбор в соответствии с принятой схемой проводится из генеральной совокупности, предварительно разделенной на типы (слои или страты), то такая выборка называется типической (или расслоенной, или стратифицированной, или районированной). Еще одно деление выборки по видам определяется тем, что является единицей отбора: единица наблюдения или серия единиц (иногда используют термин "гнездо"). В последнем случае выборка называется серийной, или гнездовой. На практике часто используется сочетание типической выборки с отбором сериями. В математической статистике, обсуждая проблему отбора данных, обязательно вводят деление выборки на повторную и бесповторную. Первая соответствует схеме возвратного шара, вторая - безвозвратного (при рассмотрении процесса отбора данных на примере отбора шаров разного цвета из урны). В социально-экономической статистике нет смысла применять повторную выборку, поэтому, как правило, имеется в виду бесповторный отбор.
Так как социально-экономические объекты имеют сложную структуру, то выборку бывает довольно трудно организовать. Например, чтобы провести отбор домохозяйств при изучении потребления населением крупного города, легче произвести сначала отбор территориальных ячеек, жилых домов, потом квартир или домохозяйств, затем респондента. Такая выборка называется многоступенчатой. На каждой ступени используются разные единицы отбора: более крупные - на начальных ступенях, на последней ступени единица отбора совпадает с единицей наблюдения.
Еще один вид выборочного наблюдения - многофазовая выборка. Такая выборка включает определенное количество фаз, каждая из которых отличается подробностью программы наблюдения. Например, 25% всей генеральной совокупности обследуются по краткой программе, каждая 4-я единица из этой выборки обследуется по более полной программе и т.д.
При любом виде выборки отбор единиц производится тремя отмеченными способами. Рассмотрим процедуру случайного отбора. Прежде всего, составляется список единиц совокупности, в котором каждой единице присваивается цифровой код (номер или метка). Затем производится жеребьевка. Закладываются в барабан шары с соответствующими номерами, они перемешиваются и проводится отбор шаров. Выпавшие номера соответствуют единицам, попавшим в выборку; число номеров равно запланированному объему выборки.
Отбор жеребьевкой может быть подвержен смещениям, вызванным недостатками техники (качеством шаров, барабана) и другими причинами. Более надежен с точки зрения объективности отбор по таблице случайных чисел. Такая таблица содержит серии цифр, чередующихся случайным образом, отобранных путем электронных сигналов. Так как мы пользуемся десятичной цифровой системой 0, 1, 2,., 9, вероятность появления любой цифры равна 1/10. Следовательно, если бы нужно было создать таблицу случайных чисел, включающую 500 знаков, то из них около 50 были бы 0, столько же - 1 и т.д.
Часто используется отбор по какой-либо схеме (так называемая направленная выборка). Схема отбора принимается такой, чтобы отразить основные свойства и пропорции генеральной совокупности. Простейший способ: по спискам единиц генеральной совокупности, составленным так, чтобы упорядочивание единиц было бы не связано с изучаемыми свойствами, проводится механический отбор единиц с шагом, равным N: п. Обычно отбор начинают не с первой единицы, а отступив полшага, чтобы уменьшить возможность смещения выборки. Частота появления единиц с теми или иными особенностями, например студентов с тем или иным уровнем успеваемости, живущих в общежитии, и т.д. будет определяться той структурой, которая сложилась в генеральной совокупности.
Для большей уверенности в том, что выборка отразит структуру генеральной совокупности, последняя подразделяется на типы (страты или районы), и проводится случайный или механический отбор из каждого типа. Общее число единиц, отобранных из разных типов, должно соответствовать объему выборки.
Особые трудности возникают, когда нет списка единиц, а отбор нужно произвести либо на местности, либо из образцов продукции на складе готовой продукции. В этих случаях важно детально разработать схему ориентации на местности и схему отбора и следовать ей, не допуская отклонений. Например, счетчик имеет указание двигаться от определенной автобусной остановки на север по четной стороне улицы и, отсчитав два дома от первого угла, войти в третий и провести опрос в каждом 5-м жилом помещении. Неукоснительное следование принятой схеме обеспечивает выполнение главного условия формирования репрезентативной выборки - объективности отбора единиц.
От случайной выборки следует отличать квотный отбор, когда выборка конструируется из единиц определенных категорий (квот), которые должны быть представлены в заданных пропорциях. Например, при опросе покупателей универмага может быть запланировано провести отбор 150 респондентов, в том числе 90 женщин, из них 25 - девушек,20 - молодых женщин с маленькими детьми, 35 - женщин среднего возраста, одетых в деловой костюм, 10 - женщин 50 лет и старше; кроме того, планировался опрос 70 мужчин, из них 25 - подростков и юношей,20 - молодых мужчин с детьми, 15 - мужчин, которые одеты в костюмы, 10 - мужчин, одетых в спортивную одежду. Для определения потребительских ориентаций и предпочтений такая выборка, может быть, и хороша, но если мы захотим по ней установить среднюю сумму покупок, их структуру, мы получим непредставительные результаты. Это происходит потому, что квотная выборка нацелена на отбор определенных категорий.
Выборка может быть нерепрезентативной, даже если она формируется в соответствии с известными пропорциями генеральной совокупности, но отбор проводится без какой-либо схемы - единицы набираются как угодно, лишь бы обеспечить соотношение их категорий в тех же пропорциях, что и в генеральной совокупности (например, соотношение мужчин и женщин, респондентов в возрасте моложе и старше трудоспособного и в трудоспособном и т.д.).
Эти замечания должны предостеречь вас от подобных подходов к формированию выборки и еще раз подчеркнуть необходимость объективного отбора.
3. Организационные и методологические особенности случайной, механической, типической и серийной выборки
В зависимости от того, как осуществляется отбор элементов совокупности в выборку, различают несколько видов выборочного обследования. Отбор может быть случайным, механическим, типическим и серийным.
Случайным является такой отбор, при котором все элементы генеральной совокупности имеют равную возможность быть отобранными. Другими словами, для каждого элемента генеральной совокупности обеспечена равная вероятность попасть в выборку.
выборка статистическая вероятностный случайный
Требование случайности отбора достигается на практике с помощью жребия или таблицы случайных чисел.
При отборе способом жеребьевки все элементы генеральной совокупности предварительно нумеруются и номера их наносятся на карточки. После тщательной перетасовки из пачки любым способом (подряд или в любом другом порядке) выбирается нужное число карточек, соответствующее объему выборки. При этом можно либо откладывать отобранные карточки в сторону (тем самым осуществляется так называемый бесповторный отбор), либо, вытащив карточку, записать ее номер и возвратить в пачку, тем самым давая ей возможность появиться в выборке еще раз (повторный отбор). При повторном отборе всякий раз после возвращения карточки пачка должна быть тщательно перетасована.
Способ жеребьевки применяется в тех случаях, когда число элементов всей изучаемой совокупности невелико. При большом объеме генеральной совокупности осуществление случайного отбора методом жеребьевки становится сложным. Более надежным и менее трудоемким в случае большого объема обрабатываемых данных является метод использования таблицы случайных чисел.
Механический отбор производится следующим образом. Если формируется 10% -ная выборка, т.е. из каждых десяти элементов должен быть отобран один, то вся совокупность условно разбивается на равные части по 10 элементов. Затем из первой десятки выбирается случайным образом элемент. Например, жеребьевка указала девятый номер. Отбор остальных элементов выборки полностью определяется указанной пропорцией отбора N номером первого отобранного элемента. В рассматриваемом случае выборка будет состоять из элементов 9, 19, 29 и т.д.
Механическим отбором следует пользоваться осторожно, так как существует реальная опасность возникновения так называемых систематических ошибок. Поэтому прежде чем делать механическую выборку, необходимо проанализировать изучаемую совокупность. Если ее элементы расположены случайным образом, то выборка, полученная механическим способом, будет случайной. Однако нередко элементы исходной совокупности бывают частично или даже полностью упорядочены. Весьма нежелательным для механического отбора является порядок элементов, имеющий правильную повторяемость, период которой может совпасть с периодом механической выборки.
Нередко элементы совокупности бывают упорядочены по величине изучаемого признака в убывающем или возрастающем порядке и не имеют периодичности. Механический отбор из такой совокупности приобретает характер направленного отбора, так как отдельные части совокупности оказываются представленными в выборке пропорционально их численности во всей совокупности, т.е. отбор направлен на то, чтобы сделать выборку представительной.
Другим видом направленного отбора является типический отбор. Следует отличать типический отбор от отбора типичных объектов. Отбор типичных объектов применялся в земской статистике, а также при бюджетных обследованиях. При этом отбор "типичных селений" или "типичных хозяйств" производился по некоторым экономическим признакам, например по размерам землевладения на двор, по роду занятий жителей и т.п. Отбор такого рода не может быть основой для применения выборочного метода, так как здесь не выполнено основное его требование - случайность отбора.
При собственно типическом отборе в выборочном методе совокупность разбивается на группы, однородные в качественном отношении, а затем уже внутри каждой группы производится случайный отбор. Типический отбор организовать сложнее, чем собственно случайный, так как необходимы определенные знания о составе и свойствах генеральной совокупности, но зато он дает более точные результаты.
При серийном отборе вся совокупность разбивается на группы (серии). Затем путем случайного или механического отбора выделяют определенную часть этих серий и производят их сплошную обработку. По сути дела, серийный отбор представляет собой случайный или механический отбор, осуществленный для укрупненных элементов исходной совокупности.
В теоретическом плане серийная выборка является самой несовершенной из рассмотренных. Для обработки материала она, как правило, не используется, но представляет определенные удобства при организации обследования, особенно в изучении сельского хозяйства. Например, ежегодные выборочные обследования крестьянских хозяйств в годы, предшествовавшие коллективизации, проводились способом серийного отбора. Историку полезно знать о серийной выборке, поскольку он может встретиться с результатами таких обследований.
Кроме описанных выше классических способов отбора в практике выборочного метода используются и другие способы. Рассмотрим два из них.
Изучаемая совокупность может иметь многоступенчатую структуру, она может состоять из единиц первой ступени, которые, в свою очередь, состоят из единиц второй ступени, и т.д. Например, губернии включают в себя уезды, уезды можно рассматривать как совокупность волостей, волости состоят из сел, а села - из дворов.
К таким совокупностям можно применять многоступенчатый отбор, т.е. последовательно осуществлять отбор на каждой ступени. Так, из совокупности губерний механическим, типическим или случайным способом можно отобрать уезды (первая ступень), затем одним из указанных способов выбрать волости (вторая ступень), далее провести отбор сел (третья ступень) и, наконец, дворов (четвертая ступень).
Примером двухступенчатого механического отбора может служить давно практикуемый отбор бюджетов рабочих. На первой ступени механически выбираются предприятия, на второй - рабочие, бюджет которых обследуется.
Изменчивость признаков исследуемых объектов может быть различной. Например, обеспеченность крестьянских хозяйств собственной рабочей силой колеблется меньше, чем, скажем, размеры их посевов. В связи с этим меньшая по объему выборка по обеспеченности рабочей силой будет столь же представительной, как и большая по числу элементов выборка данных о размерах посевов. В этом случае из выборки, по которой определяются размеры посевов, можно сделать под выборку, достаточно репрезентативную для определения обеспеченности рабочей силой, осуществив тем самым двухфазный отбор. В общем случае можно добавить и следующие фазы, т.е. из полученной подвыборки сделать еще подвыборку и т.д. Этот же способ отбора применяется в тех случаях, когда цели исследования требуют различной точности при исчислении разных показателей.
Задание 1. Описательная статистика
На экзамене 20 студентов получили следующие оценки (по 100 бальной шкале):
1) Построить ряд распределения частот, относительных и накопленных частот для 5 интервалов;
2) Построить полигон, гистограмму и кумулятивный полигон;
3) Найти среднюю арифметическую, моду, медиану, первый и третий квартили, межквартальный размах, стандартное отклонение и коэффициенты вариации. Проанализировать данные с использованием этих характеристик и указать интервал, включающий 50% центральных значений указанных величин.
1) x (min) =53, x (max) =98
R=x (max) - x (min) =98-53=45
h=R/1+3.32lgn, где n - объем выборки, n=20
h= 45/1+3.32*lg20= 9
a (i) - нижняя граница интервала, b (i) - верхняя граница интервала.
a (1) = x (min) - h/2, b (1) = a (1) +h, тогда, если b (i) - верхняя граница i-го интервала (причем a (i+1) =b (i)), то b (2) =a (2) +h, b (3) =a (3) +h и т.д. Построение интервалов продолжается до тех пор, пока начало следующего по порядку интервала не будет равно или больше x (max).
a (1) = 47.5 b (1) = 56.5
a (2) = 56.5 b (2) = 65.5
a (3) = 65.5 b (3) = 74.5
a (4) = 74.5 b (4) = 83.5
a (5) = 83.5 b (5) = 92.5
a (6) = 92.5 b (6) = 101.5
Интервалы, a (i) - b (i) |
Подсчет частот |
Частота, n (i) |
Накопленная частота, n (hi) |
||
2) Для построения графиков запишем вариационные ряды распределения (интервальный и дискретный) относительных частот W (i) = n (i) /n, накопленных относительных частот W (hi) и найдем отношение W (i) /h, заполнив таблицу.
x (i) =a (i) +b (i) /2; W (hi) =n (hi) /n
Статистический ряд распределения оценок:
Интервалы, a (i) - b (i) |
|||||
Для построения гистограммы относительных частот по оси абсцисс откладываем частичные интервалы, на каждом из которых строим прямоугольник, площадь которого равна относительной частоте W (i) данного i-го интервала. Тогда высота элементарного прямоугольника должна быть равна W (i) /h.
Из гистограммы можно получить полигон того же распределения, если середины верхних оснований прямоугольников соединить отрезками прямой.
Для построения кумуляты дискретного ряда по оси абсцисс откладываем значения признака, а по оси ординат - относительные накопленные частоты W (hi). Полученные точки соединяем отрезками прямых. Для интервального ряда по оси абсцисс откладываем верхние границы группировки.
3) Среднее арифметическое значение находим по формуле:
Мода рассчитывается по формуле:
Нижняя граница модального интервала; h - ширина интервала группировки; - частота модального интервала; - частота интервала, предшествующего модальному; - частота интервала, следующего за модальным. = 23,125.
Найдем медиану:
n=20: 53,58,59,59,63,67,68,69,71,73,78,79,85,86,87,89,91,91,98,98
Подставив значения, получаем: Q1=65;
Значение второго квартиля совпадает со значением медианы, поэтому Q2=75.5; Q3= 88.
Межквартальный размах равен:
Среднеквадратическое (стандартное) отклонение находим по формуле:
Коэффициент вариации:
Из данных расчетов видно, что 50% центральных значений указанных величин включает в себя интервал 74,5 - 83,5.
Задание 2. Статистическая проверка гипотез.
Предпочтения в спорте для мужчин, женщин и подростков следующие:
Проверить гипотезу о независимости предпочтения от пола и возраста б = 0,05.
1) Проверка гипотезы о независимости предпочтений в спорте.
Коэффициент Пирсена:
Табличное значение критерия хи-квадрат со степенью свободы 4 при б = 0,05 равно ч 2 табл =9,488.
Так как, то гипотеза отвергается. Различия в предпочтениях существенные.
2. Гипотеза о соответствии.
Волейбол как вид спорта ближе всего к баскетболу. Проверим соответствие в предпочтениях для мужчин, женщин и подростков.
Ф 2 =0.1896+0.1531+0.1624+0.1786+0.1415+0.1533 = 0.979.
При уровне значимости б = 0,05 и степени свободы k = 2 табличное значение ч 2 табл =9,210.
Так как Ф 2 >, то различия в предпочтениях существенные.
Задание 3. Корреляционно-регрессионный анализ.
Анализ дорожно-транспортных происшествий дал следующую статистику относительно процента водителей, моложе 21 года и числа происшествий с тяжелыми последствиями на 1000 водителей:
Провести графический и корреляционно-регрессионный анализ данных, спрогнозировать число ДТП с тяжелыми последствиями для города, в котором число водителей, моложе 21 года равно 20% от общего числа водителей.
Получаем выборку объема n = 10.
x - процент водителей моложе 21 года,
y - число происшествий на 1000 водителей.
Уравнение линейной регрессии имеет вид:
Последовательно вычисляем:
Аналогично находим
Выборочный коэффициент регрессии
Связь между x, y сильная.
Уравнение линейной регрессии принимает вид:
На рисунке представлено поле рассеяния и график линейной регрессии . Проводим прогноз для x n =20 .
Получаем y n =0 .2 9*20-1 .4 6 = 4 .3 4 .
Прогнозное значение получилось больше всех значений, представленный в исходной таблице . Это следствие того, что корреляционная зависимость прямая и коэффициент равен 0,29 достаточно большой . На каждую единицу приращения Дx он дает приращение Дy =0 .3
Задание 4 . Анализ временных рядов и прогнозирование .
Спрогнозировать значения индексов на ближайшую неделю, используя:
а) метод скользящей средней, выбрав для ее вычисления трехнедельные данные;
б) экспоненциальную взвешенную среднюю, выбрав в качестве б=0,1.
Из таблицы случайных чисел находим номера 41, 51, 69, 135, 124, 93, 91, 144, 10, 24.
Располагаем их в порядке возрастания: 10, 24, 41, 51, 69, 91, 93, 124, 135, 144.
Проводим новую нумерацию от 1 до 10. Получаем исходные данные для десяти недель:
Экспоненциальное сглаживание при б = 0,1 дает только одно значение.
Для середины всего срока получаем три прогноза: 12,855; 1309; 12,895.
Наблюдается согласование этих прогнозов.
Задание 5 . Индексный анализ .
Компания занимается перевозкой грузов. Имеются данные за ряд лет по объемам перевозки 4-х видов грузов и стоимости перевозки единицы груза.
Определите простые индексы цен, количества и стоимости для каждого вида продукта, а также индексы Ласпейреса и Паше и индекс стоимости. Прокомментируйте полученные результаты содержательно.
Решение. Вычислим простые индексы:
Индекс Ласпейреса:
Индекс Паше:
Индеек стоимости:
Индивидуальные индексы указывают на разнобой в изменении цен и количеств по грузам А, В, С, Д. Агрегатные индексы указывают на общие тенденции изменения. В целом стоимость перевозимых грузов уменьшилась на 13%. Причина в том, что самый дорогой груз уменьшился на 42% по количеству, а его тариф почти не изменился.
Годы 16-20 нумеруем по порядку от 1 до 5. Исходные данные принимают вид:
Сначала исследуем динамику количества груза А.
Показатель |
Абсолютные приросты |
Темпы роста, % |
Темпы прироста, % |
|||||
При этом темпы роста усреднялись по формулам :
, .
Для темпа прироста в любом случае Т пр =Т р -1 .
Теперь рассматриваем груз Д .
Показатель |
Абсолютные приросты |
Темпы роста, % |
Темпы прироста, % |
|||||
Заключение
Средние величины и их разновидности в статистике играют большую роль. Средние показатели широко применяются в анализе, так как именно в них находят свое проявление закономерности массовых явлений и процессов как во времени, так и в пространстве. Так, например, закономерность повышения производительности труда находит свое выражение в статистических показателях роста средней выработки на одного работающего в промышленности, закономерность неуклонного роста уровня благосостояния населения проявляется в статистических показателях увеличения средних доходов рабочих и служащих и т.д.
Широкое применение имеют такие описательные характеристики распределения варьирующего признака как мода и медиана. Они являются конкретными характеристиками, их значение имеет какая-либо конкретная варианта в вариационном ряду.
Так, чтобы охарактеризовать наиболее часто встречающуюся величину признака, применяют моду, а чтоб показать количественную границу значения варьирующего признака, которую достигла половина членов совокупности - медиану.
Таким образом, средние величины помогают изучать закономерности развития промышленности, конкретной отрасли, общества и страны в целом.
Список литературы
1. Теория статистики: Учебник / Р.А. Шмойлова, В.Г. Минашкин, Н.А. Садовникова, Е.Б. Шувалова; Под ред.Р.А. Шмойловой. - 4-е изд., перераб. и доп. - М.: Финансы и статистика, 2005. - 656с.
2. Гусаров В.М. Статистика: Учебное пособие для вузов. - М.: ЮНИТИ-ДАНА, 2001.
4. Сборник задач по теории статистики: Учебное пособие/ Под ред. проф.В. В. Глинского и к. э. н., доц.Л.К. Серга. Изд. З-е. - М.: ИНФРА-М; Новосибирск: Сибирское соглашение, 2002.
5. Статистика: Учебное пособие/Харченко Л-П., Долженкова В.Г., Ионин В.Г. и др., Под ред. В.Г. Ионина. - Изд.2-е, перераб. и доп. - М.: ИНФРА-М. 2003.
Подобные документы
Дескриптивная статистика и статистический вывод. Способы отбора, обеспечивающие репрезентативность выборки. Влияние вида выборки на величину ошибки. Задачи при применении выборочного метода. Распространение данных наблюдения на генеральную совокупность.
контрольная работа , добавлен 27.02.2011
Выборочный метод и его роль. Развитие современной теории выборочного наблюдения. Типология методов отбора. Способы практической реализации простой случайной выборки. Организация типической (стратифицированной) выборки. Объем выборки при квотном отборе.
доклад , добавлен 03.09.2011
Цель выборочного наблюдения и формирование выборки. Особенности организации различных видов выборочного наблюдения. Ошибки выборочного отбора и методы их расчета. Применение выборочного метода для анализа предприятий топливно-энергетического комплекса.
курсовая работа , добавлен 06.10.2014
Выборочное наблюдение как метод статистического исследования, его особенности. Случайный, механический, типический и серийный виды отбора при образовании выборочных совокупностей. Понятие и причины возникновения ошибки выборки, методы ее определения.
реферат , добавлен 04.06.2010
Понятие и роль статистики в механизме управления современной экономикой. Сплошное и несплошное статистическое наблюдение, описание выборочного метода. Виды отбора при выборочном наблюдении, ошибки выборки. Производственные и финансовые показатели.
курсовая работа , добавлен 17.03.2011
Изучение выполнения плана. Десятипроцентное выборочное обследование по методу случайного бесповторного отбора. Себестоимость продукции завода. Предельная ошибка выборки. Динамика средних цен и объема продажи продукта. Индекс цен переменного состава.
контрольная работа , добавлен 09.02.2009
Получение выборки объема n-нормального распределения случайной величины. Нахождение числовых характеристик выборки. Группировка данных и вариационный ряд. Гистограмма частот. Эмпирическая функция распределения. Статистическое оценивание параметров.
лабораторная работа , добавлен 31.03.2013
Сущность понятий выборки и выборочного наблюдения, основные виды и категории отбора. Определение объема и численности выборки. Практическое применение статистического анализа выборочного наблюдения. Расчет ошибок выборочной доли и выборочной средней.
курсовая работа , добавлен 17.02.2015
Понятие о выборочном наблюдении. Ошибки репрезентативности, измерение ошибки выборки. Определение необходимой численности выборки. Применение выборочного метода вместо сплошного. Дисперсия в генеральной совокупности и сопоставление показателей.
контрольная работа , добавлен 23.07.2009
Виды отбора и ошибки наблюдения. Способы отбора единиц в выборочную совокупность. Характеристика коммерческой деятельности предприятия. Выборочное обследование потребителей продукции. Распространение характеристик выборки на генеральную совокупность.