Бунин

Оценивание параметров регрессии. Оценка параметров линейной регрессии. Параметры уравнения регрессии

Экономические явления, как правило, определяются большим числом одновременно и совокупно действующих факторов. В связи с этим часто возникает задача исследования зависимости переменной у от нескольких объясняющих переменных (х 1, х 2 ,…, х k) которая может быть решена с помощью множественного корреляционно-регрессионного анализа.

При исследовании зависимости методами множественной регрессии задача формируется так же, как и при использовании парной регрессии, т.е. требуется определить аналитическое выражение формы связи между результативным признаком у и факторными признаками х, х 2 , ..., х k , найти функцию , где k – число факторных признаков

Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функции издержек производства, в макроэкономических расчетах и целом ряде других вопросов эконометрики. В настоящее время множественная регрессия – один из наиболее распространенных методов в эконометрике. Основная цель множественной регрессии – построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель.

Из-за особенностей метода наименьших квадратов во множественной регрессии, как и в парной, применяются только линейные уравнения и уравнения, приводимые к линейному виду путем преобразования переменных. Чаще всего используется линейное уравнение, которое можно записать следующим образом:

a 0 , a 1, …, a k – параметры модели (коэффициенты регрессии);

ε j – случайная величина (величина остатка).

Коэффициент регрессии а j показывает, на какую величину в среднем изменится результативный признак у, если переменную х j увеличить на единицу измерения при фиксированном (постоянном) значении других факторов, входящих в уравнение регрессии. Параметры при x называются коэффициентами «чистой» регрессии .

Пример.

Предположим, что зависимость расходов на продукты питания по совокупности семей характеризуется следующим уравнением:

y – расходы семьи за месяц на продукты питания, тыс. руб.;

x 1 – месячный доход на одного члена семьи, тыс. руб.;

x 2 – размер семьи, человек.

Анализ данного уравнения позволяет сделать выводы – с ростом дохода на одного члена семьи на 1 тыс. руб. расходы на питание возрастут в среднем на 350 руб. при том же среднем размере семьи. Иными словами, 35% дополнительных семейных расходов тратится на питание. Увеличение размера семьи при тех же ее доходах предполагает дополнительный рост расходов на питание на 730 руб. Первый параметр не подлежит экономической интерпретации.

Оценивание достоверности каждого из параметров модели осуществляется при помощи t-критерия Стьюдента. Для любого из параметров модели а j значение t-критерия рассчитывается по формуле , где


S ε – стандартное (среднее квадратическое) отклонение уравнения регрессии)

определяется по формуле

Коэффициент регрессии а j считается достаточно надежным, если расчетное значение t- критерия с (n - k - 1 ) степенями свободы превышает табличное, т.е. t расч > t а jn - k -1 . Если надеж­ность коэффициента регрессии не подтверждается, то следует; вывод о несущественности в модели факторного j признака и необходимости его устранения из модели или замены на другой факторный признак.

Важную роль при оценке влияния факторов играют коэффициенты регрессионной модели. Однако непосредственно с их помощью нельзя сопоставлять факторные признаки по степени их влияния на зависимую переменную из-за различия единиц измерения и разной степени колеблемости. Для устранения таких различий применяются частные коэффициенты эластичности Э j и бета-коэффициенты β j .

Формула для расчета коэффициента эластичности

где

a j – коэффициент регрессии фактора j ,

Среднее значение результативного признака

Среднее значение признака j

Коэффициент эластичности показывает, на сколько процентов изменяется зависимая переменная у при изменении фактора j на 1 %.

Формула определения бета - коэффициента.

, где

S xj – среднее квадратическое отклонение фактора j ;

S y - среднее квадратическое отклонение фактора y.

β - коэффициент показывает, на какую часть величины среднего квадратического отклонения S y из­менится зависимая переменная у с изменением со­ответствующей независимой переменной х j на величину своего среднего квадратического отклонения при фиксированном значении остальных неза­висимых переменных.

Долю влияния определенного фактора в суммарном влиянии всех факторов можно оценить по величине дельта-коэффициентов Δ j .

Указанные коэффициенты позволяют проранжировать факторы по степени влияния факторов на зависимую переменную.

Формула определения дельта - коэффициента.

r yj – коэффициент парной корреляции между фактором j и зависимой переменной;

R 2 – множественный коэффициент детерминации.

Коэффициент множественной детерминации используют для оценки качества множественных регрессионных моделей.

Формула определения коэффициента множественной детерминации.

Коэффициент детерминации показывает долю вариации результативного признака, находящегося под воздействием факторных признаков, т.е. опре­деляет, какая доля вариации признака у учтена в модели и обусловлена влиянием на него факторов, включенных в модель. Чем ближе R 2 к единице, тем выше качество модели

При добавлении независимых переменных значение R 2 уве­личивается, поэтому коэффициент R 2 должен быть скорректи­рован с учетом числа независимых переменных по формуле

Для проверки значимости модели регрессии используется F-критерий Фишера. Он определяется по формуле

Если расчетное значение критерия с γ 1 , = k и γ 2 = (n - k- 1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

В качестве меры точностимодели применяют стандартную ошибку, которая представляет собой отношение суммы квадратов уровней остаточной компоненты к величине (n - k -1):

Классический подход к оцениванию параметров линейной модели основан на методе наименьших квадратов (МНК) . Система нормальных уравнений имеет вид:

Решение системы может быть осуществлено по одному из известных способов: Метод Гаусса, метод Крамера и т.д.

Пример15.

По четырем предприятиям региона (таблица 41) изучается зависимость выработки продукции на одного работника y (тыс. руб.) от ввода в действие новых основных фондов (% от стоимости фондов на конец года) и от удельного веса рабочих высокой квалификации в общей численности рабочих (%). Требуется написать уравнение множественной регрессии.

Таблица 41 – Зависимость выработки продукции на одного работника

Линейная регрессия находит широкое применение в экономет­рике в виде четкой экономической интерпретации ее параметров. Линейная регрессия сводится к нахождению уравнения вида

Или . (4.6)

Уравнение вида позволяет по заданным значени­ям фактора х иметь теоретические значения результативного признака, подставляя в него фактические значения фактора x . На графике теоретические значения представляют линию регрессии (рис. 4.2).

Рис. 4.2. Графическая оценка параметров линейной регрессии

Построение линейной регрессии сводится к оценке ее пара­метров и .Оценки параметров линейной регрессии могут быть найдены разными методами. Можно обратиться к полю корреляции и, выбрав на графике две точки, провести через них прямую линию (см. рис. 4.2). Далее по графику можно опреде­лить значения параметров. Параметр определим как точку пе­ресечения линии регрессии с осью ,а параметр оценим, исхо­дя из угла наклона линии регрессии, как ,где прираще­ние результата у, a приращение фактора х, т. е.

Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК).

МНК позволяет получить такие оценки параметров и ,при которых сумма квадратов отклонений фактических значений ре­зультативного признака (у) от расчетных (теоретических) ми­нимальна:

Иными словами, из всего множества линий линия регрессии на графике выбирается так, чтобы сумма квадратов расстояний по вертикали между точками и этой линией была бы минимальной:

cследовательно,

Чтобы найти минимум функции (4.7), надо вычислить част­ные производные по каждому из параметров а и b и приравнять их к нулю.

Обозначим через S , тогда:

Преобразуя эту систему, получим следующую систему нор­мальных уравнений для оценки параметров и :

. (4.8)

Решая систему нормальных уравнений (4.8) либо методом последовательного исключения переменных, либо методом оп­ределителей, найдем числовые значения искомых параметров и . Можно воспользоваться следующими готовыми формулами:

. (4.9)

Формула (4.9) получена из первого уравнения системы (4.8), если все его члены разделить на п.

где ковариация признаков;

Дисперсия признака x .

Ввиду того, что , ,получим следующую формулу расчета оценки параметра b :

. (4.10)

Параметр называется коэффициентом регрессии. Его вели­чина показывает среднее изменение результата с изменением фактора на одну единицу. Так, если в функции издержек (у - издержки (тыс. руб.), х - количество единиц продукции). То, следовательно, с увеличением объема продукции (х) на 1 ед. издержки производства возрастают в среднем на 2 тыс. руб., т. е. дополнительный прирост продукции на 1 ед. потребует увеличения затрат в среднем на 2 тыс. руб.


Возможность четкой экономической интерпретации коэф­фициента регрессии сделала линейное уравнение регрессии достаточно распространенным в эконометрических исследова­ниях.

Формально - значение у при х = 0. Если признак-фактор не имеет и не может иметь нулевого значения, то вышеуказанная трактовка свободного члена не имеет смысла. Параметр может не иметь экономического содержания. Попытки экономически интерпретировать параметр а могут привести к абсурду, особен­но при < 0.

ГЛАВА 3. МОДЕЛЬ МНОЖЕСТВЕННОЙ

ЛИНЕЙНОЙ РЕГРЕССИИ

Основные понятия и уравнения множественной регрессии

На любой экономический показатель чаще всего оказывает влияние не один, а несколько совокупно действующих факторов. Например, объем реализации (Y ) для предприятий оптовой торговли может определяться уровнем цен (Х 1), числом видов товаров (Х 2), размером торговой площади (Х 3) и товарных запасов (Х 4). В целом объем спроса на какой-либо товар определяется не только его ценой (Х 1), но и ценой на конкурирующие товары (Х 2), располагаемым доходом потребителей (Х 3), а также некоторыми другими факторами. Показатель инновационной активности современных предприятий зависит от затрат на исследования и разработки (Х 1), на приобретение новых технологий (Х 2), на приобретение программных продуктов и средств (Х 3) и обучение и переподготовку кадров . В этих случаях возникает необходимость рассмотрения моделей множественной (многофакторной, многомерной) регрессии .

Модель множественной линейной регрессии является естественным обобщением парной (однофакторной) линейной регрессионной модели. В общем случае ее теоретическое уравнение имеет вид:

где Х 1 , Х 2 ,…, Х m – набор независимых переменных (факторов-аргументов); b 0 , b 1 , …, b m – набор (m + 1) параметров модели, подлежащих определению; ε – случайное отклонение (ошибка); Y – зависимая (объясняемая) переменная.

Для индивидуального i -го наблюдения (i = 1, 2, …, n ) имеем:

. (3.3)

Здесь b j называется j -м теоретическим коэффициентом регрессии (частичным коэффициентом регрессии).

Аналогично случаю парной регрессии, истинные значения параметров (коэффициентов) b j по выборочным данным получить невозможно. Поэтому для определения статистической взаимосвязи переменных Y и Х 1 , Х 2 , …, Х m оценивается эмпирическое уравнение множественной регрессионной модели

в котором , – оценки соответствующих теоретических коэффициентов регрессии; е – оценка случайного отклонения ε.

Оцененное уравнение (3.4) в первую очередь должно описывать общий тренд (направление, тенденцию) изменения зависимой переменной Y . При этом необходимо иметь возможность рассчитать отклонения от этого тренда.

Для решения задачи определения оценок параметров множественной линейной регрессии по выборке объема n необходимо выполнение неравенства n ³ m + 1 (m – число регрессоров). В данном случае число v = n - m - 1 будет называться числом степеней свободы. Отсюда для парной регрессии имеем v = n - 2. Нетрудно заметить, что если число степеней свободы невелико, то и статистическая надежность оцениваемой формулы невысока. На практике принято считать, что достаточная надежность обеспечивается в том случае, когда число наблюдений по крайней мере в три раза превосходит число оцениваемых параметров k = m + 1. Обычно, статистическая значимость парной модели наблюдается при n ≥ 7.

Самым распространенным методом оценки параметров уравнения множественной линейной регрессионной модели является метод наименьших квадратов (МНК) . Напомним (см. раздел 2.4.1), что надежность оценок и статистических выводов, полученных с использованием МНК, обеспечивается при выполнении предпосылок Гаусса-Маркова. В случае множественной линейной регрессии к предпосылкам 1–4 необходимо добавить еще одну (пятую) – отсутствие мультиколлинеарности , что означает отсутствие линейной зависимости между объясняющими переменными в функциональной или статистической форме. Более подробно мультиколлинеарность объясняющих переменных будет рассмотрена в разделе (3.4). Модель, удовлетворяющая предпосылкам МНК, называется классической нормальной моделью множественной регрессии .

На практике часто бывает необходимо оценить силу влияния на зависимую переменную различных объясняющих (факторных) переменных. В этом случае используют стандартизованные коэффициенты регрессии и средние коэффициенты эластичности .

Стандартизированный коэффициент регрессии определяется по формуле:

(3.5)

где S (x j ) и S (y ) – выборочные средние квадратичные отклонения (стандарты) соответствующей объясняющей и зависимой переменных.

Средний коэффициент эластичности

(3.6)

показывает, на сколько процентов (от средней) изменится в среднем зависимая переменная Y при увеличении только j -й объясняющей переменной на 1 %.

Для модели с двумя объясняющими (факторными) переменными , после нахождения оценок , уравнение определяет плоскость в трехмерном пространстве. В общем случае m независимых переменных геометрической интерпретацией модели является гиперплоскость в гиперпространстве.

Оценка параметров регрессионной модели

Для нахождения оценок параметров b j множественной линейной регрессионной модели (коэффициентов эмпирического уравнения регрессии) используется метод наименьших квадратов (МНК). Суть МНК заключается в минимизации суммы квадратов отклонений наблюдаемых выборочных значений y i зависимой переменной Y от их модельных оценок . Отклонение е i , соответствующее уравнению регрессии в i -м наблюдении (i = 1, 2, …, n ), рассчитывается по формуле:

Тогда для нахождения коэффициентов по МНК минимизируется следующая функция m + 1 переменных:

. (3.8)

Необходимым условием минимума функции G является равенство нулю всех ее частных производных по Частные производные квадратичной функции (3.8) являются линейными функциями относительно параметров:

. (3.9)

Приравнивая (3.9) к нулю, получаем систему m + 1 линейных нормальных уравнений с m + 1 неизвестными для определения параметров модели:

(3.10)

где j = 1, 2, …, m – определяет набор регрессоров.

Следует заметить, что включение в модель новых объясняющих переменных усложняет расчет коэффициентов множественной линейной регрессии путем решения системы (3.10) по сравнению с парной моделью. Система из трех уравнений, соответствующая модели с двумя объясняющими переменными , может быть легко решена методом определителей. Однако в общем виде решение системы (3.10) и анализ множественной регрессионной модели наиболее целесообразно проводить в векторно-матричной форме .

Тогда, вводя матричные обозначения, запишем:

, , .

Здесь Y n -мерный вектор-столбец наблюдений зависимой переменной; Х – матрица размерности n · (m + 1) значений объясняющих переменных x ij , в которой единица соответствует переменной при свободном члене ; – вектор-столбец размерности m + 1 оценок параметров модели (коэффициентов уравнения регрессии); е – вектор-столбец размерности n отклонений выборочных (реальных) значений y i зависимой переменной, от значений оценок , получаемых по уравнению регрессии.

В матричной форме модель (3.1) примет вид:

Y = XB + e. (3.11)

Оценкой этой модели по выборочным данным является уравнение (эмпирическая модель)

Предпосылки МНК (см. раздел 2.4.1.) в матричной форме можно записать следующим образом:

1. M (e) = 0; 2. D (e) = σ 2 I ; 3. Матрица ковариаций V (e) = M (e · e T ) = σ 2 E,

где e = – вектор-столбец случайных отклонений (ошибок);

I = – (n · 1) вектор;

E = E n × n = – единичная матрица;

– матрица ковариаций или ковариационная матрица вектора случайных отклонений, которая является многомерным аналогом дисперсии одной переменной и в которой, если предпосылка о некоррелированности отклонений e i и e j выполняется, все элементы, не лежащие на главной диагонали, равны нулю, а элементы главной диагонали равны одной и той же дисперсии D (e i ) = σ 2 ; 4. e – нормально распределенный случайный вектор, т. е. e ~ N (0, σ 2 Е); 5. r (X ) = m + 1 > n – детерминированная матрица объясняющих переменных (регрессоров) имеет ранг r , равный числу определяемых параметров модели m + 1, кроме того, число имеющихся наблюдений каждой из объясняющих переменных и зависимой переменной превосходит ранг матрицы Х .

Выполнение пятой предпосылки означает линейную независимость объясняющих переменных (линейную независимость столбцов матрицы Х ), т. е. отсутствие функциональной мультиколлинеарности.

Наша задача заключается в нахождении вектора оценок по МНК, который, при выполнении предпосылок 1–5, обладает наименьшим рассеянием относительно параметра B .

Воспользовавшись известными соотношениями матричной алгебры и правилами дифференцирования по векторному аргументу, получим необходимое условие минимума функции G (равенство нулю вектор-столбца частных производных )

Для прогнозирования с помощью уравнения регрессии необходимо вычислить коэффициенты и уравнения регрессии. И здесь существует еще одна проблема сказывающаяся на точности прогнозирования. Она заключается в том, что обычно нет всех возможных значений переменных Х и У, т.е. генеральная совокупность совместного распределения в задачах прогнозирования не известна, известна только выборка из этой генеральной совокупности. В результате этого при прогнозировании помимо случайной составляющей возникает еще один источник ошибок – ошибки, вызванные не полным соответствием выборки генеральной совокупности и порождаемыми этим погрешностями в определении коэффициентов уравнения регрессии.

Иными словами вследствие того, что генеральная совокупность не известна, точные значения коэффициентов и уравнения регрессии определить не возможно. Используя выборку из этой неизвестной генеральной совокупности можно лишь получить оценки и истинных коэффициентов и.

Для того чтобы ошибки прогнозирования в результате такой замены были минимальными, оценку необходимо осуществлять методом который гарантирует несмещенность и эффективность полученных значений. Метод обеспечивает несмещенные оценки, если при неоднократном его повторении с новыми выборками из одной и той же генеральной совокупности обеспечивается выполнение условия и . Метод обеспечивает эффективные оценки, если при неоднократном его повторении с новыми выборками из одной и той же генеральной совокупности обеспечивается минимальная дисперсия коэффициентов a и b, т.е. выполняются условия и .

В теории вероятности доказана теорема согласно которой эффективность и несмещенность оценок коэффициентов уравнения линейной регрессии по данным выборки обеспечивается при применении метода наименьших квадратов.

Суть метода наименьших квадратов заключается в следующем. Для каждой из точек выборки записываются уравнение вида . Затем находятся ошибка между расчетным и фактическим значениями . Решение оптимизационной задачи по нахождению таких значений и которые обеспечивают минимальную сумму квадратов ошибок для всех n точек, т.е. решение задачи поиска , дает несмещенные и эффективные оценки коэффициентов и . Для случая парной линейной регрессии это решение имеет вид:

Следует отметить, что полученные таким образом по выборке несмещенные и эффективные оценки истинных значений коэффициентов регрессии для генеральной совокупности вовсе не гарантируют от ошибки при однократном применении. Гарантия заключается в том, что, в итоге многократного повторения этой операции с другими выборками из той же генеральной совокупности, гарантирована меньшая сумма ошибок по сравнению любым другим способом и разброс этих ошибок будет минимален.

Полученные коэффициенты уравнения регрессии определяют положение регрессионной прямой, она является главной осью облака образованного точками исходной выборки. Оба коэффициента имеют вполне определенный смысл. Коэффициент показывает значение при , но в многих случаях не имеет смысла, кроме того часто также не имеет смысла, по этому приведенной трактовкой коэффициента нужно пользоваться осторожно. Более универсальная трактовка смысла заключается в следующем. Если , то относительное изменение независимой переменной (изменение в процентах) всегда меньше чем относительное изменение зависимой переменной.

Коэффициент показывает насколько единиц изменится зависимая переменная при изменении независимой переменной на одну единицу. Коэффициент часто называют коэффициентом регрессии подчеркивая этим, что он важнее чем . В частности, если вместо значений зависимой и независимой переменных взять их отклонения от своих средних значений, то уравнение регрессии преобразуется к виду . Иными словами в системе преобразованных координат любая линия регрессии проходит через начало координат (рис 13) и коэффициент отсутствует.

Рис 13. Положение регрессионной зависимости в системе преобразованных координат.

Параметры уравнения регрессии говорят нам о том, как связаны между собой зависимая и независимая переменная, но ничего не говорят о степени тесноты связи, т.е. показывают положение главной оси облака данных, но не ничего не говорит о степени тесноты связи (насколько узко или широко облако).

По территориям региона приводятся данные за 200Х г.

Номер региона Среднедушевой прожиточный минимум в день одного трудоспособного, руб., х Среднедневная заработная плата, руб., у
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173

Задание:

1. Постройте поле корреляции и сформулируйте гипотезу о форме связи.

2. Рассчитайте параметры уравнения линейной регрессии

4. Дайте с помощью среднего (общего) коэффициента эластичности сравнительную оценку силы связи фактора с результатом.

7. Рассчитайте прогнозное значение результата, если прогнозное значение фактора увеличится на 10% от его среднего уровня. Определите доверительный интервал прогноза для уровня значимости .

Решение:

Решим данную задачу с помощью Excel.

1. Сопоставив имеющиеся данные х и у, например, ранжировав их в порядке возрастания фактора х, можно наблюдать наличие прямой зависимости между признаками, когда увеличение среднедушевого прожиточного минимума увеличивает среднедневную заработную плату. Исходя из этого, можно сделать предположение, что связь между признаками прямая и её можно описать уравнением прямой. Этот же вывод подтверждается и на основе графического анализа.

Чтобы построить поле корреляции можно воспользоваться ППП Excel. Введите исходные данные в последовательности: сначала х, затем у.

Выделите область ячеек, содержащую данные.

Затем выберете: Вставка / Точечная диаграмма / Точечная с маркерами как показано на рисунке 1.

Рисунок 1 Построение поля корреляции

Анализ поля корреляции показывает наличие близкой к прямолинейной зависимости, так как точки расположены практически по прямой линии.

2. Для расчёта параметров уравнения линейной регрессии
воспользуемся встроенной статистической функцией ЛИНЕЙН .

Для этого:

1) Откройте существующий файл, содержащий анализируемые данные;
2) Выделите область пустых ячеек 5×2 (5 строк, 2 столбца) для вывода результатов регрессионной статистики.
3) Активизируйте Мастер функций : в главном меню выберете Формулы / Вставить функцию .
4) В окне Категория выберете Статистические , в окне функция - ЛИНЕЙН . Щёлкните по кнопке ОК как показано на Рисунке 2;

Рисунок 2 Диалоговое окно «Мастер функций»

5) Заполните аргументы функции:

Известные значения у

Известные значения х

Константа - логическое значение, которое указывает на наличие или на отсутствие свободного члена в уравнении; если Константа = 1, то свободный член рассчитывается обычным образом, если Константа = 0, то свободный член равен 0;

Статистика - логическое значение, которое указывает, выводить дополнительную информацию по регрессионному анализу или нет. Если Статистика = 1, то дополнительная информация выводится, если Статистика = 0, то выводятся только оценки параметров уравнения.

Щёлкните по кнопке ОК ;

Рисунок 3 Диалоговое окно аргументов функции ЛИНЕЙН

6) В левой верхней ячейке выделенной области появится первый элемент итоговой таблицы. Чтобы раскрыть всю таблицу, нажмите на клавишу , а затем на комбинацию клавиш ++ .

Дополнительная регрессионная статистика будет выводиться в порядке, указанном в следующей схеме:

Значение коэффициента b Значение коэффициента a
Стандартная ошибка b Стандартная ошибка a
Стандартная ошибка y
F-статистика
Регрессионная сумма квадратов

Рисунок 4 Результат вычисления функции ЛИНЕЙН

Получили уровнение регрессии:

Делаем вывод: С увеличением среднедушевого прожиточного минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 0,92 руб.

Означает, что 52% вариации заработной платы (у) объясняется вариацией фактора х - среднедушевого прожиточного минимума, а 48% - действием других факторов, не включённых в модель.

По вычисленному коэффициенту детерминации можно рассчитать коэффициент корреляции: .

Связь оценивается как тесная.

4. С помощью среднего (общего) коэффициента эластичности определим силу влияния фактора на результат.

Для уравнения прямой средний (общий) коэффициент эластичности определим по формуле:

Средние значения найдём, выделив область ячеек со значениями х, и выберем Формулы / Автосумма / Среднее , и то же самое произведём со значениями у.

Рисунок 5 Расчёт средних значений функции и аргумент

Таким образом, при изменении среднедушевого прожиточного минимума на 1% от своего среднего значения среднедневная заработная плата изменится в среднем на 0,51%.

С помощью инструмента анализа данных Регрессия можно получить:
- результаты регрессионной статистики,
- результаты дисперсионного анализа,
- результаты доверительных интервалов,
- остатки и графики подбора линии регрессии,
- остатки и нормальную вероятность.

Порядок действий следующий:

1) проверьте доступ к Пакету анализа . В главном меню последовательно выберите: Файл/Параметры/Надстройки .

2) В раскрывающемся списке Управление выберите пункт Надстройки Excel и нажмите кнопку Перейти.

3) В окне Надстройки установите флажок Пакет анализа , а затем нажмите кнопку ОК .

Если Пакет анализа отсутствует в списке поля Доступные надстройки , нажмите кнопку Обзор , чтобы выполнить поиск.

Если выводится сообщение о том, что пакет анализа не установлен на компьютере, нажмите кнопку Да , чтобы установить его.

4) В главном меню последовательно выберите: Данные / Анализ данных / Инструменты анализа / Регрессия , а затем нажмите кнопку ОК .

5) Заполните диалоговое окно ввода данных и параметров вывода:

Входной интервал Y - диапазон, содержащий данные результативного признака;

Входной интервал X - диапазон, содержащий данные факторного признака;

Метки - флажок, который указывает, содержит ли первая строка названия столбцов или нет;

Константа - ноль - флажок, указывающий на наличие или отсутствие свободного члена в уравнении;

Выходной интервал - достаточно указать левую верхнюю ячейку будущего диапазона;

6) Новый рабочий лист - можно задать произвольное имя нового листа.

Затем нажмите кнопку ОК .

Рисунок 6 Диалоговое окно ввода параметров инструмента Регрессия

Результаты регрессионного анализа для данных задачи представлены на рисунке 7.

Рисунок 7 Результат применения инструмента регрессия

5. Оценим с помощью средней ошибки аппроксимации качество уравнений. Воспользуемся результатами регрессионного анализа представленного на Рисунке 8.

Рисунок 8 Результат применения инструмента регрессия «Вывод остатка»

Составим новую таблицу как показано на рисунке 9. В графе С рассчитаем относительную ошибку аппроксимации по формуле:

Рисунок 9 Расчёт средней ошибки аппроксимации

Средняя ошибка аппроксимации рассчитывается по формуле:

Качество построенной модели оценивается как хорошее, так как не превышает 8 - 10%.

6. Из таблицы с регрессионной статистикой (Рисунок 4) выпишем фактическое значение F-критерия Фишера:

Поскольку при 5%-ном уровне значимости, то можно сделать вывод о значимости уравнения регрессии (связь доказана).

8. Оценку статистической значимости параметров регрессии проведём с помощью t-статистики Стьюдента и путём расчёта доверительного интервала каждого из показателей.

Выдвигаем гипотезу Н 0 о статистически незначимом отличии показателей от нуля:

.

для числа степеней свободы

На рисунке 7 имеются фактические значения t-статистики:

t-критерий для коэффициента корреляции можно рассчитать двумя способами:

I способ:

где - случайная ошибка коэффициента корреляции.

Данные для расчёта возьмём из таблицы на Рисунке 7.

II способ:

Фактические значения t-статистики превосходят табличные значения:

Поэтому гипотеза Н 0 отклоняется, то есть параметры регрессии и коэффициент корреляции не случайно отличаются от нуля, а статистически значимы.

Доверительный интервал для параметра a определяется как

Для параметра a 95%-ные границы как показано на рисунке 7 составили:

Доверительный интервал для коэффициента регрессии определяется как

Для коэффициента регрессии b 95%-ные границы как показано на рисунке 7 составили:

Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что с вероятностью параметры a и b, находясь в указанных границах, не принимают нулевых значений, т.е. не являются статистически незначимыми и существенно отличны от нуля.

7. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение прожиточного минимума составит:

Тогда прогнозное значение прожиточного минимума составит:

Ошибку прогноза рассчитаем по формуле:

где

Дисперсию посчитаем также с помощью ППП Excel. Для этого:

1) Активизируйте Мастер функций : в главном меню выберете Формулы / Вставить функцию .

3) Заполните диапазон, содержащий числовые данные факторного признака. Нажмите ОК .

Рисунок 10 Расчёт дисперсии

Получили значение дисперсии

Для подсчёта остаточной дисперсии на одну степень свободы воспользуемся результатами дисперсионного анализа как показано на Рисунке 7.

Доверительные интервалы прогноза индивидуальных значений у при с вероятностью 0,95 определяются выражением:

Интервал достаточно широк, прежде всего, за счёт малого объёма наблюдений. В целом выполненный прогноз среднемесячной заработной платы оказался надёжным.

Условие задачи взято из: Практикум по эконометрике: Учеб. пособие / И.И. Елисеева, С.В. Курышева, Н.М. Гордеенко и др.; Под ред. И.И. Елисеевой. - М.: Финансы и статистика, 2003. - 192 с.: ил.