Семья

Как правильно составить матрицу гессе. Второй способ (с помощью собственных значений матрицы Гессе)

Параметры с малыми значениями вторых производных обнуляют. Анализ чувствительности имеет большую вычислительную сложность и требует много дополнительной памяти.  

Соотношения (1.4) и (1.6) определяют знаки главных миноров матрицы Гессе для нашей функции и тем самым являются достаточным условием неположительной определенности соответствующей квадратичной формы (1.3). Поэтому для вогнутости линейно однородных функций с двумя ресурсами условие (1.4) достаточно.  

Матрица Я, как уже говорилось, называется матрицей Гессе (или гессианом).  

При более последовательном подходе для улучшения процесса обучения можно использовать информацию о производных второго порядка от функции невязки. Соответствующие методы оптимизации называются квадратичными. Вся указанная информация собрана в матрице гессиана Н, имеющей размеры Nw х Nw, где Nw - число весов. Эта матрица содержит информацию о том, как изменяется градиент при малых смещениях по различным направлениям в пространстве весов. Прямое вычисление матрицы требует большого времени, поэтому разработаны методы, позволяющие избежать вычисления и хранения матрицы (спуск по сопряженному градиенту, масштабированный метод сопряженных градиентов (см. ), RBa kProp (см. ), квази-ньютоновский метод, метод Левенбер-га-Маркара).  

Первое уравнение (4.17) показывает, как изменится выпуск при увеличении цены на продукцию фирмы. Поскольку матрица Гесса Н отрицательно определена, то и матрица Н"1 также отрицательно определена, поэтому  

Отметим, что из факта существования функции Q в силу симметрии матрицы вторых производных (матрицы Гессе) для дважды дифференцируемой фунции нескольких переменных следуют равенства, связывающие чувствительности оценок к изменению запасов ресур-  

Кроме того, матрица Гессе вторых производных этой функции по С должна быть при С = 0 отрицательно определенной.  

Рассмотрим изменение матрицы Гессе функции / (С) при ее монотонном преобразовании . Предварительно запишем составляющие градиента в точке  

Чтобы функция FQ() была выпукла, достаточно, чтобы матрица Т = Tij была отрицательно определенной. Первые слагаемые в (9.108) отличаются от элементов 7 j матрицы Гессе исходной задачи неотрицательным множителем, так как функция FQ монотонно возрастающая. Если вторые слагаемые в этих выражениях равны нулю, то вогнутой функции достижимости исходной задачи будет соответствовать вогнутость и FQ().  

Таким образом, матрица Гессе для функции достижимости преобразованной задачи представляет собой сумму  

Первое из них представляет собой п уравнений относительно составляющих вектора А, а второе - условие отрицательной определенности квадратичной формы , которое проверяется по критерию Сильвестра применительно к матрице Гессе функции R .  

Здесь и ниже через R f0 и R i обозначены частные производные R по соответствующим переменным. Условиям отрицательной определенности должна удовлетворять матрица Гессе функции R с элементами (см. (9.125))  

Вторая часть составляет теоретическое ядро книги. Она полностью посвящена строгому изложению теории дифференциалов и основ анализа, сформулированных на языке дифференциалов. Вводятся понятия первого и второго дифференциалов, приводится правило идентификации для матриц Якоби и Гессе. Завершает главу параграф, посвященный теории оптимизации при наличии ограничений, изложенный в терминах дифференциалов.  

Четвертая часть, посвященная неравенствам, возникла благодаря нашему убеждению, что эконометристы должны легко оперировать неравенствами, такими как неравенство Коши-Буняковского (Шварца), неравенство Мин-ковского и их обобщения, а также владеть мощными результатами, например теоремой отделимости Пуанкаре. В какой-то мере глава является и историей нашего разочарования. Когда мы начинали писать эту книгу, у нас была амбициозная идея - вывести все неравенства методами матричного дифференциального исчисления . В конце концов , каждое неравенство может быть представлено как решение некоторой оптимизационной задачи . Однако эта идея оказалась иллюзией, поскольку матрица Гессе в большинстве случаев оказывается вырожденной в точке экстремума.  

Обозначения. В книге мы используем, в основном, стандартные обозначения, за исключением того что векторы обозначены простым (не полужирным) курсивом. Специальные символы используются для обозначения производной (матрицы) D и матрицы Гессе Н. Оператор дифференцирования обозначается как d. Полный список всех символов, использованных в тексте, содержится в Указателе обозначений в конце книги.  

В этой главе рассматриваются понятия вторых производных, дважды диф-ференцируемости и второго дифференциала. Особое внимание уделяется связи между дважды дифференцируемостью и аппроксимацией второго порядка. Мы определяем матрицу Гессе (для векторных функций) и находим условия для ее (столбцовой) симметрии. Мы также получаем цепное правило для матриц Гессе и его аналог для вторых дифференциалов. Доказывается теорема Тейлора для вещественных функций . Наконец, очень кратко обсуждаются дифференциалы высших порядков и показывается, как анализ векторных функций можно распространить на матричные функции.  

Ранее мы определили матрицу, которая содержит все частные производные первого порядка. Это была матрица Якоби . Теперь определим матрицу (называемую матрицей Гессе), которая содержит все частные производные второго порядка. Дадим определение этой матрицы сначала для вещественных, а затем для векторных функций.  

Пусть / S -> Rm, S С Rn есть

Матрица G (х ) размерностью(n xn ) считается положительно определенной, если все ее собственные значения m 1 , m 2 ,…, m n положительны, т.е. m j > 0 для всех j = 1, 2,…, n .

Матрица G (х ) считается отрицательно определенной, если собственные значения отрицательны, т.е. m j < 0 для всех j = 1, 2,…, n .

Если среди собственных значений G встречаются и положительные и отрицательные, то матрица является знакопеременной, а исследуемая функция – невыпуклой.

Для определения собственных значений необходимо решить характеристическое уравнение:

где I – квадратная единичная матрица; det – знак определителя.

Матрица отличается от матрицы Гессе тем, что по диагонали располагаются члены вида .

Так для двухмерной функции f (x 1 , x 2)характеристическое уравнение будет иметь вид:

(4.10)

Собствееные значения m 1 и m 2 есть корни обыкновенного квадратного уравнения m 2 + b m + c = 0, образуются после раскрытия определителя.

Для примера возьмем функции двух переменных:

f (x )= 2 – 2x 1 –2x 2 +x 1 2 +x 2 2 – x 1 x 2

Координаты экстремальной точки x * определяются решением системы уравнений

И равны x 1 * = 2, x 2 * = 2

Гессиан . После решения характеристического уравнения , т.е. квадратного уравнения (2 – m) 2 – 1 = 0 получены собственные значения m 1 = 3, m 2 = 1, т.е. матрица G является положительно определенной. Следовательно, функция f (x ) является выпуклой и в экстремальной точке х * = (2,2) принимает минимальное значение f (x *) = –2.

Оба способа проверки достаточных и необходимых условий экстремума второго порядка приведены в табл.4.2.

Пример 4.4. Найти экстремум функции на множестве Е 2 .

Решение. 1. Запишем необходимые условия экстремума первого порядка:

;

x * = (0,0).

2. Проверим выполнение достаточных условий экстремума.

Первый способ: Матрица Гессе имеет вид .Так как М 1 = 2 > 0, , то в точке x* локальный минимум (строка 1 в табл.4.2).

Второй способ: Найдем собственные значения матрицы Гессе, используя (4.10):

Отсюда и . Так как все собственные значения положительны, то в точке x * локальный минимум (строка 1 в табл. 4.2). Из примера 3.3 следует, что функция является строго выпуклой на множестве Е 2 . Поэтому точка локального минимума является и точкой глобального минимума (согласно п.3, утверждение 3.1).

3. Вычислим значение функции в точке глобального минимума: f (x *) = 0.

Пример 4.5 . Найти экстремум функции на множестве Е 2 .

Решение. 1. Запишем необходимые условия первого порядка:

; .

В результате решения системы получаем стационарную точку x * = (0,0).

2. Проверим выполнение достаточных условий экстремума и необходимых условий второго порядка.


Первый способ: Матрица Гессе имеет вид . Так как М 1 = 2 > 0, , то достаточныое условия экстремума не выполняются (строки 1 и 2 в табл.4.2). Проверим выполнение необходимых условий второго порядка.

Главные миноры первого порядка (m = 1) получаются из M 2 в результате вычеркивания n – m =2 – 1 = 1 строк и столбцов, с одинаковыми номерами: – 2, 2. Главный минор второго порядка (m = 2) получается из M 2 в результате вычеркивания n – m= 0 строк и столбцов, т.е. совпадает с M 2: -4. Отсюда следует, что необходимые условия экстремума второго порядка не выполняются (строки 3 и 4 в табл.4.2). Так как матрица Гессе не является нулевой, то можно сделать вывод о том, что в точке х * нет экстремума (строка 6 в табл.2.1).

Таблица 4.2

Критерий проверки достаточных и необходимых условий второго порядка в задаче поиска безусловного экстремума

Назначение сервиса . Онлайн-калькулятор используется для нахождения матрицы Гессе и определения вида функции (выпуклая или вогнутая) (см. пример). Решение оформляется в формате Word . Для функции одной переменной f(x) определяются интервалы выпуклости и вогнутости .

f(x 1 ,x 2 ,x 3) =

Находить в точке X 0: x 1 = , x 2 = , x 3 =

Правила ввода функций :

Дважды непрерывно дифференцируемая функция f(x) является выпуклой (вогнутой) тогда и только тогда, когда матрица Гессе функции f(x) по x положительно (отрицательно) полуопределена для всех x (см. точки локальных экстремумов функции многих переменных).

Критические точки функции:

  • если гессиан положительно определён, то x 0 - точка локального минимума функции f(x) ,
  • если гессиан отрицательно определён, то x 0 - точка локального максимума функции f(x) ,
  • если гессиан не является знакоопределённым (принимает как положительные, так и отрицательные значения) и невырожден (det G(f) ≠ 0), то x 0 - седловая точка функции f(x).

Критерии определенности матрицы (теорема Сильвестра)

Положительная определенность :
  • все диагональные элементы матрицы должны быть положительны;
  • все ведущие главные определители должны быть положительны.
Для положительно полуопределённых матриц критерий Сильвестра звучит подобным образом: Форма положительно полуопределена тогда и только тогда, когда все главные миноры неотрицательны. Если матрица Гессе в точке положительно полуопределена (все главные миноры неотрицательные), то это точка минимума (однако, если гессиан полуопределен, а один из миноров равен 0, то это может быть и седловая точка. Нужны дополнительные проверки).

Положительная полуопределенность:

  • все диагональные элементы неотрицательны;
  • все главные определители неотрицательны.
Главный определитель – это определитель главного минора.

Квадратная симметрическая матрица порядка n , элементами которой являются частные производные целевой функции второго порядка, называется матрицей Гессе и обозначается:

Для того, чтобы симметрическая матрица была положительно определена, необходимо и достаточно, чтобы все ее диагональные миноры были положительны, т.е.


для матрицы A = (a ij) положительные.

Отрицательная определенность .
Для того чтобы симметрическая матрица была отрицательно определена, необходимо и достаточно, чтобы имели место неравенства:
(-1) k D k > 0, k =1,.., n.
Другими словами, для того, чтобы квадратичная форма была отрицательно определённой , необходимо и достаточно, чтобы знаки угловых миноров матрицы квадратичной формы чередовались, начиная со знака минус. Например, для двух переменных, D 1 < 0, D 2 > 0.

Если гессиан полуопределен, то это может быть и точка перегиба. Нужны дополнительные исследования, которые могут быть проведены по одному из следующих вариантов:

  1. Понижение порядка . Делается замена переменных. Например, для функции двух переменных это y=x , в итоге получаем функцию одного переменного x . Далее исследуется поведение функции на прямых y=x и y=-x . Если в первом случае функция в исследуемой точке будет иметь минимум, а в другом случае максимум (или наоборот), то исследуемая точка представляет собой седловую точку .
  2. Нахождение собственных значений гессиана. Если все значения положительные, функция в исследуемой точке имеет минимум, если все отрицательные – имеется максимум.
  3. Исследование функции f(x) в окрестности точки ε. Переменные x заменяются на x 0 +ε. Далее необходимо доказать, что функция f(x 0 +ε) от одной переменной ε, либо больше нуля (тогда x 0 точка минимума), либо меньше нуля (тогда x 0 точка максимума).

Примечание . Чтобы найти обратный гессиан достаточно найти обратную матрицу .

Пример №1 . Какие из следующих функций являются выпуклыми или вогнутыми: f(x) = 8x 1 2 +4x 1 x 2 +5x 2 2 .
Решение . 1. Найдем частные производные.


2. Решим систему уравнений.
-4x 1 +4x 2 +2 = 0
4x 1 -6x 2 +6 = 0
Получим:
а) Из первого уравнения выражаем x 1 и подставляем во второе уравнение:
x 2 = x 2 + 1 / 2
-2x 2 +8 = 0
Откуда x 2 = 4
Данные значения x 2 подставляем в выражение для x 1 . Получаем: x 1 = 9 / 2
Количество критических точек равно 1.
M 1 (9 / 2 ;4)
3. Найдем частные производные второго порядка.



4. Вычислим значение этих частных производных второго порядка в критических точках M(x 0 ;y 0).
Вычисляем значения для точки M 1 (9 / 2 ;4)



Строим матрицу Гессе:

D 1 = a 11 < 0, D 2 = 8 > 0
Поскольку диагональные миноры имеют различные знаки, то о выпуклости или вогнутости функции ничего сказать нельзя.

Описывающая поведение функции во втором порядке.

Для функции texvc , дважды дифференцируемой в точке Невозможно разобрать выражение (Выполняемый файл texvc не найден; См. math/README - справку по настройке.): x\in \R^n

Невозможно разобрать выражение (Выполняемый файл texvc не найден; См. math/README - справку по настройке.): H(x) = \sum_{i=1}^n \sum_{j=1}^n a_{ij} x_i x_j Невозможно разобрать выражение (Выполняемый файл texvc не найден; См. math/README - справку по настройке.): H(z) = \sum_{i=1}^n \sum_{j=1}^n a_{ij} z_i \overline{z}_j

где Невозможно разобрать выражение (Выполняемый файл texvc не найден; См. math/README - справку по настройке.): a_{ij}=\partial^2 f/\partial x_i \partial x_j (или Невозможно разобрать выражение (Выполняемый файл texvc не найден; См. math/README - справку по настройке.): a_{ij}=\partial^2 f/\partial z_i \partial \overline{z}_j ) и функция Невозможно разобрать выражение (Выполняемый файл texvc не найден; См. math/README - справку по настройке.): f задана на Невозможно разобрать выражение (Выполняемый файл texvc не найден; См. math/README - справку по настройке.): n -мерном вещественном пространстве Невозможно разобрать выражение (Выполняемый файл texvc не найден; См. math/README - справку по настройке.): \mathbb{R}^n (или комплексном пространстве Невозможно разобрать выражение (Выполняемый файл texvc не найден; См. math/README - справку по настройке.): \mathbb{C}^n ) с координатами Невозможно разобрать выражение (Выполняемый файл texvc не найден; См. math/README - справку по настройке.): x_1,\ldots,x_n (или Невозможно разобрать выражение (Выполняемый файл texvc не найден; См. math/README - справку по настройке.): z_1,\ldots,z_n ). В обоих случаях гессиан - квадратичная форма, заданная на касательном пространстве , не меняющаяся при линейных преобразованиях переменных. Гессианом также часто называют и определитель матрицы Невозможно разобрать выражение (Выполняемый файл texvc не найден; См. math/README - справку по настройке.): (a_{ij}), см. ниже.

Матрица Гессе

Матрица этой квадратичной формы образована вторыми частными производными функции. Если все производные существуют, то

Невозможно разобрать выражение (Выполняемый файл texvc не найден; См. math/README - справку по настройке.): H(f) = \begin{bmatrix} \frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1\,\partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_1\,\partial x_n} \\ \\ \frac{\partial^2 f}{\partial x_2\,\partial x_1} & \frac{\partial^2 f}{\partial x_2^2} & \cdots & \frac{\partial^2 f}{\partial x_2\,\partial x_n} \\ \\ \vdots & \vdots & \ddots & \vdots \\ \\ \frac{\partial^2 f}{\partial x_n\,\partial x_1} & \frac{\partial^2 f}{\partial x_n\,\partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_n^2} \end{bmatrix}

Матрицы Гессе используются в задачах оптимизации методом Ньютона . Полное вычисление матрицы Гессе может быть затруднительно, поэтому были разработаны квазиньютоновские алгоритмы, основанные на приближённых выражениях для матрицы Гессе. Наиболее известный из них - алгоритм Бройдена - Флетчера - Гольдфарба - Шанно .

Симметрия матрицы Гессе

Смешанные производные функции f - это элементы матрицы Гессе, стоящие не на главной диагонали. Если они непрерывны, то порядок дифференцирования не важен:

Невозможно разобрать выражение (Выполняемый файл texvc не найден; См. math/README - справку по настройке.): \frac {\partial}{\partial x_i} \left(\frac { \partial f }{ \partial x_j} \right) = \frac {\partial}{\partial x_j} \left(\frac { \partial f }{ \partial x_i} \right)

Это можно также записать как

Невозможно разобрать выражение (Выполняемый файл texvc не найден; См. math/README - справку по настройке.): f_{x_i x_j} = f_{x_j x_i}, \quad \forall i,j \in \{1,\ldots, n\}.

В этом случае матрица Гессе симметрична .

Критические точки функции

История

См. также

Напишите отзыв о статье "Гессиан функции"

Примечания

Ссылки

Отрывок, характеризующий Гессиан функции

У меня так же, как и у Стеллы, очень болела душа, ибо это был первый раз, когда я наяву увидала, как по собственному желанию в вечность ушли смелые и очень добрые люди... мои друзья. И, казалось, в моём раненом детском сердце навсегда поселилась печаль... Но я также уже понимала, что, как бы я ни страдала, и как бы я этого ни желала, ничто не вернёт их обратно... Стелла была права – нельзя было побеждать такой ценой... Но это был их собственный выбор, и отказать им в этом мы не имели никакого права. А попробовать переубедить – у нас просто не хватило на это времени... Но живым приходилось жить, иначе вся эта невосполнимая жертва оказалась бы напрасной. А вот именно этого-то допускать было никак нельзя.
– Что будем с делать с ними? – судорожно вздохнув, показала на сбившихся в кучку малышей, Стелла. – Оставлять здесь никак нельзя.
Я не успела ответить, как прозвучал спокойный и очень грустный голос:
– Я с ними останусь, если вы, конечно, мне позволите.
Мы дружно подскочили и обернулись – это говорил спасённый Марией человек... А мы как-то о нём совершенно забыли.
– Как вы себя чувствуете? – как можно приветливее спросила я.
Я честно не желала зла этому несчастному, спасённому такой дорогой ценой незнакомцу. Это была не его вина, и мы со Стеллой прекрасно это понимали. Но страшная горечь потери пока ещё застилала мне гневом глаза, и, хотя я знала, что по отношению к нему это очень и очень несправедливо, я никак не могла собраться и вытолкнуть из себя эту жуткую боль, оставляя её «на потом», когда буду совсем одна, и, закрывшись «в своём углу», смогу дать волю горьким и очень тяжёлым слезам... А ещё я очень боялась, что незнакомец как-то почувствует моё «неприятие», и таким образом его освобождение потеряет ту важность и красоту победы над злом, во имя которой погибли мои друзья... Поэтому я постаралась из последних сил собраться и, как можно искреннее улыбаясь, ждала ответ на свой вопрос.
Мужчина печально осматривался вокруг, видимо не совсем понимая, что же здесь такое произошло, и что вообще происходило всё это время с ним самим...
– Ну и где же я?.. – охрипшим от волнения голосом, тихо спросил он. – Что это за место, такое ужасное? Это не похоже на то, что я помню... Кто вы?
– Мы – друзья. И вы совершенно правы – это не очень приятное место... А чуть дальше места вообще до дикости страшные. Здесь жил наш друг, он погиб...
– Мне жаль, малые. Как погиб ваш друг?
– Вы убили его, – грустно прошептала Стелла.
Я застыла, уставившись на свою подружку... Это говорила не та, хорошо знакомая мне, «солнечная» Стелла, которая «в обязательном порядке» всех жалела, и никогда бы не заставила никого страдать!.. Но, видимо, боль потери, как и у меня, вызвала у неё неосознанное чувство злости «на всех и вся», и малышка пока ещё не в состоянии была это в себе контролировать.
– Я?!.. – воскликнул незнакомец. – Но это не может быть правдой! Я никогда никого не убивал!..
Мы чувствовали, что он говорит чистую правду, и знали, что не имеем права перекладывать на него чужую вину. Поэтому, даже не сговариваясь, мы дружно заулыбались и тут же постарались быстренько объяснить, что же здесь такое по-настоящему произошло.
Человек долгое время находился в состоянии абсолютного шока... Видимо, всё услышанное звучало для него дико, и уж никак не совпадало с тем, каким он по-настоящему был, и как относился к такому жуткому, не помещающемуся в нормальные человеческие рамки, злу...
– Как же я смогу возместить всё это?!.. Ведь никак не смогу? И как же с этим жить?!.. – он схватился за голову... – Скольких я убил, скажите!.. Кто-нибудь может это сказать? А ваши друзья? Почему они пошли на такое? Ну, почему?!!!..
– Чтобы вы смогли жить, как должны... Как хотели... А не так, как хотелось кому-то... Чтобы убить Зло, которое убивало других. Потому, наверное... – грустно сказала Стелла.