Параметры с малыми значениями вторых производных обнуляют. Анализ чувствительности имеет большую вычислительную сложность и требует много дополнительной памяти.
Соотношения (1.4) и (1.6) определяют знаки главных миноров матрицы Гессе для нашей функции и тем самым являются достаточным условием неположительной определенности соответствующей квадратичной формы (1.3). Поэтому для вогнутости линейно однородных функций с двумя ресурсами условие (1.4) достаточно.
Матрица Я, как уже говорилось, называется матрицей Гессе (или гессианом).
При более последовательном подходе для улучшения процесса обучения можно использовать информацию о производных второго порядка от функции невязки. Соответствующие методы оптимизации называются квадратичными. Вся указанная информация собрана в матрице гессиана Н, имеющей размеры Nw х Nw, где Nw - число весов. Эта матрица содержит информацию о том, как изменяется градиент при малых смещениях по различным направлениям в пространстве весов. Прямое вычисление матрицы требует большого времени, поэтому разработаны методы, позволяющие избежать вычисления и хранения матрицы (спуск по сопряженному градиенту, масштабированный метод сопряженных градиентов (см. ), RBa kProp (см. ), квази-ньютоновский метод, метод Левенбер-га-Маркара).
Первое уравнение (4.17) показывает, как изменится выпуск при увеличении цены на продукцию фирмы. Поскольку матрица Гесса Н отрицательно определена, то и матрица Н"1 также отрицательно определена, поэтому
Отметим, что из факта существования функции Q в силу симметрии матрицы вторых производных (матрицы Гессе) для дважды дифференцируемой фунции нескольких переменных следуют равенства, связывающие чувствительности оценок к изменению запасов ресур-
Кроме того, матрица Гессе вторых производных этой функции по С должна быть при С = 0 отрицательно определенной.
Рассмотрим изменение матрицы Гессе функции / (С) при ее монотонном преобразовании . Предварительно запишем составляющие градиента в точке
Чтобы функция FQ() была выпукла, достаточно, чтобы матрица Т = Tij была отрицательно определенной. Первые слагаемые в (9.108) отличаются от элементов 7 j матрицы Гессе исходной задачи неотрицательным множителем, так как функция FQ монотонно возрастающая. Если вторые слагаемые в этих выражениях равны нулю, то вогнутой функции достижимости исходной задачи будет соответствовать вогнутость и FQ().
Таким образом, матрица Гессе для функции достижимости преобразованной задачи представляет собой сумму
Первое из них представляет собой п уравнений относительно составляющих вектора А, а второе - условие отрицательной определенности квадратичной формы , которое проверяется по критерию Сильвестра применительно к матрице Гессе функции R .
Здесь и ниже через R f0 и R i обозначены частные производные R по соответствующим переменным. Условиям отрицательной определенности должна удовлетворять матрица Гессе функции R с элементами (см. (9.125))
Вторая часть составляет теоретическое ядро книги. Она полностью посвящена строгому изложению теории дифференциалов и основ анализа, сформулированных на языке дифференциалов. Вводятся понятия первого и второго дифференциалов, приводится правило идентификации для матриц Якоби и Гессе. Завершает главу параграф, посвященный теории оптимизации при наличии ограничений, изложенный в терминах дифференциалов.
Четвертая часть, посвященная неравенствам, возникла благодаря нашему убеждению, что эконометристы должны легко оперировать неравенствами, такими как неравенство Коши-Буняковского (Шварца), неравенство Мин-ковского и их обобщения, а также владеть мощными результатами, например теоремой отделимости Пуанкаре. В какой-то мере глава является и историей нашего разочарования. Когда мы начинали писать эту книгу, у нас была амбициозная идея - вывести все неравенства методами матричного дифференциального исчисления . В конце концов , каждое неравенство может быть представлено как решение некоторой оптимизационной задачи . Однако эта идея оказалась иллюзией, поскольку матрица Гессе в большинстве случаев оказывается вырожденной в точке экстремума.
Обозначения. В книге мы используем, в основном, стандартные обозначения, за исключением того что векторы обозначены простым (не полужирным) курсивом. Специальные символы используются для обозначения производной (матрицы) D и матрицы Гессе Н. Оператор дифференцирования обозначается как d. Полный список всех символов, использованных в тексте, содержится в Указателе обозначений в конце книги.
В этой главе рассматриваются понятия вторых производных, дважды диф-ференцируемости и второго дифференциала. Особое внимание уделяется связи между дважды дифференцируемостью и аппроксимацией второго порядка. Мы определяем матрицу Гессе (для векторных функций) и находим условия для ее (столбцовой) симметрии. Мы также получаем цепное правило для матриц Гессе и его аналог для вторых дифференциалов. Доказывается теорема Тейлора для вещественных функций . Наконец, очень кратко обсуждаются дифференциалы высших порядков и показывается, как анализ векторных функций можно распространить на матричные функции.
Ранее мы определили матрицу, которая содержит все частные производные первого порядка. Это была матрица Якоби . Теперь определим матрицу (называемую матрицей Гессе), которая содержит все частные производные второго порядка. Дадим определение этой матрицы сначала для вещественных, а затем для векторных функций.
Пусть / S -> Rm, S С Rn есть
Матрица G (х ) размерностью(n xn ) считается положительно определенной, если все ее собственные значения m 1 , m 2 ,…, m n положительны, т.е. m j > 0 для всех j = 1, 2,…, n .
Матрица G (х ) считается отрицательно определенной, если собственные значения отрицательны, т.е. m j < 0 для всех j = 1, 2,…, n .
Если среди собственных значений G встречаются и положительные и отрицательные, то матрица является знакопеременной, а исследуемая функция – невыпуклой.
Для определения собственных значений необходимо решить характеристическое уравнение:
где I – квадратная единичная матрица; det – знак определителя.
Матрица отличается от матрицы Гессе тем, что по диагонали располагаются члены вида .
Так для двухмерной функции f (x 1 , x 2)характеристическое уравнение будет иметь вид:
(4.10)
Собствееные значения m 1 и m 2 есть корни обыкновенного квадратного уравнения m 2 + b m + c = 0, образуются после раскрытия определителя.
Для примера возьмем функции двух переменных:
f (x )= 2 – 2x 1 –2x 2 +x 1 2 +x 2 2 – x 1 x 2
Координаты экстремальной точки x * определяются решением системы уравнений
И равны x 1 * = 2, x 2 * = 2
Гессиан . После решения характеристического уравнения , т.е. квадратного уравнения (2 – m) 2 – 1 = 0 получены собственные значения m 1 = 3, m 2 = 1, т.е. матрица G является положительно определенной. Следовательно, функция f (x ) является выпуклой и в экстремальной точке х * = (2,2) принимает минимальное значение f (x *) = –2.
Оба способа проверки достаточных и необходимых условий экстремума второго порядка приведены в табл.4.2.
Пример 4.4. Найти экстремум функции на множестве Е 2 .
Решение. 1. Запишем необходимые условия экстремума первого порядка:
;
x * = (0,0).
2. Проверим выполнение достаточных условий экстремума.
Первый способ: Матрица Гессе имеет вид .Так как М 1 = 2 > 0, , то в точке x* локальный минимум (строка 1 в табл.4.2).
Второй способ: Найдем собственные значения матрицы Гессе, используя (4.10):
Отсюда и . Так как все собственные значения положительны, то в точке x * локальный минимум (строка 1 в табл. 4.2). Из примера 3.3 следует, что функция является строго выпуклой на множестве Е 2 . Поэтому точка локального минимума является и точкой глобального минимума (согласно п.3, утверждение 3.1).
3. Вычислим значение функции в точке глобального минимума: f (x *) = 0.
Пример 4.5 . Найти экстремум функции на множестве Е 2 .
Решение. 1. Запишем необходимые условия первого порядка:
; .
В результате решения системы получаем стационарную точку x * = (0,0).
2. Проверим выполнение достаточных условий экстремума и необходимых условий второго порядка.
Первый способ: Матрица Гессе имеет вид . Так как М 1 = 2 > 0, , то достаточныое условия экстремума не выполняются (строки 1 и 2 в табл.4.2). Проверим выполнение необходимых условий второго порядка.
Главные миноры первого порядка (m = 1) получаются из M 2 в результате вычеркивания n – m =2 – 1 = 1 строк и столбцов, с одинаковыми номерами: – 2, 2. Главный минор второго порядка (m = 2) получается из M 2 в результате вычеркивания n – m= 0 строк и столбцов, т.е. совпадает с M 2: -4. Отсюда следует, что необходимые условия экстремума второго порядка не выполняются (строки 3 и 4 в табл.4.2). Так как матрица Гессе не является нулевой, то можно сделать вывод о том, что в точке х * нет экстремума (строка 6 в табл.2.1).
Таблица 4.2
Критерий проверки достаточных и необходимых условий второго порядка в задаче поиска безусловного экстремума
Назначение сервиса . Онлайн-калькулятор используется для нахождения матрицы Гессе и определения вида функции (выпуклая или вогнутая) (см. пример). Решение оформляется в формате Word . Для функции одной переменной f(x) определяются интервалы выпуклости и вогнутости .Правила ввода функций :
Дважды непрерывно дифференцируемая функция f(x) является выпуклой (вогнутой) тогда и только тогда, когда матрица Гессе функции f(x) по x положительно (отрицательно) полуопределена для всех x (см. точки локальных экстремумов функции многих переменных).
Критические точки функции:
- если гессиан положительно определён, то x 0 - точка локального минимума функции f(x) ,
- если гессиан отрицательно определён, то x 0 - точка локального максимума функции f(x) ,
- если гессиан не является знакоопределённым (принимает как положительные, так и отрицательные значения) и невырожден (det G(f) ≠ 0), то x 0 - седловая точка функции f(x).
Критерии определенности матрицы (теорема Сильвестра)
Положительная определенность :- все диагональные элементы матрицы должны быть положительны;
- все ведущие главные определители должны быть положительны.
Положительная полуопределенность:
- все диагональные элементы неотрицательны;
- все главные определители неотрицательны.
Квадратная симметрическая матрица порядка n , элементами которой являются частные производные целевой функции второго порядка, называется матрицей Гессе и обозначается:
Для того, чтобы симметрическая матрица была положительно определена, необходимо и достаточно, чтобы все ее диагональные миноры были положительны, т.е.
для матрицы A = (a ij) положительные.
Отрицательная определенность
.
Для того чтобы симметрическая матрица была отрицательно определена, необходимо и достаточно, чтобы имели место неравенства:
(-1) k D k > 0, k
=1,.., n.
Другими словами, для того, чтобы квадратичная форма была отрицательно определённой
, необходимо и достаточно, чтобы знаки угловых миноров матрицы квадратичной формы чередовались, начиная со знака минус. Например, для двух переменных, D 1 < 0, D 2 > 0.
Если гессиан полуопределен, то это может быть и точка перегиба. Нужны дополнительные исследования, которые могут быть проведены по одному из следующих вариантов:
- Понижение порядка . Делается замена переменных. Например, для функции двух переменных это y=x , в итоге получаем функцию одного переменного x . Далее исследуется поведение функции на прямых y=x и y=-x . Если в первом случае функция в исследуемой точке будет иметь минимум, а в другом случае максимум (или наоборот), то исследуемая точка представляет собой седловую точку .
- Нахождение собственных значений гессиана. Если все значения положительные, функция в исследуемой точке имеет минимум, если все отрицательные – имеется максимум.
- Исследование функции f(x) в окрестности точки ε. Переменные x заменяются на x 0 +ε. Далее необходимо доказать, что функция f(x 0 +ε) от одной переменной ε, либо больше нуля (тогда x 0 точка минимума), либо меньше нуля (тогда x 0 точка максимума).
Примечание . Чтобы найти обратный гессиан достаточно найти обратную матрицу .
Пример №1
. Какие из следующих функций являются выпуклыми или вогнутыми: f(x) = 8x 1 2 +4x 1 x 2 +5x 2 2 .
Решение
. 1. Найдем частные производные.
2. Решим систему уравнений.
-4x 1 +4x 2 +2 = 0
4x 1 -6x 2 +6 = 0
Получим:
а) Из первого уравнения выражаем x 1 и подставляем во второе уравнение:
x 2 = x 2 + 1 / 2
-2x 2 +8 = 0
Откуда x 2 = 4
Данные значения x 2 подставляем в выражение для x 1 . Получаем: x 1 = 9 / 2
Количество критических точек равно 1.
M 1 (9 / 2 ;4)
3. Найдем частные производные второго порядка.
4. Вычислим значение этих частных производных второго порядка в критических точках M(x 0 ;y 0).
Вычисляем значения для точки M 1 (9 / 2 ;4)
Строим матрицу Гессе:
D 1 = a 11 < 0, D 2 = 8 > 0
Поскольку диагональные миноры имеют различные знаки, то о выпуклости или вогнутости функции ничего сказать нельзя.
Описывающая поведение функции во втором порядке.
Для функции texvc
, дважды дифференцируемой в точке Невозможно разобрать выражение (Выполняемый файл texvc
не найден; См. math/README - справку по настройке.): x\in \R^n
texvc
не найден; См. math/README - справку по настройке.): H(x) = \sum_{i=1}^n \sum_{j=1}^n a_{ij} x_i x_j
Невозможно разобрать выражение (Выполняемый файл texvc
не найден; См. math/README - справку по настройке.): H(z) = \sum_{i=1}^n \sum_{j=1}^n a_{ij} z_i \overline{z}_j
где Невозможно разобрать выражение (Выполняемый файл texvc
не найден; См. math/README - справку по настройке.): a_{ij}=\partial^2 f/\partial x_i \partial x_j
(или Невозможно разобрать выражение (Выполняемый файл texvc
не найден; См. math/README - справку по настройке.): a_{ij}=\partial^2 f/\partial z_i \partial \overline{z}_j
) и функция Невозможно разобрать выражение (Выполняемый файл texvc
не найден; См. math/README - справку по настройке.): f
задана на Невозможно разобрать выражение (Выполняемый файл texvc
не найден; См. math/README - справку по настройке.): n
-мерном вещественном пространстве Невозможно разобрать выражение (Выполняемый файл texvc
не найден; См. math/README - справку по настройке.): \mathbb{R}^n
(или комплексном пространстве Невозможно разобрать выражение (Выполняемый файл texvc
не найден; См. math/README - справку по настройке.): \mathbb{C}^n
) с координатами Невозможно разобрать выражение (Выполняемый файл texvc
не найден; См. math/README - справку по настройке.): x_1,\ldots,x_n
(или Невозможно разобрать выражение (Выполняемый файл texvc
не найден; См. math/README - справку по настройке.): z_1,\ldots,z_n
). В обоих случаях гессиан - квадратичная форма, заданная на касательном пространстве , не меняющаяся при линейных преобразованиях переменных. Гессианом
также часто называют и определитель матрицы Невозможно разобрать выражение (Выполняемый файл texvc
не найден; См. math/README - справку по настройке.): (a_{ij}),
см. ниже.
Матрица Гессе
Матрица этой квадратичной формы образована вторыми частными производными функции. Если все производные существуют, то
Невозможно разобрать выражение (Выполняемый файлtexvc
не найден; См. math/README - справку по настройке.): H(f) = \begin{bmatrix} \frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1\,\partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_1\,\partial x_n} \\ \\ \frac{\partial^2 f}{\partial x_2\,\partial x_1} & \frac{\partial^2 f}{\partial x_2^2} & \cdots & \frac{\partial^2 f}{\partial x_2\,\partial x_n} \\ \\ \vdots & \vdots & \ddots & \vdots \\ \\ \frac{\partial^2 f}{\partial x_n\,\partial x_1} & \frac{\partial^2 f}{\partial x_n\,\partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_n^2} \end{bmatrix}
Матрицы Гессе используются в задачах оптимизации методом Ньютона . Полное вычисление матрицы Гессе может быть затруднительно, поэтому были разработаны квазиньютоновские алгоритмы, основанные на приближённых выражениях для матрицы Гессе. Наиболее известный из них - алгоритм Бройдена - Флетчера - Гольдфарба - Шанно .
Симметрия матрицы Гессе
Смешанные производные функции f - это элементы матрицы Гессе, стоящие не на главной диагонали. Если они непрерывны, то порядок дифференцирования не важен:
Невозможно разобрать выражение (Выполняемый файлtexvc
не найден; См. math/README - справку по настройке.): \frac {\partial}{\partial x_i} \left(\frac { \partial f }{ \partial x_j} \right) = \frac {\partial}{\partial x_j} \left(\frac { \partial f }{ \partial x_i} \right)
Это можно также записать как
Невозможно разобрать выражение (Выполняемый файлtexvc
не найден; См. math/README - справку по настройке.): f_{x_i x_j} = f_{x_j x_i}, \quad \forall i,j \in \{1,\ldots, n\}.
В этом случае матрица Гессе симметрична .
Критические точки функции
История
См. также
- Критерий Сильвестра - критерий положительной / отрицательной определённости квадратной матрицы
Напишите отзыв о статье "Гессиан функции"
Примечания
Ссылки
- Камынин Л.И. Математический анализ. Т. 1, 2. - 2001.
- Кудрявцев Л.Д «Краткий курс математического анализа. Т.2. Дифференциальное и интегральное исчисления функций многих переменных. Гармонический анализ», ФИЗМАТЛИТ, 2002, - 424 с. - ISBN 5-9221-0185-4. Или любое другое издание.
- Голубицкий М., Гийемин В. Устойчивые отображения и их особенности, - М.: Мир, 1977.
|
Отрывок, характеризующий Гессиан функции
У меня так же, как и у Стеллы, очень болела душа, ибо это был первый раз, когда я наяву увидала, как по собственному желанию в вечность ушли смелые и очень добрые люди... мои друзья. И, казалось, в моём раненом детском сердце навсегда поселилась печаль... Но я также уже понимала, что, как бы я ни страдала, и как бы я этого ни желала, ничто не вернёт их обратно... Стелла была права – нельзя было побеждать такой ценой... Но это был их собственный выбор, и отказать им в этом мы не имели никакого права. А попробовать переубедить – у нас просто не хватило на это времени... Но живым приходилось жить, иначе вся эта невосполнимая жертва оказалась бы напрасной. А вот именно этого-то допускать было никак нельзя.– Что будем с делать с ними? – судорожно вздохнув, показала на сбившихся в кучку малышей, Стелла. – Оставлять здесь никак нельзя.
Я не успела ответить, как прозвучал спокойный и очень грустный голос:
– Я с ними останусь, если вы, конечно, мне позволите.
Мы дружно подскочили и обернулись – это говорил спасённый Марией человек... А мы как-то о нём совершенно забыли.
– Как вы себя чувствуете? – как можно приветливее спросила я.
Я честно не желала зла этому несчастному, спасённому такой дорогой ценой незнакомцу. Это была не его вина, и мы со Стеллой прекрасно это понимали. Но страшная горечь потери пока ещё застилала мне гневом глаза, и, хотя я знала, что по отношению к нему это очень и очень несправедливо, я никак не могла собраться и вытолкнуть из себя эту жуткую боль, оставляя её «на потом», когда буду совсем одна, и, закрывшись «в своём углу», смогу дать волю горьким и очень тяжёлым слезам... А ещё я очень боялась, что незнакомец как-то почувствует моё «неприятие», и таким образом его освобождение потеряет ту важность и красоту победы над злом, во имя которой погибли мои друзья... Поэтому я постаралась из последних сил собраться и, как можно искреннее улыбаясь, ждала ответ на свой вопрос.
Мужчина печально осматривался вокруг, видимо не совсем понимая, что же здесь такое произошло, и что вообще происходило всё это время с ним самим...
– Ну и где же я?.. – охрипшим от волнения голосом, тихо спросил он. – Что это за место, такое ужасное? Это не похоже на то, что я помню... Кто вы?
– Мы – друзья. И вы совершенно правы – это не очень приятное место... А чуть дальше места вообще до дикости страшные. Здесь жил наш друг, он погиб...
– Мне жаль, малые. Как погиб ваш друг?
– Вы убили его, – грустно прошептала Стелла.
Я застыла, уставившись на свою подружку... Это говорила не та, хорошо знакомая мне, «солнечная» Стелла, которая «в обязательном порядке» всех жалела, и никогда бы не заставила никого страдать!.. Но, видимо, боль потери, как и у меня, вызвала у неё неосознанное чувство злости «на всех и вся», и малышка пока ещё не в состоянии была это в себе контролировать.
– Я?!.. – воскликнул незнакомец. – Но это не может быть правдой! Я никогда никого не убивал!..
Мы чувствовали, что он говорит чистую правду, и знали, что не имеем права перекладывать на него чужую вину. Поэтому, даже не сговариваясь, мы дружно заулыбались и тут же постарались быстренько объяснить, что же здесь такое по-настоящему произошло.
Человек долгое время находился в состоянии абсолютного шока... Видимо, всё услышанное звучало для него дико, и уж никак не совпадало с тем, каким он по-настоящему был, и как относился к такому жуткому, не помещающемуся в нормальные человеческие рамки, злу...
– Как же я смогу возместить всё это?!.. Ведь никак не смогу? И как же с этим жить?!.. – он схватился за голову... – Скольких я убил, скажите!.. Кто-нибудь может это сказать? А ваши друзья? Почему они пошли на такое? Ну, почему?!!!..
– Чтобы вы смогли жить, как должны... Как хотели... А не так, как хотелось кому-то... Чтобы убить Зло, которое убивало других. Потому, наверное... – грустно сказала Стелла.