Hessiaan convexiteitscriterium

Optimalisatie: Extreme punten

Hessiaan convexiteitscriterium

De Hessiaan geeft een uitstekende voldoende voorwaarde voor convexiteit van een bivariate functie. Alvorens daarop in te gaan, geven we een algemeen resultaat over symmetrische #(2\times2)#-matrices. Bedenk dat een #(2\times2)#-matrix symmetrisch is als de twee niet-diagonale elementen gelijk zijn.

Een punt #u# in het vlak zal gezien worden als een rijvector, met #u^{\top}# als de corresponderende kolomvector.

Positieve semidefiniete 2 bij 2 matrices

De volgende drie uitspraken aangaande een symmetrische #2\times2#-matrix #H=\matrix{h_{11}&h_{12}\\ h_{12} &h_{22}}# zijn equivalent:

Voor elke kolomvector #{u}# van lengte twee #{u} H\,{u}^{\top}\ge0#.
#h_{11}\ge0#, #h_{22}\ge0# en #\det(H) =h_{11}\cdot h_{22}-h_{12}^2\ge0#.
Voor alle getallen #x#, #y#, geldt #h_{11}x^2+2h_{12}x\cdot y + h_{22} y^2\ge0 #.

Een symmetrische matrix met deze eigenschappen heet positief semidefiniet.

De ongelijkheid in de eerste uitspraak is dan en slechts dan strikt voor alle niet-nul vectoren #{u}# als alle andere ongelijkheden in de uitspraken 2 en 3 strikt zijn. In dit geval heet de matrix #H# positief definitief.

We bewijzen eerst de equivalentie van de uitspraken 1 en 2.

Beide uitspraken gelden als #h_{11}=h_{12} =h_{22} = 0#. Daarom nemen we aan dat dit niet het geval is. Stel #h_{11}=h_{22} = 0#, zodat #h_{12}\ne0#. Dan is uitspraak 1 niet waar, aangezien de kolomvector #\cv{h_{12} \\ -1}# een tegenvoorbeeld is; evenmin is uitspraak 2 waar, want #\det(H) = h_{11}\cdot h_{22}-h_{12}^2 = -h_{12}^2\lt0#.

Daarom kunnen we aannemen dat ten minste één van #h_{11}#, #h_{22}# niet nul is. Omdat de uitspraken dezelfde blijven als we de rollen van de twee coördinaten #x# en #y# verwisselen, kunnen en zullen we aannemen dat #h_{11} \ne0#.

We maken gebruik van de volgende identiteit voor alle #x# en #y#:

\[\matrix{x& y} H\,\cv{x\\ y} = \frac{(h_{11}x+h_{12}y)^2+(h_{11}h_{22}-h_{12}^2)\cdot y^2}{h_{11}}\]

Ze kan worden gecontroleerd door beide zijden te herschrijven tot #h_{11}x^2+2h_{12}x\cdot y + h_{22} y^2#.

2 impliceert 1: stel eerst dat de tweede uitspraak geldt. Dan zijn #h_{11}\gt0# en #h_{11}h_{22}-h_{12}^2\ge0# waar, dus, voor willekeurige getallen #x# en #y#:

\[ \matrix{x& y} H\,\cv{x\\ y} =\frac{(h_{11}x+h_{12}y)^2+(h_{11}h_{22}-h_{12}^2)\cdot y^2}{h_{11}}\ge0\]

wat de eerste uitspraak bewijst.

1 impliceert 2: Stel, omgekeerd, dat de eerste uitspraak geldt. Dan vinden we, door #\rv{x,y} = \rv{1,0}# in te vullen, dat

\[\begin{array}{rcl}0&\le&\matrix{1 & 0} H\,\cv{1\\ 0} \\ &=& \dfrac{ (h_{11})^2+(h_{11}h_{22}-h_{12}^2)\cdot 0^2}{h_{11}}\\ &=& h_{11} \end{array}\]

zodat #h_{11}\gt0# (want #h_{11}\ne0#). Invullen van #\rv{x,y} = \rv{-h_{12},h_{11}}# geeft

\[\begin{array}{rcl}0&\le&\matrix{-h_{12}& h_{11}}H\,\cv{-h_{12}\\ h_{11}} \\ &=& \dfrac{ (-h_{11}h_{12}+h_{12}h_{11})^2+(h_{11}h_{22}-h_{12}^2)\cdot h_{11}^2}{h_{11}}\\ &=& \dfrac{h_{11}h_{22}-h_{12}^2}{h_{11}} \end{array}\]

waaruit blijkt dat #h_{11}h_{22}-h_{12}^2\ge0# omdat #h_{11}\gt0#.

Dit bewijst twee van de drie ongelijkheden die moeten worden bewezen. De resterende ongelijkheid, #h_{22}\ge0#, volgt uit de twee andere ongelijkheden: #h_{22} \ge h_{22}-\frac{h_{12}^2}{h_{11}} = \frac{h_{11}h_{22}-h_{12}^2}{h_{11}}\ge0#.

Nu we weten dat elke uitspraak de andere impliceert, concluderen we dat de uitspraken 1 en 2 equivalent. Omdat van de kwadratische functie in de uitspraak 3 al werd vastgesteld dat ze hetzelfde is als #{u}H\,{u}^{\top} # met #{u} = \matrix{x & y}#, volgt de equivalentie van uitspraken 3 en 1 onmiddellijk. Hiermee eindigt het bewijs van de equivalentie van de drie uitspraken.

Door bovenstaande bewijs nog eens na te lopen en daarbij de ongelijkheden #\le# en #\ge# te vervangen door de strikte ongelijkheden #\lt#, respectievelijk #\gt#, vinden we een bewijs van de laatste uitspraak van de stelling.

Om een convexiteitscriterium voor #f# in termen van de tweede partiële afgeleiden op te stellen, gebruiken we de Hessiaan matrix \[ H_f = \matrix{ f_{xx} &f_{xy}\\ f_{yx}&f_{yy}}\] In feite is #H_f# een bivariate functie, die aan #v=\rv{v_1,v_2}# een matrix toevoegt. Voor een punt #v=\rv{v_1,v_2}# van #\mathbb{R}^2#, zullen we \[\left.H_f\right|_{v} = \matrix{ f_{xx}(v) &f_{xy}(v)\\ f_{yx}(v)&f_{yy}(v)}\] schrijven om die matrix in #v# aan te geven.

Aangezien de rand van een domein globale minima van een functie kan hebben die geen stationair punt zijn, beperken we ons tot domeinen die bestaan uit het inwendige van het domein en punten op de rand van het inwendige. Het inwendige van een domein bestaat uit alle punten die het middelpunt zijn van een cirkelschijf die geheel binnen het domein valt. Als alle punten van het domain inwendig zijn, dan wordt het domein ook wel open genoemd. Maar we laten toe dat domeinen ook punten op de rand van het inwendige hebben; dat zijn punten #p# buiten het inwendige met de eigenschap dat elke cirkelschijf met #p# als middelpunt punten in het inwendige van het domein heeft. Een typisch voorbeeld van een open domein is het positieve kwadrant, dat bestaat uit alle punten #\rv{x,y}# met #x\gt0# en #y\gt0#. Als we alle punten op de rand van dit domein toevoegen, krijgen we het domein dat bestaat uit alle punten #\rv{x,y}# met #x\ge0# en #y\ge0#.

Hessiaan convexiteitscriteriumStel dat #f# een functie op een convex domein #S# is waarvan alle eerste en tweede partiële afgeleiden bestaan en continu zijn. Dan is #f# dan en slechts dan convex op #S# als de Hessiaan matrix \(\left.H_f\right|_{v}\) van #f# in elk punt #v# van #S# positief semidefiniet is.

Neem aan dat de Hessiaan matrix van #f# positief semidefiniet is in elk punt van #S#. Laat #u# en #v# punten van #S# zijn. We moeten bewijzen dat, voor \(0\le t\le 1\), geldt \[f(t \cdot u+(1-t)\cdot v) \le t\cdot f(u)+ (1-t)\cdot f(v)\]

Schrijf #g(t) =f(t \cdot u+(1-t)\cdot v)#. In termen van de univariate functie #g# moeten we voor elke #t# met #\le t\le 1# laten zien:

\[g(t)\le t\cdot g(1)+(1-t)\cdot g(0)\]

De kettingregel voor partiële differentiatie geeft

\[\begin{array}{rcl} g'(t) &=& ({u}-{v})\boldsymbol{\cdot} \cv{f_x(t{u}+(1-t){v})\\ f_y({u}+(1-t){v})}\\ g''(t) &=& ({u}-{v}) \left.{H_ f}\right|_{t{u}+(1-t){v}} ({u}-{v})^{\top}\\ \end{array}\]

Aangezien de Hessiaan matrix positief semidefinitief is in het punt #t{u}+(1-t){v}#, geldt #g''(t)\ge0#. We gebruiken nu de Taylor schatting waarin staat dat er voor elke #t\in\ivcc{0}{1}#, een getal #z\in\ivcc{0}{t}# bestaat, zodanig dat

\[g(t) = g(0)+g'(0)\cdot t +\frac{1}{2}g''(z)\cdot t^2\]

Na de herschikking van termen en gebruik van #g''(u)\ge0#, leidt dit tot

\[\begin{array}{rcl} g(0)&\ge& g(t)+g'(t)(-t)\\ g(1)&\ge& g(t)+g'(t)(1-t)\end{array}\]

De combinatie van deze twee ongelijkheden levert

\[\begin{array}{rcl}g(t)&=& (1-t)g(t)+t g(t)\\ &\le& (1-t)g(0)-(1-t)(-t) g'(t)+t g(1)-t(1-t)g'(t)\\ &=& (1-t)g(0)+t g(1)\end{array}\]

Dit is de vereiste ongelijkheid om aan te tonen dat #f# convex is op #S#.

Voor het bewijs van het omgekeerde nemen we aan dat #f# convex is op #S# en laten we #u# een punt van #S# zijn waar de Hessiaan matrix #\left.H_f\right|_u# niet positief semidefiniet is. Dan is er nog een punt #v# van #S# zodanig dat #({u}-{v})\left.H_f\right|_u({u}-{v})^{\top}\lt0#. Net als voorheen, is de linkerkant gelijk aan #g''(1)# waarbij #g(t) =f(t \cdot u+(1-t)\cdot v)#, zodat #g''(1) \lt0#. Dit impliceert dat #g# strikt concaaf is (dat wil zeggen: #-g# strikt convex is) in een kleine omgeving van #1# in #\ivcc{0}{1}#, zodat de beperking van #f# tot het lijnsegment tussen #u# en #v# niet convex is. Dit spreekt tegen dat #f# convex is op #S#. Hieruit blijkt dat de Hessiaan matrix positief semidefiniet is in elk punt van #S#.

Het univariate analogon van dit resultaat zegt dat een functie #f(x)# van de enkele variabele #x# op een interval waarvan de eerste twee afgeleiden bestaan en continu zijn, dan en slechts dan convex is als de tweede afgeleide niet-negatief is op het hele interval.

De tweede orde afgeleide test voor convexiteit is een speciaal geval van deze stelling.

Samen met de stelling van plaatselijke globale extremen toont dit resultaat dat als de Hessiaan matrix van #f# positief semidefiniet is op een open convex domein #S# en als #v# een lokaal minimum van #f# op #S# is, #v# dan zelfs een globaal minimum is.

Het testen of de Hessiaan matrix van #f# semi-definitief is is mogelijk met toepassing van uitspraak 2 en lijkt op de partiële afgeleiden te testen voor een lokaal extremum of zadelpunt op een open schijf rond #v#. In feite krijgen we, met behulp van de strikte versie van bovenstaande uitspraak i over Positieve semidefiniete 2 bij 2 matrices, een bewijs van het eerste deel van de Partiële afgeleidentest voor een lokaal extremum of een zadel punt .

De eis dat de Hessiaan matrix positief semidefiniet is op het domein van #f#, is goed na te gaan aan de hand van bovenstaande stelling Positieve semidefiniete 2 bij 2 matrices. Als we deze resultaten tezamen nemen met de stelling Van stationaire punten naar globale extrema, dan krijgen we:

Globale minima van convexe functies

Laat #f(x,y)# een tweemaal differentieerbare bivariate functie zijn met continue tweede-orde afgeleiden op een open co‌nvex domein #S# in #\mathbb{R}^2#.

Als voor alle #\rv{x,y}# in #S#, \[f_{xx}(x,y)\leq 0, f_{yy}(x,y)\leq 0, \text{ en } f_{xx}(x,y)\cdot f_{yy}(x,y)-(f_{xy}(x,y))^2\geq 0\] dan is elk stationair punt van #f# een globaal maximum.
Als voor alle #\rv{x,y}# in #S#, \[f_{xx}(x,y)\geq 0, f_{yy}(x,y)\geq 0, \text{ and } f_{xx}(x,y)\cdot f_{yy}(x,y)-(f_{xy}(x,y))^2\geq 0\]dan is elk stationair punt van #f# een globaal minimum.

Uit bovenstaande resultaten volgt dat #f# concaaf is in het eerste geval en con‌vex in het tweede geval. Daarom is aan de voorwaarden van stelling Van stationaire punten naar globale extrema voldaan en kunnen we concluderen dat stationaire punten van #f# extrema zijn.

Voorbeelden zullen spoedig volgen.