Résumé d`Optimisation - Des Mathématiques à Nantes

Transcription

Résumé d`Optimisation - Des Mathématiques à Nantes
Résumé d’Optimisation
MI5 Master Pro 1ère année
Jean-Pol Guillement
Département de Mathématiques
Nantes 2010/2011
2
Table des matières
Introduction
5
1 Rappels
1.1 Notations . . . . . . . . . . . .
1.2 Formules de Taylor . . . . . . .
1.3 Condition d’ordre 1 . . . . . . .
1.3.1 Équation d’Euler . . . .
1.4 Conditions d’ordre 2 . . . . . .
1.4.1 Condition de Legendre .
1.4.2 Condition suffisante . .
1.5 Extrema liés, multiplicateurs de
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
Lagrange
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7
7
7
7
7
7
7
8
8
2 Programmation linéaire
2.1 Généralités . . . . . . . . . . .
2.2 Problème sous forme standard .
2.3 Caractérisation des sommets . .
2.4 Méthode du simplexe . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9
9
9
9
9
3 Programmation en dimension 1
3.1 Généralités . . . . . . . . . . .
3.2 Méthode de Newton . . . . . .
3.3 Interpolation quadratique . . .
3.4 Méthode par découpage . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
11
11
11
11
11
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
carrés
. . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
13
13
13
13
14
14
14
14
14
14
15
15
15
. . . . . .
. . . . . .
gradient)
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
17
17
17
17
18
18
18
19
19
4 Prise en compte de la convexité
4.1 Condition nécessaire de minimum sur un convexe . . .
4.2 Caractérisation des fonctions convexes dérivables . . .
4.3 Minimum des fonctions convexes sur un convexe . . .
4.4 Fonctions coercives . . . . . . . . . . . . . . . . . . . .
4.5 Notation : problème (P ) . . . . . . . . . . . . . . . . .
4.6 Existence de minimum . . . . . . . . . . . . . . . . . .
4.7 Fonctionnelles elliptiques . . . . . . . . . . . . . . . . .
4.8 Caractérisation des fonctionnelles elliptiques . . . . . .
4.9 Minimum des fonctions elliptiques . . . . . . . . . . .
4.10 Fonctionnelles quadratiques . . . . . . . . . . . . . . .
4.11 Résolution des systèmes linéaires au sens des moindres
4.12 Projection sur un convexe fermé non vide . . . . . . .
5 Optimisation sans contrainte
5.1 Méthodes de descente . . . . . . . . . . . . . . . . . . . .
5.1.1 Méthode de la relaxation . . . . . . . . . . . . . .
5.1.2 Méthode de la plus profonde descente (méthode du
5.2 Méthode de Newton . . . . . . . . . . . . . . . . . . . . .
5.3 Méthode de la métrique variable . . . . . . . . . . . . . .
5.4 Méthode du gradient conjugué . . . . . . . . . . . . . . .
5.4.1 Cas des fonctionnelles quadratiques . . . . . . . . .
5.4.2 Cas des fonctionnelles non quadratiques . . . . . .
4
TABLE DES MATIÈRES
6 Optimisation avec contraintes
6.1 Relations de Kuhn-Tucker . . . . . . . . . . . . . . . . . . . . . . .
6.1.1 Cas des contraintes non convexes . . . . . . . . . . . . . . .
6.1.2 Cas des contraintes convexes . . . . . . . . . . . . . . . . .
6.2 Interprétation des relations de Kuhn-Tucker . . . . . . . . . . . . .
6.3 Point-selles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.4 Lagrangien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.5 Point-selle du Lagrangien et solution du problème (P ) . . . . . . .
6.6 Problème dual du problème (P ) . . . . . . . . . . . . . . . . . . . .
6.7 Méthode d’Uzawa . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.7.1 Démarche . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.7.2 Calcul de λk+1 . . . . . . . . . . . . . . . . . . . . . . . . .
6.7.3 Calcul de ∇Gλk . . . . . . . . . . . . . . . . . . . . . . . .
6.7.4 Condition suffisante de convergence de la méthode d’Uzawa
Bibliographie
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
21
21
21
21
22
23
23
23
23
23
24
24
24
24
24
Introduction
Ceci un résumé des principaux résultats du cours d’optimisation. Il est autorisé aux contrôles.
6
Introduction
Chapitre 1
Rappels
1.1
Notations
Si f est une fonction régulière de E = Rn → R, on note sa dérivée en x0 par fx0 0 ou f 0 (x0 )(∈ L(E, R)),
sa dérivée seconde en x0 par fx000 ou f 00 (x0 )(∈ B(E, R)), son gradient en x0 par ∇fx0 ou ∇f (x0 )(∈ E),
sa matrice hessienne par ∇2 fx0 . La matrice Hessienne peut être vue comme une matrice symétrique
n × n, comme un opérateur linéaire de E dans E ou comme une forme bilinéaire symétrique sur E.
1.2
Formules de Taylor
([3, p.151-146])
Les formules de Taylor diffèrent selon l’ordre, l’écriture du reste, l’utilisation des dérivées ou du
gradient et de la matrice Hessienne. En voici deux exemples :
Si f est deux fois dérivable on a :
1
f (x0 + h) = f (x0 ) + f 0 (x0 )h + f ”(x0 )(h, h) + ε(h)khk2 .
2
Si f est de classe C 2 on a :
1
f (x0 + h) = f (x0 ) + ht .∇f x0 + ht .∇2 fx0 .h +
2
1.3
1.3.1
Z
1
(1 − t)ht .∇2 f (x0 + th).h dt
0
Condition d’ordre 1
Équation d’Euler
([3, p.146])
Soit Ω un ouvert de E et soit f : Ω → R. Si f admet un extremum local en x∗ ∈ Ω et si f est dérivable
en x∗ alors
(équation d’Euler)
f 0 (x∗ ) = 0
1.4
Conditions d’ordre 2
1.4.1
Condition de Legendre
([3, p.152])
Soit Ω un ouvert de E et soit f : Ω → R. Si f admet un minimum local en x∗ ∈ Ω et si f est deux
fois dérivable en x∗ alors
(condition de Legendre)
f ”(x∗ ) est une forme bilinéaire symétrique positive.
8
Rappels
1.4.2
Condition suffisante
([3, p.152])
Soit Ω un ouvert de E et soit f = Ω → R. Si f est deux fois dérivable sur Ω, si f 0 (x∗ ) = 0 et si f ”(x)
est positive dans un voisinage de x∗ ∈ Ω, alors f a un minimum local en x∗ .
1.5
Extrema liés, multiplicateurs de Lagrange
([3, p.148])
Soit Ω un ouvert de E, soit f : Ω → R, soient ϕi : Ω → R, i = 1, .., m.
On suppose que les ϕi ∈ C 1 (Ω).
Soit x∗ ∈ K = {x ∈ Ω, ϕi (x) = 0, i = 1...m} tel que les dérivées ϕ0i (x∗ ) soient linéairement
indépendantes (dans L(E, R)) et tel que f soit dérivable en x∗ .
Alors si f admet un extremum local relativement à K en x∗ , il existe λ1 , ..., λm uniques (multiplicateurs
de Lagrange) tels que
∇f (x∗ ) + λ1 ∇ϕ1 (x∗ ) + ... + λm ∇ϕm (x∗ )
=0
Chapitre 2
Programmation linéaire
Pas enseigné cette année. (Voir [3], [5], [7], [9]).
2.1
Généralités
2.2
Problème sous forme standard
2.3
Caractérisation des sommets
2.4
Méthode du simplexe
10
Programmation linéaire
Chapitre 3
Programmation en dimension 1
3.1
Généralités
3.2
Méthode de Newton
3.3
Interpolation quadratique
3.4
Méthode par découpage
12
Programmation en dimension 1
Chapitre 4
Prise en compte de la convexité
4.1
Condition nécessaire de minimum sur un convexe
([3, p.153])
Soit K un convexe dans Ω ouvert de E. Soit f : Ω → R.
Si f admet un minimum relativement à K en x∗ , et si f est dérivable en x∗ alors
(Inéquation d’Euler)
f 0 (x∗ )(x − x∗ ) ≥ 0 ∀x ∈ K
4.2
Caractérisation des fonctions convexes dérivables
([3, p.154-155]))
Soit K un convexe dans Ω ouvert de E. Soit f : Ω → R dérivable sur Ω.
1. f est convexe sur K si et seulement si
f (x) ≥ f (x0 ) + f 0 (x0 )(x − x0 ) ∀x, x0 ∈ K
2. f est strictement convexe sur K si et seulement si
f (x) > f (x0 ) + f 0 (x0 )(x − x0 ) ∀x, x0 ∈ K, x 6= x0
3. On suppose que f est deux fois dérivable dans Ω. Alors f est convexe sur K si et seulement si
f ”(x)(y − x, y − x) ≥ 0, ∀x, y ∈ K
4. On suppose que f est deux fois dérivable dans Ω. Si
f ”(x)(y − x, y − x) > 0, ∀x, y ∈ K, x 6= y
alors f est strictement convexe sur K.
4.3
Minimum des fonctions convexes sur un convexe
([3, p.156-175])
Soit K un convexe dans Ω ouvert de E, soit f : Ω → R convexe sur K.
1. Si f admet un minimum local en x∗ ∈ K, relativement à K, ce minimum est un minimum global.
2. Si f est strictement convexe sur K, f admet au plus un minimum local relativement à K (qui
est aussi un minimum strict et global)
3. Si f est dérivable en x∗ ∈ K, alors f admet un minimum par rapport à K en x∗ si et seulement
si
(Inéquation d’Euler)
f 0 (x∗ )(x − x∗ ) ≥ 0 ∀x ∈ K
ou, en terme de gradient
(−∇fx∗ , x − x∗ ) ≤ 0, ∀x ∈ K.
14
Prise en compte de la convexité
4. Si K est un sous espace vectoriel l’inéquation d’Euler est équivalente à
f 0 (x∗ )(x) = 0, ∀x ∈ K.
ou, en terme de gradient
∇fx∗
⊥ K
5. Si K est ouvert, l’inéquation d’Euler est équivalente à la condition d’Euler
f 0 (x∗ ) = 0
4.4
Fonctions coercives
([3, p.175])
Une fonction f : E → R, est dite coercive si
4.5
lim f (x) = +∞
kxk→∞
Notation : problème (P )
Dans la suite, quand on parle du problème (P ), il s’agit de la recherche de x∗ tel que
(
f (x∗ )
= inf f (x)
x∈K⊂E
(P )
∗
x ∈K
4.6
Existence de minimum
([3, p. 175])
1. Si K est un fermé borné non vide de E, si f est continue alors le problème (P ) a au moins une
solution.
2. Si K est fermé non borné de E, si f est continue et coercive, alors le problème (P ) a au moins
une solution.
3. Si K est un convexe fermé non vide de E, si f est continue, coercive, strictement convexe sur
K, alors le problème (P ) a une solution et une seule.
4.7
Fonctionnelles elliptiques
([3, p. 183])
Une fonction f : E → R, de classe C 1 est dite elliptique s’il existe α > 0 tel que
(∇fx − ∇fy , x − y) ≥ αkx − yk2 ∀x, y ∈ E
4.8
Caractérisation des fonctionnelles elliptiques
Une fonction f : E → R, deux fois dérivable, est elliptique si et seulement si il existe α > 0 tel que
(∇2 fx0 x, x) ≥ αkxk2 , ∀x, x0 ∈ E
4.9
Minimum des fonctions elliptiques
Soit K est un convexe fermé non vide de E et f : E → R elliptique.
1. f est strictement convexe, coercive, et vérifie
f (x) − f (x0 ) ≥ (∇fx 0 , x − x0 ) +
2. Le problème (P ) a une solution et une seule.
α
kx − x0 k2 ∀x, x0 ∈ E
2
4.10 Fonctionnelles quadratiques
15
3. x∗ ∈ K est solution de (P ) si et seulement si
(Inéquation d’Euler)
(−∇fx∗ , x − x∗ ) ≤ 0, ∀x ∈ K.
4. On suppose que K = E. Alors x∗ est solution de (P ) si et seulement si
∇fx∗ = 0
4.10
Fonctionnelles quadratiques
Ce sont les fonctions de la forme
f (x) =
1
(Ax, x) − (b, x) + c
2
A étant un matrice symétrique (opérateur de E → E), b ∈ E, c ∈ R.
Elles sont de classe C ∞ , ∇f = Ax − b, ∇2 f = A.
Elles sont elliptiques si et seulement si la plus petite valeur propre de A est > 0 et dans ce cas, si
K = E, le problème (P ) a une solution et une seule, qui est aussi la solution de Ax = b.
4.11
Résolution des systèmes linéaires au sens des moindres
carrés
M est une matrice à m lignes et n colonnes, v ∈ Rm .
Il s’agit de trouver x∗ ∈ E tel que kM x − vk2 soit minimal, ou encore de résoudre le problème
(P ) f (x∗ ) = inf f (x)
x∈E
avec f (x) = 21 kM x − vk2 − 12 kvk2 .
f se met sous la forme d’une fonctionnelle quadratique avec A = M t M, et b = M t v.
Le problème (P ) a au moins une solution. Ses solutions sont caractérisées par
(Équations normales)
M t M x∗ = M t v
Si le rang de M est n, le problème (P ) a une solution et une seule.
La solution peut se calculer par résolution du système triangulaire
Rx = P Qt v
où Q et R sont les matrices de la décomposition QR de la matrice M , M = QR, et P la projection
de Rm sur Rn × {0}m−n .
4.12
Projection sur un convexe fermé non vide
Soit K un convexe fermé non vide de E. Soit x ∈ E.
Il existe Px ∈ K, unique, tel que d(x, K) = kx − Px k. La projection Px est caractérisée par
(x − Px , y − Px ) ≤ 0, ∀y ∈ K.
L’application x → Px est contractante
kPx − Py k ≤ kx − yk
16
Prise en compte de la convexité
Chapitre 5
Optimisation sans contrainte
Il s’agit de résoudre numériquement le problème (P )
(
trouver x∗ ∈ E = Rn
(P ) f (x∗ ) = inf f (x)
x∈E
Les algorithmes opèrent généralement pour des fonctionnelles assez générales, mais la convergence
(théorique) n’est assurée que pour des fonctionnelles de classe C 1 ou C 2 , convexes ou elliptiques.
Les solutions de (P ) étant aussi solution de ∇fx∗ = 0, les algorithmes peuvent se voir comme des
algorithmes de résolution de cette équation.
5.1
Méthodes de descente
Elles sont itératives. Pour passer de uk à uk+1 , on se donne une direction de descente dk et on minimise
f le long de cette direction, c’est-à-dire que l’on cherche ρk tel que f (uk + ρk dk ) = inf f (uk + ρdk ). A
ρ∈R
défaut d’un tel ρk on peut se contenter d’avoir f (uk + ρk dk ) < f (uk ).
5.1.1
Méthode de la relaxation
([3, p. 185])
On descend de façon cyclique le long de chacun des axes de coordonnées.
La convergence est assurée si f est elliptique.
Note
1
Si f est une fonctionnelle quadratique f (x) = (Ax, x) − (b, x) dont la matrice A est symétrique
2
définie positive, la méthode de la relaxation converge et ses itérations sont identiques à celles de la
méthode de Gauss-Seidel pour la résolution de l’équation Ax = b.
5.1.2
Méthode de la plus profonde descente (méthode du gradient)
La direction choisie est −∇fuk qui correspond à la direction de plus grande décroissance de f.
peut en effet écrire :
f (x) − f (x0 ) = (∇fx0 , x − x0 ) + ε(x)kx − x0 k
On
et remarquer qu’à kx − x0 k constant, (∇fx0 , x − x0 ) est minimal pour x − x0 = −t ∇fx0 , t > 0.
Description
On part de u0 quelconque. Connaissant uk , on calcule ∇fuk et uk+1 = uk − ρk ∇fuk avec ρk solution
de f (uk − ρk ∇fuk ) = inf (uk − ρ∇fuk ). En principe on trouve ρk > 0.
ρ
18
Optimisation sans contrainte
Condition suffisante de convergence
([3, p. 188])
Si f : E → R est elliptique, la méthode de la plus profonde descente est convergente.
Remarque
Cette méthode ne peut pas être optimale car le cheminement des uk est celui d’une ligne brisée faisant
des angles droits. En effet, deux gradients consécutifs sont orthogonaux car uk+1 correspondant au
minimum de f (uk − ρ∇fuk ), la dérivée de f dans cette direction s’annule en uk+1 . Et donc le gradient
de f en uk+1 lui est orthogonal.
5.2
Méthode de Newton
Si f est une fonction régulière dont on sait calculer le gradient et la matrice hessienne, on peut tirer
partie du fait qu’en un point uk , f est localement voisine de son développement de Taylor quadratique,
c’est-à-dire que
1
f (uk + d) ' f (uk ) + dt .∇fuk + dt .∇2 fuk .d
2
Si en plus, ∇2 fuk est définie positive, l’approximation quadratique a un minimum qui vérifie
∇2 fuk dk = −∇fuk
Ceci permet de calculer la direction de descente dk et de définir l’itération par
uk+1 = uk + dk
On démontre, comme pour la méthode de Newton pour la résolution des équations ϕ(x) = 0, que si
le point de départ u0 est assez voisin de x∗ , et si ∇2 f est définie positive, alors la méthode converge
vers x∗ , et ceci de façon quadratique.
Si ∇2 f n’est pas définie positive, cette méthode supporte certains aménagements (méthode de Newton modifiée,
[5, p. 106]).
Quand le calcul de ∇2 f ne peut être fait, on peut aussi remplacer ∇2 fuk dans l’approximation de
Taylor par une matrice Hk qui se calcule itérativement (méthode de quasi Newton , [5, p. 116])
Remarque
Cette méthode est pénalisante pour les grands systèmes du fait de la nécessité de calculer ∇2 f , de la
stocker, et de résoudre le système
∇2 fuk dk = −∇fuk
5.3
Méthode de la métrique variable
- On peut facilement observer que si f (x) = 12 kxk2 −(b, x), la méthode de la plus profonde descente
converge en une seule itération.
1
- Qu’il en est de même si f est la fonctionnelle quadratique f (x) = (Ax, x)−(b, x) ; à la condition
2
de remplacer la métrique kxk2 par k|xk|2 = ((x, x)) = (Ax, x).
- L’idée de la métrique variable, appliquée à une fonctionnelle non nécessairement quadratique,
consiste lors de chaque itération de la plus profonde descente à choisir une métrique définie par
la matrice hessienne de la fonctionnelle, permettant une accélération de la convergence. Mais il
y a un prix à payer. Le calcul du gradient nécessite la connaissance d’une base orthogonale ; on
peut l’obtenir par exemple par orthogonalisation de Grahm-Schmidt.
La méthode du gradient conjugué reprend cette idée.
5.4
Méthode du gradient conjugué
([3, p. 194][5, p. 144])
Cette méthode présente, sur la méthode de Newton, l’avantage de ne pas nécessiter le calcul de ∇2 f ,
et sur la méthode de la plus profonde descente, celui de définir des directions de descente successives
cohérentes.
5.4 Méthode du gradient conjugué
5.4.1
f (x) =
19
Cas des fonctionnelles quadratiques
1
(Ax, x) − (b, x), A étant symétrique définie positive.
2
Description générale
On part de u0 quelconque. On suppose qu’à l’étape k, on a calculé u1 , . . . , uk tels que ∇ful 6= 0,
0, . . . , k. (sinon on a trouvé la solution de ∇fx∗ = Ax∗ − b = 0). On pose
l=
Gk = [∇fu0 , ..., ∇fuk ].
On définit uk+1 comme le minimum de la restriction de f à uk + Gk . Ce uk+1 existe, est unique. Il
se trouve qu’il correspond au minimum de f dans une direction calculable dk . Les directions dk sont
conjuguées par rapport à la matrice A ((Adk , dl ) = 0 ). Tout se calcule par des formules itératives
économiques, sans résolution de système linéaire. A chaque étape, Gk s’accroı̂t d’une dimension. Au
bout d’au plus n itérations, la solution est théoriquement trouvée. Numériquement, avec les erreurs
d’arrondi, cela peut être différent.
Formules d’itérations
On part de u0 quelconque. On pose d0 = ∇f (u0 ).
Si d0 = 0, c’est terminé, on a x∗ = u0 .
Sinon on pose
(∇fu0 , d0 )
ρ0 =
(Ad0 , d0 )
et
u1 = u0 − ρ0 d0 .
De façon générale, si u1 , d1 , . . . , uk , dk sont calculés, alors ou bien ∇f (uk ) = 0, et alors c’est terminé,
x∗ = uk , ou alors on pose :

k∇f k2


= ∇fuk + k∇fuuk k2 dk−1
 dk
k−1
ρk



uk+1
5.4.2
(∇f
,d )
= (Adukk,dkk)
= uk − ρk dk
Cas des fonctionnelles non quadratiques
([3, p. 200][5, p. 147])
Le minimum de f sur le sous-espace uk + Gk ne peut plus être donné par une formule simple. On
calcule dk comme précédemment ou selon une variante (Polak-Ribière)
dk = ∇fuk +
(∇fuk , ∇fuk − ∇fuk−1 )
dk−1
k∇fuk−1 k2
et on obtient ρk en optimisant numériquement
ρ → f (uk − ρdk )
La méthode ne converge plus en un nombre fini d’itérations.
20
Optimisation sans contrainte
Chapitre 6
Optimisation avec contraintes
La difficulté du problème dépend de la nature des contraintes. On peut distinguer :
.
.
.
.
.
les
les
les
les
les
variables bornées, αi ≤ xi ≤ βi
contraintes affines égalités, Cx = b
contraintes affines inégalités, Cx ≤ b
contraintes convexes , ϕi (x) = 0, ϕi (x) ≤ 0, ϕi convexes
contraintes générales, ϕi (x) = 0, ϕj (x) ≤ 0
Dans tous les cas on se ramène à la résolution de problèmes sans contrainte. Mais la réduction est
plus ou moins aisée.
Regardons les cas des contraintes inégalités.
6.1
Relations de Kuhn-Tucker
Les relations de Kuhn-Tucker expriment que si la ou les solutions d’un problème avec contraintes
ϕi (x) ≤ 0 est à l’intérieur du domaine des points admissibles, le gradient de f s’annule comme c’est
le cas pour les problèmes sans contrainte, et que si la ou les solutions sont sur le bord, il y a, comme
pour le cas des contraintes égalités, colinéarité du gradient de f et des gradients des ϕi .
6.1.1
Cas des contraintes non convexes
([3, p. 216])
Soit f : Ω ⊂ E = Rn → R, dérivable en x∗ ∈ K avec
Ω ouvert,
K = {x ∈ Ω, ϕi (x) ≤ 0, i = 1, . . . , m} =
6 ∅
ϕi : Ω → R dérivables en x∗ .
Si x∗ est solution de
(
(P )
f (x∗ ) = inf f (x)
x∗ ∈ K
x∈K
et si les contraintes sont qualifiées en x∗ au sens suivant :
ou bien les ϕi , i ∈ I(x∗ ) = {i, ϕi (x∗ ) = 0} sont affines, autrement dit les contraintes
actives sont affines, ou bien ∃ ω̃ ∈ E tel que ∀i ∈ I(x∗ ), ϕ0i (x∗ )ω̃ ≤ 0 et ϕ0i (x∗ )ω̃ < 0 pour
les ϕi non affines,
alors il existe des multiplicateurs de Lagrange λi ≥ 0, nuls pour i ∈
/ I(x∗ ), vérifiant les relations dites
de Kuhn-Tucker
0 ∗
Pm
f (x ) + 1 λi ϕ0i (x∗ ) = 0
λi ϕi (x∗ )
= 0, i = 1, . . . , m
6.1.2
Cas des contraintes convexes
([3, p. 218])
Soit f : Ω ⊂ E = Rn → R, dérivable en x∗ ∈ K avec
22
Optimisation avec contraintes
Ω ouvert convexe,
K = {x ∈ Ω, ϕi (x) ≤ 0, i = 1, . . . , m} =
6 ∅
ϕi : Ω → R convexes, dérivables en x∗ .
1. Si x∗ est solution de
(
(P )
f (x∗ ) = inf f (x)
x∗ ∈ K
x∈K
et si les contraintes sont qualifiées au sens suivant :
les ϕi sont affines ou ∃ ω̃ ∈ K tel que ϕi (ω̃) < 0 pour les ϕi non affines
alors il existe des multiplicateurs de Lagrange λi ≥ 0, vérifiant les relations dites de Kuhn-Tucker
f 0 (x∗ ) +
λi ϕi (x∗ )
Pm
1
λi ϕ0i (x∗ )
=0
= 0, i = 1, . . . , m
2. Réciproquement, si f : Ω → R est convexe et dérivable, si x∗ ∈ K, s’il existe des multiplicateurs
λi ≥ 0 vérifient les relations de Kuhn-Tucker, alors x∗ est solution de (P ).
6.2
Interprétation des relations de Kuhn-Tucker
([8, p. 24])
K étant convexe, on savait déjà que
(−∇fx∗ , x − x∗ ) ≤ 0
∀x ∈ K
π
qui implique que −∇fx∗ fait un angle ≥ avec les directions intérieures x − x∗ .
2
Les relations de Kuhn-Tucker précisent que
X
−∇fx∗ =
λi ∇ϕi (x∗ ), λi ≥ 0
c’est-à-dire que −∇fx∗ appartient au cône
X
{
αi ∇ϕi (x∗ ), αi ≥ 0}
D’autre part, les relations de Kuhn-Tucker expriment que x∗ est solution du problème de minimisation
sans contrainte de la fonctionnelle
∗
x ∈ Ω → f (x) + Σm
1 λi (x )ϕi (x)
dont la solution correspond à l’annulation de la dérivée. On verra plus loin que cette propriété est à
la base des méthodes de dualité.
On peut mesurer la nécessité de la qualification avec l’exemple suivant :
f (x1 , x2 )
ϕ1 (x1 , x2 )
= x1
=x
2
ϕ2 (x1 , x2 )
=
−x2
−x2 + x21
si x1 ≥ 0
si x1 ≤ 0
K = {x, ϕ1 ≤ 0, ϕ2 ≤ 0} = {x, x1 ≥ 0, x2 = 0}
Les contraintes ne sont pas qualifiées, le minimum de f est en (0, 0), et en ce point,
∇f t = (1, 0), ∇ϕt1 = (0, 1), ∇ϕt2 = (0, −1)
contredisant le fait que
−∇f ∈ cône {λ1 ∇ϕ1 + λ2 ∇ϕ2 , λ1 , λ2 ≥ 0}.
Remarque : Selon la nature des contraintes, il y a différentes notions de qualification. Voir [3, p.
213-217] et [5, p. 78-81] pour les significations.
6.3 Point-selles
6.3
23
Point-selles
Soient E et M deux espaces normés et L : E × M → R.
(x∗ , λ) ∈ E × M est un point-selle si x∗ est un minimum pour x → L(x, λ) et si λ est un maximum
pour µ → L(x∗ , µ).
En un tel point on a
inf sup L(x, µ) = sup L(x∗ , µ) = L(x∗ , λ) = inf L(x, λ) = sup inf L(x, µ)
x∈E µ∈M
6.4
x∈E
µ∈M
µ∈M x∈E
Lagrangien
Le Lagrangien associe au problème (P ) est la fonction de E × Rm
+ → R définie par
L(x, µ) = f (x) +
m
X
µi ϕi (x)
1
6.5
Point-selle du Lagrangien et solution du problème (P )
([3, p. 221])
∗
∗
Si (x∗ , λ) ∈ E × Rm
+ est un point-selle du Lagrangien du problème (P ), alors x ∈ K et x est solution
de (P ).
Si les fonctions f et ϕi sont convexes, dérivables en x∗ ∈ K, si les contraintes sont qualifiées (au
∗
sens précédent), si x∗ est solution de (P ), alors il existe au moins un λ ∈ Rm
+ tel que (x , λ) soit un
point-selle de L. Le résultat suivant est à la base des algorithmes de résolution des problèmes avec
contraintes. Il permet de remplacer le problème (P ) par une suite de problèmes dont les contraintes
sont simplifiées (λ ≥ 0).
6.6
Problème dual du problème (P )
([3, p. 223])
1. On suppose que les ϕi sont continues et que pour tout µ ∈ Rm
+ le problème
(
L(xµ , µ) = inf L(x, µ)
x∈E
(Pµ )
xµ ∈ E
a une solution et une seule xµ qui dépend continûment de µ.
Alors si λ est solution du problème
(
G(λ) = sup G(µ)
µ≥0
(Q)
λ ∈ Rm
+
avec
G(µ) = inf L(x, µ) = L(xµ , µ),
x∈E
la solution xλ de (Pλ ) est solution du problème (P ).
(Q) s’appelle problème dual du problème primal (P ), µ s’appelle variable duale de la variable
primale x.
2. On suppose que (P ) a au moins une solution x∗ , que les fonctions f et ϕi sont convexes et
dérivables en x∗ , et que les contraintes sont qualifiées.
Alors le problème (Q) a au moins une solution.
6.7
Méthode d’Uzawa
([3, p. 226])
On résout le problème (P ) dont les contraintes sont
K = {x ∈ E, ϕi (x) ≤ 0}
à l’aide du problème dual dont les contraintes {µ ∈ Rm+ } sont plus simples.
24
Optimisation avec contraintes
6.7.1
Démarche
Partant de λ0 ∈ Rm
+ quelconque , on calcule une double suite (λx , xk ) de la façon suivante :
6.7.2
Calcul de λk+1
λk et xk−1 étant calculés, on cherche λk+1 comme approximation de la solution de (Q) en évaluant
λk +ρ ∇Gλk , et en prenant la projection de cette valeur sur le domaine {µ ≥ 0}. (méthode du gradient
projeté à pas fixe ρ).
6.7.3
Calcul de ∇Gλk
Lors de la démonstration du théorème précédent on établit que G est dérivable et que
∇Gµ = (ϕi (xµ ))i .
Pour calculer ∇Gλk , on doit donc calculer au préalable xλk . On posera xk = xλk . Ce point est obtenu
par une méthode d’optimisation sans contrainte comme solution de
X
X
f (xk ) +
λki ϕi (xk ) = inf (f (x) +
λki ϕi (x))
x∈E
Convergence : Si tout se passe bien la suite ((xk , λk ))k converge vers un point-selle de L, (x∗ , λ), x∗
étant la solution de (P ).
6.7.4
Condition suffisante de convergence de la méthode d’Uzawa
([3, p. 228])
On suppose que f : E → R est elliptique et que α est son coefficient d’ellipticité. On suppose que K
non vide est défini par des contraintes inégalités affines
K = {x ∈ E, Cx ≤ d}
Alors si
0<ρ<
2α
kCk2
la suite (xk ) de la méthode d’Uzawa converge vers l’unique solution de (P ).
En plus, si le rang de C est m, la suite (λk ) converge également vers l’unique solution du problème
dual (Q).
Bibliographie
[1] J.Bass. Cours de Mathématiques, t2. Masson, (1968).
[2] S.Boyd - L.Vandenberghe. Convex Optimization. Cambridge University Press, (2004).
[3] P.G.Ciarlet. Introduction à l’analyse numérique matricielle et à l’optimisation. Masson, (1982).
[4] L.Dumas. Modélisation à l’oral de l’Agrégation : Calcul scientifique. Ellipse, (1999).
[5] P.E.Gill-W.Murray-M.H.Wright. Pratical optimization. Academic Press, (1981).
[6] J-B. Hiriart-Urruty. Optimisation et analyse convexe. PUF, (1998).
[7] M.Minoux. Programmation mathématique. Dunod, (1983).
[8] J.C.Nedelec. Optimisation dans Rn , Théories et algorithmes. École polytechnique.
[9] W.H.Press. Numerical Recipes - The Art of Scientific Computing. Cambridge University Press,
(1989).
[10] A.Shenk. Calculus and Analytic Geometry. Scott-Foresman, (1984).
26
BIBLIOGRAPHIE