Résumé d`Optimisation - Des Mathématiques à Nantes

Transcription

Résumé d’Optimisation
MI5 Master Pro 1ère année
Jean-Pol Guillement
Département de Mathématiques
Nantes 2010/2011
2
Table des matières
Introduction
5
1 Rappels
1.1 Notations . . . . . . . . . . . .
1.2 Formules de Taylor . . . . . . .
1.3 Condition d’ordre 1 . . . . . . .
1.3.1 Équation d’Euler . . . .
1.4 Conditions d’ordre 2 . . . . . .
1.4.1 Condition de Legendre .
1.4.2 Condition suffisante . .
1.5 Extrema liés, multiplicateurs de
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
Lagrange
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7
7
7
7
7
7
7
8
8
2 Programmation linéaire
2.1 Généralités . . . . . . . . . . .
2.2 Problème sous forme standard .
2.3 Caractérisation des sommets . .
2.4 Méthode du simplexe . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9
9
9
9
9
3 Programmation en dimension 1
3.1 Généralités . . . . . . . . . . .
3.2 Méthode de Newton . . . . . .
3.3 Interpolation quadratique . . .
3.4 Méthode par découpage . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
11
11
11
11
11
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
carrés
. . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
13
13
13
13
14
14
14
14
14
14
15
15
15
. . . . . .
. . . . . .
gradient)
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
17
17
17
17
18
18
18
19
19
4 Prise en compte de la convexité
4.1 Condition nécessaire de minimum sur un convexe . . .
4.2 Caractérisation des fonctions convexes dérivables . . .
4.3 Minimum des fonctions convexes sur un convexe . . .
4.4 Fonctions coercives . . . . . . . . . . . . . . . . . . . .
4.5 Notation : problème (P ) . . . . . . . . . . . . . . . . .
4.6 Existence de minimum . . . . . . . . . . . . . . . . . .
4.7 Fonctionnelles elliptiques . . . . . . . . . . . . . . . . .
4.8 Caractérisation des fonctionnelles elliptiques . . . . . .
4.9 Minimum des fonctions elliptiques . . . . . . . . . . .
4.10 Fonctionnelles quadratiques . . . . . . . . . . . . . . .
4.11 Résolution des systèmes linéaires au sens des moindres
4.12 Projection sur un convexe fermé non vide . . . . . . .
5 Optimisation sans contrainte
5.1 Méthodes de descente . . . . . . . . . . . . . . . . . . . .
5.1.1 Méthode de la relaxation . . . . . . . . . . . . . .
5.1.2 Méthode de la plus profonde descente (méthode du
5.2 Méthode de Newton . . . . . . . . . . . . . . . . . . . . .
5.3 Méthode de la métrique variable . . . . . . . . . . . . . .
5.4 Méthode du gradient conjugué . . . . . . . . . . . . . . .
5.4.1 Cas des fonctionnelles quadratiques . . . . . . . . .
5.4.2 Cas des fonctionnelles non quadratiques . . . . . .
4
TABLE DES MATIÈRES
6 Optimisation avec contraintes
6.1 Relations de Kuhn-Tucker . . . . . . . . . . . . . . . . . . . . . . .
6.1.1 Cas des contraintes non convexes . . . . . . . . . . . . . . .
6.1.2 Cas des contraintes convexes . . . . . . . . . . . . . . . . .
6.2 Interprétation des relations de Kuhn-Tucker . . . . . . . . . . . . .
6.3 Point-selles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.4 Lagrangien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.5 Point-selle du Lagrangien et solution du problème (P ) . . . . . . .
6.6 Problème dual du problème (P ) . . . . . . . . . . . . . . . . . . . .
6.7 Méthode d’Uzawa . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.7.1 Démarche . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.7.2 Calcul de λk+1 . . . . . . . . . . . . . . . . . . . . . . . . .
6.7.3 Calcul de ∇Gλk . . . . . . . . . . . . . . . . . . . . . . . .
6.7.4 Condition suffisante de convergence de la méthode d’Uzawa
Bibliographie
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
21
21
21
21
22
23
23
23
23
23
24
24
24
24
24
Introduction
Ceci un résumé des principaux résultats du cours d’optimisation. Il est autorisé aux contrôles.
6
Introduction
Chapitre 1
Rappels
1.1
Notations
Si f est une fonction régulière de E = Rn → R, on note sa dérivée en x0 par fx0 0 ou f 0 (x0 )(∈ L(E, R)),
sa dérivée seconde en x0 par fx000 ou f 00 (x0 )(∈ B(E, R)), son gradient en x0 par ∇fx0 ou ∇f (x0 )(∈ E),
sa matrice hessienne par ∇2 fx0 . La matrice Hessienne peut être vue comme une matrice symétrique
n × n, comme un opérateur linéaire de E dans E ou comme une forme bilinéaire symétrique sur E.
1.2
Formules de Taylor
([3, p.151-146])
Les formules de Taylor diffèrent selon l’ordre, l’écriture du reste, l’utilisation des dérivées ou du
gradient et de la matrice Hessienne. En voici deux exemples :
Si f est deux fois dérivable on a :
1
f (x0 + h) = f (x0 ) + f 0 (x0 )h + f ”(x0 )(h, h) + ε(h)khk2 .
2
Si f est de classe C 2 on a :
1
f (x0 + h) = f (x0 ) + ht .∇f x0 + ht .∇2 fx0 .h +
2
1.3
1.3.1
Z
1
(1 − t)ht .∇2 f (x0 + th).h dt
0
Condition d’ordre 1
Équation d’Euler
([3, p.146])
Soit Ω un ouvert de E et soit f : Ω → R. Si f admet un extremum local en x∗ ∈ Ω et si f est dérivable
en x∗ alors
(équation d’Euler)
f 0 (x∗ ) = 0
1.4
Conditions d’ordre 2
1.4.1
Condition de Legendre
([3, p.152])
Soit Ω un ouvert de E et soit f : Ω → R. Si f admet un minimum local en x∗ ∈ Ω et si f est deux
fois dérivable en x∗ alors
(condition de Legendre)
f ”(x∗ ) est une forme bilinéaire symétrique positive.
8
Rappels
1.4.2
Condition suffisante
([3, p.152])
Soit Ω un ouvert de E et soit f = Ω → R. Si f est deux fois dérivable sur Ω, si f 0 (x∗ ) = 0 et si f ”(x)
est positive dans un voisinage de x∗ ∈ Ω, alors f a un minimum local en x∗ .
1.5
Extrema liés, multiplicateurs de Lagrange
([3, p.148])
Soit Ω un ouvert de E, soit f : Ω → R, soient ϕi : Ω → R, i = 1, .., m.
On suppose que les ϕi ∈ C 1 (Ω).
Soit x∗ ∈ K = {x ∈ Ω, ϕi (x) = 0, i = 1...m} tel que les dérivées ϕ0i (x∗ ) soient linéairement
indépendantes (dans L(E, R)) et tel que f soit dérivable en x∗ .
Alors si f admet un extremum local relativement à K en x∗ , il existe λ1 , ..., λm uniques (multiplicateurs
de Lagrange) tels que
∇f (x∗ ) + λ1 ∇ϕ1 (x∗ ) + ... + λm ∇ϕm (x∗ )
=0
Chapitre 2
Programmation linéaire
Pas enseigné cette année. (Voir [3], [5], [7], [9]).
2.1
Généralités
2.2
Problème sous forme standard
2.3
Caractérisation des sommets
2.4
Méthode du simplexe
10
Programmation linéaire
Chapitre 3
Programmation en dimension 1
3.1
Généralités
3.2
Méthode de Newton
3.3
Interpolation quadratique
3.4
Méthode par découpage
12
Programmation en dimension 1
Chapitre 4
Prise en compte de la convexité
4.1
Condition nécessaire de minimum sur un convexe
([3, p.153])
Soit K un convexe dans Ω ouvert de E. Soit f : Ω → R.
Si f admet un minimum relativement à K en x∗ , et si f est dérivable en x∗ alors
(Inéquation d’Euler)
f 0 (x∗ )(x − x∗ ) ≥ 0 ∀x ∈ K
4.2
Caractérisation des fonctions convexes dérivables
([3, p.154-155]))
Soit K un convexe dans Ω ouvert de E. Soit f : Ω → R dérivable sur Ω.
1. f est convexe sur K si et seulement si
f (x) ≥ f (x0 ) + f 0 (x0 )(x − x0 ) ∀x, x0 ∈ K
2. f est strictement convexe sur K si et seulement si
f (x) > f (x0 ) + f 0 (x0 )(x − x0 ) ∀x, x0 ∈ K, x 6= x0
3. On suppose que f est deux fois dérivable dans Ω. Alors f est convexe sur K si et seulement si
f ”(x)(y − x, y − x) ≥ 0, ∀x, y ∈ K
4. On suppose que f est deux fois dérivable dans Ω. Si
f ”(x)(y − x, y − x) > 0, ∀x, y ∈ K, x 6= y
alors f est strictement convexe sur K.
4.3
Minimum des fonctions convexes sur un convexe
([3, p.156-175])
Soit K un convexe dans Ω ouvert de E, soit f : Ω → R convexe sur K.
1. Si f admet un minimum local en x∗ ∈ K, relativement à K, ce minimum est un minimum global.
2. Si f est strictement convexe sur K, f admet au plus un minimum local relativement à K (qui
est aussi un minimum strict et global)
3. Si f est dérivable en x∗ ∈ K, alors f admet un minimum par rapport à K en x∗ si et seulement
si
f 0 (x∗ )(x − x∗ ) ≥ 0 ∀x ∈ K
ou, en terme de gradient
(−∇fx∗ , x − x∗ ) ≤ 0, ∀x ∈ K.
14
4. Si K est un sous espace vectoriel l’inéquation d’Euler est équivalente à
f 0 (x∗ )(x) = 0, ∀x ∈ K.
ou, en terme de gradient
∇fx∗
⊥ K
5. Si K est ouvert, l’inéquation d’Euler est équivalente à la condition d’Euler
f 0 (x∗ ) = 0
4.4
Fonctions coercives
([3, p.175])
Une fonction f : E → R, est dite coercive si
4.5
lim f (x) = +∞
kxk→∞
Notation : problème (P )
Dans la suite, quand on parle du problème (P ), il s’agit de la recherche de x∗ tel que
(
f (x∗ )
= inf f (x)
x∈K⊂E
(P )
∗
x ∈K
4.6
Existence de minimum
([3, p. 175])
1. Si K est un fermé borné non vide de E, si f est continue alors le problème (P ) a au moins une
solution.
2. Si K est fermé non borné de E, si f est continue et coercive, alors le problème (P ) a au moins
une solution.
3. Si K est un convexe fermé non vide de E, si f est continue, coercive, strictement convexe sur
K, alors le problème (P ) a une solution et une seule.
4.7
Fonctionnelles elliptiques
([3, p. 183])
Une fonction f : E → R, de classe C 1 est dite elliptique s’il existe α > 0 tel que
(∇fx − ∇fy , x − y) ≥ αkx − yk2 ∀x, y ∈ E
4.8
Caractérisation des fonctionnelles elliptiques
Une fonction f : E → R, deux fois dérivable, est elliptique si et seulement si il existe α > 0 tel que
(∇2 fx0 x, x) ≥ αkxk2 , ∀x, x0 ∈ E
4.9
Minimum des fonctions elliptiques
Soit K est un convexe fermé non vide de E et f : E → R elliptique.
1. f est strictement convexe, coercive, et vérifie
f (x) − f (x0 ) ≥ (∇fx 0 , x − x0 ) +
2. Le problème (P ) a une solution et une seule.
α
kx − x0 k2 ∀x, x0 ∈ E
2
4.10 Fonctionnelles quadratiques
15
3. x∗ ∈ K est solution de (P ) si et seulement si
(−∇fx∗ , x − x∗ ) ≤ 0, ∀x ∈ K.
4. On suppose que K = E. Alors x∗ est solution de (P ) si et seulement si
∇fx∗ = 0
4.10
Fonctionnelles quadratiques
Ce sont les fonctions de la forme
f (x) =
1
(Ax, x) − (b, x) + c
2
A étant un matrice symétrique (opérateur de E → E), b ∈ E, c ∈ R.
Elles sont de classe C ∞ , ∇f = Ax − b, ∇2 f = A.
Elles sont elliptiques si et seulement si la plus petite valeur propre de A est > 0 et dans ce cas, si
K = E, le problème (P ) a une solution et une seule, qui est aussi la solution de Ax = b.
4.11
Résolution des systèmes linéaires au sens des moindres
carrés
M est une matrice à m lignes et n colonnes, v ∈ Rm .
Il s’agit de trouver x∗ ∈ E tel que kM x − vk2 soit minimal, ou encore de résoudre le problème
(P ) f (x∗ ) = inf f (x)
x∈E
avec f (x) = 21 kM x − vk2 − 12 kvk2 .
f se met sous la forme d’une fonctionnelle quadratique avec A = M t M, et b = M t v.
Le problème (P ) a au moins une solution. Ses solutions sont caractérisées par
(Équations normales)
M t M x∗ = M t v
Si le rang de M est n, le problème (P ) a une solution et une seule.
La solution peut se calculer par résolution du système triangulaire
Rx = P Qt v
où Q et R sont les matrices de la décomposition QR de la matrice M , M = QR, et P la projection
de Rm sur Rn × {0}m−n .
4.12
Projection sur un convexe fermé non vide
Soit K un convexe fermé non vide de E. Soit x ∈ E.
Il existe Px ∈ K, unique, tel que d(x, K) = kx − Px k. La projection Px est caractérisée par
(x − Px , y − Px ) ≤ 0, ∀y ∈ K.
L’application x → Px est contractante
kPx − Py k ≤ kx − yk
16
Chapitre 5
Optimisation sans contrainte
Il s’agit de résoudre numériquement le problème (P )
(
trouver x∗ ∈ E = Rn
(P ) f (x∗ ) = inf f (x)
x∈E
Les algorithmes opèrent généralement pour des fonctionnelles assez générales, mais la convergence
(théorique) n’est assurée que pour des fonctionnelles de classe C 1 ou C 2 , convexes ou elliptiques.
Les solutions de (P ) étant aussi solution de ∇fx∗ = 0, les algorithmes peuvent se voir comme des
algorithmes de résolution de cette équation.
5.1
Méthodes de descente
Elles sont itératives. Pour passer de uk à uk+1 , on se donne une direction de descente dk et on minimise
f le long de cette direction, c’est-à-dire que l’on cherche ρk tel que f (uk + ρk dk ) = inf f (uk + ρdk ). A
ρ∈R
défaut d’un tel ρk on peut se contenter d’avoir f (uk + ρk dk ) < f (uk ).
5.1.1
Méthode de la relaxation
([3, p. 185])
On descend de façon cyclique le long de chacun des axes de coordonnées.
La convergence est assurée si f est elliptique.
Note
1
Si f est une fonctionnelle quadratique f (x) = (Ax, x) − (b, x) dont la matrice A est symétrique
2
définie positive, la méthode de la relaxation converge et ses itérations sont identiques à celles de la
méthode de Gauss-Seidel pour la résolution de l’équation Ax = b.
5.1.2
Méthode de la plus profonde descente (méthode du gradient)
La direction choisie est −∇fuk qui correspond à la direction de plus grande décroissance de f.
peut en effet écrire :
f (x) − f (x0 ) = (∇fx0 , x − x0 ) + ε(x)kx − x0 k
On
et remarquer qu’à kx − x0 k constant, (∇fx0 , x − x0 ) est minimal pour x − x0 = −t ∇fx0 , t > 0.
Description
On part de u0 quelconque. Connaissant uk , on calcule ∇fuk et uk+1 = uk − ρk ∇fuk avec ρk solution
de f (uk − ρk ∇fuk ) = inf (uk − ρ∇fuk ). En principe on trouve ρk > 0.
ρ
18
Condition suffisante de convergence
([3, p. 188])
Si f : E → R est elliptique, la méthode de la plus profonde descente est convergente.
Remarque
Cette méthode ne peut pas être optimale car le cheminement des uk est celui d’une ligne brisée faisant
des angles droits. En effet, deux gradients consécutifs sont orthogonaux car uk+1 correspondant au
minimum de f (uk − ρ∇fuk ), la dérivée de f dans cette direction s’annule en uk+1 . Et donc le gradient
de f en uk+1 lui est orthogonal.
5.2
Méthode de Newton
Si f est une fonction régulière dont on sait calculer le gradient et la matrice hessienne, on peut tirer
partie du fait qu’en un point uk , f est localement voisine de son développement de Taylor quadratique,
c’est-à-dire que
1
f (uk + d) ' f (uk ) + dt .∇fuk + dt .∇2 fuk .d
2
Si en plus, ∇2 fuk est définie positive, l’approximation quadratique a un minimum qui vérifie
∇2 fuk dk = −∇fuk
Ceci permet de calculer la direction de descente dk et de définir l’itération par
uk+1 = uk + dk
On démontre, comme pour la méthode de Newton pour la résolution des équations ϕ(x) = 0, que si
le point de départ u0 est assez voisin de x∗ , et si ∇2 f est définie positive, alors la méthode converge
vers x∗ , et ceci de façon quadratique.
Si ∇2 f n’est pas définie positive, cette méthode supporte certains aménagements (méthode de Newton modifiée,
[5, p. 106]).
Quand le calcul de ∇2 f ne peut être fait, on peut aussi remplacer ∇2 fuk dans l’approximation de
Taylor par une matrice Hk qui se calcule itérativement (méthode de quasi Newton , [5, p. 116])
Remarque
Cette méthode est pénalisante pour les grands systèmes du fait de la nécessité de calculer ∇2 f , de la
stocker, et de résoudre le système
∇2 fuk dk = −∇fuk
5.3
Méthode de la métrique variable
- On peut facilement observer que si f (x) = 12 kxk2 −(b, x), la méthode de la plus profonde descente
converge en une seule itération.
1
- Qu’il en est de même si f est la fonctionnelle quadratique f (x) = (Ax, x)−(b, x) ; à la condition
2
de remplacer la métrique kxk2 par k|xk|2 = ((x, x)) = (Ax, x).
- L’idée de la métrique variable, appliquée à une fonctionnelle non nécessairement quadratique,
consiste lors de chaque itération de la plus profonde descente à choisir une métrique définie par
la matrice hessienne de la fonctionnelle, permettant une accélération de la convergence. Mais il
y a un prix à payer. Le calcul du gradient nécessite la connaissance d’une base orthogonale ; on
peut l’obtenir par exemple par orthogonalisation de Grahm-Schmidt.
La méthode du gradient conjugué reprend cette idée.
5.4
Méthode du gradient conjugué
([3, p. 194][5, p. 144])
Cette méthode présente, sur la méthode de Newton, l’avantage de ne pas nécessiter le calcul de ∇2 f ,
et sur la méthode de la plus profonde descente, celui de définir des directions de descente successives
cohérentes.
5.4 Méthode du gradient conjugué
5.4.1
f (x) =
19
Cas des fonctionnelles quadratiques
1
(Ax, x) − (b, x), A étant symétrique définie positive.
2
Description générale
On part de u0 quelconque. On suppose qu’à l’étape k, on a calculé u1 , . . . , uk tels que ∇ful 6= 0,
0, . . . , k. (sinon on a trouvé la solution de ∇fx∗ = Ax∗ − b = 0). On pose
l=
Gk = [∇fu0 , ..., ∇fuk ].
On définit uk+1 comme le minimum de la restriction de f à uk + Gk . Ce uk+1 existe, est unique. Il
se trouve qu’il correspond au minimum de f dans une direction calculable dk . Les directions dk sont
conjuguées par rapport à la matrice A ((Adk , dl ) = 0 ). Tout se calcule par des formules itératives
économiques, sans résolution de système linéaire. A chaque étape, Gk s’accroı̂t d’une dimension. Au
bout d’au plus n itérations, la solution est théoriquement trouvée. Numériquement, avec les erreurs
d’arrondi, cela peut être différent.
Formules d’itérations
On part de u0 quelconque. On pose d0 = ∇f (u0 ).
Si d0 = 0, c’est terminé, on a x∗ = u0 .
Sinon on pose
(∇fu0 , d0 )
ρ0 =
(Ad0 , d0 )
et
u1 = u0 − ρ0 d0 .
De façon générale, si u1 , d1 , . . . , uk , dk sont calculés, alors ou bien ∇f (uk ) = 0, et alors c’est terminé,
x∗ = uk , ou alors on pose :

k∇f k2


= ∇fuk + k∇fuuk k2 dk−1
 dk
k−1
ρk



uk+1
5.4.2
(∇f
,d )
= (Adukk,dkk)
= uk − ρk dk
Cas des fonctionnelles non quadratiques
([3, p. 200][5, p. 147])
Le minimum de f sur le sous-espace uk + Gk ne peut plus être donné par une formule simple. On
calcule dk comme précédemment ou selon une variante (Polak-Ribière)
dk = ∇fuk +
(∇fuk , ∇fuk − ∇fuk−1 )
dk−1
k∇fuk−1 k2
et on obtient ρk en optimisant numériquement
ρ → f (uk − ρdk )
La méthode ne converge plus en un nombre fini d’itérations.
20
Chapitre 6
Optimisation avec contraintes
La difficulté du problème dépend de la nature des contraintes. On peut distinguer :
.
.
.
.
.
les
les
les
les
les
variables bornées, αi ≤ xi ≤ βi
contraintes affines égalités, Cx = b
contraintes affines inégalités, Cx ≤ b
contraintes convexes , ϕi (x) = 0, ϕi (x) ≤ 0, ϕi convexes
contraintes générales, ϕi (x) = 0, ϕj (x) ≤ 0
Dans tous les cas on se ramène à la résolution de problèmes sans contrainte. Mais la réduction est
plus ou moins aisée.
Regardons les cas des contraintes inégalités.
6.1
Relations de Kuhn-Tucker
Les relations de Kuhn-Tucker expriment que si la ou les solutions d’un problème avec contraintes
ϕi (x) ≤ 0 est à l’intérieur du domaine des points admissibles, le gradient de f s’annule comme c’est
le cas pour les problèmes sans contrainte, et que si la ou les solutions sont sur le bord, il y a, comme
pour le cas des contraintes égalités, colinéarité du gradient de f et des gradients des ϕi .
6.1.1
Cas des contraintes non convexes
([3, p. 216])
Soit f : Ω ⊂ E = Rn → R, dérivable en x∗ ∈ K avec
Ω ouvert,
K = {x ∈ Ω, ϕi (x) ≤ 0, i = 1, . . . , m} =
6 ∅
ϕi : Ω → R dérivables en x∗ .
Si x∗ est solution de
(
(P )
f (x∗ ) = inf f (x)
x∗ ∈ K
x∈K
et si les contraintes sont qualifiées en x∗ au sens suivant :
ou bien les ϕi , i ∈ I(x∗ ) = {i, ϕi (x∗ ) = 0} sont affines, autrement dit les contraintes
actives sont affines, ou bien ∃ ω̃ ∈ E tel que ∀i ∈ I(x∗ ), ϕ0i (x∗ )ω̃ ≤ 0 et ϕ0i (x∗ )ω̃ < 0 pour
les ϕi non affines,
alors il existe des multiplicateurs de Lagrange λi ≥ 0, nuls pour i ∈
/ I(x∗ ), vérifiant les relations dites
de Kuhn-Tucker
0 ∗
Pm
f (x ) + 1 λi ϕ0i (x∗ ) = 0
λi ϕi (x∗ )
= 0, i = 1, . . . , m
6.1.2
Cas des contraintes convexes
([3, p. 218])
Soit f : Ω ⊂ E = Rn → R, dérivable en x∗ ∈ K avec
22
Ω ouvert convexe,
K = {x ∈ Ω, ϕi (x) ≤ 0, i = 1, . . . , m} =
6 ∅
ϕi : Ω → R convexes, dérivables en x∗ .
1. Si x∗ est solution de
(
(P )
f (x∗ ) = inf f (x)
x∗ ∈ K
x∈K
et si les contraintes sont qualifiées au sens suivant :
les ϕi sont affines ou ∃ ω̃ ∈ K tel que ϕi (ω̃) < 0 pour les ϕi non affines
alors il existe des multiplicateurs de Lagrange λi ≥ 0, vérifiant les relations dites de Kuhn-Tucker
f 0 (x∗ ) +
λi ϕi (x∗ )
Pm
1
λi ϕ0i (x∗ )
=0
= 0, i = 1, . . . , m
2. Réciproquement, si f : Ω → R est convexe et dérivable, si x∗ ∈ K, s’il existe des multiplicateurs
λi ≥ 0 vérifient les relations de Kuhn-Tucker, alors x∗ est solution de (P ).
6.2
Interprétation des relations de Kuhn-Tucker
([8, p. 24])
K étant convexe, on savait déjà que
(−∇fx∗ , x − x∗ ) ≤ 0
∀x ∈ K
π
qui implique que −∇fx∗ fait un angle ≥ avec les directions intérieures x − x∗ .
2
Les relations de Kuhn-Tucker précisent que
X
−∇fx∗ =
λi ∇ϕi (x∗ ), λi ≥ 0
c’est-à-dire que −∇fx∗ appartient au cône
X
{
αi ∇ϕi (x∗ ), αi ≥ 0}
D’autre part, les relations de Kuhn-Tucker expriment que x∗ est solution du problème de minimisation
sans contrainte de la fonctionnelle
∗
x ∈ Ω → f (x) + Σm
1 λi (x )ϕi (x)
dont la solution correspond à l’annulation de la dérivée. On verra plus loin que cette propriété est à
la base des méthodes de dualité.
On peut mesurer la nécessité de la qualification avec l’exemple suivant :
f (x1 , x2 )
ϕ1 (x1 , x2 )
= x1
=x
2
ϕ2 (x1 , x2 )
=
−x2
−x2 + x21
si x1 ≥ 0
si x1 ≤ 0
K = {x, ϕ1 ≤ 0, ϕ2 ≤ 0} = {x, x1 ≥ 0, x2 = 0}
Les contraintes ne sont pas qualifiées, le minimum de f est en (0, 0), et en ce point,
∇f t = (1, 0), ∇ϕt1 = (0, 1), ∇ϕt2 = (0, −1)
contredisant le fait que
−∇f ∈ cône {λ1 ∇ϕ1 + λ2 ∇ϕ2 , λ1 , λ2 ≥ 0}.
Remarque : Selon la nature des contraintes, il y a différentes notions de qualification. Voir [3, p.
213-217] et [5, p. 78-81] pour les significations.
6.3 Point-selles
6.3
23
Point-selles
Soient E et M deux espaces normés et L : E × M → R.
(x∗ , λ) ∈ E × M est un point-selle si x∗ est un minimum pour x → L(x, λ) et si λ est un maximum
pour µ → L(x∗ , µ).
En un tel point on a
inf sup L(x, µ) = sup L(x∗ , µ) = L(x∗ , λ) = inf L(x, λ) = sup inf L(x, µ)
x∈E µ∈M
6.4
x∈E
µ∈M
µ∈M x∈E
Lagrangien
Le Lagrangien associe au problème (P ) est la fonction de E × Rm
+ → R définie par
L(x, µ) = f (x) +
m
X
µi ϕi (x)
1
6.5
Point-selle du Lagrangien et solution du problème (P )
([3, p. 221])
∗
∗
Si (x∗ , λ) ∈ E × Rm
+ est un point-selle du Lagrangien du problème (P ), alors x ∈ K et x est solution
de (P ).
Si les fonctions f et ϕi sont convexes, dérivables en x∗ ∈ K, si les contraintes sont qualifiées (au
∗
sens précédent), si x∗ est solution de (P ), alors il existe au moins un λ ∈ Rm
+ tel que (x , λ) soit un
point-selle de L. Le résultat suivant est à la base des algorithmes de résolution des problèmes avec
contraintes. Il permet de remplacer le problème (P ) par une suite de problèmes dont les contraintes
sont simplifiées (λ ≥ 0).
6.6
Problème dual du problème (P )
([3, p. 223])
1. On suppose que les ϕi sont continues et que pour tout µ ∈ Rm
+ le problème
(
L(xµ , µ) = inf L(x, µ)
x∈E
(Pµ )
xµ ∈ E
a une solution et une seule xµ qui dépend continûment de µ.
Alors si λ est solution du problème
(
G(λ) = sup G(µ)
µ≥0
(Q)
λ ∈ Rm
+
avec
G(µ) = inf L(x, µ) = L(xµ , µ),
x∈E
la solution xλ de (Pλ ) est solution du problème (P ).
(Q) s’appelle problème dual du problème primal (P ), µ s’appelle variable duale de la variable
primale x.
2. On suppose que (P ) a au moins une solution x∗ , que les fonctions f et ϕi sont convexes et
dérivables en x∗ , et que les contraintes sont qualifiées.
Alors le problème (Q) a au moins une solution.
6.7
Méthode d’Uzawa
([3, p. 226])
On résout le problème (P ) dont les contraintes sont
K = {x ∈ E, ϕi (x) ≤ 0}
à l’aide du problème dual dont les contraintes {µ ∈ Rm+ } sont plus simples.
24
6.7.1
Démarche
Partant de λ0 ∈ Rm
+ quelconque , on calcule une double suite (λx , xk ) de la façon suivante :
6.7.2
Calcul de λk+1
λk et xk−1 étant calculés, on cherche λk+1 comme approximation de la solution de (Q) en évaluant
λk +ρ ∇Gλk , et en prenant la projection de cette valeur sur le domaine {µ ≥ 0}. (méthode du gradient
projeté à pas fixe ρ).
6.7.3
Calcul de ∇Gλk
Lors de la démonstration du théorème précédent on établit que G est dérivable et que
∇Gµ = (ϕi (xµ ))i .
Pour calculer ∇Gλk , on doit donc calculer au préalable xλk . On posera xk = xλk . Ce point est obtenu
par une méthode d’optimisation sans contrainte comme solution de
X
X
f (xk ) +
λki ϕi (xk ) = inf (f (x) +
λki ϕi (x))
x∈E
Convergence : Si tout se passe bien la suite ((xk , λk ))k converge vers un point-selle de L, (x∗ , λ), x∗
étant la solution de (P ).
6.7.4
Condition suffisante de convergence de la méthode d’Uzawa
([3, p. 228])
On suppose que f : E → R est elliptique et que α est son coefficient d’ellipticité. On suppose que K
non vide est défini par des contraintes inégalités affines
K = {x ∈ E, Cx ≤ d}
Alors si
0<ρ<
2α
kCk2
la suite (xk ) de la méthode d’Uzawa converge vers l’unique solution de (P ).
En plus, si le rang de C est m, la suite (λk ) converge également vers l’unique solution du problème
dual (Q).
Bibliographie
[1] J.Bass. Cours de Mathématiques, t2. Masson, (1968).
[2] S.Boyd - L.Vandenberghe. Convex Optimization. Cambridge University Press, (2004).
[3] P.G.Ciarlet. Introduction à l’analyse numérique matricielle et à l’optimisation. Masson, (1982).
[4] L.Dumas. Modélisation à l’oral de l’Agrégation : Calcul scientifique. Ellipse, (1999).
[5] P.E.Gill-W.Murray-M.H.Wright. Pratical optimization. Academic Press, (1981).
[6] J-B. Hiriart-Urruty. Optimisation et analyse convexe. PUF, (1998).
[7] M.Minoux. Programmation mathématique. Dunod, (1983).
[8] J.C.Nedelec. Optimisation dans Rn , Théories et algorithmes. École polytechnique.
[9] W.H.Press. Numerical Recipes - The Art of Scientific Computing. Cambridge University Press,
(1989).
[10] A.Shenk. Calculus and Analytic Geometry. Scott-Foresman, (1984).
26
BIBLIOGRAPHIE

Résumé d`Optimisation - Des Mathématiques à Nantes

Transcription

Documents pareils

Projet n 1 : identification des param`etres d`une prise

RÉSOLUTION NUMÉRIQUE DE L`ÉQUATION DE LA CHALEUR Le

Alg`ebre. Mat 2600 Devoir 8. Ne pas remettre. Discuté le 13

TD - Julian Tugaut

La P.I.E., une méthode nouvelle de recherche d`emploi

Calcul de Pi

Méthodes de Monte-Carlo Calcul d`intégrales et réduction de variance

Extinction en temps fini des solutions de certains probl`emes

Théorie abélienne des tissus, Jean

tableau de signes