cours 8 : introduction a la theorie des jeux

Transcription

c J.-D. Kant 2016
UPMC - 3I027 IIEE - Cours 8 - Université Pierre et Marie Curie
Licence Informatique 2015-2016
Cours 3I027 - Industrie Informatique et son Environnement Économique
Responsable : Jean-Daniel Kant ([email protected])
COURS 8 :
INTRODUCTION A LA THEORIE DES JEUX
1
Jeux
Le comportement des oligopoles montrent la forte interdépendance entre les firmes. Quand la
marché est contrôlé par un petit nombre d’entreprises, chaque firme analyse les comportements
des autres et peaufine sa stratégie en partie en fonction de celles des autres. Ainsi, ces comportements interdépendants peuvent apparaı̂tre comme des jeux, où chaque firme jouerait un
coup, puis recevrait la réponse d’une autre en riposte, etc. C’est pourquoi la théorie des jeux est
souvent utilisée en économie pour modéliser les comportements oligopolistiques. Elle est aussi
utilisée dans d’autres domaines de l’économie industrielle, en économie du travail, des échanges
internationaux, etc. Elle est cependant plus normative que descriptive, car rien ne prouve que les
acteurs raisonnent exactement comme la théorie des jeux le prescrit. C’est plus une abstraction
de comportement, une vision stylisée qu’un véritable modèle.
La théorie des jeux étudie des situations (les jeux ) où des agents (les joueurs) ont à choisir
des stratégies et obtiendront chacun un résultat (paiement, gain) qui dépendra des stratégies
jouées par l’ensemble des joueurs. Une stratégie peut se réduire à une décision élémentaire, mais
peut aussi consister en un plan d’action complexe, comme nous le verrons plus loin. Un jeu
est non-coopératif lorsque les joueurs choisissent leurs stratégies à l’insu les uns des autres. La
théorie des jeux coopératifs étudie au contraire les avantages que peuvent tirer les joueurs de la
possibilité de former entre eux des coalitions.
2
2.1
Jeux non-coopératifs
Jeux sous forme normale
Un jeu est présenté sous forme normale (on dit encore sous forme stratégique) lorsqu’il est
défini par la donnée :
• d’un ensemble de joueurs N = {1, .., i, .., n} ;
• pour chaque joueur i, d’un ensemble de stratégies Ai = {ai1 , .., ail , .., aimi } ;
• et d’une fonction(vectorielle)
de paiement :
Nn
1
i
n
i
u = (u , ..u , ..u ) : i=1 A −→ Rn
1
c J.-D. Kant 2016
UPMC - 3I027 IIEE - Cours 8 - a = (a1 , ..ai , ..an ) 7−→ u(a) = (u1 (a), .., ui (a), .., un (a)),
où ui (a) = ui (a1 , .., ai , .., an ) est le paiement du joueur i (ce peut être aussi bien un gain
monétaire qu’un niveau d’utilité) lorsque les joueurs jouent le profil de stratégies a, cà-d, lorsque le joueur i joue la stratégie ai et les autres joueurs jouent les stratégies aj ,
j ∈ N \{i}.
n
Notations : Il sera commode de noter −i l’ensemble N \{i}, d’où a−i = (a1 , .., ai−1 , ai+1 , ..a
N ), a =
i
−i
−i
1
i−1
i+1
n
i
−i
−i
(a , a ), u (a) = (u (a), .., u (a), u (a), .., u (a)), u(a) = (u (a), u (a)), A = j6=i Aj ,
A = Ai × A−i , etc.
Cette définition peut être étendue à un nombre infini de joueurs ou de stratégies.
Dans le cas de deux joueurs (n = 2), on peut représenter un tel jeu à l’aide de la matrice
du jeu, dont les lignes et colonnes sont respectivement identifiées aux stratégies de chacun des
joueurs et l’élément de ligne a1 et colonne a2 est le couple (u1 (a1 , a2 ), u2 (a1 , a2 )).
Ainsi le jeu est décrit par la matrice U de terme Uij = ui (aj ).
N.B. Dans un jeu sous forme normale on suppose toujours que les deux joueurs
connaissent la matrice U du jeu.
Exemples
La bataille du couple
Kevin et Kevina doivent aller au spectacle ce soir et acheter leur billet à l’avance, chacun
séparément ; ils n’ont pas la possibilité de communiquer ; ils n’aiment l’une que les chanteuses
américaines décolorées, l’autre que le football ; enfin, leur soirée à tous deux sera gâchée s’ils ne
sont pas ensemble.
Kevina \ Kevin
concert
f oot
concert
2, 1
−1, −1
f oot
−1, −1
1, 2
Peut-on dire ce que doivent faire, prédire ce que vont faire, Kevin et Kevina ? S’ils sont
rationnels, chacun a intérêt à choisir sa préférence, car il vaut mieux gagner 2 ou perdre -1, que
gagner 1 ou perdre -1. Mais dans ce cas, ils vont perdre à coup sûr. Il vaudrait mieux jouer
(concert,concert) ou (foot,foot). Mais cela ne donnera des gains que s’ils jouent le même. La
bataille du couple est difficile à résoudre !
Le dilemme du prisonnier
P ris. I \ P ris. II
nier
avouer
nier
3, 3
1, 10
avouer
10, 1
6, 6
Ce jeu tire son nom de l’interprétation suivante : deux criminels présumés sont interrogés
séparément par la police ; s’ils nient tous les deux ils seront condamnés à une faible peine (3
ans) et s’ils avouent tous les deux ils seront condamnés à une peine plus forte (6 ans) ; si l’un
2
c J.-D. Kant 2016
UPMC - 3I027 IIEE - Cours 8 - des deux avoue tandis que l’autre nie, le premier n’aura qu’une peine de principe (1 an) alors
que le second aura la peine maximale (10 ans). La matrice ci-dessus représente donc des pertes
(gains négatifs).
Que vont faire, que doivent faire, les deux prisonniers ? Quel que soit l’action de l’autre,
chacun a intérêt à avouer, car les gains seront toujours meilleurs (peines moindres) que nier.
Cependant si on change maintenant la matrice des gains :
nier
avouer
nier
3, 3
30, 10
avouer
10, 30
30, 30
Il vaut alors mieux nier, vu qu’avouer entraı̂ne la peine maximale à chaque fois.
2.2
Analyse d’un jeu sous forme normale
2.2.1
Considérations de dominance
Dominances
• La stratégie ai du joueur i domine faiblement sa stratégie bi lorsque :
ui (ai , a−i ) ≥ ui (bi , a−i ), ∀a−i ∈ A−i ;
(quelque soient les stratégies a−i des autres joueurs, la stratégie ai est meilleure ou égale
que bi .)
• elle la domine si elle la domine faiblement et que, de plus :
∃c−i ∈ A−i t.q. ui (ai , c−i ) > ui (bi , c−i ) ;
(il y a au moins un cas, i.e. une réponse des autres joueurs, pour lequel ai est meilleure
que bi )
• enfin, ai domine strictement bi lorsque : ui (ai , a−i ) > ui (bi , a−i ), ∀a−i ∈ A−i .
(quelque soient les stratégies a−i des autres joueurs, la stratégie ai est meilleure strictement que bi .)
La stratégie ai est dite faiblement dominante (resp. dominante, resp. strictement dominante)
si elle domine faiblement (resp. domine, resp. domine strictement) tous les bi ∈ Ai \{ai }.
Equilibre en stratégies strictement dominantes
On peut penser qu’un joueur rationnel ne choisira jamais une stratégie s’il dispose d’une
autre stratégie lui assurant un gain supérieur quel que soit le comportement des autres joueurs.
Si chaque joueur a une stratégie strictement dominante, il doit donc la jouer et le jeu est résolu.
On dit alors qu’il existe un équilibre en stratégies strictement dominantes.
C’est le cas pour (avouer, avouer) dans le premier dilemme du prisonnier ci-dessus. Remarquons que les joueurs obtiendraient tous deux plus qu’à cet équilibre en jouant (nier, nier) ;
il n’est donc pas efficace du point de vue de la rationalité collective, qui se caractérise par
l’optimalité au sens de Pareto.
3
c J.-D. Kant 2016
UPMC - 3I027 IIEE - Cours 8 - Optimum de Pareto
Une suite de stratégies a∗ = (a1∗ , ..ai∗ , ..an∗ ) est un optimum de Pareto lorsqu’ aucun des
joueurs ne peut obtenir un paiement plus élevé sans que le paiement d’un des autres diminue :
i i −i
i i −i
i i
−i
u (a , a ) ≥ ui (ai∗ , a−i
∗ ), ∀i =⇒ u (a , a ) = u (a∗ , a∗ ), ∀i .
L’optimum de Pareto exprime bien l’idée que collectivement on ne peut pas améliorer la
situation. Souvent il fournit une solution plus efficace que quand chaque joueur raisonne individuellement.
Equilibre itératif en stratégies strictement dominantes
Quand il n’en existe pas, le jeu peut souvent être simplifié par un processus itératif où
chaque joueur, tablant sur la rationalité de ses adversaires, écarte les stratégies apparues comme
dominées à cette étape de son raisonnement.
Exemple
Matrice du jeu :
G
H
M
B
C
D
(2, 5) (4, 8) (1, 3)
(1, 4) (2, 5) (3, 6)
(3, 7) (5, 8) (2, 9)
Il n’existe pas d’équilibre en stratégies strictement dominantes car aucune ligne ne donne
strictement plus, composante par composante, que toutes les autres lignes (il n’existe d’ailleurs
pas non plus de colonne dominant strictement toutes les autres colonnes). Dans la recherche
d’un équilibre itéré en stratégies strictement dominantes, on élimine successivement :
C
G strictement dominé par C →
C
→
M
B
H
M
B
D
(4, 8) (1, 3)
(2, 5) (3, 6)
(5, 8) (2, 9)
; H strictement dominé par B
D
(2, 5) (3, 6)
(5, 8) (2, 9)
D
; C strictement dominé par D →
B strictement dominé par M →
M
M
B
(3, 6)
(2, 9)
;
D
. (M, D) est l’équilibre itéré en stratégies
(3, 6)
strictement dominées cherché.
4
c J.-D. Kant 2016
UPMC - 3I027 IIEE - Cours 8 - Equilibre et équilibre itératif en stratégies dominantes
On peut penser qu’un joueur rationnel ne devrait jamais jouer non plus une stratégie s’il en
existe une autre assurant un gain supérieur ou égal quoi qu’il arrive et strictement supérieur pour
certaines stratégies des autres joueurs. Ici encore si chaque joueur a une stratégie dominante (il
ne peut en avoir plus d’une), il doit la jouer. On dit alors qu’il existe un équilibre en stratégies
dominantes.
En revanche, le concept d’équilibre itératif en stratégies dominantes pose des problèmes.
En effet, contrairement au cas de la dominance stricte, selon l’ordre d’élimination de stratégies
dominées adopté, on peut aboutir à des résultats différents.
2.2.2
Equilibre de NASH
Lorsque, comme dans la bataille du couple, il n’existe pas d’équilibre, même itératif, en
stratégies strictement dominantes, il faut examiner l’intérêt présenté pour les joueurs par des
stratégies aux propriétés plus faibles :
Meilleure réponse
La stratégie ai∗ du joueur i est une meilleure réponse à des stratégies données b−i ∈ A−i des
autres joueurs lorsque : ui (ai∗ , b−i ) ≥ ui (ai , b−i ), ∀ai ∈ Ai .
Equilibre de NASH
Un profil de stratégies a∗ = (a1∗ , ..ai∗ , ..an∗ ) est un équilibre de Nash lorsque chacune de ses
composantes constitue une meilleure réponse aux autres :
i
i
ui (ai∗ , a∗−i ) ≥ ui (ai , a−i
∗ ), ∀a ∈ A , ∀i = 1, .., n.
Un équilibre de Nash est donc un profil de stratégies (c’est-à-dire la donnée d’une stratégie
d’équilibre pour chaque joueur) dans laquelle chaque stratégie est une meilleure réponse à toute
autre stratégie jouée.
Un équilibre de Nash a la propriété de stabilité suivante : si, pour une raison quelconque,
un des joueurs pense que tous ses adversaires vont jouer leurs stratégies d’équilibre, alors il
n’a aucune incitation à jouer lui-même autre chose que sa stratégie d’équilibre. Par exemple, les
joueurs peuvent parfois se mettre d’accord avant le jeu pour jouer un équilibre ; une trahison reste
toujours possible ; cependant chacun a intérêt à respecter cet accord si les autres le respectent
aussi.
La multiplicité des équilibres de Nash peut poser des problèmes. Dans la bataille du couple,
il y a deux équilibres de Nash (concert, concert) et (f oot, f oot) ; sans entente préalable, Kevina
peut vouloir jouer l’un et Kevin l’autre, avec pour résultat les paiements (−1, −1) ; les jeux où
se rencontre cette difficulté sont appelés jeux de coordination.
Enfin, un équilibre de Nash n’est pas forcément souhaitable. Dans le premier dilemme du
prisonnier ci-dessus (avouer, avouer) étant un équilibre en stratégies (strictement) dominantes
est aussi équilibre de Nash ; comme nous l’avons remarqué, (nier, nier) est strictement meilleur
pour chacun des deux joueurs ; un équilibre de Nash n’est donc pas en général Pareto-optimal.
5
c J.-D. Kant 2016
UPMC - 3I027 IIEE - Cours 8 - On voit facilement qu’un équilibre itératif en stratégies strictement dominées et même en
stratégies dominées est nécessairement un équilibre de Nash. L’inverse n’est pas vrai et le
processus itératif d’élimination de stratégies dominées peut écarter un équilibre de Nash attractif
comme dans l’exemple suivant. Exemple
J. I \ J. II
H
B
G
10, 0
10, 11
D
5, 2
2, 0
Si le joueur II pense que le joueur I éliminera la stratégie B, dominée (mais pas strictement)
par H, il jouera D et l’issue du jeu sera (5, 2) ; (H, D) est bien un équilibre de Nash, mais un
deuxième équilibre, (B, G), qui domine strictement (H, D) au sens de Pareto a été éliminé !
L’étude d’un jeu sous sa forme extensive, qui contient en général plus d’information sur le
jeu, permettra d’identifier les équilibres de Nash qui sont crédibles, c-à-d susceptibles d’être
joués par des joueurs rationnels.
3
Jeux sous forme extensive
Certaines situations où les agents prennent des décisions à tour de rôle peuvent être décrites
commodément à l’aide d’un arbre de jeu (en fait, une arborescence) :
3.1
Exemple : attaque publicitaire
Deux entreprises E 1 et E 2 sont en duopole sur un produit et font des bénéfices respectifs
(1, 5) ; E 1 peut ou non lancer une campagne publicitaire (coûteuse) pour agrandir sa part de
marché, ce qui réussira si E 2 ne réagit pas et les amènera alors à (2, 3) ; en revanche, si E 2 réagit
en lançant sa propre campagne, les bénéfices deviendront (0, 2). L’arbre que l’on associe à ce jeu
est le suivant :
Figure 1 – arbre du jeu
6
c J.-D. Kant 2016
UPMC - 3I027 IIEE - Cours 8 - Chacun des joueurs a deux stratégies, pub et statu quo, mais celles de E 2 n’ont d’influence
sur le déroulement et l’issue du jeu que si E 1 a choisi la stratégie pub.
Le jeu a pour forme normale :
E1 \ E2
pub
statu quo
pub
0, 2
1, 5
statu quo
2, 3
1, 5
Il y a deux équilibres de Nash, (pub, statu quo) et (statu quo, pub) ; seule l’analyse de la forme
extensive nous assure que le second ne sera pas joué : si E 1 choisit pub, E 2 jouera statu quo qui
lui rapporte alors à coup sûr plus que pub ; le prévoyant, E 1 doit préférer pub à statu quo. (On
peut arriver à la même conclusion sur la forme normale en raisonnant que E 2 ne jouera pas
pub, dominée par statu quo, mais cette dominance n’étant pas stricte, la conclusion resterait
douteuse).
3.2
Information
Le jeu de l’exemple ci-dessus est un jeu à information parfaite, c.-à-d. qu’à l’instant de
prendre une décision les joueurs connaissent toutes les décisions passées (les leurs et celles des
autres joueurs) et, de plus, s’il y a de l’incertitude, tous les joueurs ont les mêmes informations.
On parlera au contraire, de jeu à information imparfaite lorsque certains des joueurs ne savent
pas toujours exactement à quel sommet de l’arbre de décision ils se trouvent (par exemple quand
l’un d’eux ne saura pas exactement ce que vient de jouer l’un de ses adversaires).
L’information (imparfaite) est symétrique lorsque chaque joueur en sait au moins autant
que les autres au moment où il joue ; elle est dite asymétrique sinon.
L’information est dite incomplète lorsque certains joueurs ne savent pas exactement quels
sont les paiements de la matrice de jeu (ils ne savent pas à quel jeu ils jouent).
Le jeu de l’Attaque publicitaire est un jeu à information parfaite. Les jeux d’échec, de dames
et de Go aussi. Si dans l’un de ces jeux on fait précéder la partie d’un coup de la nature - tirage
à P ile ouF ace - pour savoir qui aura les Blancs (les Noirs au Go) et commencera la partie, le
jeu complété reste à information parfaite.
Le poker, dans toutes ses variantes, est un jeu en environnement incertain (la répartition
des cartes est aléatoire) à information imparfaite. Voyons un exemple avec environnement certain.
Dans le Bonneteau, le Manipulateur place une bille sous l’une de 3 coupes renversées :
la G(auche), celle du C(entre) ou la D(roite) ; le Gogo mise m e , choisit une des coupes
(g(auche),c(entre) ou d(roite)) et gagne M e s’il a désigné celle qui cache la bille. Sur l’arbre
de décision (Fig. 2) on a indiqué l’ensemble d’information du Gogo au moment de jouer ( ellipse
en pointillés) : il ne sait pas où se trouve la bille, donc est incapable de distinguer les 3 sommets
où il peut avoir à jouer.
Le dilemme du prisonnier Dans ce jeu, les deux joueurs jouent simultanément ; on peut
pourtant le représenter sous forme extensive en plaçant dans l’arbre du jeu l’action de l’un avant
celle de l’autre ; ce dernier ne connaissant pas le choix de l’autre ne sait où il se trouve dans
l’arbre : c’est un jeu à information imparfaite.
7
c J.-D. Kant 2016
UPMC - 3I027 IIEE - Cours 8 - Figure 2 – arbre du jeu du Bonneteau
3.3
3.3.1
Stratégies
Stratégies pures
Une stratégie du joueur i (que nous appellerons plus tard stratégie pure quand nous introduirons les stratégies mixtes) est une règle sélectionnant une action parmi les actions réalisables
en chacun des sommets de décision qui lui sont associés. Dans les jeux à information imparfaite,
un joueur ne sachant pas distinguer deux sommets appartenant au même ensemble d’information, une stratégie doit vérifier la condition suivante : sélectionner la même action à tous les
sommets d’un même ensemble d’information. N.B. Cette condition n’apporte aucune restriction dans les jeux à information parfaite puisque tous les ensembles d’information y sont des
singletons.
Un profil de stratégies est une suite a = (a1 , .., ai , ..an ), c-à-d consiste en la donnée d’une
stratégie ai pour chaque joueur i.
Dans un jeu en environnement certain, un profil de stratégies a détermine complètement
le déroulement du jeu ; il sélectionne un chemin de la racine vers l’une des feuilles f , que l’on
appelle la trajectoire du jeu. Les paiements sont alors eux-même déterminés et valent : U (a) =
(U 1 (a), .., U i (a), .., U n (a)) = u(f ) = (u1 (f ), .., ui (f ), .., un (f )).
Dans un jeu en environnement incertain, le déroulement du jeu dépend conjointement des
stratégies des joueurs et des événement réalisés ; la trajectoire est alors aléatoire ; à profil de
8
c J.-D. Kant 2016
UPMC - 3I027 IIEE - Cours 8 - stratégies a donné, chaque feuille f est atteinte avec une probabilité P (f ) (déterminée par la
loi de probabilité
des divers événements) ; a donne donc au joueur i une espérance d’utilité
P
i
i
U (a) =
f P (f ) u (f ). La donnée d’un jeu sous forme extensive permet donc d’obtenir sa
forme normale.
On a le résultat suivant :
Theorem 3.1 (Kuhn). Tout jeu fini à n personnes, sous forme extensive, à information parfaite
a une solution qui est un équilibre de Nash en stratégies pures.
3.4
Stratégies mixtes
Une stratégie mixte en théorie des jeux est une stratégie où le joueur choisit au hasard le
coup qu’il joue parmi les coups possibles. Cela revient à attribuer une certaine distribution de
probabilité sur l’ensemble des stratégies pures du jeu. Dans certains jeux, seules les stratégies
mixtes sont optimales.
Exemple : McDonald’s vs. Quick
Prenons l’exemple de l’affrontement entre les 2 géants du fast food, McDonald’s et Quick, et
modélisons le avec la matrice de jeu suivante :
M D \ QK
prix bas (LP)
publicité forte (HA)
prix bas (LP)
60, 35
55, 50
publicité forte (HA)
55, 45
60, 40
Ce jeu n’admet pas d’équilibre de Nash en stratégie pure. Par exemple si M D = LP, QK =
HA, alors M D va essayer HA mais du coup QK, à partir de (HA, HA), préfère jouer LP . En
(HA, LP ), M D préfère LP et alors QK joue HA : nous voilà revenus à la case départ.
En stratégie mixte, on introduit les probabilités pLM que Mc Do joue prix bas et pLQK que
Quick joue prix bas. Pour Mc Do, il faut maximiser le profit espéré :
EM D = pLM (60.pLQK + 55.(1 − pLQK )) + (1 − pLM )(55.pLQK + 60.(1 − pLQK ))
= 10.pLM .pLQK − 5.pLM − 5.pLQK + 60
Pour maximiser il faut :
∂EM D
∂EM D
=
= 0 ⇒ pLM = pLQK = 0, 5
∂pLM
∂pLQK
Pour Quick, il faut maximiser le profit espéré :
EQK
= pLQK (35.pLM + 50.(1 − pLM )) + (1 − pLQK )(45.pLM + 40.(1 − pLM ))
= −20.pLM .pLQK + 10.pLQK + 5.pLM + 60
Pour maximiser il faut :
∂EQK
∂EQK
=
= 0 ⇒ pLQK = 0, 5 ; pLM = 0, 25
∂pLM
∂pQK
9
c J.-D. Kant 2016
UPMC - 3I027 IIEE - Cours 8 - La stratégie optimale pour les 2 entreprises est donc de jouer chaque stratégie avec une
probabilité de 50%.
Ce jeu mixte n’est pas représentable sous forme extensive, car, chaque joueur y ayant une
infinité de stratégies, ce n’est plus un jeu fini (or un graphe est fini). On continue donc à raisonner
sur l’arbre du jeu initial, de même que, sous forme normale, on continue à utiliser la matrice du
jeu initial.
Nash a démontré que :
Theorem 3.2 (Nash). Tout jeu fini à n personnes sous forme normale a un équilibre [de Nash]
en stratégies mixtes.
4
Jeux répétés
4.1
Introduction
Reprenons l’exemple du dilemme du prisonnier (ici on représente des gains positifs) :
nier
avouer
nier
1, 1
2, −1
avouer
−1, 2
0, 0
L’analyse de ce jeu nous a conduit à une conclusion peu satisfaisante : Si les joueurs sont
rationnels, chacun doit éliminer la stratégie nier qui est strictement dominée ; la solution du jeu
est donc (avouer, avouer) ; c’est nécessairement un équilibre de Nash et c’est en fait le seul. Or
cette solution est dominée au sens de Pareto par le profil (nier, nier), plus avantageux pour
chacun des joueurs. Il y a donc conflit entre la rationalité individuelle et la rationalité collective.
Quand pourrait-on observer de la coopération de la part des joueurs ? Une hypothèse possible
est que dans la réalité les agents n’ont pas affaire à une situation de jeu isolée, mais à une
succession de jeux, sinon identiques du moins de structures semblables, et que la stratégie choisie
dans l’un d’eux n’est qu’une composante de leur stratégie globale dans le super-jeu constitué de
l’ensemble de leurs jeux. Nous allons examiner cette hypothèse.
4.2
4.2.1
Etude du dilemme du prisonnier répété
Comportement rationnel dans le dilemme du prisonnier répété un nombre
fini de fois
N.B. On écrira A et N pour les stratégies avouer et nier du jeu élémentaire.
Deux joueurs jouent le super-jeu consistant à jouer T fois au dilemme du prisonnier, à des
dates t = 1, 2, · · · , t, · · · , T . Les gains des différentes parties s’additionnent pour constituer les
paiements du super-jeu. Ce super-jeu est un jeu fini à information imparfaite (comme d’ailleurs
le jeu élémentaire) puisqu’à chaque date t les deux joueurs jouent à l’insu l’un de l’autre.
A la date t, chaque joueur sait ce que son adversaire et lui-même ont joué aux (t − 1)
premières parties et il peut en faire dépendre son action à cette date. Une stratégie S de l’un des
10
c J.-D. Kant 2016
UPMC - 3I027 IIEE - Cours 8 - joueurs dans le super-jeu est donc caractérisable par une suite S = (S 1 , · · · , S t , · · · , S T ) dont
les composantes, toutes à valeurs dans {A, N }, sont déterminées récursivement par la donnée
de S 1 et de fonctions φt , t = 2, · · · , T , par S t = φt (S 1 , R1 , · · · , S t−1 , Rt−1 ) où R1 , · · · , Rt−1
sont les actions de l’autre joueur qu’il aura déjà observées à t. Il y a donc un très grand nombre
de stratégies (pures) possibles pour chacun des joueurs.
Montrons qu’une stratégie optimale pour chacun des joueurs est d’avouer à chaque étape,
stratégie que nous noterons Arep . A la date T , quel qu’ait été le déroulement du jeu jusque là
et le total des gains de chacun, il reste à jouer un jeu élémentaire ayant sous forme normale la
matrice de gains totaux finaux
nier
avouer
nier
mI + 1, mII + 1
mI + 2, mII − 1
avouer
mI − 1, mII + 2
mI , mII
où les sommes mI et mII dépendent du sommet atteint après (T − 1) étapes. Quelles que
soient ces sommes, jouer A est strictement dominant pour chacun des deux joueurs : tous deux
prévoient donc que l’autre jouera A à T . Mais alors, à (T − 1), au moment de jouer dans le jeu
élémentaire à cette date, chacun doit seulement comparer les paiements dans le sous-jeu formé
de deux jeux élémentaires les sous-stratégies A suivi de A et N suivi de A ; la matrice des gains
finaux étant du type précédent (avec pour mI et mII les sommes acquises après T −2 étapes), les
deux joueurs prévoient que l’autre jouera A à (T − 1) comme à T . Par récurrence, on montrerait
que tous les deux doivent jouer Arep . Le couple (Arep , Arep ) est clairement Pareto-dominé par
de nombreuses autres couples de stratégies du super-jeu, comme par exemple (Nrep , Nrep ). On
reste donc devant la même incohérence entre rationalité individuelle et collective que dans le jeu
élémentaire !
4.2.2
Introduction de présupposés de comportement dans le dilemme du prisonnier
répété un nombre fini de fois
Un joueur peut être rationnel et pourtant avoir un comportement coopératif, s’il prend en
compte d’autres éléments que la simple description du jeu, par exemple s’il a des idées a priori
sur le comportement l’autre joueur. Nous prendrons l’exemple suivant : on appelle Tit for Tat
(”oeil pour oeil, dent pour dent”) la stratégie suivante : Jouer N (nier) à t = 1, puis , à tout
t > 1, jouer ce que l’autre a joué à (t − 1).
Supposons que le joueur I pense que son adversaire peut avec une probabilité jouer la
stratégie Tit for Tat au lieu de la stratégie rationnelle non-coopérative Arep . Si I joue lui-même
Arep , avec probabilité , II jouant Tit for Tat, I gagnera 2 la première fois puis plus rien et avec
probabilité (1 − ), II jouant Arep , les paiements (de I comme de II) seront toujours nuls ; d’où
un gain espéré égal à 2.
Si maintenant I joue lui-même Tit for Tat, avec probabilité , II jouant lui-même Tit for
Tat avec probabilité , I réalisera T fois un gain de 1. Avec probabilité (1 − ), II jouant Arep ,
et donc I perdra 1 à t = 1, puis tous les paiements seront nuls. D’où un gain espéré égal à
.T + (1 − )(−1) = (T + 1) − 1.
11
c J.-D. Kant 2016
UPMC - 3I027 IIEE - Cours 8 - Tit for Tat est donc préférable pour lui à la stratégie ”rationnelle” Arep dès que
1
(T + 1) − 1 > 2 ⇔ > T −1
. Cela dit, Tit for Tat n’est pourtant pas sa stratégie optimale
car, par exemple, il a toujours intérêt à jouer A à la dernière période.
Simulation du Tit-for-Tat 1
Robert Axelrod, dans son ouvrage “The Evolution of Cooperation” (1984), cherche à répondre
à la question suivante : ”Under what conditions will cooperation emerge in a world of egoists
without central authority ?” Pour tester la stabilité de cet équilibre, R. Axelrod demande à des
collègues, qui ont étudié le dilemme du prisonnier dans leurs différentes disciplines (psychologie,
biologie, économie, physique, mathématique, science politique, sociologie etc.), de proposer un
programme, qu’ils estiment susceptible de remporter le plus de points, pour jouer à un jeu du dilemme du prisonnier répété 200 fois. Chaque programme contient la stratégie d’un joueur. Le jeu
s’apparente à un tournoi dans lequel chaque stratégie est confrontée à tous les autres, à lui-même
et à un programme aléatoire jouant au hasard. Le programme vainqueur est celui totalisant le
plus de points. Le premier tournoi impliquant 14 programmes donna le programme gagnantgagnant ou Tit for Tat d’Anatol Rapoport vainqueur. R. Axelrod décide de renouveler
l’expérience avec 62 programmes et de nouveau le programme gagnant-gagnant d’A.Rapoport
l’emporte. Or la stratégie gagnant-gagnant ou Tit for Tat d’A. Rapoport n’emporte
aucun match du tournoi ! R. Axelrod (1984) (1) en déduit, que [le dilemme du prisonnier]
est simplement une formulation abstraite de quelques situations très courantes et intéressantes
dans lesquelles ce qui est le meilleur pour une personne individuellement conduit à une situation
d’échec mutuel tandis que chacune pourrait mieux s’en tirer avec une coopération mutuelle .
L’interprétation de ces résultats qui impliquent la supériorité du comportement coopératif dans
un environnement de dilemmes du prisonnier répétés a été sujette à de nombreuses discussions.
Selon Eber (2004), les résultats d’Axelrod montrent que, dans un monde de conflits permanents,
il serait optimal de se comporter de la façon suivante : être a priori coopératif avec les
autres (jouer [la stratégie de coopération (C)] lors du premier dilemme du prisonnier auquel on
se trouve confronté), punir son partenaire lorsqu’il n’a pas coopéré (jouer [la stratégie de noncoopération (D)] chaque fois que le joueur à jouer D au tour précédent) pardonner et revenir à
la coopération lorsque le partenaire se remet à coopérer (jouer C à chaque fois qu’il a joué C le
coup précédent) . Cette philosophie politique, certes plaisante, est très débattue. Les conclusions auxquelles Axelrod aboutit sont en particulier liées à la simplification du modèle comparé
à la situation réelle analysée 2 .
5
Applications
Les champs d’application de la Théorie des Jeux sont très variés par exemples :
• Défense, Relations Internationales
— la crise des missiles de Cuba en octobre 1962 :
On peut la représenter par le jeu suivant :
1. D’après Wikipedia, http ://fr.wikipedia.org/wiki/Théorie des jeux en relations internationales.
2. Référence : Milgrom P. R. (1984), “Book review : Axelrod’s ”The Evolution of Cooperation” The Evolution
of Cooperation. R. Axelrod” Review author[s] : Paul R. Milgrom, The RAND Journal of Economics, Vol. 15, No.
2. (Summer, 1984), pp. 305-309.
12
c J.-D. Kant 2016
UPMC - 3I027 IIEE - Cours 8 - Kennedy \ Kroutchev
blocus naval
raid aérien
retrait
Compromis (3, 3)
V ictoire U S (4, 2)
maintenir
V ictoire U RSS (2, 4)
Guerre N ucléaire (−3, −3)
A priori, personne ne veut la pire situation, mais il s’agit de ne pas perdre la face.
Cela s’apparente à ce que les américains ont appelé le game of chicken, un jeu très à
la mode dans les années 1950 (voir le film La fureur de vivre). Deux automobilistes
roulent en sens inverse dans une rue étroite, le perdant qualifié de poule mouillée
est celui qui donne un coup de volant pour éviter son concurrent. Ce jeu représente
bien des situations de crise dans le domaine des relations internationales.
Analyse par Steven Brams 3 :
Needless to say, the strategy choices, probable outcomes, and associated payoffs
provide only a skeletal picture of the crisis as it developed over a period of thirteen days. Both sides considered more than the two alternatives listed, as well
as several variations on each. The Soviets, for example, demanded withdrawal
of American missiles from Turkey as a quid pro quo for withdrawal of their
own missiles from Cuba, a demand publicly ignored by the United States.
Nevertheless, most observers of this crisis believe that the two superpowers were
on a collision course, which is actually the title of one book describing this
nuclear confrontation. They also agree that neither side was eager to take any
irreversible step, such as one of the drivers in Chicken might do by defiantly
ripping off the steering wheel in full view of the other driver, thereby foreclosing
the option of swerving.
Although in one sense the United States ”won” by getting the Soviets to withdraw their missiles, Premier Nikita Khrushchev of the Soviet Union at the same
time extracted from President Kennedy a promise not to invade Cuba, which
seems to indicate that the eventual outcome was a compromise of sorts. But this
is not game theory’s prediction for Chicken, because the strategies associated
with compromise do not constitute a Nash equilibrium.
— les politiques de constitution de convois de bateaux en temps de guerre ;
— la façon de gérer un coup de surprise politique (Nasser à Suez, de Gaulle au Québec,
Eltsine lors du putsch, annonces électorales...) ou marketing ;
— la lutte contre le terrorisme.
• Sociologie et génétique : des chercheurs ont utilisé la stratégie des jeux pour mieux comprendre l’évolution du comportement des espèces face à la modification de leur environnement
• Marketing et stratégie entreprise
• Economie ; notamment les travaux de Jean Tirole en économie industrielle
Les résultats peuvent être appliqués à des divertissements (comme le jeu télévisé Friend
or Foe 4 sur une chaı̂ne câblée spécialisée aux États-Unis, Game Show Network).
Le Professeur Thomas Schelling, ”prix Nobel d’économie” 2005, s’est spécialisé dans l’explication des diverses stratégies utilisées (à utiliser) dans les conflits internationaux, tels la guerre
froide et la guerre nucléaire (dissuasion..)
3. http ://plus.maths.org/content/game-theory-and-cuban-missile-crisis
4. http ://en.wikipedia.org/wiki/Friend or Foe%3F
13
c J.-D. Kant 2016
UPMC - 3I027 IIEE - Cours 8 - Albert W. Tucker a par exemple diffusé de nombreuses interprétations du dilemme du prisonnier dans la vie courante. Des biologistes ont utilisé la théorie des jeux pour comprendre
et prévoir les résultats de l’évolution, en particulier la notion d’équilibre évolutivement stable
introduit par John Maynard Smith dans son essais La théorie des jeux et l’évolution de la lutte
(Game Theory and the Evolution of Fighting). Voir aussi son livre Evolution and the Theory of
Games.
Dans le domaine de la science politique appliquée à l’environnement, on peut citer la tragédie
des communs 5 :
L’exemple typique utilisé pour illustrer ce phénomène est celui d’un champ de fourrage
commun à tout un village, dans lequel chaque éleveur vient faire paı̂tre son propre
troupeau. Hardin décrit l’utilité que chaque éleveur a à ajouter un animal de plus à
son troupeau dans le champ commun comme étant la valeur de l’animal, tandis que
le coût encouru par ce même éleveur est seulement celui de l’animal divisé par le
nombre d’éleveurs ayant accès au champ. En clair, l’intérêt de s’accaparer le plus de
ressources communes possible dépasse toujours le prix à payer pour l’utilisation de
ces ressources. Rapidement, chaque éleveur emmène autant d’animaux que possible
paı̂tre dans le champ commun pour empêcher, autant que faire se peut, les autres
éleveurs de prendre un avantage sur lui en utilisant les ressources communes, et le
champ devient vite une mare de boue où plus rien ne pousse. 6 .
Selon Garrett Hardin, il y a trois solutions différentes pour éviter la surexploitation des ressources : la nationalisation, la privatisation, et la gestion par des communautés locales.
Il faut noter cependant des critiques fortes adressées aux partisans de la théorie
des jeux, parmi lesquels on peut citer celle de Bernard Guerrien objectant que les visions très
abstraites de la théorie des jeux ont du mal à représenter adéquatement le réel, qu’on ne sait pas
s’il y a des équilibres de Nash dans la Nature, ni si cette notion même d’équilibre de Nash est
la prédiction issue de la théories des jeux, le résultat du comportement rationnel des joueurs ou
la solution du jeu (Cf. B. Guerrien, Can we espect anything from Game Theory, in E. Fullbrook
(ed.), A Guide to What’s wrong with Economics, Anthem Press, 2004,pp. 198-208. Le débat est
loin d’être clos.
5. G. Hardin, The tragedy of the Commons, Science, 1968
6. Daprès Wikipedia https ://fr.wikipedia.org/wiki/Tragédie des biens communs
14

cours 8 : introduction a la theorie des jeux

Transcription

Documents pareils

Fiche de préparation d`une sortie géologique

TP 7 - LSV

L`Homme de cour

La théorie des jeux

Yummy. Contenu: 106 cartes 1 règle Le jeu contient 106 cartes

Jeux sous forme normale

PROJET DE FIN D`ETUDES Université Galatasaray ÉQUILIBRE DE

Le sumoku se joue avec les mêmes règles que le sudoku. Le thème

MATELAS MuLTiSTrATES hAuTE éLASTiciTé strat`air

La Gestion d`Actifs Quantitative

Auteur des jeux de demain - Alchimie du jeu de Toulouse

Coupe du Centre I - Ligue du Centre de Golf

Poker des cafards