cours 8 : introduction a la theorie des jeux
Transcription
cours 8 : introduction a la theorie des jeux
c J.-D. Kant 2016 UPMC - 3I027 IIEE - Cours 8 - Université Pierre et Marie Curie Licence Informatique 2015-2016 Cours 3I027 - Industrie Informatique et son Environnement Économique Responsable : Jean-Daniel Kant ([email protected]) COURS 8 : INTRODUCTION A LA THEORIE DES JEUX 1 Jeux Le comportement des oligopoles montrent la forte interdépendance entre les firmes. Quand la marché est contrôlé par un petit nombre d’entreprises, chaque firme analyse les comportements des autres et peaufine sa stratégie en partie en fonction de celles des autres. Ainsi, ces comportements interdépendants peuvent apparaı̂tre comme des jeux, où chaque firme jouerait un coup, puis recevrait la réponse d’une autre en riposte, etc. C’est pourquoi la théorie des jeux est souvent utilisée en économie pour modéliser les comportements oligopolistiques. Elle est aussi utilisée dans d’autres domaines de l’économie industrielle, en économie du travail, des échanges internationaux, etc. Elle est cependant plus normative que descriptive, car rien ne prouve que les acteurs raisonnent exactement comme la théorie des jeux le prescrit. C’est plus une abstraction de comportement, une vision stylisée qu’un véritable modèle. La théorie des jeux étudie des situations (les jeux ) où des agents (les joueurs) ont à choisir des stratégies et obtiendront chacun un résultat (paiement, gain) qui dépendra des stratégies jouées par l’ensemble des joueurs. Une stratégie peut se réduire à une décision élémentaire, mais peut aussi consister en un plan d’action complexe, comme nous le verrons plus loin. Un jeu est non-coopératif lorsque les joueurs choisissent leurs stratégies à l’insu les uns des autres. La théorie des jeux coopératifs étudie au contraire les avantages que peuvent tirer les joueurs de la possibilité de former entre eux des coalitions. 2 2.1 Jeux non-coopératifs Jeux sous forme normale Un jeu est présenté sous forme normale (on dit encore sous forme stratégique) lorsqu’il est défini par la donnée : • d’un ensemble de joueurs N = {1, .., i, .., n} ; • pour chaque joueur i, d’un ensemble de stratégies Ai = {ai1 , .., ail , .., aimi } ; • et d’une fonction(vectorielle) de paiement : Nn 1 i n i u = (u , ..u , ..u ) : i=1 A −→ Rn 1 c J.-D. Kant 2016 UPMC - 3I027 IIEE - Cours 8 - a = (a1 , ..ai , ..an ) 7−→ u(a) = (u1 (a), .., ui (a), .., un (a)), où ui (a) = ui (a1 , .., ai , .., an ) est le paiement du joueur i (ce peut être aussi bien un gain monétaire qu’un niveau d’utilité) lorsque les joueurs jouent le profil de stratégies a, cà-d, lorsque le joueur i joue la stratégie ai et les autres joueurs jouent les stratégies aj , j ∈ N \{i}. n Notations : Il sera commode de noter −i l’ensemble N \{i}, d’où a−i = (a1 , .., ai−1 , ai+1 , ..a N ), a = i −i −i 1 i−1 i+1 n i −i −i (a , a ), u (a) = (u (a), .., u (a), u (a), .., u (a)), u(a) = (u (a), u (a)), A = j6=i Aj , A = Ai × A−i , etc. Cette définition peut être étendue à un nombre infini de joueurs ou de stratégies. Dans le cas de deux joueurs (n = 2), on peut représenter un tel jeu à l’aide de la matrice du jeu, dont les lignes et colonnes sont respectivement identifiées aux stratégies de chacun des joueurs et l’élément de ligne a1 et colonne a2 est le couple (u1 (a1 , a2 ), u2 (a1 , a2 )). Ainsi le jeu est décrit par la matrice U de terme Uij = ui (aj ). N.B. Dans un jeu sous forme normale on suppose toujours que les deux joueurs connaissent la matrice U du jeu. Exemples La bataille du couple Kevin et Kevina doivent aller au spectacle ce soir et acheter leur billet à l’avance, chacun séparément ; ils n’ont pas la possibilité de communiquer ; ils n’aiment l’une que les chanteuses américaines décolorées, l’autre que le football ; enfin, leur soirée à tous deux sera gâchée s’ils ne sont pas ensemble. Kevina \ Kevin concert f oot concert 2, 1 −1, −1 f oot −1, −1 1, 2 Peut-on dire ce que doivent faire, prédire ce que vont faire, Kevin et Kevina ? S’ils sont rationnels, chacun a intérêt à choisir sa préférence, car il vaut mieux gagner 2 ou perdre -1, que gagner 1 ou perdre -1. Mais dans ce cas, ils vont perdre à coup sûr. Il vaudrait mieux jouer (concert,concert) ou (foot,foot). Mais cela ne donnera des gains que s’ils jouent le même. La bataille du couple est difficile à résoudre ! Le dilemme du prisonnier P ris. I \ P ris. II nier avouer nier 3, 3 1, 10 avouer 10, 1 6, 6 Ce jeu tire son nom de l’interprétation suivante : deux criminels présumés sont interrogés séparément par la police ; s’ils nient tous les deux ils seront condamnés à une faible peine (3 ans) et s’ils avouent tous les deux ils seront condamnés à une peine plus forte (6 ans) ; si l’un 2 c J.-D. Kant 2016 UPMC - 3I027 IIEE - Cours 8 - des deux avoue tandis que l’autre nie, le premier n’aura qu’une peine de principe (1 an) alors que le second aura la peine maximale (10 ans). La matrice ci-dessus représente donc des pertes (gains négatifs). Que vont faire, que doivent faire, les deux prisonniers ? Quel que soit l’action de l’autre, chacun a intérêt à avouer, car les gains seront toujours meilleurs (peines moindres) que nier. Cependant si on change maintenant la matrice des gains : P ris. I \ P ris. II nier avouer nier 3, 3 30, 10 avouer 10, 30 30, 30 Il vaut alors mieux nier, vu qu’avouer entraı̂ne la peine maximale à chaque fois. 2.2 Analyse d’un jeu sous forme normale 2.2.1 Considérations de dominance Dominances • La stratégie ai du joueur i domine faiblement sa stratégie bi lorsque : ui (ai , a−i ) ≥ ui (bi , a−i ), ∀a−i ∈ A−i ; (quelque soient les stratégies a−i des autres joueurs, la stratégie ai est meilleure ou égale que bi .) • elle la domine si elle la domine faiblement et que, de plus : ∃c−i ∈ A−i t.q. ui (ai , c−i ) > ui (bi , c−i ) ; (il y a au moins un cas, i.e. une réponse des autres joueurs, pour lequel ai est meilleure que bi ) • enfin, ai domine strictement bi lorsque : ui (ai , a−i ) > ui (bi , a−i ), ∀a−i ∈ A−i . (quelque soient les stratégies a−i des autres joueurs, la stratégie ai est meilleure strictement que bi .) La stratégie ai est dite faiblement dominante (resp. dominante, resp. strictement dominante) si elle domine faiblement (resp. domine, resp. domine strictement) tous les bi ∈ Ai \{ai }. Equilibre en stratégies strictement dominantes On peut penser qu’un joueur rationnel ne choisira jamais une stratégie s’il dispose d’une autre stratégie lui assurant un gain supérieur quel que soit le comportement des autres joueurs. Si chaque joueur a une stratégie strictement dominante, il doit donc la jouer et le jeu est résolu. On dit alors qu’il existe un équilibre en stratégies strictement dominantes. C’est le cas pour (avouer, avouer) dans le premier dilemme du prisonnier ci-dessus. Remarquons que les joueurs obtiendraient tous deux plus qu’à cet équilibre en jouant (nier, nier) ; il n’est donc pas efficace du point de vue de la rationalité collective, qui se caractérise par l’optimalité au sens de Pareto. 3 c J.-D. Kant 2016 UPMC - 3I027 IIEE - Cours 8 - Optimum de Pareto Une suite de stratégies a∗ = (a1∗ , ..ai∗ , ..an∗ ) est un optimum de Pareto lorsqu’ aucun des joueurs ne peut obtenir un paiement plus élevé sans que le paiement d’un des autres diminue : i i −i i i −i i i −i u (a , a ) ≥ ui (ai∗ , a−i ∗ ), ∀i =⇒ u (a , a ) = u (a∗ , a∗ ), ∀i . L’optimum de Pareto exprime bien l’idée que collectivement on ne peut pas améliorer la situation. Souvent il fournit une solution plus efficace que quand chaque joueur raisonne individuellement. Equilibre itératif en stratégies strictement dominantes Quand il n’en existe pas, le jeu peut souvent être simplifié par un processus itératif où chaque joueur, tablant sur la rationalité de ses adversaires, écarte les stratégies apparues comme dominées à cette étape de son raisonnement. Exemple Matrice du jeu : G H M B C D (2, 5) (4, 8) (1, 3) (1, 4) (2, 5) (3, 6) (3, 7) (5, 8) (2, 9) Il n’existe pas d’équilibre en stratégies strictement dominantes car aucune ligne ne donne strictement plus, composante par composante, que toutes les autres lignes (il n’existe d’ailleurs pas non plus de colonne dominant strictement toutes les autres colonnes). Dans la recherche d’un équilibre itéré en stratégies strictement dominantes, on élimine successivement : C G strictement dominé par C → C → M B H M B D (4, 8) (1, 3) (2, 5) (3, 6) (5, 8) (2, 9) ; H strictement dominé par B D (2, 5) (3, 6) (5, 8) (2, 9) D ; C strictement dominé par D → B strictement dominé par M → M M B (3, 6) (2, 9) ; D . (M, D) est l’équilibre itéré en stratégies (3, 6) strictement dominées cherché. 4 c J.-D. Kant 2016 UPMC - 3I027 IIEE - Cours 8 - Equilibre et équilibre itératif en stratégies dominantes On peut penser qu’un joueur rationnel ne devrait jamais jouer non plus une stratégie s’il en existe une autre assurant un gain supérieur ou égal quoi qu’il arrive et strictement supérieur pour certaines stratégies des autres joueurs. Ici encore si chaque joueur a une stratégie dominante (il ne peut en avoir plus d’une), il doit la jouer. On dit alors qu’il existe un équilibre en stratégies dominantes. En revanche, le concept d’équilibre itératif en stratégies dominantes pose des problèmes. En effet, contrairement au cas de la dominance stricte, selon l’ordre d’élimination de stratégies dominées adopté, on peut aboutir à des résultats différents. 2.2.2 Equilibre de NASH Lorsque, comme dans la bataille du couple, il n’existe pas d’équilibre, même itératif, en stratégies strictement dominantes, il faut examiner l’intérêt présenté pour les joueurs par des stratégies aux propriétés plus faibles : Meilleure réponse La stratégie ai∗ du joueur i est une meilleure réponse à des stratégies données b−i ∈ A−i des autres joueurs lorsque : ui (ai∗ , b−i ) ≥ ui (ai , b−i ), ∀ai ∈ Ai . Equilibre de NASH Un profil de stratégies a∗ = (a1∗ , ..ai∗ , ..an∗ ) est un équilibre de Nash lorsque chacune de ses composantes constitue une meilleure réponse aux autres : i i ui (ai∗ , a∗−i ) ≥ ui (ai , a−i ∗ ), ∀a ∈ A , ∀i = 1, .., n. Un équilibre de Nash est donc un profil de stratégies (c’est-à-dire la donnée d’une stratégie d’équilibre pour chaque joueur) dans laquelle chaque stratégie est une meilleure réponse à toute autre stratégie jouée. Un équilibre de Nash a la propriété de stabilité suivante : si, pour une raison quelconque, un des joueurs pense que tous ses adversaires vont jouer leurs stratégies d’équilibre, alors il n’a aucune incitation à jouer lui-même autre chose que sa stratégie d’équilibre. Par exemple, les joueurs peuvent parfois se mettre d’accord avant le jeu pour jouer un équilibre ; une trahison reste toujours possible ; cependant chacun a intérêt à respecter cet accord si les autres le respectent aussi. La multiplicité des équilibres de Nash peut poser des problèmes. Dans la bataille du couple, il y a deux équilibres de Nash (concert, concert) et (f oot, f oot) ; sans entente préalable, Kevina peut vouloir jouer l’un et Kevin l’autre, avec pour résultat les paiements (−1, −1) ; les jeux où se rencontre cette difficulté sont appelés jeux de coordination. Enfin, un équilibre de Nash n’est pas forcément souhaitable. Dans le premier dilemme du prisonnier ci-dessus (avouer, avouer) étant un équilibre en stratégies (strictement) dominantes est aussi équilibre de Nash ; comme nous l’avons remarqué, (nier, nier) est strictement meilleur pour chacun des deux joueurs ; un équilibre de Nash n’est donc pas en général Pareto-optimal. 5 c J.-D. Kant 2016 UPMC - 3I027 IIEE - Cours 8 - On voit facilement qu’un équilibre itératif en stratégies strictement dominées et même en stratégies dominées est nécessairement un équilibre de Nash. L’inverse n’est pas vrai et le processus itératif d’élimination de stratégies dominées peut écarter un équilibre de Nash attractif comme dans l’exemple suivant. Exemple J. I \ J. II H B G 10, 0 10, 11 D 5, 2 2, 0 Si le joueur II pense que le joueur I éliminera la stratégie B, dominée (mais pas strictement) par H, il jouera D et l’issue du jeu sera (5, 2) ; (H, D) est bien un équilibre de Nash, mais un deuxième équilibre, (B, G), qui domine strictement (H, D) au sens de Pareto a été éliminé ! L’étude d’un jeu sous sa forme extensive, qui contient en général plus d’information sur le jeu, permettra d’identifier les équilibres de Nash qui sont crédibles, c-à-d susceptibles d’être joués par des joueurs rationnels. 3 Jeux sous forme extensive Certaines situations où les agents prennent des décisions à tour de rôle peuvent être décrites commodément à l’aide d’un arbre de jeu (en fait, une arborescence) : 3.1 Exemple : attaque publicitaire Deux entreprises E 1 et E 2 sont en duopole sur un produit et font des bénéfices respectifs (1, 5) ; E 1 peut ou non lancer une campagne publicitaire (coûteuse) pour agrandir sa part de marché, ce qui réussira si E 2 ne réagit pas et les amènera alors à (2, 3) ; en revanche, si E 2 réagit en lançant sa propre campagne, les bénéfices deviendront (0, 2). L’arbre que l’on associe à ce jeu est le suivant : Figure 1 – arbre du jeu 6 c J.-D. Kant 2016 UPMC - 3I027 IIEE - Cours 8 - Chacun des joueurs a deux stratégies, pub et statu quo, mais celles de E 2 n’ont d’influence sur le déroulement et l’issue du jeu que si E 1 a choisi la stratégie pub. Le jeu a pour forme normale : E1 \ E2 pub statu quo pub 0, 2 1, 5 statu quo 2, 3 1, 5 Il y a deux équilibres de Nash, (pub, statu quo) et (statu quo, pub) ; seule l’analyse de la forme extensive nous assure que le second ne sera pas joué : si E 1 choisit pub, E 2 jouera statu quo qui lui rapporte alors à coup sûr plus que pub ; le prévoyant, E 1 doit préférer pub à statu quo. (On peut arriver à la même conclusion sur la forme normale en raisonnant que E 2 ne jouera pas pub, dominée par statu quo, mais cette dominance n’étant pas stricte, la conclusion resterait douteuse). 3.2 Information Le jeu de l’exemple ci-dessus est un jeu à information parfaite, c.-à-d. qu’à l’instant de prendre une décision les joueurs connaissent toutes les décisions passées (les leurs et celles des autres joueurs) et, de plus, s’il y a de l’incertitude, tous les joueurs ont les mêmes informations. On parlera au contraire, de jeu à information imparfaite lorsque certains des joueurs ne savent pas toujours exactement à quel sommet de l’arbre de décision ils se trouvent (par exemple quand l’un d’eux ne saura pas exactement ce que vient de jouer l’un de ses adversaires). L’information (imparfaite) est symétrique lorsque chaque joueur en sait au moins autant que les autres au moment où il joue ; elle est dite asymétrique sinon. L’information est dite incomplète lorsque certains joueurs ne savent pas exactement quels sont les paiements de la matrice de jeu (ils ne savent pas à quel jeu ils jouent). Le jeu de l’Attaque publicitaire est un jeu à information parfaite. Les jeux d’échec, de dames et de Go aussi. Si dans l’un de ces jeux on fait précéder la partie d’un coup de la nature - tirage à P ile ouF ace - pour savoir qui aura les Blancs (les Noirs au Go) et commencera la partie, le jeu complété reste à information parfaite. Le poker, dans toutes ses variantes, est un jeu en environnement incertain (la répartition des cartes est aléatoire) à information imparfaite. Voyons un exemple avec environnement certain. Dans le Bonneteau, le Manipulateur place une bille sous l’une de 3 coupes renversées : la G(auche), celle du C(entre) ou la D(roite) ; le Gogo mise m e , choisit une des coupes (g(auche),c(entre) ou d(roite)) et gagne M e s’il a désigné celle qui cache la bille. Sur l’arbre de décision (Fig. 2) on a indiqué l’ensemble d’information du Gogo au moment de jouer ( ellipse en pointillés) : il ne sait pas où se trouve la bille, donc est incapable de distinguer les 3 sommets où il peut avoir à jouer. Le dilemme du prisonnier Dans ce jeu, les deux joueurs jouent simultanément ; on peut pourtant le représenter sous forme extensive en plaçant dans l’arbre du jeu l’action de l’un avant celle de l’autre ; ce dernier ne connaissant pas le choix de l’autre ne sait où il se trouve dans l’arbre : c’est un jeu à information imparfaite. 7 c J.-D. Kant 2016 UPMC - 3I027 IIEE - Cours 8 - Figure 2 – arbre du jeu du Bonneteau 3.3 3.3.1 Stratégies Stratégies pures Une stratégie du joueur i (que nous appellerons plus tard stratégie pure quand nous introduirons les stratégies mixtes) est une règle sélectionnant une action parmi les actions réalisables en chacun des sommets de décision qui lui sont associés. Dans les jeux à information imparfaite, un joueur ne sachant pas distinguer deux sommets appartenant au même ensemble d’information, une stratégie doit vérifier la condition suivante : sélectionner la même action à tous les sommets d’un même ensemble d’information. N.B. Cette condition n’apporte aucune restriction dans les jeux à information parfaite puisque tous les ensembles d’information y sont des singletons. Un profil de stratégies est une suite a = (a1 , .., ai , ..an ), c-à-d consiste en la donnée d’une stratégie ai pour chaque joueur i. Dans un jeu en environnement certain, un profil de stratégies a détermine complètement le déroulement du jeu ; il sélectionne un chemin de la racine vers l’une des feuilles f , que l’on appelle la trajectoire du jeu. Les paiements sont alors eux-même déterminés et valent : U (a) = (U 1 (a), .., U i (a), .., U n (a)) = u(f ) = (u1 (f ), .., ui (f ), .., un (f )). Dans un jeu en environnement incertain, le déroulement du jeu dépend conjointement des stratégies des joueurs et des événement réalisés ; la trajectoire est alors aléatoire ; à profil de 8 c J.-D. Kant 2016 UPMC - 3I027 IIEE - Cours 8 - stratégies a donné, chaque feuille f est atteinte avec une probabilité P (f ) (déterminée par la loi de probabilité des divers événements) ; a donne donc au joueur i une espérance d’utilité P i i U (a) = f P (f ) u (f ). La donnée d’un jeu sous forme extensive permet donc d’obtenir sa forme normale. On a le résultat suivant : Theorem 3.1 (Kuhn). Tout jeu fini à n personnes, sous forme extensive, à information parfaite a une solution qui est un équilibre de Nash en stratégies pures. 3.4 Stratégies mixtes Une stratégie mixte en théorie des jeux est une stratégie où le joueur choisit au hasard le coup qu’il joue parmi les coups possibles. Cela revient à attribuer une certaine distribution de probabilité sur l’ensemble des stratégies pures du jeu. Dans certains jeux, seules les stratégies mixtes sont optimales. Exemple : McDonald’s vs. Quick Prenons l’exemple de l’affrontement entre les 2 géants du fast food, McDonald’s et Quick, et modélisons le avec la matrice de jeu suivante : M D \ QK prix bas (LP) publicité forte (HA) prix bas (LP) 60, 35 55, 50 publicité forte (HA) 55, 45 60, 40 Ce jeu n’admet pas d’équilibre de Nash en stratégie pure. Par exemple si M D = LP, QK = HA, alors M D va essayer HA mais du coup QK, à partir de (HA, HA), préfère jouer LP . En (HA, LP ), M D préfère LP et alors QK joue HA : nous voilà revenus à la case départ. En stratégie mixte, on introduit les probabilités pLM que Mc Do joue prix bas et pLQK que Quick joue prix bas. Pour Mc Do, il faut maximiser le profit espéré : EM D = pLM (60.pLQK + 55.(1 − pLQK )) + (1 − pLM )(55.pLQK + 60.(1 − pLQK )) = 10.pLM .pLQK − 5.pLM − 5.pLQK + 60 Pour maximiser il faut : ∂EM D ∂EM D = = 0 ⇒ pLM = pLQK = 0, 5 ∂pLM ∂pLQK Pour Quick, il faut maximiser le profit espéré : EQK = pLQK (35.pLM + 50.(1 − pLM )) + (1 − pLQK )(45.pLM + 40.(1 − pLM )) = −20.pLM .pLQK + 10.pLQK + 5.pLM + 60 Pour maximiser il faut : ∂EQK ∂EQK = = 0 ⇒ pLQK = 0, 5 ; pLM = 0, 25 ∂pLM ∂pQK 9 c J.-D. Kant 2016 UPMC - 3I027 IIEE - Cours 8 - La stratégie optimale pour les 2 entreprises est donc de jouer chaque stratégie avec une probabilité de 50%. Ce jeu mixte n’est pas représentable sous forme extensive, car, chaque joueur y ayant une infinité de stratégies, ce n’est plus un jeu fini (or un graphe est fini). On continue donc à raisonner sur l’arbre du jeu initial, de même que, sous forme normale, on continue à utiliser la matrice du jeu initial. Nash a démontré que : Theorem 3.2 (Nash). Tout jeu fini à n personnes sous forme normale a un équilibre [de Nash] en stratégies mixtes. 4 Jeux répétés 4.1 Introduction Reprenons l’exemple du dilemme du prisonnier (ici on représente des gains positifs) : P ris. I \ P ris. II nier avouer nier 1, 1 2, −1 avouer −1, 2 0, 0 L’analyse de ce jeu nous a conduit à une conclusion peu satisfaisante : Si les joueurs sont rationnels, chacun doit éliminer la stratégie nier qui est strictement dominée ; la solution du jeu est donc (avouer, avouer) ; c’est nécessairement un équilibre de Nash et c’est en fait le seul. Or cette solution est dominée au sens de Pareto par le profil (nier, nier), plus avantageux pour chacun des joueurs. Il y a donc conflit entre la rationalité individuelle et la rationalité collective. Quand pourrait-on observer de la coopération de la part des joueurs ? Une hypothèse possible est que dans la réalité les agents n’ont pas affaire à une situation de jeu isolée, mais à une succession de jeux, sinon identiques du moins de structures semblables, et que la stratégie choisie dans l’un d’eux n’est qu’une composante de leur stratégie globale dans le super-jeu constitué de l’ensemble de leurs jeux. Nous allons examiner cette hypothèse. 4.2 4.2.1 Etude du dilemme du prisonnier répété Comportement rationnel dans le dilemme du prisonnier répété un nombre fini de fois N.B. On écrira A et N pour les stratégies avouer et nier du jeu élémentaire. Deux joueurs jouent le super-jeu consistant à jouer T fois au dilemme du prisonnier, à des dates t = 1, 2, · · · , t, · · · , T . Les gains des différentes parties s’additionnent pour constituer les paiements du super-jeu. Ce super-jeu est un jeu fini à information imparfaite (comme d’ailleurs le jeu élémentaire) puisqu’à chaque date t les deux joueurs jouent à l’insu l’un de l’autre. A la date t, chaque joueur sait ce que son adversaire et lui-même ont joué aux (t − 1) premières parties et il peut en faire dépendre son action à cette date. Une stratégie S de l’un des 10 c J.-D. Kant 2016 UPMC - 3I027 IIEE - Cours 8 - joueurs dans le super-jeu est donc caractérisable par une suite S = (S 1 , · · · , S t , · · · , S T ) dont les composantes, toutes à valeurs dans {A, N }, sont déterminées récursivement par la donnée de S 1 et de fonctions φt , t = 2, · · · , T , par S t = φt (S 1 , R1 , · · · , S t−1 , Rt−1 ) où R1 , · · · , Rt−1 sont les actions de l’autre joueur qu’il aura déjà observées à t. Il y a donc un très grand nombre de stratégies (pures) possibles pour chacun des joueurs. Montrons qu’une stratégie optimale pour chacun des joueurs est d’avouer à chaque étape, stratégie que nous noterons Arep . A la date T , quel qu’ait été le déroulement du jeu jusque là et le total des gains de chacun, il reste à jouer un jeu élémentaire ayant sous forme normale la matrice de gains totaux finaux P ris. I \ P ris. II nier avouer nier mI + 1, mII + 1 mI + 2, mII − 1 avouer mI − 1, mII + 2 mI , mII où les sommes mI et mII dépendent du sommet atteint après (T − 1) étapes. Quelles que soient ces sommes, jouer A est strictement dominant pour chacun des deux joueurs : tous deux prévoient donc que l’autre jouera A à T . Mais alors, à (T − 1), au moment de jouer dans le jeu élémentaire à cette date, chacun doit seulement comparer les paiements dans le sous-jeu formé de deux jeux élémentaires les sous-stratégies A suivi de A et N suivi de A ; la matrice des gains finaux étant du type précédent (avec pour mI et mII les sommes acquises après T −2 étapes), les deux joueurs prévoient que l’autre jouera A à (T − 1) comme à T . Par récurrence, on montrerait que tous les deux doivent jouer Arep . Le couple (Arep , Arep ) est clairement Pareto-dominé par de nombreuses autres couples de stratégies du super-jeu, comme par exemple (Nrep , Nrep ). On reste donc devant la même incohérence entre rationalité individuelle et collective que dans le jeu élémentaire ! 4.2.2 Introduction de présupposés de comportement dans le dilemme du prisonnier répété un nombre fini de fois Un joueur peut être rationnel et pourtant avoir un comportement coopératif, s’il prend en compte d’autres éléments que la simple description du jeu, par exemple s’il a des idées a priori sur le comportement l’autre joueur. Nous prendrons l’exemple suivant : on appelle Tit for Tat (”oeil pour oeil, dent pour dent”) la stratégie suivante : Jouer N (nier) à t = 1, puis , à tout t > 1, jouer ce que l’autre a joué à (t − 1). Supposons que le joueur I pense que son adversaire peut avec une probabilité jouer la stratégie Tit for Tat au lieu de la stratégie rationnelle non-coopérative Arep . Si I joue lui-même Arep , avec probabilité , II jouant Tit for Tat, I gagnera 2 la première fois puis plus rien et avec probabilité (1 − ), II jouant Arep , les paiements (de I comme de II) seront toujours nuls ; d’où un gain espéré égal à 2. Si maintenant I joue lui-même Tit for Tat, avec probabilité , II jouant lui-même Tit for Tat avec probabilité , I réalisera T fois un gain de 1. Avec probabilité (1 − ), II jouant Arep , et donc I perdra 1 à t = 1, puis tous les paiements seront nuls. D’où un gain espéré égal à .T + (1 − )(−1) = (T + 1) − 1. 11 c J.-D. Kant 2016 UPMC - 3I027 IIEE - Cours 8 - Tit for Tat est donc préférable pour lui à la stratégie ”rationnelle” Arep dès que 1 (T + 1) − 1 > 2 ⇔ > T −1 . Cela dit, Tit for Tat n’est pourtant pas sa stratégie optimale car, par exemple, il a toujours intérêt à jouer A à la dernière période. Simulation du Tit-for-Tat 1 Robert Axelrod, dans son ouvrage “The Evolution of Cooperation” (1984), cherche à répondre à la question suivante : ”Under what conditions will cooperation emerge in a world of egoists without central authority ?” Pour tester la stabilité de cet équilibre, R. Axelrod demande à des collègues, qui ont étudié le dilemme du prisonnier dans leurs différentes disciplines (psychologie, biologie, économie, physique, mathématique, science politique, sociologie etc.), de proposer un programme, qu’ils estiment susceptible de remporter le plus de points, pour jouer à un jeu du dilemme du prisonnier répété 200 fois. Chaque programme contient la stratégie d’un joueur. Le jeu s’apparente à un tournoi dans lequel chaque stratégie est confrontée à tous les autres, à lui-même et à un programme aléatoire jouant au hasard. Le programme vainqueur est celui totalisant le plus de points. Le premier tournoi impliquant 14 programmes donna le programme gagnantgagnant ou Tit for Tat d’Anatol Rapoport vainqueur. R. Axelrod décide de renouveler l’expérience avec 62 programmes et de nouveau le programme gagnant-gagnant d’A.Rapoport l’emporte. Or la stratégie gagnant-gagnant ou Tit for Tat d’A. Rapoport n’emporte aucun match du tournoi ! R. Axelrod (1984) (1) en déduit, que [le dilemme du prisonnier] est simplement une formulation abstraite de quelques situations très courantes et intéressantes dans lesquelles ce qui est le meilleur pour une personne individuellement conduit à une situation d’échec mutuel tandis que chacune pourrait mieux s’en tirer avec une coopération mutuelle . L’interprétation de ces résultats qui impliquent la supériorité du comportement coopératif dans un environnement de dilemmes du prisonnier répétés a été sujette à de nombreuses discussions. Selon Eber (2004), les résultats d’Axelrod montrent que, dans un monde de conflits permanents, il serait optimal de se comporter de la façon suivante : être a priori coopératif avec les autres (jouer [la stratégie de coopération (C)] lors du premier dilemme du prisonnier auquel on se trouve confronté), punir son partenaire lorsqu’il n’a pas coopéré (jouer [la stratégie de noncoopération (D)] chaque fois que le joueur à jouer D au tour précédent) pardonner et revenir à la coopération lorsque le partenaire se remet à coopérer (jouer C à chaque fois qu’il a joué C le coup précédent) . Cette philosophie politique, certes plaisante, est très débattue. Les conclusions auxquelles Axelrod aboutit sont en particulier liées à la simplification du modèle comparé à la situation réelle analysée 2 . 5 Applications Les champs d’application de la Théorie des Jeux sont très variés par exemples : • Défense, Relations Internationales — la crise des missiles de Cuba en octobre 1962 : On peut la représenter par le jeu suivant : 1. D’après Wikipedia, http ://fr.wikipedia.org/wiki/Théorie des jeux en relations internationales. 2. Référence : Milgrom P. R. (1984), “Book review : Axelrod’s ”The Evolution of Cooperation” The Evolution of Cooperation. R. Axelrod” Review author[s] : Paul R. Milgrom, The RAND Journal of Economics, Vol. 15, No. 2. (Summer, 1984), pp. 305-309. 12 c J.-D. Kant 2016 UPMC - 3I027 IIEE - Cours 8 - Kennedy \ Kroutchev blocus naval raid aérien retrait Compromis (3, 3) V ictoire U S (4, 2) maintenir V ictoire U RSS (2, 4) Guerre N ucléaire (−3, −3) A priori, personne ne veut la pire situation, mais il s’agit de ne pas perdre la face. Cela s’apparente à ce que les américains ont appelé le game of chicken, un jeu très à la mode dans les années 1950 (voir le film La fureur de vivre). Deux automobilistes roulent en sens inverse dans une rue étroite, le perdant qualifié de poule mouillée est celui qui donne un coup de volant pour éviter son concurrent. Ce jeu représente bien des situations de crise dans le domaine des relations internationales. Analyse par Steven Brams 3 : Needless to say, the strategy choices, probable outcomes, and associated payoffs provide only a skeletal picture of the crisis as it developed over a period of thirteen days. Both sides considered more than the two alternatives listed, as well as several variations on each. The Soviets, for example, demanded withdrawal of American missiles from Turkey as a quid pro quo for withdrawal of their own missiles from Cuba, a demand publicly ignored by the United States. Nevertheless, most observers of this crisis believe that the two superpowers were on a collision course, which is actually the title of one book describing this nuclear confrontation. They also agree that neither side was eager to take any irreversible step, such as one of the drivers in Chicken might do by defiantly ripping off the steering wheel in full view of the other driver, thereby foreclosing the option of swerving. Although in one sense the United States ”won” by getting the Soviets to withdraw their missiles, Premier Nikita Khrushchev of the Soviet Union at the same time extracted from President Kennedy a promise not to invade Cuba, which seems to indicate that the eventual outcome was a compromise of sorts. But this is not game theory’s prediction for Chicken, because the strategies associated with compromise do not constitute a Nash equilibrium. — les politiques de constitution de convois de bateaux en temps de guerre ; — la façon de gérer un coup de surprise politique (Nasser à Suez, de Gaulle au Québec, Eltsine lors du putsch, annonces électorales...) ou marketing ; — la lutte contre le terrorisme. • Sociologie et génétique : des chercheurs ont utilisé la stratégie des jeux pour mieux comprendre l’évolution du comportement des espèces face à la modification de leur environnement • Marketing et stratégie entreprise • Economie ; notamment les travaux de Jean Tirole en économie industrielle Les résultats peuvent être appliqués à des divertissements (comme le jeu télévisé Friend or Foe 4 sur une chaı̂ne câblée spécialisée aux États-Unis, Game Show Network). Le Professeur Thomas Schelling, ”prix Nobel d’économie” 2005, s’est spécialisé dans l’explication des diverses stratégies utilisées (à utiliser) dans les conflits internationaux, tels la guerre froide et la guerre nucléaire (dissuasion..) 3. http ://plus.maths.org/content/game-theory-and-cuban-missile-crisis 4. http ://en.wikipedia.org/wiki/Friend or Foe%3F 13 c J.-D. Kant 2016 UPMC - 3I027 IIEE - Cours 8 - Albert W. Tucker a par exemple diffusé de nombreuses interprétations du dilemme du prisonnier dans la vie courante. Des biologistes ont utilisé la théorie des jeux pour comprendre et prévoir les résultats de l’évolution, en particulier la notion d’équilibre évolutivement stable introduit par John Maynard Smith dans son essais La théorie des jeux et l’évolution de la lutte (Game Theory and the Evolution of Fighting). Voir aussi son livre Evolution and the Theory of Games. Dans le domaine de la science politique appliquée à l’environnement, on peut citer la tragédie des communs 5 : L’exemple typique utilisé pour illustrer ce phénomène est celui d’un champ de fourrage commun à tout un village, dans lequel chaque éleveur vient faire paı̂tre son propre troupeau. Hardin décrit l’utilité que chaque éleveur a à ajouter un animal de plus à son troupeau dans le champ commun comme étant la valeur de l’animal, tandis que le coût encouru par ce même éleveur est seulement celui de l’animal divisé par le nombre d’éleveurs ayant accès au champ. En clair, l’intérêt de s’accaparer le plus de ressources communes possible dépasse toujours le prix à payer pour l’utilisation de ces ressources. Rapidement, chaque éleveur emmène autant d’animaux que possible paı̂tre dans le champ commun pour empêcher, autant que faire se peut, les autres éleveurs de prendre un avantage sur lui en utilisant les ressources communes, et le champ devient vite une mare de boue où plus rien ne pousse. 6 . Selon Garrett Hardin, il y a trois solutions différentes pour éviter la surexploitation des ressources : la nationalisation, la privatisation, et la gestion par des communautés locales. Il faut noter cependant des critiques fortes adressées aux partisans de la théorie des jeux, parmi lesquels on peut citer celle de Bernard Guerrien objectant que les visions très abstraites de la théorie des jeux ont du mal à représenter adéquatement le réel, qu’on ne sait pas s’il y a des équilibres de Nash dans la Nature, ni si cette notion même d’équilibre de Nash est la prédiction issue de la théories des jeux, le résultat du comportement rationnel des joueurs ou la solution du jeu (Cf. B. Guerrien, Can we espect anything from Game Theory, in E. Fullbrook (ed.), A Guide to What’s wrong with Economics, Anthem Press, 2004,pp. 198-208. Le débat est loin d’être clos. 5. G. Hardin, The tragedy of the Commons, Science, 1968 6. Daprès Wikipedia https ://fr.wikipedia.org/wiki/Tragédie des biens communs 14
Documents pareils
PROJET DE FIN D`ETUDES Université Galatasaray ÉQUILIBRE DE
Dans les jeux stratégiques, on donne une échelle numérique avec laquelle les joueurs peuvent comparer les résultats associés à chaque combinaison des choix des stratégies.
On peut aussi l’ap...