Analyse non paramétrique de l`algorithme abc
Transcription
Analyse non paramétrique de l`algorithme abc
Analyse non paramétrique de l’algorithme abc Gérard Biau 1 & Frédéric Cérou 2 & Arnaud Guyader 2,3 1 LSTA Université Pierre et Marie Curie – Paris VI Boı̂te 158, Tour 15-25, 2ème étage 4 place Jussieu, 75252 Paris Cedex 05, France [email protected] 2 INRIA Rennes Bretagne Atlantique ASPI project-team Campus de Beaulieu, 35042 Rennes Cedex, France [email protected] 3 Université Rennes 2 Place du Recteur Henri Le Moal, CS 24307 35043 Rennes Cedex, France [email protected] Résumé. Apparues à la fin des années 1990, les méthodes dites abc (pour Approximate Bayesian Computation) entrent dans la catégorie des techniques bayésiennes. Elles ont typiquement pour but d’estimer la densité a posteriori du paramètre Θ pour une observation donnée y 0 . Dans cette communication, nous présentons une analyse mathématique détaillée d’un algorithme abc typique, en formalisant son lien avec des techniques non paramétriques d’estimation de la densité conditionnelle par plus proches voisins. Nous montrons en particulier qu’un estimateur de la densité correctement choisi et calibré permet d’approcher la loi a posteriori, tout en donnant une heuristique pour le choix du nombre de voisins à conserver. Mots-clés. Statistique bayésienne, statistique non paramétrique, algorithme abc, méthode des plus proches voisins. Abstract. Dating back to the late 1990s, Approximate Bayesian Computation methods (abc in short) belong to the family of Bayesian techniques. They are used to estimate the posterior density of a parameter Θ given some observation y 0 . In this presentation, we provide a detailed mathematical analysis of a typical abc algorithm, using its connection with nonparametric nearest neighbor approaches for estimation of the conditional distribution. We show in particular that such a density estimate, once well chosen and calibrated, can provide an accurate approximation of the posterior distribution. We also offer some heuristics to decide how many neighbors should be kept. Keywords. Bayesian statistics, nonparametric statistics, abc algorithm, nearest neighbor methods. 1 1 Introduction Nous considérons dans cette note une observation aléatoire Y prenant ses valeurs dans Rd . Précisons d’emblée qu’il s’agit d’un objet générique qui peut, par exemple, prendre la forme d’un échantillon de variables indépendantes et identiquement distribuées. Plus généralement, il peut également s’agir des premières observations d’une série temporelle, ou encore d’un objet aléatoire plus complexe, tel qu’un arbre généalogique. Le vecteur aléatoire Y est supposé en outre admettre une densité f (y|θ) par rapport à la mesure de Lebesgue sur Rd . Ici, θ ∈ T ⊂ Rp désigne un paramètre inconnu que nous souhaitons estimer. Dans le paradigme bayésien, on raisonne comme si le paramètre était lui-même une variable aléatoire Θ à valeurs dans T , la densité f (y|θ) devenant ainsi la densité conditionnelle de Y lorsque Θ = θ. En admettant alors que la loi de Θ est elle-même absolument continue par rapport à la mesure de Lebesgue sur Rp , de densité π(θ), la loi conditionnelle de Θ sachant Y = y admet une densité g(θ|y), définie P(Θ,Y ) -presque sûrement et donnée par f (y|θ)π(θ) g(θ|y) = , f¯(y) où f¯(y) = Z f (y|θ)π(θ)dθ T désigne la densité marginale de la variable aléatoire Y . Dans ce contexte, la densité π(θ) est dite densité a priori, tandis que la densité g(θ|y) porte le nom de densité a posteriori. Dans la pratique, l’approche bayésienne peut être rendue difficile lorsque l’on ne dispose pas d’une expression analytique simple pour la densité a posteriori g(θ|y) et/ou les quantités qui lui sont connexes. Dans une telle situation, on a en général recours à des méthodes de simulation numérique, par exemple les algorithmes de type MCMC (Markov Chain Monte Carlo, voir par exemple l’ouvrage de Robert, 1996, pour une introduction au sujet). Pourtant, malgré leur puissance et leur flexibilité, les algorithmes MCMC se révèlent inopérants dans un nombre croissant d’applications impliquant des dimensions très importantes ou des modèles extrêmement compliqués. C’est typiquement le cas en écologie et en génétique des populations. Il faut alors recourir à de nouvelles stratégies de simulation, les plus prometteuses à ce jour reposant sur les algorithmes dits abc, pour Approximate Bayesian Computation (Beaumont, Zhang et Balding, 2002 ; Blum, 2010). Dans cette communication, nous présentons une analyse mathématique détaillée d’un algorithme abc typique, en formalisant en particulier son lien avec des techniques non paramétriques d’estimation de la densité conditionnelle par plus proches voisins. En guise de lecture préliminaire, nous renvoyons le lecteur à l’article de synthèse de Marin, Pudlo, Robert et Ryder (2011) consacré aux procédures abc. 2 2 L’algorithme abc Dans cette partie, nous désignons par S = S(Y ) une statistique à valeurs dans Rm , construite à partir de l’observation Y et de dimension m typiquement plus petite que d (c’est-à-dire la dimension de Y ). La statistique S admet la loi conditionnelle h(s|θ); il peut en particulier s’agir d’une statistique exhaustive pour le paramètre Θ, mais pas obligatoirement. Pour plus de clarté, nous noterons dans la suite y 0 la réalisation de l’observation initiale suivant la loi de Y (c’est donc la quantité dont on dispose en début d’analyse) et s0 = s(y 0 ) la valeur de s correspondante, y 0 et s0 étant supposée fixées une fois pour toutes. L’algorithme abc typique que nous souhaitons analyser peut alors être résumé de la façon suivante : Algorithm 1 Pseudo-code de l’algorithme abc Require: Un entier strictement positif N et un nombre entier kN compris entre 1 et N. for i = 1 to N do Générer θ i à partir de la densité π(θ); Générer y i à partir de la densité f (.|θi ) end for return Les valeurs θ i telles que s(y i ) soit parmi les kN plus proches voisins de s(y 0 ). Afin d’analyser cet algorithme, quelques notations supplémentaires sont nécessaires. Désignons par (Θ1 , Y 1 ), · · · , (ΘN , Y N ) un échantillon de couples aléatoires indépendants et identiquement distribués, de densité commune f (θ, y) = π(θ)f (y|θ). À cet échantillon correspond naturellement l’échantillon (Θ1 , S 1 ), · · · , (ΘN , S N ), où chacun des couples considérés admet la densité π(θ)h(s|θ). Notons enfin S (1) , · · · , S (kN ) les kN plus proches voisins de s0 parmi S 1 , · · · , S N , et Θ(1) , . . . , Θ(kN ) les valeurs de Θ correspondantes. Avec ce jeu de notations, il est clair que l’algorithme abc procède en deux temps : 1. On simule d’abord (les réalisations de) un N-échantillon (Θ1 , Y 1 ), · · · , (ΘN , Y N ). 2. On ne retient ensuite que les (réalisations des) variables Θ(1) , · · · , Θ(kN ) . Cette remarque, intéressante en soi, ouvre la porte à une analyse de l’algorithme abc via des techniques mathématiques reposant sur les plus proches voisins. Dans notre présentation, nous discuterons en particulier les propriétés de la distribution des kN observations ainsi obtenues. Nous montrons également qu’un estimateur de la densité correctement choisi et calibré permet d’approcher cette distribution, tout en donnant une heuristique pour le choix du nombre de voisins kN . 3 Bibliographie [1] Beaumont, M.A., Zhang, W. et Balding, D. J. (2002), Approximate Bayesian Computation in population genetics, Genetics, 162, 2025–2035. [2] Blum, M.G.B. (2010), Approximate Bayesian computation: A nonparametric perspective, Journal of the American Statistical Association, 105, 1178-1187. [3] Marin, J.M., Pudlo, P., Robert, C. et Ryder, R. (2011), Approximate Bayesian computational methods, Statistics and Computing, à paraı̂tre. [4] Robert, C. (1996), Méthodes de Monte Carlo par chaı̂nes de Markov, Economica, Paris. 4