Analyse non paramétrique de l`algorithme abc

Transcription

Analyse non paramétrique de l’algorithme abc
Gérard Biau
1
& Frédéric Cérou
2
& Arnaud Guyader
2,3
1
LSTA
Université Pierre et Marie Curie – Paris VI
Boı̂te 158, Tour 15-25, 2ème étage
4 place Jussieu, 75252 Paris Cedex 05, France
[email protected]
2
INRIA Rennes Bretagne Atlantique
ASPI project-team
Campus de Beaulieu, 35042 Rennes Cedex, France
[email protected]
3
Université Rennes 2
Place du Recteur Henri Le Moal, CS 24307
35043 Rennes Cedex, France
[email protected]
Résumé. Apparues à la fin des années 1990, les méthodes dites abc (pour Approximate Bayesian Computation) entrent dans la catégorie des techniques bayésiennes.
Elles ont typiquement pour but d’estimer la densité a posteriori du paramètre Θ pour
une observation donnée y 0 . Dans cette communication, nous présentons une analyse
mathématique détaillée d’un algorithme abc typique, en formalisant son lien avec des
techniques non paramétriques d’estimation de la densité conditionnelle par plus proches
voisins. Nous montrons en particulier qu’un estimateur de la densité correctement choisi
et calibré permet d’approcher la loi a posteriori, tout en donnant une heuristique pour le
choix du nombre de voisins à conserver.
Mots-clés. Statistique bayésienne, statistique non paramétrique, algorithme abc,
méthode des plus proches voisins.
Abstract. Dating back to the late 1990s, Approximate Bayesian Computation methods (abc in short) belong to the family of Bayesian techniques. They are used to estimate
the posterior density of a parameter Θ given some observation y 0 . In this presentation,
we provide a detailed mathematical analysis of a typical abc algorithm, using its connection with nonparametric nearest neighbor approaches for estimation of the conditional
distribution. We show in particular that such a density estimate, once well chosen and
calibrated, can provide an accurate approximation of the posterior distribution. We also
offer some heuristics to decide how many neighbors should be kept.
Keywords. Bayesian statistics, nonparametric statistics, abc algorithm, nearest
neighbor methods.
1
1
Introduction
Nous considérons dans cette note une observation aléatoire Y prenant ses valeurs dans
Rd . Précisons d’emblée qu’il s’agit d’un objet générique qui peut, par exemple, prendre
la forme d’un échantillon de variables indépendantes et identiquement distribuées. Plus
généralement, il peut également s’agir des premières observations d’une série temporelle,
ou encore d’un objet aléatoire plus complexe, tel qu’un arbre généalogique. Le vecteur
aléatoire Y est supposé en outre admettre une densité f (y|θ) par rapport à la mesure
de Lebesgue sur Rd . Ici, θ ∈ T ⊂ Rp désigne un paramètre inconnu que nous souhaitons
estimer.
Dans le paradigme bayésien, on raisonne comme si le paramètre était lui-même une
variable aléatoire Θ à valeurs dans T , la densité f (y|θ) devenant ainsi la densité conditionnelle de Y lorsque Θ = θ. En admettant alors que la loi de Θ est elle-même
absolument continue par rapport à la mesure de Lebesgue sur Rp , de densité π(θ), la
loi conditionnelle de Θ sachant Y = y admet une densité g(θ|y), définie P(Θ,Y ) -presque
sûrement et donnée par
f (y|θ)π(θ)
g(θ|y) =
,
f¯(y)
où
f¯(y) =
Z
f (y|θ)π(θ)dθ
T
désigne la densité marginale de la variable aléatoire Y . Dans ce contexte, la densité π(θ)
est dite densité a priori, tandis que la densité g(θ|y) porte le nom de densité a posteriori.
Dans la pratique, l’approche bayésienne peut être rendue difficile lorsque l’on ne dispose pas d’une expression analytique simple pour la densité a posteriori g(θ|y) et/ou les
quantités qui lui sont connexes. Dans une telle situation, on a en général recours à des
méthodes de simulation numérique, par exemple les algorithmes de type MCMC (Markov
Chain Monte Carlo, voir par exemple l’ouvrage de Robert, 1996, pour une introduction
au sujet). Pourtant, malgré leur puissance et leur flexibilité, les algorithmes MCMC se
révèlent inopérants dans un nombre croissant d’applications impliquant des dimensions
très importantes ou des modèles extrêmement compliqués. C’est typiquement le cas en
écologie et en génétique des populations. Il faut alors recourir à de nouvelles stratégies
de simulation, les plus prometteuses à ce jour reposant sur les algorithmes dits abc, pour
Approximate Bayesian Computation (Beaumont, Zhang et Balding, 2002 ; Blum, 2010).
Dans cette communication, nous présentons une analyse mathématique détaillée d’un
algorithme abc typique, en formalisant en particulier son lien avec des techniques non
paramétriques d’estimation de la densité conditionnelle par plus proches voisins. En guise
de lecture préliminaire, nous renvoyons le lecteur à l’article de synthèse de Marin, Pudlo,
Robert et Ryder (2011) consacré aux procédures abc.
2
2
L’algorithme abc
Dans cette partie, nous désignons par S = S(Y ) une statistique à valeurs dans Rm ,
construite à partir de l’observation Y et de dimension m typiquement plus petite que
d (c’est-à-dire la dimension de Y ). La statistique S admet la loi conditionnelle h(s|θ);
il peut en particulier s’agir d’une statistique exhaustive pour le paramètre Θ, mais pas
obligatoirement. Pour plus de clarté, nous noterons dans la suite y 0 la réalisation de
l’observation initiale suivant la loi de Y (c’est donc la quantité dont on dispose en début
d’analyse) et s0 = s(y 0 ) la valeur de s correspondante, y 0 et s0 étant supposée fixées une
fois pour toutes.
L’algorithme abc typique que nous souhaitons analyser peut alors être résumé de la
façon suivante :
Algorithm 1 Pseudo-code de l’algorithme abc
Require: Un entier strictement positif N et un nombre entier kN compris entre 1 et N.
for i = 1 to N do
Générer θ i à partir de la densité π(θ);
Générer y i à partir de la densité f (.|θi )
end for
return Les valeurs θ i telles que s(y i ) soit parmi les kN plus proches voisins de s(y 0 ).
Afin d’analyser cet algorithme, quelques notations supplémentaires sont nécessaires.
Désignons par (Θ1 , Y 1 ), · · · , (ΘN , Y N ) un échantillon de couples aléatoires indépendants
et identiquement distribués, de densité commune f (θ, y) = π(θ)f (y|θ). À cet échantillon
correspond naturellement l’échantillon (Θ1 , S 1 ), · · · , (ΘN , S N ), où chacun des couples
considérés admet la densité π(θ)h(s|θ). Notons enfin S (1) , · · · , S (kN ) les kN plus proches
voisins de s0 parmi S 1 , · · · , S N , et Θ(1) , . . . , Θ(kN ) les valeurs de Θ correspondantes.
Avec ce jeu de notations, il est clair que l’algorithme abc procède en deux temps :
1. On simule d’abord (les réalisations de) un N-échantillon (Θ1 , Y 1 ), · · · , (ΘN , Y N ).
2. On ne retient ensuite que les (réalisations des) variables Θ(1) , · · · , Θ(kN ) .
Cette remarque, intéressante en soi, ouvre la porte à une analyse de l’algorithme
abc via des techniques mathématiques reposant sur les plus proches voisins. Dans notre
présentation, nous discuterons en particulier les propriétés de la distribution des kN observations ainsi obtenues. Nous montrons également qu’un estimateur de la densité correctement choisi et calibré permet d’approcher cette distribution, tout en donnant une
heuristique pour le choix du nombre de voisins kN .
3
Bibliographie
[1] Beaumont, M.A., Zhang, W. et Balding, D. J. (2002), Approximate Bayesian Computation in population genetics, Genetics, 162, 2025–2035.
[2] Blum, M.G.B. (2010), Approximate Bayesian computation: A nonparametric perspective, Journal of the American Statistical Association, 105, 1178-1187.
[3] Marin, J.M., Pudlo, P., Robert, C. et Ryder, R. (2011), Approximate Bayesian computational methods, Statistics and Computing, à paraı̂tre.
[4] Robert, C. (1996), Méthodes de Monte Carlo par chaı̂nes de Markov, Economica, Paris.
4

Analyse non paramétrique de l`algorithme abc

Transcription

Documents pareils

Série d`exercices no 4. Variables aléatoires `a densité, fonctions de

Aléatoire PC 3 :

acide phosphorique purifié

Série d`exercices no 5. Vecteurs aléatoires

Feuille 5

colle 9 EXERCICE 1 On dispose d`une pi`ece de monnaie donnant

Master 2 Biostatistiques - UE Bayes

TD 3 - Université Pierre et Marie CURIE

Sous l`égide de la Fédération Royale Marocaine de Tennis (FRMT

Développement de l`enseigne ABC immodiag