Plans pour l`´etude de plusieurs facteurs
Transcription
Plans pour l`´etude de plusieurs facteurs
' UVSQ-CNAM, Master Ingéniérie de la Statistique 2008-2009, Surfaces de réponse $ Plans pour l’étude de plusieurs facteurs Hervé Monod, INRA Jouy-en-Josas, Unité MIA & 1 % ' $ UVSQ-CNAM, Master Ingéniérie de la Statistique 2008-2009, Surfaces de réponse Facteurs Réponses - - Y Phénomène - - Y = f (x1 , . . . , xp ) + ε x1 , . . . , xp modalités des facteurs explicatifs en entrée fonction f inconnue & 2 % ' UVSQ-CNAM, Master Ingéniérie de la Statistique 2008-2009, Surfaces de réponse $ Plans (multi-)factoriels • étude simultanée de plusieurs facteurs en entrée • pourquoi ? – gain en coût expérimental et en temps – étude de chaque facteur sur une gamme de variation des autres facteurs – possibilité de détecter des interactions & 3 % ' UVSQ-CNAM, Master Ingéniérie de la Statistique 2008-2009, Surfaces de réponse $ Exemple : rendement d’une réaction 1. Stratégie “une variable à la fois” 2. Stratégie “plusieurs variables à la fois” & 4 % ' UVSQ-CNAM, Master Ingéniérie de la Statistique 2008-2009, Surfaces de réponse $ Principaux plans factoriels • plan factoriel complet équirépété randomisé – on choisit s1 niveaux pour F 1,. . . , sn niveaux pour F n – ⇒ s1 × . . . × sn traitements = combinaisons de niveaux des facteurs – on répète chaque traitement r fois (r ≥ 1) • plan factoriel en blocs – idem mais les unités expérimentales sont divisées en plusieurs blocs – ⇒ comment répartir les traitements entre les blocs ? • plan factoriel incomplet: quand s1 × . . . × sn > N → approche plans D-optimaux → approche plans fractionnaires réguliers → approche plans pour surfaces de réponse & 5 % ' UVSQ-CNAM, Master Ingéniérie de la Statistique 2008-2009, Surfaces de réponse $ Plan factoriel complet Exemple : Plan pour 3 facteurs à 2 niveaux Influence des conditions de pétrissage sur la compressibilité d’une pâte biscuitière Facteurs niveau −1 niveau +1 Farine (A) Apollo Thésée To Bain-marie (B) 20o C 35o C Durée pétrissage (C) 5 mn 10 mn Plan factoriel complet 23 : les 8 combinaisons de niveaux sont équirépétées & 6 % ' Traitement A B C Y (Apollo, 20o C, 5mn) −1 −1 −1 0.367 −1 −1 (Apollo, 20o C, 10mn) (Apollo, 35o C, 5mn) (Apollo, 35o C, 10mn) (Thésée, 20o C, 5mn) −1 −1 +1 (Thésée, 20o C, 10mn) +1 (Thésée, 35o C, 5mn) +1 (Thésée, 35o C, 10mn) +1 & $ UVSQ-CNAM, Master Ingéniérie de la Statistique 2008-2009, Surfaces de réponse +1 +1 −1 −1 +1 +1 +1 0.532 −1 0.495 +1 0.489 −1 0.310 +1 0.485 −1 0.476 +1 0.440 7 − +v+ + +v+ + +v − − −v+ C v −−− A + −v+ − + v− B v +−− % ' $ UVSQ-CNAM, Master Ingéniérie de la Statistique 2008-2009, Surfaces de réponse Effets factoriels 0.489 v 0.495 v B 0.532 v C − v 0.367 A 0.440 v 0.476 v 0.485 v + v 0.310 0.489 f 0.440 v 0.476 v 0.532 v C v 0.367 A 0.485 f 0.495 f B f 0.310 Effet principal de A : d = 1 [(−Y−−− − Y−−+ − Y−+− − Y−++ ) + (Y+−− + Y+−+ + Y++− + Y+++ )] e(A) 8 Interaction AB : \ = 1 [(+Y−−− + Y−−+ − Y−+− − Y−++ ) − (Y+−− − Y+−+ + Y++− + Y+++ )] e(AB) 8 & 8 % ' $ UVSQ-CNAM, Master Ingéniérie de la Statistique 2008-2009, Surfaces de réponse Traitement MU A B C AB AC BC (Apollo, 20o C, 5mn) +1 −1 +1 +1 0.367 +1 −1 +1 (Apollo, 20o C, 10mn) −1 +1 −1 +1 −1 −1 0.495 (Apollo, 35o C, 10mn) −1 +1 −1 0.532 +1 −1 +1 (Apollo, 35o C, 5mn) −1 (Thésée, 20o C, 5mn) +1 −1 −1 (Thésée, 20o C, 10mn) +1 +1 −1 −1 (Thésée, 35o C, 5mn) +1 +1 (Thésée, 35o C, 10mn) +1 +1 & −1 −1 +1 +1 +1 −1 −1 +1 +1 9 +1 −1 +1 −1 +1 −1 +1 +1 ABC Y +1 0.489 +1 0.310 +1 −1 0.485 −1 −1 0.476 +1 +1 0.440 % ' UVSQ-CNAM, Master Ingéniérie de la Statistique 2008-2009, Surfaces de réponse $ Tableau d’analyse de variance : A B C A:B A:C B:C Residuals & Df 1 1 1 1 1 1 1 Sum Sq 0.0036 0.0053 0.0111 0.0001 0.0000 0.0182 0.0002 Mean Sq 0.00369 0.00530 0.01110 0.00016 0.00005 0.01824 0.00020 F value 18.490 26.523 55.502 0.810 0.250 91.203 Pr(>F) 0.14 0.12 0.08 . 0.53 0.70 0.06 . 10 % ' UVSQ-CNAM, Master Ingéniérie de la Statistique 2008-2009, Surfaces de réponse $ Intérêts : • Chaque effet principal estimé à partir de 4 répétitions • Possibilité de détecter des interactions • Généralisation à plus de 3 facteurs • Généralisation à plus de 2 niveaux • Possibilité de répartir en blocs par confusion d’effets • Possibilité de réaliser des fractions de plans Remarque : avec 3 facteurs seulement, il faut répéter les 8 traitements & 11 % ' $ UVSQ-CNAM, Master Ingéniérie de la Statistique 2008-2009, Surfaces de réponse Confusion d’effets traitements avec un effet bloc Traitement MU A B C AB AC BC ABC (Apollo, 20o C, 5mn) + − + + + − + (Apollo, 35o C, 10mn) − (Thésée, 20o C, 10mn) + − − + − + − (Thésée, 35o C, 5mn) + + − − (Apollo, 20o C, 10mn) + (Apollo, 35o C, 5mn) + − (Thésée, 20o C, 5mn) + (Thésée, 35o C, 10mn) + − + − + + + + − + − + − + − − − − + + − − + − + + − − − − − + + + + − + + + + + L’interaction ABC est confondue avec l’effet bloc Les autres effets sont orthogonaux à l’effet bloc & 12 % ' $ UVSQ-CNAM, Master Ingéniérie de la Statistique 2008-2009, Surfaces de réponse Fraction de plan Exemple : 4 facteurs à 2 niveaux On ne retient que les traitements tels que : ABCD = +1 MU A = BCD B = ACD C = ABD D = ABC AB = CD AC = BD BC = AD + − − − − + + + + − − + + + − − + − + − + − + − + − + + − − − + + + − − + − − + + + − + − − + − + + + − − + − − + + + + + + + + & 13 % ' UVSQ-CNAM, Master Ingéniérie de la Statistique 2008-2009, Surfaces de réponse $ Les effets factoriels sont confondus deux à deux : • effets principaux confondus avec ?? • interactions 2 facteurs confondues avec ?? =⇒ Fraction de Résolution IV & 14 % ' $ UVSQ-CNAM, Master Ingéniérie de la Statistique 2008-2009, Surfaces de réponse Fraction de plan de résolution III Exemple : 7 facteurs à 2 niveaux en 8 unités MU A B C D = AB E = AC F = BC G = ABC + − − − − + + + + − − + + + − − + − + − + − + − + − + + − − − + + + − − + − − + + + − + − − + − + + + − − + − − + + + + + + + + Effets principaux confondus avec ?? & 15 % ' UVSQ-CNAM, Master Ingéniérie de la Statistique 2008-2009, Surfaces de réponse $ Retour sur l’exemple 8 facteurs ⇒ 28 = 256 traitements possibles Facteurs niveau −1 niveau +1 Farine (A) Apollo Thésée Hydratation (B) 17.7% 21.7% Vitesse pétrissage (C) 80 rpm 160 rpm Durée pétrissage (D) 5 mn 10 mn To Bain-marie (E) 20o C 35o C Temps de repose (F ) 10 min 20 min Vitesse laminage (G) 0.5 m/min 1.1 m/min Ecartement cylindres (H) 2.4 mm 7.0 mm Fraction 28−4 en 16 unités expérimentales, de Résolution IV & 16 % ' UVSQ-CNAM, Master Ingéniérie de la Statistique 2008-2009, Surfaces de réponse $ Relations de définition : & E = BCD F = ACD G = ABC H = ABD 17 % ' UVSQ-CNAM, Master Ingéniérie de la Statistique 2008-2009, Surfaces de réponse $ Conclusion plans factoriels & PROBLEME METHODE Très nombreux facteurs, sélectionner les plus influents Plans de screening (résolution III ou IV) Etudier l’influence simultanée de nombreux facteurs avec peu d’observations, détecter les principales interactions Plans factoriels 2n complets ou fractionnaires, résolution ≥ V Etude plus détaillée de facteurs quantitatifs Plans factoriels 3n ou 4n , surfaces de réponses Optimiser la formulation d’un mélange Plans de mélange Améliorer la qualité et la robustesse simultanément Plans de Taguchi 18 % ' UVSQ-CNAM, Master Ingéniérie de la Statistique 2008-2009, Surfaces de réponse $ Plans pour surfaces de réponse Principe général • plusieurs facteurs quantitatifs F1 ,. . . ,Fn • Modèle de surface de réponse (inconnu): Y = f (z1 , . . . , zn ) + ε • On veut – prédire correctement la réponse sur l’ensemble du domaine de variation des zi – connaitre l’influence de chaque facteur et les interactions – (souvent) rechercher les valeurs des Fi qui optimisent la (ou les) réponse & 19 % ' $ UVSQ-CNAM, Master Ingéniérie de la Statistique 2008-2009, Surfaces de réponse Codage des facteurs • définir les limites de variation zmini , zmaxi de chaque facteur Fi ; • les niveaux codés de chaque facteur varient entre −1 et +1: xi = 2zi −(zmoinsi +zplusi ) zmoinsi −zplusi • on travaille par la suite avec les niveaux codés Modèle polynomial • Modèle approché ⇒ développement polynomial: Y = θ0 + θ1 x1 + . . . + θn xn + ε (ordre 1) ou Y = θ0 + θ1 x1 + . . . + θn xn + θ11 x21 + . . . + θnn x2n + θ12 x1 .x2 + . . . + ε (ordre 2) • Plan d’expérience: recherche des points qui permettent de bien estimer les paramètres et prédire la réponse • démarche souvent séquentielle & 20 % ' $ UVSQ-CNAM, Master Ingéniérie de la Statistique 2008-2009, Surfaces de réponse Modèle du premier degré Y = Xθ + ε X= & 1 .. . (x1 )1 .. . ... .. . (xn )1 .. . 1 .. . (x1 )i .. . ... .. . (xn )i .. . 1 (x1 )N . . . (xn )N P (x1 )i 1 P (x1 )2i ′ ; XX= 21 ... ... .. . P (xn )i (x1 )i (xn )i .. . P (xn )2i P % ' $ UVSQ-CNAM, Master Ingéniérie de la Statistique 2008-2009, Surfaces de réponse Plans pour le modèle du 1er degré • plans factoriels 2p ou 2p−q de résolution au moins III • plans de Plackett et Burman • plans simplex Pour construire un plan de Plackett et Burman • ligne de départ ++−+++−−−+− ++++−+−++−−+−−− N = 12 N = 16 + + − − + + + + − + − + − − − − + + − N = 20 • lignes suivantes par permutations cyclique • dernière ligne de −1 • randomisation: permutation des lignes & 22 % ' UVSQ-CNAM, Master Ingéniérie de la Statistique 2008-2009, Surfaces de réponse $ Propriétés des plans 2s ou 2s−q : • ces plans permettent d’ajuster un modèle avec effet principal (linéaire) de chacun des facteurs • les colonnes de X sont orthogonales ⇒ les estimations des différents effets sont non corrélées et de précision optimale • en ajoutant des répétitions au centre, on peut tester la présence d’une courbure (effets quadratiques) et estimer la variance résiduelle & 23 % ' Modèle du second degré X = 0 B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B @ 1 1 .. . (x1 )1 .. . ... .. . (xn )1 .. . (x1 )21 1 .. . (x1 )i .. . ... .. . 1 (x1 )N P (x1 )i P (x1 )2 i & $ UVSQ-CNAM, Master Ingéniérie de la Statistique 2008-2009, Surfaces de réponse ... ... . . . .. . ... .. . (xn )21 (xn )i .. . (x1 )2i .. . ... .. . . . . (xn )N (x1 )2N . . . (xn )2N P (xn )i P (x1 )i (xn )i . . . P (xn )2 i P (x1 )2 i P (x1 )3 i . . . P 2 (x1 )i (xn )i P (x1 )4 i ... ... P .. . (x1 )1 (x2 )1 .. . ... .. . (xn−1 )1 (xn )1 .. . (xn )2i .. . (x1 )i (x2 )i .. . ... .. . (xn−1 )i (xn )i .. . P (xn )2 i (x1 )i (xn )2 i . . . ... ... . . . ... P (xn )3 i P 2 (x (x1 )2 n )i i . . . P (xn )4 i (x1 )N (x2 )N P . . . (xn−1 )N (xn )N (x1 )i (x2 )i P (x1 )2 i (x2 )i . . . ... P (x1 )i (x2 )i (xn )i P (x1 )3 i (x2 )i . . . P (x1 )i (x2 )i (xn )2 i P 2 (x1 )2 i (x2 )i ... ... P (xn−1 )i (xn )i P (x1 )i (xn−1 )i (xn )i . . . ... ... ... . . . P (xn−1 )i (xn )2 i P (x ) (x (x1 )2 n )i n−1 i i . . . P (xn−1 )i (xn )3 i P (x1 )i (x2 )i (xn−1 )i (xn )i . . . P 2 (xn−1 )2 i (xn )i 24 1 C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C A % ' UVSQ-CNAM, Master Ingéniérie de la Statistique 2008-2009, Surfaces de réponse Prédictions de la variable réponse $ Réponse moyenne en un point x quelconque du domaine d’étude η(x) = E(Y (x)) = θ0 + θ1 x1 + . . . + θn xn + θ11 x21 + . . . + θnn x2n + θ12 x1 .x2 + . . . + θnn−1 xn−1 .xn = f (x)′ θ avec f (x) = (1, x1 , . . . , xn , x21 , . . . , xn , x1 .x2 , . . . , xn−1 .xn ) Prédiction: ηb(x) = θb0 + θb1 x1 + . . . + θbn xn + θb11 x21 + . . . + θbnn x2n + θb12 x1 .x2 + . . . = f (x)′ θb Var(b η (x)) = f (x)′ (X ′ X)−1 f (x) σ 2 Var(Yb (x)) = (1 + f (x)′ (X ′ X)−1 f (x)) σ 2 • dépend du plan • dépend de x ⇒ varie dans le domaine d’étude • ne dépend pas de la valeur des paramètres (cf. modèle linéaire) [Exercice: variance de prédiction pour un 22 et modèle de degré 1] & 25 % ' UVSQ-CNAM, Master Ingéniérie de la Statistique 2008-2009, Surfaces de réponse $ Propriétés recherchées pour les plans pour surfaces de réponses Orthogonalité: • les colonnes de X (= les régresseurs) sont mutuellement orthogonales, après centrage des régresseurs quadratiques • ⇒ les estimations des effets sont non corrélées ou corrélées avec le terme constant Isovariance par rotation: • la variance de prédiction en x ne dépend que de la distance au centre de x • ⇒ invariance de la précision par rapport à la direction Précision: • “précision uniforme”: précision homogène sur l’ensemble du domaine d’étude • optimalité: minimisation de critères de variance sur les paramètres ou sur les prédictions dans le domaine d’étude & 26 % ' $ UVSQ-CNAM, Master Ingéniérie de la Statistique 2008-2009, Surfaces de réponse Exemple à deux facteurs 1.2 B 1 1 1 2 1 −1 3 −1 1 4 −1 −1 5 −1.414 0 6 1.414 0 7 0 −1.414 8 0 1.414 1.0 0.8 1.0 0.5 0.6 0.0 x2 A pred Essai −0.5 0.4−1.0 −1.0 9 0 0 10 0 0 Plan & −0.5 0.0 0.5 1.0 x1 Variance de prédiction 27 % ' UVSQ-CNAM, Master Ingéniérie de la Statistique 2008-2009, Surfaces de réponse $ Plans pour le modèle du 2nd degré • plan factoriel 3n ou 3n−q de résolution au moins 3 • plan composite centré – plan factoriel 2n ou 2n−q – + répétitions du point central – + points en étoile (sur les axes) • réseaux uniformes de Doehlert • plan de Box-Benhken & 28 % ' UVSQ-CNAM, Master Ingéniérie de la Statistique 2008-2009, Surfaces de réponse Propriétés possibles des plans central-composite • isovariance par rotation si α = (Nc )1/4 √ 2 √ • orthogonalité si α = [ Nc + Ns + N0 − Nc ] × $ Nc 1/4 4 • précision uniforme dans sphère de rayon 1 nbre de fact. 2 3 4 5 5 Nf 4 8 16 32 16 Na 4 6 8 10 10 ≥1 ≥1 ≥1 ≥1 ≥1 préc. unif. 5 6 7 10 6 orthog. 8 12 12 17 10 préc. unif. 13 20 31 52 32 orthog. 16 26 36 59 36 1.41 1.68 2.00 2.38 2.00 N0 isovariance N α & 29 % ' UVSQ-CNAM, Master Ingéniérie de la Statistique 2008-2009, Surfaces de réponse Analyse d’un plan pour surface de réponse $ • analyse de variance • estimation des paramètres • représentations graphiques • + tests spécifiques • + recherche des xi optimisant la réponse • + recherche de zones satisfaisant des contraintes sur des variables réponses Tests spécifiques: tester la validité du modèle b ′ (Y − X θ) b somme des carrés résiduels; E(SCR) = (N − p)σ 2 si le • SCR = (Y − X θ) modèle est correct P • répétitions au centre ⇒ estimation non biaisée de σ 2 : SCE0 = ((Y0 )i − Ȳ0 )2 ; E(SCE0 ) = (N0 − 1)σ 2 • si le modèle est correct (SCR − SCE0 )/SCE0 ) suit une loi de Fisher centrée à N − p − N0 + 1 et N0 − 1 ddl & 30 % ' UVSQ-CNAM, Master Ingéniérie de la Statistique 2008-2009, Surfaces de réponse $ Analyse de la surface de réponse prédite −1.0 −0.5 0.0 0.5 1.0 Exemple: ηb(x1 , x2 ) = 80 + 1.2x1 − 0.1x2 − 5.5x21 − 4.8x1 x2 − 2.5x22 −1.0 & −0.5 0.0 0.5 1.0 31 % ' $ UVSQ-CNAM, Master Ingéniérie de la Statistique 2008-2009, Surfaces de réponse Analyse canonique On note b= L’équation de réponse est alors: θb1 .. . θbn B= θb1,1 .. . θbn,1 θb1,n .. . . . . θbn,n ... .. . ηb(x) = θb0 + x′ b + x′ Bx & 32 % ' UVSQ-CNAM, Master Ingéniérie de la Statistique 2008-2009, Surfaces de réponse $ Recherche du point stationnaire xS (s’il existe) ∂η ∂x = b + 2Bx 1 = 0 si et seulement si x̂S = − B −1 b 2 On note ηbS = b0 + 14 b′ B −1 b. Equation canonique de la surface de réponse • on montre que ηb(x) = ηbS + (x − xS )′ B(x − xS ) P • on décompose B selon ses vecteurs propres vk : B = k ak vk vk′ (ak sont les valeurs propres) P • on a (x − xS )′ B(x − xS ) = k ak zk2 avec zk = (x − xS )′ vk • les axes associés aux variables z1 , . . . , zk sont les axes principaux de la surface de réponse P • équation canonique: ηb(z) = ηbS + ak zk2 & 33 % ' UVSQ-CNAM, Master Ingéniérie de la Statistique 2008-2009, Surfaces de réponse $ Interprétation des coefficients canoniques • d’abord vérifier si le point stationnaire est proche ou non du domaine d’intérêt • tous les ak > 0 ⇒ le point stationnaire xS est un minimum • tous les ak < 0 ⇒ le point stationnaire xS est un maximum • autres cas ⇒ le point stationnaire xS est un “point de selle” • si une valeur propre ak ≡ 0: la réponse ne change pratiquement pas dans cette direction & 34 % ' UVSQ-CNAM, Master Ingéniérie de la Statistique 2008-2009, Surfaces de réponse $ Plans D-optimaux Principe général (facteurs quantitatifs) • on pose des domaines de variation pour chaque facteur • on précise le nombre d’observations disponibles N • on pose un modèle polynomial, ex: Y = θ0 + θ1 Z1 + θ1 Z2 + θ1 Z3+ θ11 Z12 + θ12 Z22 +θ12 Z1 .Z2 + ε • la matrice X du plan s’écrit à partir des (Zj ) • on cherche les valeurs des (Zj ) qu’il faut choisir pour maximiser le déterminant de la matrice d’information X ′ X & 35 % ' UVSQ-CNAM, Master Ingéniérie de la Statistique 2008-2009, Surfaces de réponse $ Pourquoi maximiser le déterminant de X ′ X ? b = (X ′ X)−1 • Var(θ) • le déterminant de X ′ X est inversement proportionnel au volume des ellipsoı̈des de confiance de θ • les plans D-optimaux sont invariants par changement des unités de mesure des régresseurs Z Méthodes de recherche de plans D-optimaux • résultats théoriques • algorithmes de recherche (ex: PROC OPTEX de SAS) & 36 % ' UVSQ-CNAM, Master Ingéniérie de la Statistique 2008-2009, Surfaces de réponse $ Exemple: Mise au point d’un procédé de réaction 5 facteurs identifiés Facteur Description Domaine rtemp température 150-350 degrés press pression 10-30 psi temps durée de réaction 3-5 mn solv quantité de solvant 20-25% source source du matériau 1,2,3,4,5 Contrainte: ne pas mettre les 3 premiers facteurs simultanément à leur plus haut ou plus bas niveau & 37 %