Réseaux de neurones récurrents à fonctions de base radiales : RRFR
Transcription
Réseaux de neurones récurrents à fonctions de base radiales : RRFR
Réseaux de neurones récurrents à fonctions de base radiales : RRFR Application au pronostic Ryad Zemouri – Daniel Racoceanu – Noureddine Zerhouni Laboratoire d’Automatique de Besançon, Groupe Maintenance et Sûreté de Fonctionnement, 25, Rue Alain Savary 25000 Besançon France [email protected] - [email protected] - [email protected] RÉSUMÉ. Cet article présente un réseau RFR récurrent (Réseaux Récurrent à Fonction de base Radiales) appliqué à un problème de pronostic d’un système non linéaire. Le processus d’apprentissage du réseau RRFR se décompose en deux étapes. Durant la première étape, les paramètres des neurones gaussiens sont déterminés par la méthode non supervisée des Kmoyens, dont les performances ont été améliorées avec la technique FuzzyMinMax. Dans une seconde étape, les poids des connexions de sortie sont déterminés par une technique supervisée de régression linéaire. A travers l’application sur le benchmark Box and Jenkins gaz, nous illustrons la capacité du RRFR de prédire l’évolution d’un système non linéaire. Ses performances se montrent nettement supérieurs à celles du TDRBF, dés lors qu’on augmente l’horizon des prédictions temporelles. La technique FuzzyMinMax rend la convergence de l’algorithme des K-moyens plus stable. ABSTRACT. This paper introduces a Recurrent Radial Basis Function network (RRBF) for nonlinear system prognosis. The training process is divided in two stages. First, the parameters of the RRBF are determined by the unsupervised k-means algorithm. The ineffectiveness of this algorithm is improved by the FuzzyMinMax technique. In the second stage, a multivariable linear regression supervised learning technique is used to determine the weights of the connections between the hidden and output layer. We test the RRBF on the Box and Jenkins furnace database. This application shows that the RRBF is able to predict the evolution of a non-linear system. The performances of the RRBF are compared with those of the TDRBF. The RRBF gives better results for long run predictions. The FuzzyMinMax technique makes the K-means more stable. MOTS-CLÉS : Maintenance préventive, Surveillance, Pronostic, Réseaux de neurones temporels, RFR - Réseaux de neurones à fonctions de base radiales. KEYWORDS : Preventive maintenance, Monitoring, Prognosis, Dynamic Neural Network, RBF - Radial Basis Function. Revue d’Intelligence Artificielle. Volume X – n°X/2002, pages 1 à 32 2 Revue d’Intelligence Artificielle. Volume X – n°X/2002 1. Introduction La surveillance des équipements industriels nécessite le traitement d’un certain nombre de signaux capteurs. Cette fonction se divise en deux taches élémentaires : la détection et le diagnostic des défaillances. La procédure de détection d'une défaillance revient tout d'abord à comparer la signature courante à une signature de référence associée au mode de fonctionnement identifié, et ensuite à prendre une décision en fonction du résultat de la comparaison (Zwingelstein, 1995). La fonction diagnostic devra essentiellement localiser l’organe défaillant et identifier les causes de cette défaillance (Lefebvre, 2000). On peut diviser les méthodologies de surveillance en deux groupes : méthodologies de surveillance avec modèle et sans modèle formel de l’équipement (Dash et al., 2000). Les premières méthodologies utilisent généralement les techniques de l’automatique (Combacau, 1991). La deuxième catégorie de méthodologies est plus intéressante dès lors qu’un modèle formel du système est inexistant ou difficile à obtenir (Dubuisson, 1990). Dans ce cas, on utilise les outils de la statistique et de l’intelligence artificielle. Les réseaux de neurones artificiels sont ainsi convoités pour leur capacité d’apprentissage, d’adaptation et de généralisation. Leur parallélisme ainsi que leur capacité de traiter des données hétérogènes (données quantitatives et qualitatives) représente un atout considérable par rapport aux autres outils (Bernauer et al., 1993)-(Freitas et al., 1999)-(Keller et al., 1994)-(Petsche et al., 1996)-(Rengaswamy et al., 1995)(Poulard, 1996)-(Vemuri et al., 1997)-(Vemuri et al., 1998), (Smyth, 1994), (Koivo, 1994), (Zemouri et al., 2002 - b -). La dynamique d’un équipement représente une dimension importante pour la détection dynamique des défaillances. Ne pas pouvoir dissocier entre une vraie dégradation et une fausse alarme, peut avoir des conséquences économiques défavorables pour la production (Basseville, 1996). Ce traitement ne peut se faire que par une prise en compte de l’évolution d’un signal capteur. Cette prise en compte permet également de prédire son évolution temporelle afin de pronostiquer le mode de fonctionnement de l’équipement. C’est dans cette optique que nous proposons une architecture dynamique de Réseau de neurones Récurrents à Fonction de base Radiales (RRFR), capable d’apprendre des séquences temporelles. Le réseau RRFR présenté dans cet article se base sur les avantages des réseaux RFR en terme de temps d’apprentissage (Mak et al., 2000), (Hutchinson, 1994), (Ghosh et al., 1992), (Ghosh et al., 2000), (Hwang et al., 1997), (Hernandez, 1999), (Poggio et al., 1989), (Mustawi et al., 1992). L’aspect récurrent ou dynamique est obtenu grâce à une auto-connexion au niveau des neurones de la première couche. Cette couche représente en quelque sorte une mémoire dynamique du réseau RFR, lui permettant d’apprendre une évolution temporelle des données. La détermination des caractéristiques des neurones cachés (neurones gaussiens) se fait par l’algorithme des K-moyens (MacQueen, 1967). Cette technique présente néanmoins quelques faiblesses, en l’occurrence la détermination du nombre optimal des centres K et l’instabilité du résultat due à l’initialisation aléatoire de ces centres. Réseaux de neurones RFR récurrents 3 Nous avons exploité la technique FuzzyMinMax pour définir le nombre K ainsi que l’état initial des centres. Les rayons d’influence des centres seront alors déterminés par la technique RCE. Nous avons testé le réseau RRFR sur un problème type d’identification d’un système non-linéaire : le benchmark Box and Jenkins gaz. Le but de l’application est de prédire la concentration de sortie en CO2 d’un à four à gaz. Les poids des connexions de sortie du réseau RRFR sont déterminés par une méthode de régression linéaire. Les résultats montrent que le RRFR est capable de prédire l’évolution de la valeur de sortie du four à partir d’une base d’apprentissage. Grâce à l’étape d’initialisation des centres, l’algorithme des K-moyens converge à chaque fois vers le même état. Les résultats expérimentaux montrent que les performances du RRFR sont meilleures que ceux du TDRBF, et ce essentiellement pour de grands horizons de prédiction. L’article est structuré en six parties : le paragraphe suivant présente un bref état de l’art des réseaux RFR, de leurs applications ainsi que des techniques d’apprentissage les plus utilisées pour ce type d’architecture neuronale. Nous donnons par la suite, dans le 3ème paragraphe, une large description des différentes représentations du temps dans les réseaux de neurones. Nous concluons cette section par une discussion par rapport aux avantages et aux inconvénients de chaque architecture. Ceci justifie l’intérêt d’une nouvelle représentation dynamique d’un réseau RFR. Cette nouvelle architecture, appelée RRFR est ainsi présentée dans le paragraphe 4. Le 5ème paragraphe présente la technique d’apprentissage du RRFR. Ce paragraphe est divisé en deux parties : une partie pour l’initialisation du neurone bouclé et une deuxième partie pour la détermination des caractéristiques des prototypes (centres et rayons d’influence). Le 6ème paragraphe traite les différents résultats obtenus par notre réseau sur un four à gaz. Nous avons ainsi comparé les performances du RRFR avec ceux du TDRBF pour plusieurs horizons de prédiction. Enfin, le dernier paragraphe est dédié aux conclusions et aux perspectives de cette étude. 2. Réseaux de neurones à fonctions de base radiales RFR 2.1. Généralités Les réseaux de neurones à fonctions de base radiales sont capables de fournir une représentation locale de l'espace grâce à des fonctions de base dont l'influence est restreinte à une certaine zone de l'espace. Les paramètres de cette fonction de base sont donnés par un vecteur de référence (centre ou prototype) [µ j]j=1,…,n et la dimension σj du champ d'influence. La réponse de la fonction de base dépend donc de la distance de l'entrée x au vecteur prototype µ j, et de la taille du champ d'influence : 4 Revue d’Intelligence Artificielle. Volume X – n°X/2002 φ j ( x) = φ ( x − µ j , σ j ) [1] où les fonctions φ j (.) sont généralement maximales lorsque x = µ j et tendent vers 0 quand x − µ j → ∞ . La gaussienne est la fonction la plus employée. Elle s'exprime, sous la forme la plus générale, par : 1 2 φj (x) = exp(− (x − µ j )t Σ −j 1 (x − µ j )) [2] où Σ j désigne la matrice de variance-covariance associée à la cellule. Différents 2 paramétrages de Σ j sont possibles. Un choix courant reste cependant Σ j = σ j I où l'on suppose que la décroissance de la gaussienne est la même pour toutes les directions de l'espace (gaussienne isotrope). Les courbes d'isoactivation des cellules cachées sont alors des hyper-sphères. Un nombre restreint de fonctions de base participent au calcul de la sortie pour une entrée donnée. Les RFR peuvent être classés en deux catégories, en fonction du type de neurone de sortie : normalisé et non-normalisé (Mak et al., 2000), (Moody et al., 1989), (Xu, 1998). 2.1.1. Problème d'interpolation et approximation de fonction L'interpolation est définie comme suit : soit un ensemble de N vecteurs d'entrée xn de dimension d et un ensemble à une dimension tn (n=1,…..,N). Le problème est de trouver une fonction continue h(x) tel que : h(xn) = tn . La solution à ce problème en utilisant les RFR consiste à choisir un groupe de N fonctions de base, centrées aux N points d'entrée, en utilisant la définition des fonctions radiales avec wn le poids de la connexion de la nème fonction de base vers le neurone de sortie (Ghosh et al. 1992) – (Poggio, 1989) : N h(x) = ∑ wnφ ( x − x n ) [3] n =1 Il a été démontré (Michelli, 1986) qu'il existe une classe de fonctions (gaussiennes, multiquadratique,.) où la matrice Φ = [φij = φ ( µi − µ j , σ j )] est non singulière et par conséquent, le vecteur de pondération peut s’écrire sous la forme suivante w = [ wn ]n =1,..., N : w=Φ -1 .t [4] En pratique, le problème d'interpolation n'est pas toujours intéressant. Premièrement, les données sont généralement bruitées et l'interpolation utilisant toutes les données de l'apprentissage peut provoquer un sur-apprentissage et par conséquent, une faible généralisation. Deuxièmement, pour garantir une interpolation correcte, le nombre de fonctions de base est égal au nombre de Réseaux de neurones RFR récurrents 5 vecteurs d'apprentissage. Ceci peut donner une dimension importante au problème d'apprentissage. Les fonctions radiales peuvent être adaptées pour un problème d'approximation de fonction et de généralisation par apprentissage (Ghosh et al. 1992), (Poggio, 1989). 2.1.2. Classification Les RFR sont également utilisés dans des problèmes de classification. En théorie de la classification probabiliste, la loi du vecteur x, quand on ne connaît pas sa classe d'appartenance, est donnée par la loi mélange f(x) : M f (x) = ∑ Pr(α i ) f (x / α i ) [5] i =0 f ( x / α i ) et Pr(α i ) supposées connues, représentent la loi conditionnelle d'appartenance du vecteur x dans la classe α i et respectivement la probabilité à priori des classes α i . Par analogie, la sortie d'un RFR présente l'expression suivante (Ghosh et al., 2000) : M f (x) = ∑ wkiφi (x) [6] i =0 avec wki représentant le poids de la connexion entre le iéme neurone radial et le kéme neurone de sortie. Cette expression ressemble à une expression de distribution de loi mélange [5] (Ghosh et al., 2000), où : φi (x) = f (x / α i ) Pr(α i ) ∑ M i =1 f (x / α i ) Pr(α i ) = Pr(α i / x) [7] et les poids : wki = Pr(α i / Ck ) Pr(Ck ) = Pr(Ck / α i ) Pr(α i ) [8] D'après cette représentation, les centres des gaussiennes peuvent être considérés comme étant des vecteurs représentatifs. La sortie des unités cachées représente la probabilité à posteriori d'appartenance du vecteur d'entrée x à la classe ( α i ). Les poids des connexions représentent la probabilité à priori des classes et la sortie de tout le réseau matérialise la probabilité à posteriori de la classe de sortie Ck. 6 Revue d’Intelligence Artificielle. Volume X – n°X/2002 2.2. Techniques d'apprentissage L'apprentissage des RFR permet de déterminer les paramètres de ces réseaux qui sont les centres des fonctions radiales, la matrice de variance et les poids des connexions entre les neurones de la couche intermédiaire et ceux de la couche de sortie. On peut classer ces techniques en trois groupes : 2.2.1. Techniques supervisées Le principe de ces techniques est de minimiser l'erreur quadratique (Ghosh et al., 1992) : E = ∑ En n [9] en utilisant la fonction gaussienne, et en considérant ∆wij , ∆x jk , ∆σ j les variations du poids, du centre et respectivement du rayon des fonctions gaussiennes, à chaque pas d'apprentissage. La loi de mise à jour est obtenue en utilisant la descente de gradient sur En (Rumelhart et al., 1986)- (Le Cun, 1985). 2.2.2. Techniques heuristiques Le principe de ces techniques est de déterminer les paramètres du réseau d'une manière itérative. Généralement, on commence par initialiser le réseau sur un centre avec un rayon d'influence initial (C0, σ0). Les centres des prototypes Ci sont créés au fur et à mesure de la présentation des vecteurs d'apprentissage. L'étape suivante a pour but de modifier les rayons d'influence et les poids des connexions (σ i , wi ) (uniquement les poids entre la couche intermédiaire et la couche de sortie). Deux techniques sont généralement utilisées : l’algorithme RCE (Restricted Coulomb Energy) introduit par (Hudak, 1992), et l’algorithme DDA (Dynamic Decay Adjustment) par (Berthold et al., 1995). Le principe de ces deux techniques est d’ajuster les rayons d’influence des prototypes en fonctions d’un seuil θ . Les conflits entre prototypes sont réduits dans l’algorithme DDA par l’ajout d’un deuxième seuil θ + . 2.2.3. Techniques d'apprentissage en deux temps Ces techniques permettent d'estimer les paramètres du RFR en deux phases : une première phase sert à déterminer les centres et les rayons des fonctions de base. Dans cette étape on utilise uniquement les vecteurs d'entrée. L'apprentissage est considéré comme étant non supervisé. On peut citer la technique des segmentations en K-moyennes des centres1 qui minimise la somme des erreurs quadratique entre 1 . Connue sous l’appellation anglophone K-means Réseaux de neurones RFR récurrents 7 les vecteurs d’entrée et les centres des prototypes. Une autre technique qui permet de déterminer les paramètres des noyaux est la méthode EM (Expectation Maximisation) qui s’inspire sur les modèles de mélange de gaussiennes (Dempster et al., 1977). La deuxième phase a pour but de calculer les poids des connexions de la couche cachée vers la couche de sortie (apprentissage supervisé). Ces poids sont déterminés soit par renforcement (maximum d’appartenance) dans le cas d’une application en classification (Hernandez, 1999), soit par un algorithme des moindres carrés en minimisant une fonction de risque empirique (Rumelhart et al., 1986). 3. Représentation du temps dans les réseaux de neurones La représentation donnée par (Chappelier et al., 1996), (Chappelier, 1996) fait apparaître deux types de solutions. Le temps dans les réseaux de neurones peut être représenté, soit par un mécanisme externe, soit par un mécanisme interne. Ces deux termes correspondent respectivement à une représentation spatiale et à une représentation dynamique du temps (Elman, 1990) (Fig.1). Réseaux de neurones temporels Temps, mécanisme externe: (NETalk) (TDNN) (TDRBF) Temps mécanisme interne. Le temps est représenté explicitement dans l'architecture Le temps au niveau des connexions Modèle fonction du temps Le temps est implicite ( réseau récurrent) Le temps au niveau du neurone Modèle biologique Figure 1. Représentation du temps dans les réseaux de neurones 3.1. Représentation spatiale du temps La façon la plus immédiate de représenter le temps dans les réseaux de neurones est d’utiliser une représentation spatiale du temps. L’information temporelle contenue dans les données est alors transformée en une information spatiale, c’est à dire une forme qu’il s’agit de reconnaître. Des lors, les techniques de classification par réseaux de neurones habituellement employées deviennent applicables. Cette 8 Revue d’Intelligence Artificielle. Volume X – n°X/2002 transformation du temporel en spatial s’obtient par l’utilisation classique de ligne à retard. Au lieu de présenter au réseau chaque événement dès son apparition, il convient d’attendre un certain temps avant de procéder à la classification de la forme obtenue. Ce type de représentation du temps fait donc appel à un mécanisme externe qui est chargé de retarder ou de retenir un certain temps les données, ce qui conduit à l’appeler également représentation externe du temps. 3.1.1. NETtalk (Sejnowski et al., 1986) Il s'agit d'apprendre à prononcer un texte en anglais à partir des phrases proposées lettre après lettre à l'entrée du réseau. NETtalk utilise une représentation spatiale du temps sous la forme d'une fenêtre temporelle d'une longueur de 7 lettres. L'objectif est alors de prononcer correctement le phonème qui se trouve au centre de la fenêtre. Le réseau est constitué d'une couche d'entrée, d'une couche cachée et d'une couche de sortie. L'apprentissage est réalisé avec l'algorithme de rétropropagation. 3.1.2. TDNN (Time Delay Neural Networks) (Waibel et al., 1989) Offre un autre exemple de représentation spatiale du temps appliqué à la reconnaissance de la parole. Une fenêtre temporelle est utilisée à l'entrée du réseau mais également pour chaque neurone de la couche cachée et de la couche de sortie. L'apprentissage est réalisé avec la rétropropagation. 3.1.3. TDRBF (Time Delay Radial Basis Function) Introduit par Berthold en 1994 pour la reconnaissance de phonèmes (Berthold, 1994). Les réseaux TDRBF combinent les caractéristiques des TDNN et des RFR (RBF). Ce type de réseau de neurone utilise également une fenêtre temporelle à l’entrée du réseau (comme les TDNN). Son avantage réside dans la simplicité de son apprentissage (simplicité des techniques d’apprentissage des RFR). 3.2. Représentation dynamique du temps Il existe un tout autre type de représentation du temps par l'effet qu'il produit. Ceci conduit à doter le réseau de propriétés dynamiques, d'où le nom de représentation dynamique du temps. En d’autres termes, cela revient à donner au réseau la capacité de mémoriser des informations. Il existe différents moyens de réaliser une telle mémoire : 3.2.1. Réseaux récurrents La connectivité des unités dans les réseaux de neurones récurrents ne se limite pas, comme dans le cas des réseaux à propagation avant (feedforward), à des architectures dans lesquelles l'information se propage de l'entrée vers la sortie couche après couche. Tout type de connexion est admis, c'est à dire d'un neurone à Réseaux de neurones RFR récurrents 9 n'importe quel autre, y compris lui-même. Ceci donne lieu à des comportements dynamiques qui peuvent être fort complexes. Parmi les architectures les plus connues, nous pouvons citer le modèle de Hopfield (Hopfield, 1982) basé sur le concept de mémoire adressée par son contenu (mémoire associative). Ce type de réseau est généralement utilisé dans des problèmes d'optimisation, où les vecteurs mémorisés jouent le rôle d'attracteurs. Le réseau se stabilise dans un de ces points en minimisant sa fonction d'énergie (apprentissage non-supervisé). D'autres algorithmes d'apprentissage supervisé ont été proposés pour des types de réseau récurrent à couches. Ce sont des adaptations de l'algorithme de rétropropagation du gradient des réseaux feedforward (Rumelhart et al., 1986)- (Le Cun, 1985)-(Werbos, 1974). Une de ces adaptations est l'algorithme appelé rétropropagation récurrente qui nécessite une inversion de matrice de taille N x N à chaque itération (Rohwer et al., 1987). Le principe de cet algorithme est de propager l'erreur de la couche de sortie vers la couche d'entrée avec une certaine modification des poids et des fonctions d'activations des neurones. Les poids des connexions récurrentes sont ainsi mis à jour avec le même principe que la mise à jour des poids dans l'algorithme de rétropropagation du gradient. Un autre type d'algorithme d'apprentissage pour les réseaux récurrents est appelé rétropropagation dans le temps. Le but de cet algorithme est d'obtenir une certaine réponse désirée pour certains neurones à certains instants. L'idée est de dupliquer les neurones sur l'horizon temporel (t = 1,2,…,T) de façon à ce qu'une unité Vi t représente l'état Vi (t ) du réseau récurrent équivalent (Rumelhart et al., 1986). Le réseau ainsi déplié est de type feedforward et peut faire l'objet d'un apprentissage par une version légèrement modifiée de l'algorithme de la rétropropagation. Williams et Zipser (Williams et al., 1989) ont proposé un algorithme pour l'apprentissage dans les réseaux entièrement connectés qui évite d'avoir à dupliquer les unités. Une version de cet algorithme appelée RTRL2 s'effectue en temps réel ce qui revient à réaliser l'apprentissage pendant que les données sont présentées au réseau au lieu d'avoir à attendre que la totalité des données soient produite. Afin de ne pas trop compliquer le processus d'apprentissage, il existe des réseaux dynamiques partiellement récurrents. Les connexions récurrentes utilisées permettent au réseau de prendre en compte les informations d'un passé récent, et sont généralement fixes (ne font pas l'objet d'un apprentissage). L'architecture proposée par (Elman, 1990) utilise une couche appelée couche de contexte qui duplique les états des neurones de la couche cachée à l'instant précédent. Une autre architecture similaire à celle de Elman est proposée par Jordan (Jordan, 1986). Dans cette architecture, les unités de la couche de contexte reçoivent une copie des états des unités de la couche de sortie mais tiennent également compte de leur propre état à l'instant précédent. Dans les deux types d'architectures, l'algorithme 2 . Real Time Recurrent Learning 10 Revue d’Intelligence Artificielle. Volume X – n°X/2002 d'apprentissage utilisé est celui de la rétropropagation du gradient, où les connexions récurrentes ne sont pas nécessairement modifiables. 3.2.2. Les connexions à délais Pour ce type de réseau, chaque connexion possède à la fois un poids et un délai et où peut exister plus d'une connexion entre deux unités (notamment avec des délais différents). La difficulté que pose ce type de modèle à délai sur les connexions, réside dans l'élaboration d'un algorithme d'apprentissage qui permette non seulement une adaptation des poids des connexions, mais également une adaptation des délais. 3.3. Analyse des représentations temporelles La représentation spatiale du temps, qui est caractérisée par l'emploi d'une métaphore spatiale du temps, présente plusieurs désavantages. Tout d'abord elle suppose l'existence d'une interface avec le monde extérieur dont le rôle est de retarder ou de retenir les données jusqu'au moment de leur utilisation dans le réseau : comment connaître l'instant où les données doivent être traitées ? Le second désavantage est représenté par le fait d'utiliser une fenêtre temporelle (ou des retards) de longueur finie et déterminée à priori soit par la plus longue information à traiter, soit en supposant la même longueur pour toutes les données. Enfin, c'est dans la nature même de la représentation spatiale que se pose la difficulté de différencier une position temporelle relative d'une position temporelle absolue (Elman, 1990). Les réseaux récurrents peuvent exhiber deux types de comportements temporels : soit ils se stabilisent dans un certain nombre de points d'équilibre, soit ils sont capables de décrire une trajectoire particulière dans leur espace d'état. Un changement infinitésimal des conditions initiales ou de la pente d'un point intermédiaire sur la trajectoire peut changer le point d'équilibre vers lequel le système évolue. Les algorithmes d'apprentissage dans les réseaux récurrent permettent, lorsque les modèles classiques de type feedforward ont échoué, d'envisager la résolution des problèmes dans lesquels le temps occupe une place essentielle. Ils offrent également par le fait qu'ils utilisent une représentation dynamique du temps des potentialités que n'offrent pas les modèles qui font appel à une représentation spatiale du temps. Les temps d'apprentissage et les ressources informatiques nécessaires à leur mise en œuvre peuvent être relativement importantes. Le réseau de neurone que nous présentons au paragraphe suivant combine les avantages des réseaux à fonctions de base radiales RFR et ceux des réseaux récurrents. En effet, le problème de la lourdeur du processus d'apprentissage des réseaux récurrents peut être éviter grâce à la souplesse de l'apprentissage des RFR. Réseaux de neurones RFR récurrents 11 4. RFR dynamiques : Réseaux de neurones Récurrents à Fonctions de base Radiales (RRFR) Le réseau de neurones que nous proposons considère le temps comme une représentation interne au réseau (Chappellier, 1996), (Elman, 1990). Cet aspect dynamique est obtenu par une récurrence des connexions au niveau des neurones de la couche d’entrée ( 1 ) (Fig.2). Ces auto-connexions procurent aux neurones d’entrée une capacité de prise en compte d’un certain passé des données en entrée. On peut ainsi qualifier la couche ( 1 ) de mémoire dynamique du réseau RRFR. Le réseau de neurone est donc doté de deux types de mémoires : une mémoire dynamique (couche 1 ) pour la prise en compte de la dynamique des données en entrée, et une mémoire statique (couche 2 ) pour mémoriser les prototypes. La couche de sortie ( 3 ) représente la couche de décision. φ1 (µ1 , σ 1 ) I1 ϖ φ2 ( µ 2 , σ 2 ) In φn ( µ n , σ n ) ϖ 1 2 3 Figure 2. Réseau RRFR (Réseaux Récurrents à Fonctions de base Radiales ) 4.1. Neurone bouclé Chaque neurone de la couche d'entrée effectue une sommation à l'instant t entre son entrée Ii et sa sortie de l'instant précédent (t-1) pondérée par le poids de l'autoconnexion wii . Il donne en sortie le résultat de la fonction d'activation : ai (t ) = wii xi (t − 1) + I i (t ) [10] xi (t ) = f (ai (t )) [11] 12 Revue d’Intelligence Artificielle. Volume X – n°X/2002 avec ai(t) et xi(t) représentant respectivement l'activation du neurone i et sa sortie à l'instant t. f est la fonction d'activation ayant l'expression de la sigmoïde : f ( x) = 1 − exp(−kx) 1 + exp(−kx) [12] et wii représente le poids de l'auto-connexion du neurone i. Pour mettre en évidence l'influence de cette auto-connexion, on considère que l'entrée Ii(t0) = 0 et que xi(t0) = 1 et on laisse évoluer le neurone sans l'influence de l'entrée extérieure (Frasconi et al., 1995) - (Bernauer, 1996). La sortie du neurone a donc l'expression suivante : x (t ) = 1 − exp(−kwii x(t − 1)) 1 + exp(−kwii x(t − 1)) [13] La figure 3 montre l’évolution de la sortie du neurone à chaque instant. xi ∆= xi ai wii t ∆= a+ f(ai) ai wii f(ai) t+1 t+2 ai a0 a0 ai a- (∆) -a- -b- Figure 3. Points d’équilibre du neurone bouclé : - a - comportement d’oubli ( kwii ≤ 2 ). - b - comportement de mémorisation temporaire ( kwii > 2 ). Cette évolution dépend de la pente de la droite ∆ (Fig. 3), c’est à dire du poids de la connexion (wii) et aussi de la valeur du paramètre k de la fonction d’activation. Les points d'équilibre du neurone bouclé satisfont l'équation suivante : a (t ) = wii f (a(t − 1)) [14] Le point a = a0 = 0 est une première solution évidente de cette équation. Les autres solutions s'obtiennent par l'étude des variations de la fonction : g (a ) = wii f (a) − a [15] Réseaux de neurones RFR récurrents 13 En fonction de kwii , le neurone bouclé possède un ou plusieurs points d'équilibre (Fig.3) : − Si kwii ≤ 2 , le neurone possède un seul point d'équilibre a0 = 0 − Si kwii > 2 , le neurone possède trois points d'équilibres : a0 = 0, a + > 0, a − < 0. Pour étudier la stabilité de ces points, on étudie les variations de la fonction de Lyapunov (Frasconi et al., 1995) - (Bernauer, 1996). Dans le cas où kwii ≤ 2 , cette fonction est définie par V (a ) = a 2 . On obtient : ∆V = ( wii f (a))2 − a 2 = g (a)( wii f (a) + a ) [16] Si a>0, alors f(a)>0 et g(a)<0. Si wii > 0 alors on a bien ∆V < 0 . Inversement, si a<0, alors f(a)<0 et g(a)>0. Si wii > 0 alors on a bien ∆V < 0 . Le point a0 = 0 est donc un point d'équilibre stable si kwii ≤ 2 , avec wii > 0 . Dans le cas où kwii > 2 , le neurone bouclé possède trois points d'équilibre a0 = 0, a + > 0 et a - < 0 . Pour étudier la stabilité du point a+ , on définit la fonction de Lyapunov par V (a) = (a − a + ) 2 (Frasconi et al., 1995) - (Bernauer, 1996). On obtient ainsi : ∆V = ( wii f (a) − a + ) 2 − (a − a + ) 2 = g (a)[ g (a) + 2(a − a + )] [17] Si a>a+, g(a)<0 et [ g (a) + 2(a − a + )] > 0 . On a donc ∆V < 0 . Le raisonnement est le même dans le cas où a<a+. Le point a+ est donc un point d'équilibre stable. De façon similaire, on prouve que le point a- est également un point d'équilibre stable. Ainsi, lorsqu'on s'écarte de a0 = 0, c'est pour atteindre l'un des deux points d'équilibre stables a+ ou a-. Le point a0 est donc un point d'équilibre instable. Le neurone bouclé peut ainsi exhiber deux comportements en fonction kwii : comportement d'oubli ( kwii ≤ 2 ), et comportement de mémorisation temporaire ( kwii > 2 ). La figure 4 montre l'influence du produit kwii sur le comportement du neurone bouclé. Dans tous les cas, l'auto-connexion permet au neurone de mémoriser un certain passé des données d'entrée. Cette auto-connexion peut être obtenue par apprentissage, mais le plus aisé serait de la fixer a priori. Nous verrons par la suite, comment ce neurone bouclé peut permettre au réseau RRFR de traiter des données dynamiques alors que les RFR classiques ne traitent que des données statiques. 14 Revue d’Intelligence Artificielle. Volume X – n°X/2002 1 0.9 Sortie du neurone bouclé 0.8 0.7 0.6 0.5 0.4 kwii = 2.05 0.3 0.2 0.1 0 20 40 kwii = 2 kwii = 1.95 kwii = 1.5 0 60 80 100 120 140 160 180 200 Temps Figure 4. Influence du produit k wii sur le comportement du neurone bouclé. Le neurone bouclé stimulé à t=0, évolue différemment en fonction de la valeur de k wii . 4.2. Etude de la sensibilité du neurone bouclé Nous allons étudier la sensibilité du neurone bouclé par rapport aux variations du signal d’entrée. Cette étude correspond à l’analyse de la sensibilité du RRFR (neurone d’entrée bouclé) face au RFR (neurone d’entrée linéaire non bouclé). Nous verrons que cette sensibilité dépend essentiellement du produit kwii . Pour des raisons de simplicités de calcul, nous avons étudié le rapport inverse dS/dx. Toutefois, nous revenons à l’expression classique de la sensibilité dx/dS lors de l’interprétation de nos résultats. Définition du palier de dégradation ~ On définit un palier de dégradation entre S et S * d’un signal capteur S (t ) par l'existence d'au moins une valeur intermédiaire S ε telle que : ~ S < S ε < S* [18] En d’autres termes : ~ S* − S ∃η > 0 / =η ∆t [19] Propriété 1 ∃ S1 ∈ ℜ + tel que : • si 2 − wii > 1 alors le neurone bouclé est plus robuste qu’un neurone linéaire k Réseaux de neurones RFR récurrents 15 2 − wii ≤ 1 alors ; k - ∀S ∈ ]−∞, − S1 ] ∪ [ + S1 , +∞[ le neurone bouclé plus robuste qu’un neurone linéaire • si - ∀S ∈ [ − S1 , + S1 ] le neurone bouclé est plus sensible qu’un neurone linéaire Démonstration Pour étudier la sensibilité du neurone bouclé, on considère l’expression du régime permanent de sa sortie : x= 1 − exp(− k ( wii x + S )) 1 + exp(−k ( wii x + S )) [20] En écrivant l’expression de S en fonction de x, nous avons par conséquent : 1 1− x ) − wii x S = − ln( k 1+ x [21] Pour avoir un rapport entre les variations de S et celle de x, on calcule la dérivée de S par rapport à x : dS 2 1 = × − wii dx k 1 − x 2 [22] On peut définir la sensibilité du neurone bouclé par l’étude de sa valeur par rapport à 1 : dS 2 1 1 k (1 + wii ) 2 =1 ⇒ × − wii = 1 ⇒ = ⇒ x 2 − (1 − )=0 dx k 1 − x2 1 − x2 2 k (1 + wii ) si 1− 2 2 < 0 ⇒ − wii > 1 k (1 + wii ) k [23] [24] l’équation [23] n’admet pas de solution, si 1− 2 2 ≥ 0 ⇒ − wii ≤ 1 k (1 + wii ) k l’équation [23] admet deux solutions : [25] 16 Revue d’Intelligence Artificielle. Volume X – n°X/2002 x11 = + 1 − 2 k (1 + wii ) , x12 = − 1 − 2 k (1 + wii ) [26] Le tableau des variations de l’équation [23] est défini en fonction de k et wii : x -1 0 +∞ +1 x 2 − wii k x12 0 +1 x11 +∞ +∞ dS dx -1 dS dx +∞ +1 2 − wii k +1 dS ∀x ∈ ]−1, +1[ / >1 dx dS >1 dx dS <1 dx dS >1 dx Tableau 1. Sensibilité du neurone bouclé en fonction du paramètre k de la sigmoïde et du poids de l’auto-connexion wii Nous obtenons donc les résultats suivants : 2 dS dx − wii > 1 alors ∀x ∈ ]−1, +1[ / >1 ⇒ < 1 , neurone bouclé est plus dx dS k robuste qu’un neurone linéaire − si − si 2 − wii ≤ 1 alors ; k dS dx ≥1 ⇒ ≤ 1 neurone bouclé est plus dx dS robuste qu’un neurone linéaire dS dx ∀x ∈ x12 , x11 / ≤1 ⇒ ≥ 1 neurone bouclé plus sensible qu’un dx dS neurone linéaire - ∀x ∈ −1, x12 ∪ x11 , +1 / La valeur de S1 de la propriété 1 se déduit de l’expression [26] en utilisant la relation [21]. Propriété 2 Le réseau RRFR présente une structure insensible aux fausses alarmes. Démonstration Soit x le régime permanent de la sortie du neurone bouclé correspondant au régime permanent du signal d'entrée S . On définit un changement brusque du signal d'entrée par un passage de S à S * en un laps de temps relativement nul. On peut formaliser ce changement par l'expression suivante : Réseaux de neurones RFR récurrents S * − S ≈ +∞ ∆t 17 [27] Soit la réponse du neurone bouclé pour un pic de changement brusque S * ([27]) : 1 − exp(−k ( wii x + S * )) 1 + exp(−k ( wii x + S * )) x* = [28] Pour étudier la sortie du neurone bouclé face à un pic de fausse alarme [27] et un palier de dégradation [19], on compare l’expression [28] et la sortie x** pour S * de la relation [18] (Fig. 5). S wii Signal d’entrée x(t) < x S(t) Sε xε < S* x** x* Figure 5. Comparaison des sorties du neurone bouclé face à un pic de fausse alarme et un palier de dégradation. La sortie du neurone bouclé pour la valeur intermédiaire S ε présente la forme suivante : xε = 1 − exp(− k ( wii x + S ε )) 1 + exp(−k ( wii x + S ε )) [29] Comme la fonction sigmoïde est strictement croissante et que wii > 0 , on obtient la relation suivante : xε > x [30] la sortie du neurone bouclé pour la valeur S * devient : x** = 1 − exp(−k ( wii xε + S * )) 1 + exp(−k ( wii xε + S * )) [31] Si l'on considère que wii > 0 , on obtient par conséquent : wii xε + S * > wii x + S * [32] 18 Revue d’Intelligence Artificielle. Volume X – n°X/2002 et par la suite : x** > x* [33] La sortie du neurone bouclé de fonction d’activation sigmoïde est donc différente dans le cas où on aurait un changement brusque du signal d'entrée et dans le cas où il s’agirait d’un palier de dégradation. La réponse du neurone bouclé est plus importante dans le deuxième cas. La sortie du neurone radial, correspondant au mode de bon fonctionnement, sera donc différente pour les deux situations : Φ bf ( x − x* ) > Φ bf ( x − x** ) [34] La figure 6 résume les deux cas étudiés précédemment. La sortie X(t) du neurone bouclé et bien différente pour le cas d’un palier de dégradation et le cas d’une fausse alarme. Les neurones de fonction d’activation radiale auront par conséquent des réponses déférentes (Zemouri et al., 2002 - a- ). S(t) X(t) 100 90 Palier de dégradation 80 70 Fausse alarme 60 50 X(t) X(t) 40 30 20 S(t) S(t) 10 0 0 t temps Figure 6. Réponse du réseau de neurone pour une fausse alarme et un palier de dégradation 5. Apprentissage du RRFR L’apprentissage permet de déterminer les paramètres du réseau RRFR en deux phases : une phase initialisation des paramètres du neurone bouclé et une deuxième phase de calcul des centres et rayons d’influence des neurones gaussiens ainsi que les poids des connexions de sortie (uniquement entre les neurones gaussiens et les neurones de sortie). 5.1. Initialisation du neurone bouclé La phase d’initialisation du neurone bouclé dépend du comportement dynamique recherché par l’utilisateur et du type de la variable en entrée. Pour des applications Réseaux de neurones RFR récurrents 19 d’apprentissage de séquences d’événements discrets, chaque neurone bouclé représente un événement de la séquence. Celui-si reçoit une excitation externe au moment de l’occurrence de l’événement associé. A la fin de la séquence, chaque neurone bouclé exhibe une sortie xi(t) qui dépend du moment d’occurrence de l’événement Ei associé. Les variables d’entrée sont dans ce cas de type binaire (Bernauer et al., 1993), (Zemouri et al., 2001) : 1 dans le cas où l’événement associé à l’entrée du neurone bouclé se produirait et 0 dans le cas contraire. On impose alors un aspect binaire à la fonction d’activation du neurone bouclé à travers le paramètre k de l’expression [12] (généralement k avoisinant la valeur de 1 ou plus). On ajuste ensuite la valeur de l’auto-connexion en fonction de l’aspect dynamique souhaité pour le neurone bouclé. Si l’information recherchée est l’instant d’apparition d’un événement Ei d’une séquence, on impose au neurone un comportement d’oubli kwii ≤ 2 . La plus longue mémoire est obtenue pour kwii = 2 . Le neurone bouclé est capable de garder en mémoire une trace d’une occurrence d’un événement pendent plus de 200 pas de simulation (Fig. 4). Pour avoir les mêmes performances avec d’autres architectures neuronales utilisant la représentation spatiale (le TDRBF par exemple), il faudrait une fenêtre temporelle de plus de 200 retards, ce qui alourdi énormément l’architecture du réseau de neurone. Dans le cas où l’information recherchée serait uniquement l’occurrence d’un événement Ei et non le moment de son apparition, on impose au neurone un comportement de mémorisation temporaire kwii > 2 . Pour des applications où l’on cherche à surveiller l’évolution d’un signal capteur, la variable d’entrée est dans ce cas de type réel (signal de sortie d’un capteur). Les paramètres k et wii sont calculés de telle sorte à avoir un comportement pseudolinéaire du signal d’entrée autour du point d’origine (zéro). Soit S l’amplitude du signal d’entrée, et x la sortie correspondante du neurone bouclé. D’après l’équation [21], on obtient : 1 1 − xmax Smax = − ln( ) − wii xmax k 1 + xmax [35] La valeur maximale que peut prendre le poids de l’auto-connexion wii du neurone bouclé pour un comportement robuste est (voir propriété 1) : wmax = En remplaçant suivante : wmax 2 k dans l’expression de k=− [36] Smax ([35]) on obtient l’expression 1 1 − xmax ) + 2 xmax ln( S max 1 + xmax [37] 20 Revue d’Intelligence Artificielle. Volume X – n°X/2002 L’équation [37] permet ainsi de calculer la valeur du paramètre k de la fonction d’activation du neurone bouclé en fonction de Smax (connu par l’utilisateur) et xmax (valeur à définir par l’utilisateur). Le poids de l’auto-connexion se déduit alors de l’équation [36]. Cette valeur maximale wmax correspond à l’état où la mémoire du neurone est la plus longue possible (Fig. 4). Plus cette valeur du poids diminue, plus le neurone perd de ces capacités dynamiques. Nous montrons en figure 7 comment une cascade de trois neurones bouclés peut être initialisée afin d’amplifier la mémoire dynamique du réseau. Nous avons stimulé le premier neurone par un signal d’entrée S(t) définie comme ci-dessous : S (t ) = 1 si t ≤ 10 [38] S (t ) = 0 sinon Nous avons initialisé les paramètres des neurones bouclés de telle sorte à avoir une réponse qui correspond à 80 % (zone de non saturation de la sigmoïde) d’une demi-amplitude de la sigmoïde pour le signal d’entrée. En d’autres termes, Smax = 1 et xmax = 0,8 (voir expression [35]). On obtient alors la valeur de k ≈ 0.5 calculé selon l’expression [37]. La valeur maximale wmax = 4 du poids de l’auto-connexion se déduit alors de l’expression [36]. Le réseau de neurone est ainsi capable de garder une trace du signale d’entrée pendent environ au moins 400 pas de simulation. 0.8 0.7 0.6 0.5 x3(t) 0.4 0.3 x2(t) 0.2 x1(t) 0.1 0 S 0 100 200 x1(t) 300 400 x2(t) 500 600 x3(t) Figure 7. Influence d’une cascade de neurones bouclés sur la longueur de la mémoire dynamique. 5.2. Détermination des paramètres des neurones gaussiens Cette phase d’apprentissage permet de déterminer les autres paramètres du réseau RRFR en deux étapes (voir paragraphe 3.2) : une étape non supervisée pour Réseaux de neurones RFR récurrents 21 le calcul des centres et rayons des prototypes, et une étape supervisée pour calculer les poids des connexions de sortie. Parmi les techniques exposées au paragraphe 3.2, celle qui est la plus utilisée est la technique de segmentation en K-moyenne des centres. Cette technique minimise la sommes des erreurs quadratiques entre les vecteurs d’entrée et les centres des prototypes. Malgré sa facilité de mise en œuvre, cet algorithme présente néanmoins quelques inconvénients : − Il n’existe aucune méthode formelle pour déterminer le nombre adéquat de centres ou de prototypes ; − Il n’existe aucune méthode formelle pour initialiser ces centres. Généralement ceux-ci sont initialisés d’une manière aléatoire ; − On peut avoir des situations où un nuage de points appartenant à un centre ci soit vide. Dans ce cas le rayon d’influence du centre ci ne peut être calculé. La réponse du réseau dépend donc fortement du nombre K des centres choisis, de leur valeur initiale ainsi que du rayon d’influence des prototypes. Plusieurs itérations sont nécessaires pour trouver un meilleur résultat. La figure 8 montre deux résultats différents obtenus avec l’algorithme des K-moyens sur un problème d’approximation de fonction : 70 70 60 60 50 50 40 0 50 100 150 200 250 300 40 0 50 100 150 200 250 300 Figure 8. Deux résultats différents obtenus pour deux itérations différentes de l’algorithme des K-moyens. Cette différence est due à l’initialisation aléatoire des K centres. Ce problème d’initialisation peut être résolu par une technique appelée FuzzyMinMax (Simpson, 1993). Cette technique permet de déterminer le nombre K des centres et leur valeur initiale d’une manière itérative. L’algorithme des Kmoyens peut être ainsi doper pour converger vers le minimum de la somme des erreurs quadratiques entre les vecteurs d’entrée et les centres ci . Durant cette phase d’initialisation, des hyper-cube à n dimensions sont crées. Les limites d’un hypercube sont définies par les coordonnées maximale et minimale de chaque dimension des points appartenant à cet hyper-cube. Un degré d’appartenance d’un point à chaque hyper-cube est déterminé par la fonction d’appartenance ci-dessous : H j ( x,v j ,u j ) = 1 n ∑ 1 − f ( xi − u ji ) − f ( v ji − xi ) n i =1 [39] 22 Revue d’Intelligence Artificielle. Volume X – n°X/2002 où la fonction f est définie par l’expression suivante : ξ >1 1, f ( ξ ) = ξ , si 0 ≤ ξ ≤ 1 0 , ξ <0 Avec : Hj [40] le degré d’appartenance d’un point x à l’hyper-cube j. Ce degré d’appartenance est compris dans l’intervalle [0 ; 1] ; xi la iéme dimension du vecteur d’entrée x ; u ji et v ji la valeur de la iéme dimension des points maximums et minimums respectivement du jéme hyper-cube. L’algorithme FuzzyMinMax possède trois phases : extension de l’hyper-cube, test de recouvrement et phase de re-dimensionnement de l’hyper-cube. Pour la phase d’initialisation des K centres, nous avons utilisé uniquement la partie extension pour former des nuages de points. Les valeurs maximales et minimales du premier hypercube sont initialisées par le premier point présenté au réseau. Le degré d’appartenance est ensuite calculé pour chaque point d’entrée. L’extension de l’hyper-cube ayant la plus grande fonction d’appartenance se fait selon la condition suivante : n ∑ (max( u ji ,xi ) − min( v ji ,xi )) ≤ nθ [41] i =1 où θ représente un paramètre défini par l’utilisateur ( 0 ≤ θ ≤ 1 ). De petites valeurs de θ donnent un nombre important d’hyper-cubes. Après la phase d’extension, les anciens points minimums et maximums sont remplacées par les nouvelles valeurs minimales et maximales. Si aucun hyper-cube ne peut être élargi, un nouvel hypercube contenant le nouveau point est crée. Après avoir présenté au réseau l’ensemble des données d’apprentissage, les K centres sont ainsi initialisés. On applique alors l’algorithme des K-moyens pour trouver le minimum des sommes des erreurs quadratiques. La deuxième étape du calcul des paramètres des neurones est de déterminer les rayons d’influence des centres. En effet, après la convergence de l’algorithme des K-moyens, on applique la méthode RCE (décrite au paragraphe 3.2.2), qui détermine le rayon d’influence σ j de chaque centre j en fonction de son voisinage (l’ensemble i des centres voisins). Ce calcul est formalisé par l’expression suivante : Pour tout centre i ≠ j et 1 ≤ i ≤ K σ j = max {σ : φ j (ci ) < η} [42] Réseaux de neurones RFR récurrents 23 La figure 9 illustre un exemple de calcul de rayon d’influence sur un problème à une dimension : ca φ cb η x Figure 9. Exemple de calcul des rayons d’influence avec l’algorithme RCE. Un seuil η permet d’ajuster ces rayons pour minimiser les conflits entre prototypes. Une fois que les paramètres des neurones gaussiens ont été déterminés, la méthode de régression linéaire est appliquée pour le calcul des poids des connexions de sortie (voir paragraphe 3.1.1). Le temps d’apprentissage d’un tel réseau n’est pas très important comparé à d’autres réseaux à trois couches comme le réseau de rétro propagation du gradient (Rumelhart et al., 1986), (Dubuisson, 2001). 6. Application du RRFR en pronostic Nous avons appliqué le réseau RRFR sur un problème type d’identification de système non-linéaire : le benchmark d’un four à gaz (the Box and Jenkins gas furnace database)3. L’intérêt de cet exemple est de surveiller la sortie y(t) du four en concentration de CO2. Le fonctionnement du four dépend du débit de gaz en entrée u(t). Nous avons appliqué le réseau RRFR pour prédire la sortie y(t + 1) à partir de la connaissance du débit de gaz u(t) et de la concentration de CO2 y(t). Le schéma de l’application est illustré par la figure 11. u(t) y(t) u(t) Débit du gaz d’entrée Four à gaz ∑ y(t+1) y(t) Concentration de sortie en CO2 Figure 11. Surveillance d’un four à gaz par le réseau de neurones RRFR. 3 . Cette base est disponible sur le serveur du groupe de travail IEEE Working Group on Data Modeling Benchmarks , http://neural.cs.nthu.edu.tw/jang/benchmark/ 24 Revue d’Intelligence Artificielle. Volume X – n°X/2002 Le réseau RRFR utilisé contient deux neurones linéaires pour chaque signal d’entrée. La dynamique des signaux est prise en compte par un neurone bouclé pour chaque signal. Le neurone de sortie nous donne la valeur prédite de y(t + 1). La base de données de l’application contient 300 valeurs de y(t) et u(t) (Fig. 11). La phase d’apprentissage, durant laquelle le nombre ainsi que les paramètres du réseau sont déterminés, a été réalisée sur les 100 premières valeurs de la base de données. Le résultat de l’apprentissage a été évalué sur le reste des données (les 200 dernières valeurs). u(t) 3 y(t) 62 60 2 58 1 56 54 0 52 -1 50 48 -2 46 44 apprentissage test apprentissage -3 0 50 100 150 200 250 300 0 50 test 100 150 200 250 300 t t -a- -b– Figure 11. – a - Concentration du CO2 en sortie du four à gaz, - b –Débit du gaz en entrée dans le four. Comme nous l’avons vu précédemment, le paramètre θ de l’équation [41] définit le nombre de neurones gaussiens. Des valeurs réduites du paramètre θ donnent un nombre important de neurones cachés. Ce nombre diminue avec l’accroissement du seuil θ . La figure 12 illustre cette relation : 100 90 80 70 60 K 50 40 30 20 10 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 θ Figure 12. Nombre de neurones cachés (centres) en fonction du paramètre θ La figure 13 montre l’erreur moyenne et sa déviation standard du réseau RRFR sur la population d’apprentissage en fonction de θ . Cette erreur est pratiquement égale à zéro pour θ très petit. Ceci est du au fait que la majorité des points de l’ensemble d’apprentissage ont été mémorisés comme prototypes. En contrepartie, le réseau perd de ses capacités de généralisation (Fig. 14). L’erreur de prédiction du Réseaux de neurones RFR récurrents 25 réseau sur la partie test est alors très importante. Ce compromis peut être résolu pour des valeurs de θ comprises dans l’intervalle [0,1 ; 0,75]. 4% 6% 5% 2.8 % 4% 3% 2% 2% 1.2 % 1% 0.4 % 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0 θ 0.1 0.2 -a- 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 θ -b- Figure 13. -a- Erreur moyenne relative de prédiction pour la population apprentissage en fonction de θ (par rapport à l’amplitude du signal). -b- déviation standard de l’erreur relative pour la population apprentissage en fonction de θ . 14 % 36 % 32 % 12 % 28 % 10 % 24 % 8% 20 % 6% 16 % 12 % 4% 8% 2% 4% 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 -a- 0.8 0.9 1 θ 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 θ -b- Figure 14 -a- Erreur moyenne relative de prédiction pour la population Test en fonction de θ (par rapport à l’amplitude du signal). -b- déviation standard de l’erreur relative pour la population test en fonction de θ . Le minimum de 0,9 % d’erreur (par rapport à l’amplitude de y(t)) sur les deux populations (Apprentissage + Test) est obtenu pour la valeur de θ = 0,38. Le nombre de centres correspondant est de K = 8. Cette erreur se décompose en une erreur moyenne sur la population d’apprentissage égale à 0,7 %, avec une déviation standard de 0,6 %, et une erreur moyenne sur population Test égale à 1 %, avec une déviation standard de 0,8 %. La convergence de l’algorithme est assez rapide. Le temps d’apprentissage sur un PC de 700 Mhz de fréquence d’horloge est de 0,78 secondes. La figure 15 montre la réponse du RRFR sur la prédiction de sortie en concentration de CO2 y(t + 1). 26 Revue d’Intelligence Artificielle. Volume X – n°X/2002 70 Sortie réelle 60 Sortie prédite 50 40 0 50 100 150 200 250 300 Figure 15. Réponse du réseau de neurone sur la prédiction de la concentration de sortie en CO2. L’initialisation des centres avec la méthode FuzzyMinMax procure à l’algorithme des K-moyens une plus grande stabilité. Une seule itération de l’algorithme suffit pour converger le réseau vers le même minimum. Le problème lié à l’initialisation aléatoire des centres n’apparaît plus. Le second problème de l’algorithme des Kmoyens (voir paragraphe 6.2) est celui du nombre K des centres pour optimiser l’apprentissage. Ce nombre de centres à mémoriser est déterminé implicitement par le seuil θ . La figure 14 montre que les meilleurs résultats sont obtenus pour θ ∈ [ 0,1 ; 0 ,75] . Ceci correspond un nombre K de centres compris dans l’intervalle [6 ; 40] (Fig. 12). Pour des valeurs de θ inférieur à 0,1 , le nombre important de centres provoque un phénomène de sur-apprentissage (over-fitting). Par contre, pour θ > 0,75, le réseau de neurone ne mémorise pas assez de centres pour pouvoir apprendre la dynamique du signal. Ce compromis pour obtenir le nombre de centres nécessaires pour l’apprentissage est illustré par la figure 16. On remarque que plus on augmente le nombre de centres à mémoriser, plus le réseau tend vers une situation de sur-apprentissage. 120 % 1% 0.9 % 100 % 0.8 % 0.7 % 40 % 0.6 % 60 % 0.5 % 0.4 % 40 % 0.3 % 0.2 % 20 % 0.1 % 0 0 10 20 30 40 50 60 -a- 70 80 90 100 K 0 0 10 20 30 40 50 60 70 80 90 100 K -b- Figure 16. -a- Erreur moyenne de prédiction relative sur la partie apprentissage en fonction du nombre de neurones cachés. -b- Erreur moyenne relative sur la partie Test en fonction du nombre de neurones cachés. Le second avantage du réseau présenté dans cet article réside au niveau de la topologie du réseau de neurone pour la prise en compte de l’aspect temporel. En Réseaux de neurones RFR récurrents 27 effet, la dynamique des données est considérée d’une manière implicite par une auto-connexion au niveau des neurones d’entrées. Contrairement aux autres architectures neuronales qui intègrent le temps via une fenêtre temporelle (Waibel et al., 1989), (Berthold, 1994), la mémoire dynamique du réseau n’a pas recours à un mécanisme externe pour mémoriser les données en entrée et de ce fait, n’est pas limitée par la taille de la fenêtre. Le tableau suivant présente une comparaison des performances du RRFR avec ceux du TDRBF sur l’application présenté précédemment, à savoir le problème de prédiction de la sortie en CO2 du four à gaz. Nous mettons en évidence l’apport de la cascade d’auto-connexions sur la longueur de la mémoire du RRFR. En effet, nous avons comparé les résultats de la prédiction d’un RRFR ayant un et deux neurones bouclés par rapport respectivement à un et deux retards pour le TDRBF, et ceci pour plusieurs horizons temporels (t+h), avec h ∈ [1,10] . RRBF Un neurone Deux neurones bouclé bouclés MET StdT Ttime MET StdT Ttime h=1 0,51 0,41 0,78 0,51 0,42 1,07 h=2 0,81 0,68 0,78 0,82 0,68 1,01 h=3 0,85 0,80 0,80 0,86 0,80 1,05 h=4 0,68 0,80 0,77 0,68 0,79 1,05 h=5 0,61 0,78 0,80 0,61 0,76 1,01 h=6 0,92 0,93 0,80 0,91 0,90 1,05 h=7 1,38 1,18 0,80 1,37 1,14 1,05 h=8 1,79 1,41 0,78 1,77 1,38 1,06 h=9 2,10 1,57 0,81 2,04 1,55 1,03 h=10 2,33 1,66 0,80 2,20 1,63 1,02 Un retard MET 0,31 0,5 0,7 0,86 1,19 1,79 2,48 3,25 4,05 4,67 TDRBF Deux retards StdT Ttime MET 0,31 1,27 0,33 0,54 1,27 0,57 0,77 1,27 0,71 0,98 1,31 0,74 1,54 1,26 0,78 2,39 1,26 1,10 3,24 1,27 1,58 4,18 1,26 2,18 5,15 1,27 2,69 5,93 1,26 3,09 StdT Ttime 0,34 1,60 0,61 1,60 0,79 1,60 0,88 1,53 0,90 1,60 0,96 1,61 1,44 1,60 1,94 1,61 2,34 1,59 2,81 1,61 Tableau 2. Comparaison des résultats de prédiction de la sortie en concentration de CO2 du four à gaz. Les colonnes MET présentent les erreurs moyenne (absolues) de prédiction avec leurs déviations standards (colonnes StdT). Les colonnes Ttime donnent le temps de convergence de l’algorithme d’apprentissage en secondes. La figure 17 montre l’erreur moyenne relative de prédiction obtenue sur la partie test pour les deux types de réseau temporel. Le chiffre entre parenthèse représente la dimension du retard pour le TDRBF et celle du nombre de neurones bouclés pour le RRFR. On peut voir sur cette figure que les quatre réseaux de neurones ont relativement la même erreur de prédiction pour h < 4. Cette erreur augmente considérablement pour les deux types de TDRBF. Le réseau RFR récurrent possède de meilleures performances de prédiction pour des horizons lointains, avec un temps d’apprentissage plus court par rapport au TDRBF (Tableau 2). 28 Revue d’Intelligence Artificielle. Volume X – n°X/2002 Erreur relative de prédiction par rapport à l’amplitude du signal y(t) (sortie du four) 10 % 9% 8% TDRBF (1) 7% TDRBF (2) 6% 5% RRBF (1) 4% RRBF (2) 3% 2% 1% 0 1 2 3 4 5 6 7 8 9 10 h Figure 17. Comparaison de l’erreur de prédiction du RRFR (avec un et deux neurones bouclés) avec le TDRBF (avec un et deux retards). 7. Conclusion Le réseau RRBF présenté dans cet article a été testé avec succès sur le problème de prédiction d’un système non linéaire. Ce traitement dynamique est pris en compte grâce à une cascade de neurones bouclés jouant le rôle d’une mémoire dynamique. Les centres des neurones gaussiens ont été déterminés par une méthode des K-moyens modifiée. L’intérêt de notre application réside dans deux aspects : un apport au niveau de la topologie du RFR pour prendre en compte l’aspect dynamique des données. Cette dynamique est prise en compte par une récurrence des connexions au niveau des neurones d’entrée. La mémoire dynamique ainsi obtenue permet au réseau RFR de mémoriser un passé plus important par rapport au TDRBF. Le deuxième apport concerne l’amélioration de l’algorithme d’apprentissage. Les paramètres des neurones cachés ont été déterminés par une technique améliorée de l’algorithme non supervisé K-moyens. En effet, l’algorithme K-moyens possède quelques carences au niveau de la convergence de l’apprentissage et du choix du nombre des centres. Une technique FuzzyMinMax a été utilisée pour déterminer le nombre ainsi que l’état initial des centres. L’avantage d’utiliser une telle technique est que les centres sont choisis d’une manière dynamique en fonction d’un paramètre θ . L’algorithme K-moyens est plus stable vu que les centres ne sont plus initialisés aléatoirement. Une seule itération de l’algorithme K-moyens suffit pour converger le réseau de neurone vers un minimum local. Les rayons d’influence des centres sont alors déterminés par la technique du RCE. Durant la partie de l’apprentissage supervisé, une technique de régression linéaire est utilisée pour calculer les poids des connexions de sortie. Réseaux de neurones RFR récurrents 8. 29 Références Basseville M., Cordier M.O., Surveillance et diagnostic des systèmes dynamiques: approche complémentaire du traitement du signal et de l'intelligence artificielle, rapport de recherche n° 2861, 1996, INRIA. Bernauer E., Demmou H., « Temporal sequence learning with neural networks for process fault détection », IEEE International Conference on Systems, Man, and Cybernetics, IEEE-SMC 93, vol. 2, Le Touquet France 1993, p. 375-380. Bernauer E., Les réseaux de neurones et l'aide au diagnostic: un modèle de neurones bouclés pour l'apprentissage de séquences temporelles, thèse de doctorat, LAAS 1996. Berthold M. R., « A Time Delay Radial Basis Function Network for Phoneme Recognition », Proceedings of International Conference on Neural Networks, Orlando 1994 Berthold M. R., Diamond J., « Boosting the Performance of RBF Networks with Dynamic Decay Adjustment » Advances in Neural Information Processing Systems, Gerald Tesauro, David S. Touretzky, and Todd K. Leen editors, vol. 7, p. 521-528, MIT Press, Cambridge, MA, 1995 Chappelier J.C., RST : une architecture connexionniste pour la prise en compte de relations spatiales et temporelles. Thèse de doctorat, Ecole Nationale Supérieure des Télécommunications, janvier 1996. Chappelier J.C., Grumbach A., « A Kohonen Map for Temporal Sequences », Proceeding of neural Networks and Their Application, NEURAP'96, IUSPIM, Marseille, mars 1996, p. 104-110. Combacau M., Commande et surveillance des systèmes à événements discrets complexes : application aux ateliers flexibles, thèse de Doctorat, Université P.Sabatier de Toulouse 1991. Dash S., Venkatasubramanian V., « Challenges in the industrial applications of fault diagnostic systems », Proceedings of the conference on Process Systems Engineering Comput. & Chem. Engng24 (2-7), Keystone, Colorado, July 2000, p. 785-791. Dempster A.P., Laird N.M., Rubin D.B., « Maximum likelihood from incomplete data via the EM algorithm », Journal of the royal statistic society, series B, vol. 39, 1977, p.1-38. Dubuisson B., Diagnostic et reconnaissance des formes, Paris, Edition Hermès, 1990. Dubuisson B., Diagnostic, intelligence artificielle et reconnaissance des formes, Paris, Edition Hermès, 2001. Elman J.L., « Finding Structure in Time », Cognitive Science, vol. 14, juin 1990, p. 179-211. Frasconi P., Gori M., Maggini M., Soda G., « Unified Integration of Explicit Knowledge and Learning by Example in Recurrent Networks », IEEE Transactions on Knowledge and Data Engineering, vol. 7, n° 2, 1995, p. 340-346. Freitas N., I.M. Macleod and J.S. Maltz,, « Neural networks for pneumatic actuator fault détection », Transactions of the SAIEE, vol. 90, n° 1, 1999, p. 28-34. 30 Revue d’Intelligence Artificielle. Volume X – n°X/2002 Ghosh J., Beck S., Deuser L., « A Neural Network Based Hybrid System for Detection, Characterization and Classification of Short-Duration Oceanic Signals », IEEE Jl. of Ocean Engineering, vol. 17, n° 4, October 1992, p. 351-363. Ghosh J., Nag A., Radial Basis Function Neural Network Theory and Applications, Edition R. J. Howlett and L. C. Jain, Physica-Verlag., 2000. Hernandez N.G., Système de diagnostic par Réseaux de Neurones et Statistiques : application à la détection d'hypovigilance d'un conducteur automobile, thèse de doctorat, LAAS/Toulouse, 1999. Hopfield J.J., « Neural networks and physical Sytems with emergent collective computational abilities », Proceeding Nat. Acad. Sci. USA, Biophysics, vol. 79, 1982, p. 2554-2558. Hudak M.J., « RCE Classifiers: Theory and Practice » in Cybernetics and systems, vol. 23 , 1992, p.483-515. Hutchinson J.M., A Radial Basis Function Approach to Financial Time Series Analysis, Thèse de doctorat, Massachusetts Institute of Technology (MIT), 1994. Hwang Y.S., Bang S.Y., « An efficient method to construct a Radial Basis Function Neural Network classifier », Neural Networks, vol. 10, n° 08, 1997, p. 1495-1503. Jordan M.I., « Serial order: a parallel distributed processing approach », University of California, Institute for cognitive science, 1986. Keller P., Kouzes R.T., Kangas L.J., « Three Neural Network Based Sensor System for Environemental Monitoring », Proceedings IEEE Electro94 Conference, Boston, MA, USA, May 1994 Koivo H.N, « artificial neural networks in fault diagnosis and control », control in engineering practice, vol.2, n°1, 1994, p. 89-101. Lefebvre D., Contribution à la modélisation des systèmes dynamiques à événements discrets pour la commande et la surveillance, Habilitation à Diriger des Recherches, Université de Franche Comté/ IUT Belfort – Montbéliard, 2000. MacQueen J., « Some methods for classification and analysis of multivariate observations », Fifth Berkeley Symposium on Mathematical statistics and probability, vol. 1, Berkeley, 1967, University of California Press, p. 281-297 Mak M.W., Kung S.Y., « Estimation of Elliptical Basis Function Parameters by the EM Algorithms with Application to Speaker Verification », IEEE Trans. on Neural Networks, vol. 11, n° 4, July 2000, p. 961-969. Michelli C.A., Interpolation of scattered data: distance matrices and conditionally positive definite functions. Contsructive Approximation, 1986. Moody J., Darken J., « Fast Learning in networks of locally tuned processing units », Neural Computation, 1989, p. 281-194. Mustawi M.T., Ahmed W., Chan K.H., Faris K.B., Hummels D.M., « on the training of Radial Basis Function Classifiers », Neural Networks, vol. 5, 1992, p. 595-603. Petsche T.A., Marcontonio A., Darken C., Hanson S.J., M.kuh G., Santoso I., A Neural Network autoassociator for induction motor failure prediction, Cambridge, MIT Press, Réseaux de neurones RFR récurrents 31 Edition D.S. Touretzky, M.C. Mozer, and M.E. Hasselmo, Advances in Neural Information Prodessing Systems 8, 1996, p. 924-930. Poulard H., statistiques et réseaux de neurones pour un système de diagnostic. Application au diagnostic de pannes automobiles, Thèse de Doctorat, LAAS/France, 1996. Poggio T., Girosi F., A Theory of Networks for Approximation and Learning, AI Memo 1140, July 1989 Rengaswamy R., Venkatasubramanian V., « A Syntactic Pattern Recognition Approach for Process Monitoring and Fault Diagnosis », Engineering Applications of Artificial Intelligence Journal, 8(1), 1995, p. 35-51. Rohwer R., Forrest B., « Training Time-Dependence in Neural Network », in IEEE First International Conference on Neural Networks, M. Caudill et C.Butler, vol. 2, San Diego, California, juin 1987, p. 701-708. Rumelhart D.E, Hinton G.E., Williams R.J., « Learning Internal Representation by Error Propagation », in Parallel Distributed Processing Explorations in the Microstructure of Cognition, vol. 1, The MIT Press/Bradford Books, D.E. Rumelhart and J.L.McClelland, 1986, p. 318-362. Simpson P.K., « Fuzzy min-max neural networks – Part II : Clustering » IEEE Transaction on Fuzzy Systems, Vol.1, 1993, p. 32-45. Sejnowski T.J., Rosenberg C.R., NetTalk: a parallel network that learns to read aloud, electrical engineering and computer science technical report, the johns hopkins university, 1986. Smyth P., « detecting novel fault conditions with hidden Markov models and neural netwoks », Pattern Recognition in Practice IV, 1994, p. 525-536. Vemuri A., Polycarpou M., « Neural Network Based Robust Fault Diagnosis in Robotic Systems », IEEE Transactions on Neural Networks, vol. 8, n°. 6, novembre 1997, p. 1410-1420,. Vemuri A., Polycarpou M., Diakourtis S., « Neural Network Based Fault Detection and Accommodation in Robotic Manipulators », IEEE Transactions on Robotics and Automation, vol. 14, n° 2, avril 1998, p. 342-348. Waibel A., Hanazawa T., Hinton G., Shikano K., Lang K., « Phoneme recognition using time delay neural network » IEEE Trans. in Acoustics, Speech and Signal Processing, vol. 37, n° 3, 1989. Werbos P.J., Beyond regression: New tools for prediction and analisys in the behavioral science, Thèse de doctorat, Harvard University, 1974. Williams R.J., Zipser D., « A Learning Algorithm for Continually Running Fully Recurrent Neural Networks », Neural Computation, vol.1, juin 1989, p. 270-280. Xu L., « RBF nets, mixture experts, and Bayesian Ying-Yang learning », Neurocomputing, 1998, p. 223-257. 32 Revue d’Intelligence Artificielle. Volume X – n°X/2002 Zemouri M.R., Racoceanu D., Zerhouni N., « The RRBF - Dynamic Representation of time in Radial Basis Function Network », IEEE International Conference on Emerging Technologies and Factory Automation, ETFA' 01, Juan-Les-Pins, France, octobre 2001. Zemouri R., Racoceanu D., Zerhouni N.,( – a – ) « Application of the dynamic RBF network in a monitoring problem of the production systems » , 15e IFAC World Congress on Automatic Control, Barcelone, Espagne, juillet 2002. Zemouri R., Racoceanu D., Zerhouni N.,( – b – ) « From the spherical to an elliptic form of the dynamic RBF neural network influence field », IEEE World Congress on Computational Intelligence, International Joint Conference on Neural Networks (IJCNN), Honolulu, Hawaii, USA, May 12-17, 2002 Zwingelstein G., Diagnostic des défaillances, Théorie et pratique pour les systèmes industriels, Paris, Edition Hermès 1995.
Documents pareils
Algorithmes évolutionnistes: de l`optimisation de paramètres à
Plusieurs éléments varient d’un AE à l’autre: l’algorithme de
sélection, le codage des solutions et enn les opérateurs génétiques utilisés. Ces derniers dépendent fortement du type de
codage emplo...