Réseaux de neurones récurrents à fonctions de base radiales : RRFR

Transcription

Réseaux de neurones récurrents à fonctions
de base radiales : RRFR
Application au pronostic
Ryad Zemouri – Daniel Racoceanu – Noureddine Zerhouni
Laboratoire d’Automatique de Besançon,
Groupe Maintenance et Sûreté de Fonctionnement,
25, Rue Alain Savary
25000 Besançon
France
[email protected] - [email protected] - [email protected]
RÉSUMÉ.
Cet article présente un réseau RFR récurrent (Réseaux Récurrent à Fonction de
base Radiales) appliqué à un problème de pronostic d’un système non linéaire. Le processus
d’apprentissage du réseau RRFR se décompose en deux étapes. Durant la première étape, les
paramètres des neurones gaussiens sont déterminés par la méthode non supervisée des Kmoyens, dont les performances ont été améliorées avec la technique FuzzyMinMax. Dans une
seconde étape, les poids des connexions de sortie sont déterminés par une technique
supervisée de régression linéaire. A travers l’application sur le benchmark Box and Jenkins
gaz, nous illustrons la capacité du RRFR de prédire l’évolution d’un système non linéaire. Ses
performances se montrent nettement supérieurs à celles du TDRBF, dés lors qu’on augmente
l’horizon des prédictions temporelles. La technique FuzzyMinMax rend la convergence de
l’algorithme des K-moyens plus stable.
ABSTRACT. This paper introduces a Recurrent Radial Basis Function network (RRBF) for nonlinear system prognosis. The training process is divided in two stages. First, the parameters
of the RRBF are determined by the unsupervised k-means algorithm. The ineffectiveness of
this algorithm is improved by the FuzzyMinMax technique. In the second stage, a
multivariable linear regression supervised learning technique is used to determine the
weights of the connections between the hidden and output layer. We test the RRBF on the Box
and Jenkins furnace database. This application shows that the RRBF is able to predict the
evolution of a non-linear system. The performances of the RRBF are compared with those of
the TDRBF. The RRBF gives better results for long run predictions. The FuzzyMinMax
technique makes the K-means more stable.
MOTS-CLÉS : Maintenance préventive, Surveillance, Pronostic, Réseaux de neurones
temporels, RFR - Réseaux de neurones à fonctions de base radiales.
KEYWORDS : Preventive maintenance, Monitoring, Prognosis, Dynamic Neural Network, RBF
- Radial Basis Function.
Revue d’Intelligence Artificielle. Volume X – n°X/2002, pages 1 à 32
2
Revue d’Intelligence Artificielle. Volume X – n°X/2002
1.
Introduction
La surveillance des équipements industriels nécessite le traitement d’un certain
nombre de signaux capteurs. Cette fonction se divise en deux taches élémentaires :
la détection et le diagnostic des défaillances. La procédure de détection d'une
défaillance revient tout d'abord à comparer la signature courante à une signature de
référence associée au mode de fonctionnement identifié, et ensuite à prendre une
décision en fonction du résultat de la comparaison (Zwingelstein, 1995). La fonction
diagnostic devra essentiellement localiser l’organe défaillant et identifier les causes
de cette défaillance (Lefebvre, 2000). On peut diviser les méthodologies de
surveillance en deux groupes : méthodologies de surveillance avec modèle et sans
modèle formel de l’équipement (Dash et al., 2000). Les premières méthodologies
utilisent généralement les techniques de l’automatique (Combacau, 1991). La
deuxième catégorie de méthodologies est plus intéressante dès lors qu’un modèle
formel du système est inexistant ou difficile à obtenir (Dubuisson, 1990). Dans ce
cas, on utilise les outils de la statistique et de l’intelligence artificielle. Les réseaux
de neurones artificiels sont ainsi convoités pour leur capacité d’apprentissage,
d’adaptation et de généralisation. Leur parallélisme ainsi que leur capacité de traiter
des données hétérogènes (données quantitatives et qualitatives) représente un atout
considérable par rapport aux autres outils (Bernauer et al., 1993)-(Freitas et al.,
1999)-(Keller et al., 1994)-(Petsche et al., 1996)-(Rengaswamy et al., 1995)(Poulard, 1996)-(Vemuri et al., 1997)-(Vemuri et al., 1998), (Smyth, 1994), (Koivo,
1994), (Zemouri et al., 2002 - b -).
La dynamique d’un équipement représente une dimension importante pour la
détection dynamique des défaillances. Ne pas pouvoir dissocier entre une vraie
dégradation et une fausse alarme, peut avoir des conséquences économiques
défavorables pour la production (Basseville, 1996). Ce traitement ne peut se faire
que par une prise en compte de l’évolution d’un signal capteur. Cette prise en
compte permet également de prédire son évolution temporelle afin de pronostiquer
le mode de fonctionnement de l’équipement. C’est dans cette optique que nous
proposons une architecture dynamique de Réseau de neurones Récurrents à Fonction
de base Radiales (RRFR), capable d’apprendre des séquences temporelles. Le réseau
RRFR présenté dans cet article se base sur les avantages des réseaux RFR en terme
de temps d’apprentissage (Mak et al., 2000), (Hutchinson, 1994), (Ghosh et al.,
1992), (Ghosh et al., 2000), (Hwang et al., 1997), (Hernandez, 1999), (Poggio et al.,
1989), (Mustawi et al., 1992). L’aspect récurrent ou dynamique est obtenu grâce à
une auto-connexion au niveau des neurones de la première couche. Cette couche
représente en quelque sorte une mémoire dynamique du réseau RFR, lui permettant
d’apprendre une évolution temporelle des données.
La détermination des caractéristiques des neurones cachés (neurones gaussiens)
se fait par l’algorithme des K-moyens (MacQueen, 1967). Cette technique présente
néanmoins quelques faiblesses, en l’occurrence la détermination du nombre optimal
des centres K et l’instabilité du résultat due à l’initialisation aléatoire de ces centres.
Réseaux de neurones RFR récurrents
3
Nous avons exploité la technique FuzzyMinMax pour définir le nombre K ainsi que
l’état initial des centres. Les rayons d’influence des centres seront alors déterminés
par la technique RCE.
Nous avons testé le réseau RRFR sur un problème type d’identification d’un
système non-linéaire : le benchmark Box and Jenkins gaz. Le but de l’application
est de prédire la concentration de sortie en CO2 d’un à four à gaz. Les poids des
connexions de sortie du réseau RRFR sont déterminés par une méthode de
régression linéaire. Les résultats montrent que le RRFR est capable de prédire
l’évolution de la valeur de sortie du four à partir d’une base d’apprentissage. Grâce à
l’étape d’initialisation des centres, l’algorithme des K-moyens converge à chaque
fois vers le même état. Les résultats expérimentaux montrent que les performances
du RRFR sont meilleures que ceux du TDRBF, et ce essentiellement pour de grands
horizons de prédiction.
L’article est structuré en six parties : le paragraphe suivant présente un bref état
de l’art des réseaux RFR, de leurs applications ainsi que des techniques
d’apprentissage les plus utilisées pour ce type d’architecture neuronale. Nous
donnons par la suite, dans le 3ème paragraphe, une large description des différentes
représentations du temps dans les réseaux de neurones. Nous concluons cette section
par une discussion par rapport aux avantages et aux inconvénients de chaque
architecture. Ceci justifie l’intérêt d’une nouvelle représentation dynamique d’un
réseau RFR. Cette nouvelle architecture, appelée RRFR est ainsi présentée dans le
paragraphe 4. Le 5ème paragraphe présente la technique d’apprentissage du RRFR.
Ce paragraphe est divisé en deux parties : une partie pour l’initialisation du neurone
bouclé et une deuxième partie pour la détermination des caractéristiques des
prototypes (centres et rayons d’influence). Le 6ème paragraphe traite les différents
résultats obtenus par notre réseau sur un four à gaz. Nous avons ainsi comparé les
performances du RRFR avec ceux du TDRBF pour plusieurs horizons de prédiction.
Enfin, le dernier paragraphe est dédié aux conclusions et aux perspectives de cette
étude.
2.
Réseaux de neurones à fonctions de base radiales RFR
2.1. Généralités
Les réseaux de neurones à fonctions de base radiales sont capables de fournir une
représentation locale de l'espace grâce à des fonctions de base dont l'influence est
restreinte à une certaine zone de l'espace. Les paramètres de cette fonction de base
sont donnés par un vecteur de référence (centre ou prototype) [µ j]j=1,…,n et la
dimension σj du champ d'influence. La réponse de la fonction de base dépend donc
de la distance de l'entrée x au vecteur prototype µ j, et de la taille du champ
d'influence :
4
φ j ( x) = φ ( x − µ j , σ j )
[1]
où les fonctions φ j (.) sont généralement maximales lorsque x = µ j et tendent vers 0
quand x − µ j → ∞ . La gaussienne est la fonction la plus employée. Elle s'exprime,
sous la forme la plus générale, par :
1
2
φj (x) = exp(− (x − µ j )t Σ −j 1 (x − µ j ))
[2]
où Σ j désigne la matrice de variance-covariance associée à la cellule. Différents
2
paramétrages de Σ j sont possibles. Un choix courant reste cependant Σ j = σ j I où
l'on suppose que la décroissance de la gaussienne est la même pour toutes les
directions de l'espace (gaussienne isotrope). Les courbes d'isoactivation des cellules
cachées sont alors des hyper-sphères. Un nombre restreint de fonctions de base
participent au calcul de la sortie pour une entrée donnée. Les RFR peuvent être
classés en deux catégories, en fonction du type de neurone de sortie : normalisé et
non-normalisé (Mak et al., 2000), (Moody et al., 1989), (Xu, 1998).
2.1.1.
Problème d'interpolation et approximation de fonction
L'interpolation est définie comme suit : soit un ensemble de N vecteurs d'entrée
xn de dimension d et un ensemble à une dimension tn (n=1,…..,N). Le problème est
de trouver une fonction continue h(x) tel que : h(xn) = tn .
La solution à ce problème en utilisant les RFR consiste à choisir un groupe de N
fonctions de base, centrées aux N points d'entrée, en utilisant la définition des
fonctions radiales avec wn le poids de la connexion de la nème fonction de base vers le
neurone de sortie (Ghosh et al. 1992) – (Poggio, 1989) :
N
h(x) = ∑ wnφ ( x − x n )
[3]
n =1
Il a été démontré (Michelli, 1986) qu'il existe une classe de fonctions
(gaussiennes, multiquadratique,.) où la matrice Φ = [φij = φ ( µi − µ j , σ j )] est non
singulière et par conséquent, le vecteur de pondération peut s’écrire sous la forme
suivante w = [ wn ]n =1,..., N :
w=Φ -1 .t
[4]
En pratique, le problème d'interpolation n'est pas toujours intéressant.
Premièrement, les données sont généralement bruitées et l'interpolation utilisant
toutes les données de l'apprentissage peut provoquer un sur-apprentissage et par
conséquent, une faible généralisation. Deuxièmement, pour garantir une
interpolation correcte, le nombre de fonctions de base est égal au nombre de
5
vecteurs d'apprentissage. Ceci peut donner une dimension importante au problème
d'apprentissage. Les fonctions radiales peuvent être adaptées pour un problème
d'approximation de fonction et de généralisation par apprentissage (Ghosh et al.
1992), (Poggio, 1989).
2.1.2.
Classification
Les RFR sont également utilisés dans des problèmes de classification. En théorie
de la classification probabiliste, la loi du vecteur x, quand on ne connaît pas sa
classe d'appartenance, est donnée par la loi mélange f(x) :
M
f (x) = ∑ Pr(α i ) f (x / α i )
[5]
i =0
f ( x / α i ) et Pr(α i ) supposées connues, représentent la loi conditionnelle
d'appartenance du vecteur x dans la classe α i et respectivement la probabilité à
priori des classes α i . Par analogie, la sortie d'un RFR présente l'expression suivante
(Ghosh et al., 2000) :
M
f (x) = ∑ wkiφi (x)
[6]
i =0
avec wki représentant le poids de la connexion entre le iéme neurone radial et le kéme
neurone de sortie.
Cette expression ressemble à une expression de distribution de loi mélange [5]
(Ghosh et al., 2000), où :
φi (x) =
f (x / α i ) Pr(α i )
∑
M
i =1
f (x / α i ) Pr(α i )
= Pr(α i / x)
[7]
et les poids :
wki =
Pr(α i / Ck ) Pr(Ck )
= Pr(Ck / α i )
Pr(α i )
[8]
D'après cette représentation, les centres des gaussiennes peuvent être considérés
comme étant des vecteurs représentatifs. La sortie des unités cachées représente la
probabilité à posteriori d'appartenance du vecteur d'entrée x à la classe ( α i ). Les
poids des connexions représentent la probabilité à priori des classes et la sortie de
tout le réseau matérialise la probabilité à posteriori de la classe de sortie Ck.
6
2.2. Techniques d'apprentissage
L'apprentissage des RFR permet de déterminer les paramètres de ces réseaux qui
sont les centres des fonctions radiales, la matrice de variance et les poids des
connexions entre les neurones de la couche intermédiaire et ceux de la couche de
sortie. On peut classer ces techniques en trois groupes :
2.2.1.
Techniques supervisées
Le principe de ces techniques est de minimiser l'erreur quadratique (Ghosh et al.,
1992) :
E = ∑ En
n
[9]
en utilisant la fonction gaussienne, et en considérant ∆wij , ∆x jk , ∆σ j les variations du
poids, du centre et respectivement du rayon des fonctions gaussiennes, à chaque pas
d'apprentissage.
La loi de mise à jour est obtenue en utilisant la descente de gradient sur En
(Rumelhart et al., 1986)- (Le Cun, 1985).
2.2.2.
Techniques heuristiques
Le principe de ces techniques est de déterminer les paramètres du réseau d'une
manière itérative. Généralement, on commence par initialiser le réseau sur un centre
avec un rayon d'influence initial (C0, σ0). Les centres des prototypes Ci sont créés au
fur et à mesure de la présentation des vecteurs d'apprentissage. L'étape suivante a
pour but de modifier les rayons d'influence et les poids des connexions (σ i , wi )
(uniquement les poids entre la couche intermédiaire et la couche de sortie).
Deux techniques sont généralement utilisées : l’algorithme RCE (Restricted
Coulomb Energy) introduit par (Hudak, 1992), et l’algorithme DDA (Dynamic
Decay Adjustment) par (Berthold et al., 1995). Le principe de ces deux techniques
est d’ajuster les rayons d’influence des prototypes en fonctions d’un seuil θ . Les
conflits entre prototypes sont réduits dans l’algorithme DDA par l’ajout d’un
deuxième seuil θ + .
2.2.3.
Techniques d'apprentissage en deux temps
Ces techniques permettent d'estimer les paramètres du RFR en deux phases : une
première phase sert à déterminer les centres et les rayons des fonctions de base.
Dans cette étape on utilise uniquement les vecteurs d'entrée. L'apprentissage est
considéré comme étant non supervisé. On peut citer la technique des segmentations
en K-moyennes des centres1 qui minimise la somme des erreurs quadratique entre
1
. Connue sous l’appellation anglophone K-means
7
les vecteurs d’entrée et les centres des prototypes. Une autre technique qui permet de
déterminer les paramètres des noyaux est la méthode EM (Expectation
Maximisation) qui s’inspire sur les modèles de mélange de gaussiennes (Dempster et
al., 1977). La deuxième phase a pour but de calculer les poids des connexions de la
couche cachée vers la couche de sortie (apprentissage supervisé). Ces poids sont
déterminés soit par renforcement (maximum d’appartenance) dans le cas d’une
application en classification (Hernandez, 1999), soit par un algorithme des moindres
carrés en minimisant une fonction de risque empirique (Rumelhart et al., 1986).
3.
Représentation du temps dans les réseaux de neurones
La représentation donnée par (Chappelier et al., 1996), (Chappelier, 1996) fait
apparaître deux types de solutions. Le temps dans les réseaux de neurones peut être
représenté, soit par un mécanisme externe, soit par un mécanisme interne. Ces deux
termes correspondent respectivement à une représentation spatiale et à une
représentation dynamique du temps (Elman, 1990) (Fig.1).
Réseaux de
neurones temporels
Temps, mécanisme externe:
(NETalk)
(TDNN)
(TDRBF)
Temps mécanisme
interne.
Le temps est représenté
explicitement dans
l'architecture
Le temps au niveau
des connexions
Modèle fonction
du temps
Le temps est implicite
( réseau récurrent)
Le temps au niveau
du neurone
Modèle
biologique
Figure 1. Représentation du temps dans les réseaux de neurones
3.1. Représentation spatiale du temps
La façon la plus immédiate de représenter le temps dans les réseaux de neurones
est d’utiliser une représentation spatiale du temps. L’information temporelle
contenue dans les données est alors transformée en une information spatiale, c’est à
dire une forme qu’il s’agit de reconnaître. Des lors, les techniques de classification
par réseaux de neurones habituellement employées deviennent applicables. Cette
8
transformation du temporel en spatial s’obtient par l’utilisation classique de ligne à
retard. Au lieu de présenter au réseau chaque événement dès son apparition, il
convient d’attendre un certain temps avant de procéder à la classification de la forme
obtenue. Ce type de représentation du temps fait donc appel à un mécanisme externe
qui est chargé de retarder ou de retenir un certain temps les données, ce qui conduit
à l’appeler également représentation externe du temps.
3.1.1.
NETtalk (Sejnowski et al., 1986)
Il s'agit d'apprendre à prononcer un texte en anglais à partir des phrases
proposées lettre après lettre à l'entrée du réseau. NETtalk utilise une représentation
spatiale du temps sous la forme d'une fenêtre temporelle d'une longueur de 7 lettres.
L'objectif est alors de prononcer correctement le phonème qui se trouve au centre de
la fenêtre. Le réseau est constitué d'une couche d'entrée, d'une couche cachée et
d'une couche de sortie. L'apprentissage est réalisé avec l'algorithme de
rétropropagation.
3.1.2.
TDNN (Time Delay Neural Networks) (Waibel et al., 1989)
Offre un autre exemple de représentation spatiale du temps appliqué à la
reconnaissance de la parole. Une fenêtre temporelle est utilisée à l'entrée du réseau
mais également pour chaque neurone de la couche cachée et de la couche de sortie.
L'apprentissage est réalisé avec la rétropropagation.
3.1.3.
TDRBF (Time Delay Radial Basis Function)
Introduit par Berthold en 1994 pour la reconnaissance de phonèmes (Berthold,
1994). Les réseaux TDRBF combinent les caractéristiques des TDNN et des RFR
(RBF). Ce type de réseau de neurone utilise également une fenêtre temporelle à
l’entrée du réseau (comme les TDNN). Son avantage réside dans la simplicité de son
apprentissage (simplicité des techniques d’apprentissage des RFR).
3.2. Représentation dynamique du temps
Il existe un tout autre type de représentation du temps par l'effet qu'il produit.
Ceci conduit à doter le réseau de propriétés dynamiques, d'où le nom de
représentation dynamique du temps. En d’autres termes, cela revient à donner au
réseau la capacité de mémoriser des informations. Il existe différents moyens de
réaliser une telle mémoire :
3.2.1.
Réseaux récurrents
La connectivité des unités dans les réseaux de neurones récurrents ne se limite
pas, comme dans le cas des réseaux à propagation avant (feedforward), à des
architectures dans lesquelles l'information se propage de l'entrée vers la sortie
couche après couche. Tout type de connexion est admis, c'est à dire d'un neurone à
9
n'importe quel autre, y compris lui-même. Ceci donne lieu à des comportements
dynamiques qui peuvent être fort complexes.
Parmi les architectures les plus connues, nous pouvons citer le modèle de
Hopfield (Hopfield, 1982) basé sur le concept de mémoire adressée par son contenu
(mémoire associative). Ce type de réseau est généralement utilisé dans des
problèmes d'optimisation, où les vecteurs mémorisés jouent le rôle d'attracteurs. Le
réseau se stabilise dans un de ces points en minimisant sa fonction d'énergie
(apprentissage non-supervisé).
D'autres algorithmes d'apprentissage supervisé ont été proposés pour des types
de réseau récurrent à couches. Ce sont des adaptations de l'algorithme de rétropropagation du gradient des réseaux feedforward (Rumelhart et al., 1986)- (Le Cun,
1985)-(Werbos, 1974). Une de ces adaptations est l'algorithme appelé
rétropropagation récurrente qui nécessite une inversion de matrice de taille N x N à
chaque itération (Rohwer et al., 1987). Le principe de cet algorithme est de propager
l'erreur de la couche de sortie vers la couche d'entrée avec une certaine modification
des poids et des fonctions d'activations des neurones. Les poids des connexions
récurrentes sont ainsi mis à jour avec le même principe que la mise à jour des poids
dans l'algorithme de rétropropagation du gradient. Un autre type d'algorithme
d'apprentissage pour les réseaux récurrents est appelé rétropropagation dans le
temps. Le but de cet algorithme est d'obtenir une certaine réponse désirée pour
certains neurones à certains instants. L'idée est de dupliquer les neurones sur
l'horizon temporel (t = 1,2,…,T) de façon à ce qu'une unité Vi t représente l'état
Vi (t ) du réseau récurrent équivalent (Rumelhart et al., 1986). Le réseau ainsi déplié
est de type feedforward et peut faire l'objet d'un apprentissage par une version
légèrement modifiée de l'algorithme de la rétropropagation. Williams et Zipser
(Williams et al., 1989) ont proposé un algorithme pour l'apprentissage dans les
réseaux entièrement connectés qui évite d'avoir à dupliquer les unités. Une version
de cet algorithme appelée RTRL2 s'effectue en temps réel ce qui revient à réaliser
l'apprentissage pendant que les données sont présentées au réseau au lieu d'avoir à
attendre que la totalité des données soient produite.
Afin de ne pas trop compliquer le processus d'apprentissage, il existe des réseaux
dynamiques partiellement récurrents. Les connexions récurrentes utilisées
permettent au réseau de prendre en compte les informations d'un passé récent, et
sont généralement fixes (ne font pas l'objet d'un apprentissage). L'architecture
proposée par (Elman, 1990) utilise une couche appelée couche de contexte qui
duplique les états des neurones de la couche cachée à l'instant précédent. Une autre
architecture similaire à celle de Elman est proposée par Jordan (Jordan, 1986). Dans
cette architecture, les unités de la couche de contexte reçoivent une copie des états
des unités de la couche de sortie mais tiennent également compte de leur propre état
à l'instant précédent. Dans les deux types d'architectures, l'algorithme
2
. Real Time Recurrent Learning
10
d'apprentissage utilisé est celui de la rétropropagation du gradient, où les connexions
récurrentes ne sont pas nécessairement modifiables.
3.2.2.
Les connexions à délais
Pour ce type de réseau, chaque connexion possède à la fois un poids et un délai
et où peut exister plus d'une connexion entre deux unités (notamment avec des délais
différents). La difficulté que pose ce type de modèle à délai sur les connexions,
réside dans l'élaboration d'un algorithme d'apprentissage qui permette non seulement
une adaptation des poids des connexions, mais également une adaptation des délais.
3.3. Analyse des représentations temporelles
La représentation spatiale du temps, qui est caractérisée par l'emploi d'une
métaphore spatiale du temps, présente plusieurs désavantages. Tout d'abord elle
suppose l'existence d'une interface avec le monde extérieur dont le rôle est de
retarder ou de retenir les données jusqu'au moment de leur utilisation dans le réseau :
comment connaître l'instant où les données doivent être traitées ? Le second
désavantage est représenté par le fait d'utiliser une fenêtre temporelle (ou des
retards) de longueur finie et déterminée à priori soit par la plus longue information à
traiter, soit en supposant la même longueur pour toutes les données. Enfin, c'est dans
la nature même de la représentation spatiale que se pose la difficulté de différencier
une position temporelle relative d'une position temporelle absolue (Elman, 1990).
Les réseaux récurrents peuvent exhiber deux types de comportements temporels :
soit ils se stabilisent dans un certain nombre de points d'équilibre, soit ils sont
capables de décrire une trajectoire particulière dans leur espace d'état. Un
changement infinitésimal des conditions initiales ou de la pente d'un point
intermédiaire sur la trajectoire peut changer le point d'équilibre vers lequel le
système évolue.
Les algorithmes d'apprentissage dans les réseaux récurrent permettent, lorsque
les modèles classiques de type feedforward ont échoué, d'envisager la résolution des
problèmes dans lesquels le temps occupe une place essentielle. Ils offrent également
par le fait qu'ils utilisent une représentation dynamique du temps des potentialités
que n'offrent pas les modèles qui font appel à une représentation spatiale du temps.
Les temps d'apprentissage et les ressources informatiques nécessaires à leur mise en
œuvre peuvent être relativement importantes.
Le réseau de neurone que nous présentons au paragraphe suivant combine les
avantages des réseaux à fonctions de base radiales RFR et ceux des réseaux
récurrents. En effet, le problème de la lourdeur du processus d'apprentissage des
réseaux récurrents peut être éviter grâce à la souplesse de l'apprentissage des RFR.
11
4. RFR dynamiques : Réseaux de neurones Récurrents à Fonctions de base
Radiales (RRFR)
Le réseau de neurones que nous proposons considère le temps comme une
représentation interne au réseau (Chappellier, 1996), (Elman, 1990). Cet aspect
dynamique est obtenu par une récurrence des connexions au niveau des neurones de
la couche d’entrée ( 1 ) (Fig.2). Ces auto-connexions procurent aux neurones
d’entrée une capacité de prise en compte d’un certain passé des données en entrée.
On peut ainsi qualifier la couche ( 1 ) de mémoire dynamique du réseau RRFR. Le
réseau de neurone est donc doté de deux types de mémoires : une mémoire
dynamique (couche 1 ) pour la prise en compte de la dynamique des données en
entrée, et une mémoire statique (couche 2 ) pour mémoriser les prototypes. La
couche de sortie ( 3 ) représente la couche de décision.
φ1 (µ1 , σ 1 )
I1
ϖ
φ2 ( µ 2 , σ 2 )
In
φn ( µ n , σ n )
ϖ
1
2
3
Figure 2. Réseau RRFR (Réseaux Récurrents à Fonctions de base Radiales )
4.1. Neurone bouclé
Chaque neurone de la couche d'entrée effectue une sommation à l'instant t entre
son entrée Ii et sa sortie de l'instant précédent (t-1) pondérée par le poids de l'autoconnexion wii . Il donne en sortie le résultat de la fonction d'activation :
ai (t ) = wii xi (t − 1) + I i (t )
[10]
xi (t ) = f (ai (t ))
[11]
12
avec ai(t) et xi(t) représentant respectivement l'activation du neurone i et sa sortie à
l'instant t. f est la fonction d'activation ayant l'expression de la sigmoïde :
f ( x) =
1 − exp(−kx)
1 + exp(−kx)
[12]
et wii représente le poids de l'auto-connexion du neurone i.
Pour mettre en évidence l'influence de cette auto-connexion, on considère que
l'entrée Ii(t0) = 0 et que xi(t0) = 1 et on laisse évoluer le neurone sans l'influence de
l'entrée extérieure (Frasconi et al., 1995) - (Bernauer, 1996). La sortie du neurone a
donc l'expression suivante :
x (t ) =
1 − exp(−kwii x(t − 1))
1 + exp(−kwii x(t − 1))
[13]
La figure 3 montre l’évolution de la sortie du neurone à chaque instant.
xi
∆=
xi
ai
wii
t
∆=
a+
f(ai)
ai
wii
f(ai)
t+1
t+2
ai
a0
a0
ai
a-
(∆)
-a-
-b-
Figure 3. Points d’équilibre du neurone bouclé : - a - comportement d’oubli
( kwii ≤ 2 ). - b - comportement de mémorisation temporaire ( kwii > 2 ).
Cette évolution dépend de la pente de la droite ∆ (Fig. 3), c’est à dire du poids
de la connexion (wii) et aussi de la valeur du paramètre k de la fonction d’activation.
Les points d'équilibre du neurone bouclé satisfont l'équation suivante :
a (t ) = wii f (a(t − 1))
[14]
Le point a = a0 = 0 est une première solution évidente de cette équation. Les
autres solutions s'obtiennent par l'étude des variations de la fonction :
g (a ) = wii f (a) − a
[15]
13
En fonction de kwii , le neurone bouclé possède un ou plusieurs points
d'équilibre (Fig.3) :
− Si kwii ≤ 2 , le neurone possède un seul point d'équilibre a0 = 0
− Si kwii > 2 , le neurone possède trois points d'équilibres : a0 = 0, a + > 0, a − < 0.
Pour étudier la stabilité de ces points, on étudie les variations de la fonction de
Lyapunov (Frasconi et al., 1995) - (Bernauer, 1996).
Dans le cas où kwii ≤ 2 , cette fonction est définie par V (a ) = a 2 . On obtient :
∆V = ( wii f (a))2 − a 2 = g (a)( wii f (a) + a )
[16]
Si a>0, alors f(a)>0 et g(a)<0. Si wii > 0 alors on a bien ∆V < 0 . Inversement, si
a<0, alors f(a)<0 et g(a)>0. Si wii > 0 alors on a bien ∆V < 0 . Le point a0 = 0 est
donc un point d'équilibre stable si kwii ≤ 2 , avec wii > 0 .
Dans le cas où kwii > 2 , le neurone bouclé possède trois points d'équilibre
a0 = 0, a + > 0 et a - < 0 . Pour étudier la stabilité du point a+ , on définit la fonction
de Lyapunov par V (a) = (a − a + ) 2 (Frasconi et al., 1995) - (Bernauer, 1996). On
obtient ainsi :
∆V = ( wii f (a) − a + ) 2 − (a − a + ) 2 = g (a)[ g (a) + 2(a − a + )]
[17]
Si a>a+, g(a)<0 et [ g (a) + 2(a − a + )] > 0 . On a donc ∆V < 0 . Le raisonnement est le
même dans le cas où a<a+. Le point a+ est donc un point d'équilibre stable. De façon
similaire, on prouve que le point a- est également un point d'équilibre stable. Ainsi,
lorsqu'on s'écarte de a0 = 0, c'est pour atteindre l'un des deux points d'équilibre
stables a+ ou a-. Le point a0 est donc un point d'équilibre instable.
Le neurone bouclé peut ainsi exhiber deux comportements en fonction kwii :
comportement d'oubli ( kwii ≤ 2 ), et comportement de mémorisation temporaire
( kwii > 2 ). La figure 4 montre l'influence du produit kwii sur le comportement du
neurone bouclé. Dans tous les cas, l'auto-connexion permet au neurone de
mémoriser un certain passé des données d'entrée. Cette auto-connexion peut être
obtenue par apprentissage, mais le plus aisé serait de la fixer a priori. Nous verrons
par la suite, comment ce neurone bouclé peut permettre au réseau RRFR de traiter
des données dynamiques alors que les RFR classiques ne traitent que des données
statiques.
14
1
0.9
Sortie du neurone
bouclé
0.8
0.7
0.6
0.5
0.4
kwii = 2.05
0.3
0.2
0.1
0
20
40
kwii = 2
kwii = 1.95
kwii = 1.5
0
60
80
100
120
140
160
180
200
Temps
Figure 4. Influence du produit k wii sur le comportement du neurone bouclé. Le
neurone bouclé stimulé à t=0, évolue différemment en fonction de la valeur de k wii .
4.2. Etude de la sensibilité du neurone bouclé
Nous allons étudier la sensibilité du neurone bouclé par rapport aux variations du
signal d’entrée. Cette étude correspond à l’analyse de la sensibilité du RRFR
(neurone d’entrée bouclé) face au RFR (neurone d’entrée linéaire non bouclé). Nous
verrons que cette sensibilité dépend essentiellement du produit kwii . Pour des
raisons de simplicités de calcul, nous avons étudié le rapport inverse dS/dx.
Toutefois, nous revenons à l’expression classique de la sensibilité dx/dS lors de
l’interprétation de nos résultats.
Définition du palier de dégradation
~
On définit un palier de dégradation entre S et S * d’un signal capteur S (t ) par
l'existence d'au moins une valeur intermédiaire S ε telle que :
~
S < S ε < S*
[18]
En d’autres termes :
~
S* − S
∃η > 0 /
=η
∆t
[19]
Propriété 1
∃ S1 ∈ ℜ + tel que :
•
si
2
− wii > 1 alors le neurone bouclé est plus robuste qu’un neurone linéaire
k
15
2
− wii ≤ 1 alors ;
k
- ∀S ∈ ]−∞, − S1 ] ∪ [ + S1 , +∞[ le neurone bouclé plus robuste qu’un neurone linéaire
•
si
- ∀S ∈ [ − S1 , + S1 ] le neurone bouclé est plus sensible qu’un neurone linéaire
Démonstration
Pour étudier la sensibilité du neurone bouclé, on considère l’expression du
régime permanent de sa sortie :
x=
1 − exp(− k ( wii x + S ))
1 + exp(−k ( wii x + S ))
[20]
En écrivant l’expression de S en fonction de x, nous avons par conséquent :
1 1− x
) − wii x
S = − ln(
k 1+ x
[21]
Pour avoir un rapport entre les variations de S et celle de x, on calcule la dérivée
de S par rapport à x :
dS 2
1
= ×
− wii
dx k 1 − x 2
[22]
On peut définir la sensibilité du neurone bouclé par l’étude de sa valeur par
rapport à 1 :
dS
2
1
1
k (1 + wii )
2
=1 ⇒ ×
− wii = 1 ⇒
=
⇒ x 2 − (1 −
)=0
dx
k 1 − x2
1 − x2
2
k (1 + wii )
si
1−
2
2
< 0 ⇒ − wii > 1
k (1 + wii )
k
[23]
[24]
l’équation [23] n’admet pas de solution,
si
1−
2
2
≥ 0 ⇒ − wii ≤ 1
k (1 + wii )
k
l’équation [23] admet deux solutions :
[25]
16
x11 = + 1 −
2
k (1 + wii )
, x12 = − 1 −
2
k (1 + wii )
[26]
Le tableau des variations de l’équation [23] est défini en fonction de k et wii :
x
-1
0
+∞
+1
x
2
− wii
k
x12
0
+1
x11
+∞
+∞
dS
dx
-1
dS
dx
+∞
+1
2
− wii
k
+1
dS
∀x ∈ ]−1, +1[ /
>1
dx
dS
>1
dx
dS
<1
dx
dS
>1
dx
Tableau 1. Sensibilité du neurone bouclé en fonction du paramètre k de la sigmoïde
et du poids de l’auto-connexion wii
Nous obtenons donc les résultats suivants :
2
dS
dx
− wii > 1 alors ∀x ∈ ]−1, +1[ /
>1 ⇒
< 1 , neurone bouclé est plus
dx
dS
k
robuste qu’un neurone linéaire
−
si
−
si
2
− wii ≤ 1 alors ;
k
dS
dx
≥1 ⇒
≤ 1 neurone bouclé est plus
dx
dS
robuste qu’un neurone linéaire
dS
dx
∀x ∈  x12 , x11  /
≤1 ⇒
≥ 1 neurone bouclé plus sensible qu’un
dx
dS
neurone linéaire
-
∀x ∈  −1, x12  ∪  x11 , +1 /
La valeur de S1 de la propriété 1 se déduit de l’expression [26] en utilisant la relation
[21].
Propriété 2
Le réseau RRFR présente une structure insensible aux fausses alarmes.
Démonstration
Soit x le régime permanent de la sortie du neurone bouclé correspondant au
régime permanent du signal d'entrée S . On définit un changement brusque du signal
d'entrée par un passage de S à S * en un laps de temps relativement nul. On peut
formaliser ce changement par l'expression suivante :
S * − S
≈ +∞
∆t
17
[27]
Soit la réponse du neurone bouclé pour un pic de changement brusque S * ([27]) :
1 − exp(−k ( wii x + S * ))
1 + exp(−k ( wii x + S * ))
x* =
[28]
Pour étudier la sortie du neurone bouclé face à un pic de fausse alarme [27] et un
palier de dégradation [19], on compare l’expression [28] et la sortie x** pour S * de
la relation [18] (Fig. 5).
S
wii
Signal d’entrée
x(t)
<
x
S(t)
Sε
xε
<
S*
x**
x*
Figure 5. Comparaison des sorties du neurone bouclé face à un pic de fausse
alarme et un palier de dégradation.
La sortie du neurone bouclé pour la valeur intermédiaire S ε présente la forme
suivante :
xε =
1 − exp(− k ( wii x + S ε ))
1 + exp(−k ( wii x + S ε ))
[29]
Comme la fonction sigmoïde est strictement croissante et que wii > 0 , on obtient la
relation suivante :
xε > x
[30]
la sortie du neurone bouclé pour la valeur S * devient :
x** =
1 − exp(−k ( wii xε + S * ))
1 + exp(−k ( wii xε + S * ))
[31]
Si l'on considère que wii > 0 , on obtient par conséquent :
wii xε + S * > wii x + S *
[32]
18
et par la suite :
x** > x*
[33]
La sortie du neurone bouclé de fonction d’activation sigmoïde est donc différente
dans le cas où on aurait un changement brusque du signal d'entrée et dans le cas où il
s’agirait d’un palier de dégradation. La réponse du neurone bouclé est plus
importante dans le deuxième cas. La sortie du neurone radial, correspondant au
mode de bon fonctionnement, sera donc différente pour les deux situations :
Φ bf ( x − x* ) > Φ bf ( x − x** )
[34]
La figure 6 résume les deux cas étudiés précédemment. La sortie X(t) du neurone
bouclé et bien différente pour le cas d’un palier de dégradation et le cas d’une fausse
alarme. Les neurones de fonction d’activation radiale auront par conséquent des
réponses déférentes (Zemouri et al., 2002 - a- ).
S(t)
X(t)
100
90
Palier de
dégradation
80
70
Fausse alarme
60
50
X(t)
X(t)
40
30
20
S(t)
S(t)
10
0
0
t
temps
Figure 6. Réponse du réseau de neurone pour une fausse alarme et un palier de
dégradation
5.
Apprentissage du RRFR
L’apprentissage permet de déterminer les paramètres du réseau RRFR en deux
phases : une phase initialisation des paramètres du neurone bouclé et une deuxième
phase de calcul des centres et rayons d’influence des neurones gaussiens ainsi que
les poids des connexions de sortie (uniquement entre les neurones gaussiens et les
neurones de sortie).
5.1. Initialisation du neurone bouclé
La phase d’initialisation du neurone bouclé dépend du comportement dynamique
recherché par l’utilisateur et du type de la variable en entrée. Pour des applications
19
d’apprentissage de séquences d’événements discrets, chaque neurone bouclé
représente un événement de la séquence. Celui-si reçoit une excitation externe au
moment de l’occurrence de l’événement associé. A la fin de la séquence, chaque
neurone bouclé exhibe une sortie xi(t) qui dépend du moment d’occurrence de
l’événement Ei associé. Les variables d’entrée sont dans ce cas de type
binaire (Bernauer et al., 1993), (Zemouri et al., 2001) : 1 dans le cas où l’événement
associé à l’entrée du neurone bouclé se produirait et 0 dans le cas contraire. On
impose alors un aspect binaire à la fonction d’activation du neurone bouclé à travers
le paramètre k de l’expression [12] (généralement k avoisinant la valeur de 1 ou
plus). On ajuste ensuite la valeur de l’auto-connexion en fonction de l’aspect
dynamique souhaité pour le neurone bouclé. Si l’information recherchée est l’instant
d’apparition d’un événement Ei d’une séquence, on impose au neurone un
comportement d’oubli kwii ≤ 2 . La plus longue mémoire est obtenue pour kwii = 2 .
Le neurone bouclé est capable de garder en mémoire une trace d’une occurrence
d’un événement pendent plus de 200 pas de simulation (Fig. 4). Pour avoir les
mêmes performances avec d’autres architectures neuronales utilisant la
représentation spatiale (le TDRBF par exemple), il faudrait une fenêtre temporelle
de plus de 200 retards, ce qui alourdi énormément l’architecture du réseau de
neurone. Dans le cas où l’information recherchée serait uniquement l’occurrence
d’un événement Ei et non le moment de son apparition, on impose au neurone un
comportement de mémorisation temporaire kwii > 2 .
Pour des applications où l’on cherche à surveiller l’évolution d’un signal capteur,
la variable d’entrée est dans ce cas de type réel (signal de sortie d’un capteur). Les
paramètres k et wii sont calculés de telle sorte à avoir un comportement pseudolinéaire du signal d’entrée autour du point d’origine (zéro). Soit S l’amplitude du
signal d’entrée, et x la sortie correspondante du neurone bouclé. D’après l’équation
[21], on obtient :
1 1 − xmax
Smax = − ln(
) − wii xmax
k 1 + xmax
[35]
La valeur maximale que peut prendre le poids de l’auto-connexion wii du
neurone bouclé pour un comportement robuste est (voir propriété 1) :
wmax =
En remplaçant
suivante :
wmax
2
k
dans l’expression de
k=−
[36]
Smax
([35]) on obtient l’expression

1  1 − xmax
) + 2 xmax 
 ln(
S max  1 + xmax

[37]
20
L’équation [37] permet ainsi de calculer la valeur du paramètre k de la fonction
d’activation du neurone bouclé en fonction de Smax (connu par l’utilisateur) et
xmax (valeur à définir par l’utilisateur). Le poids de l’auto-connexion se déduit alors
de l’équation [36]. Cette valeur maximale wmax correspond à l’état où la mémoire
du neurone est la plus longue possible (Fig. 4). Plus cette valeur du poids diminue,
plus le neurone perd de ces capacités dynamiques.
Nous montrons en figure 7 comment une cascade de trois neurones bouclés peut
être initialisée afin d’amplifier la mémoire dynamique du réseau. Nous avons
stimulé le premier neurone par un signal d’entrée S(t) définie comme ci-dessous :
S (t ) = 1 si t ≤ 10
[38]
S (t ) = 0 sinon
Nous avons initialisé les paramètres des neurones bouclés de telle sorte à avoir
une réponse qui correspond à 80 % (zone de non saturation de la sigmoïde) d’une
demi-amplitude de la sigmoïde pour le signal d’entrée. En d’autres termes, Smax = 1
et xmax = 0,8 (voir expression [35]). On obtient alors la valeur de k ≈ 0.5 calculé selon
l’expression [37]. La valeur maximale wmax = 4 du poids de l’auto-connexion se
déduit alors de l’expression [36]. Le réseau de neurone est ainsi capable de garder
une trace du signale d’entrée pendent environ au moins 400 pas de simulation.
0.8
0.7
0.6
0.5
x3(t)
0.4
0.3
x2(t)
0.2
x1(t)
0.1
0
S
0
100
200
x1(t)
300
400
x2(t)
500
600
x3(t)
Figure 7. Influence d’une cascade de neurones bouclés sur la longueur de la
mémoire dynamique.
5.2. Détermination des paramètres des neurones gaussiens
Cette phase d’apprentissage permet de déterminer les autres paramètres du
réseau RRFR en deux étapes (voir paragraphe 3.2) : une étape non supervisée pour
21
le calcul des centres et rayons des prototypes, et une étape supervisée pour calculer
les poids des connexions de sortie.
Parmi les techniques exposées au paragraphe 3.2, celle qui est la plus utilisée est
la technique de segmentation en K-moyenne des centres. Cette technique minimise
la sommes des erreurs quadratiques entre les vecteurs d’entrée et les centres des
prototypes. Malgré sa facilité de mise en œuvre, cet algorithme présente néanmoins
quelques inconvénients :
− Il n’existe aucune méthode formelle pour déterminer le nombre adéquat de
centres ou de prototypes ;
− Il n’existe aucune méthode formelle pour initialiser ces centres. Généralement
ceux-ci sont initialisés d’une manière aléatoire ;
− On peut avoir des situations où un nuage de points appartenant à un centre ci
soit vide. Dans ce cas le rayon d’influence du centre ci ne peut être calculé.
La réponse du réseau dépend donc fortement du nombre K des centres choisis, de
leur valeur initiale ainsi que du rayon d’influence des prototypes. Plusieurs itérations
sont nécessaires pour trouver un meilleur résultat. La figure 8 montre deux résultats
différents obtenus avec l’algorithme des K-moyens sur un problème
d’approximation de fonction :
70
70
60
60
50
50
40
0
50
100
150
200
250
300
40
0
50
100
150
200
250
300
Figure 8. Deux résultats différents obtenus pour deux itérations différentes de
l’algorithme des K-moyens. Cette différence est due à l’initialisation aléatoire des K
centres.
Ce problème d’initialisation peut être résolu par une technique appelée
FuzzyMinMax (Simpson, 1993). Cette technique permet de déterminer le nombre K
des centres et leur valeur initiale d’une manière itérative. L’algorithme des Kmoyens peut être ainsi doper pour converger vers le minimum de la somme des
erreurs quadratiques entre les vecteurs d’entrée et les centres ci . Durant cette phase
d’initialisation, des hyper-cube à n dimensions sont crées. Les limites d’un hypercube sont définies par les coordonnées maximale et minimale de chaque dimension
des points appartenant à cet hyper-cube. Un degré d’appartenance d’un point à
chaque hyper-cube est déterminé par la fonction d’appartenance ci-dessous :
H j ( x,v j ,u j ) =
1 n
∑ 1 − f ( xi − u ji ) − f ( v ji − xi )
n i =1 
[39]
22
où la fonction f est définie par l’expression suivante :
ξ >1
1,

f ( ξ ) = ξ , si 0 ≤ ξ ≤ 1
0 ,
ξ <0

Avec :
Hj
[40]
le degré d’appartenance d’un point x à l’hyper-cube j. Ce degré
d’appartenance est compris dans l’intervalle [0 ; 1] ;
xi
la iéme dimension du vecteur d’entrée x ;
u ji et v ji la valeur de la iéme dimension des points maximums et minimums
respectivement du jéme hyper-cube.
L’algorithme FuzzyMinMax possède trois phases : extension de l’hyper-cube,
test de recouvrement et phase de re-dimensionnement de l’hyper-cube. Pour la phase
d’initialisation des K centres, nous avons utilisé uniquement la partie extension pour
former des nuages de points. Les valeurs maximales et minimales du premier hypercube sont initialisées par le premier point présenté au réseau. Le degré
d’appartenance est ensuite calculé pour chaque point d’entrée. L’extension de
l’hyper-cube ayant la plus grande fonction d’appartenance se fait selon la condition
suivante :
n
∑ (max( u
ji
,xi ) − min( v ji ,xi )) ≤ nθ
[41]
i =1
où θ représente un paramètre défini par l’utilisateur ( 0 ≤ θ ≤ 1 ). De petites valeurs
de θ donnent un nombre important d’hyper-cubes. Après la phase d’extension, les
anciens points minimums et maximums sont remplacées par les nouvelles valeurs
minimales et maximales. Si aucun hyper-cube ne peut être élargi, un nouvel hypercube contenant le nouveau point est crée.
Après avoir présenté au réseau l’ensemble des données d’apprentissage, les K
centres sont ainsi initialisés. On applique alors l’algorithme des K-moyens pour
trouver le minimum des sommes des erreurs quadratiques.
La deuxième étape du calcul des paramètres des neurones est de déterminer les
rayons d’influence des centres. En effet, après la convergence de l’algorithme des
K-moyens, on applique la méthode RCE (décrite au paragraphe 3.2.2), qui détermine
le rayon d’influence σ j de chaque centre j en fonction de son voisinage (l’ensemble
i des centres voisins). Ce calcul est formalisé par l’expression suivante :
Pour tout centre i ≠ j et 1 ≤ i ≤ K
σ j = max {σ : φ j (ci ) < η}
[42]
23
La figure 9 illustre un exemple de calcul de rayon d’influence sur un problème à
une dimension :
ca
φ
cb
η
x
Figure 9. Exemple de calcul des rayons d’influence avec l’algorithme RCE. Un
seuil η permet d’ajuster ces rayons pour minimiser les conflits entre prototypes.
Une fois que les paramètres des neurones gaussiens ont été déterminés, la
méthode de régression linéaire est appliquée pour le calcul des poids des connexions
de sortie (voir paragraphe 3.1.1). Le temps d’apprentissage d’un tel réseau n’est pas
très important comparé à d’autres réseaux à trois couches comme le réseau de rétro
propagation du gradient (Rumelhart et al., 1986), (Dubuisson, 2001).
6.
Application du RRFR en pronostic
Nous avons appliqué le réseau RRFR sur un problème type d’identification de
système non-linéaire : le benchmark d’un four à gaz (the Box and Jenkins gas
furnace database)3. L’intérêt de cet exemple est de surveiller la sortie y(t) du four en
concentration de CO2. Le fonctionnement du four dépend du débit de gaz en entrée
u(t). Nous avons appliqué le réseau RRFR pour prédire la sortie y(t + 1) à partir de
la connaissance du débit de gaz u(t) et de la concentration de CO2 y(t). Le schéma
de l’application est illustré par la figure 11.
u(t)
y(t)
u(t)
Débit du gaz
d’entrée
Four à gaz
∑
y(t+1)
y(t)
Concentration de sortie en
CO2
Figure 11. Surveillance d’un four à gaz par le réseau de neurones RRFR.
3
. Cette base est disponible sur le serveur du groupe de travail IEEE Working Group on Data
Modeling Benchmarks , http://neural.cs.nthu.edu.tw/jang/benchmark/
24
Le réseau RRFR utilisé contient deux neurones linéaires pour chaque signal
d’entrée. La dynamique des signaux est prise en compte par un neurone bouclé pour
chaque signal. Le neurone de sortie nous donne la valeur prédite de y(t + 1). La base
de données de l’application contient 300 valeurs de y(t) et u(t) (Fig. 11). La phase
d’apprentissage, durant laquelle le nombre ainsi que les paramètres du réseau sont
déterminés, a été réalisée sur les 100 premières valeurs de la base de données. Le
résultat de l’apprentissage a été évalué sur le reste des données (les 200 dernières
valeurs).
u(t) 3
y(t) 62
60
2
58
1
56
54
0
52
-1
50
48
-2
46
44
apprentissage
test
apprentissage
-3
0
50
100
150
200
250
300
0
50
test
100
150
200
250
300
t
t
-a-
-b–
Figure 11. – a - Concentration du CO2 en sortie du four à gaz, - b –Débit du gaz en
entrée dans le four.
Comme nous l’avons vu précédemment, le paramètre θ de l’équation [41]
définit le nombre de neurones gaussiens. Des valeurs réduites du paramètre θ
donnent un nombre important de neurones cachés. Ce nombre diminue avec
l’accroissement du seuil θ . La figure 12 illustre cette relation :
100
90
80
70
60
K 50
40
30
20
10
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
θ
Figure 12. Nombre de neurones cachés (centres) en fonction du paramètre θ
La figure 13 montre l’erreur moyenne et sa déviation standard du réseau RRFR
sur la population d’apprentissage en fonction de θ . Cette erreur est pratiquement
égale à zéro pour θ très petit. Ceci est du au fait que la majorité des points de
l’ensemble d’apprentissage ont été mémorisés comme prototypes. En contrepartie, le
réseau perd de ses capacités de généralisation (Fig. 14). L’erreur de prédiction du
25
réseau sur la partie test est alors très importante. Ce compromis peut être résolu pour
des valeurs de θ comprises dans l’intervalle [0,1 ; 0,75].
4%
6%
5%
2.8 %
4%
3%
2%
2%
1.2 %
1%
0.4 %
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0
0
θ
0.1
0.2
-a-
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
θ
-b-
Figure 13. -a- Erreur moyenne relative de prédiction pour la population
apprentissage en fonction de θ (par rapport à l’amplitude du signal). -b- déviation
standard de l’erreur relative pour la population apprentissage en fonction de θ .
14 %
36 %
32 %
12 %
28 %
10 %
24 %
8%
20 %
6%
16 %
12 %
4%
8%
2%
4%
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
-a-
0.8
0.9
1
θ
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
θ
-b-
Figure 14 -a- Erreur moyenne relative de prédiction pour la population Test en
fonction de θ (par rapport à l’amplitude du signal). -b- déviation standard de
l’erreur relative pour la population test en fonction de θ .
Le minimum de 0,9 % d’erreur (par rapport à l’amplitude de y(t)) sur les deux
populations (Apprentissage + Test) est obtenu pour la valeur de θ = 0,38. Le
nombre de centres correspondant est de K = 8. Cette erreur se décompose en une
erreur moyenne sur la population d’apprentissage égale à 0,7 %, avec une déviation
standard de 0,6 %, et une erreur moyenne sur population Test égale à 1 %, avec une
déviation standard de 0,8 %. La convergence de l’algorithme est assez rapide. Le
temps d’apprentissage sur un PC de 700 Mhz de fréquence d’horloge est de 0,78
secondes. La figure 15 montre la réponse du RRFR sur la prédiction de sortie en
concentration de CO2 y(t + 1).
26
70
Sortie réelle
60
Sortie prédite
50
40
0
50
100
150
200
250
300
Figure 15. Réponse du réseau de neurone sur la prédiction de la concentration de
sortie en CO2.
L’initialisation des centres avec la méthode FuzzyMinMax procure à l’algorithme
des K-moyens une plus grande stabilité. Une seule itération de l’algorithme suffit
pour converger le réseau vers le même minimum. Le problème lié à l’initialisation
aléatoire des centres n’apparaît plus. Le second problème de l’algorithme des Kmoyens (voir paragraphe 6.2) est celui du nombre K des centres pour optimiser
l’apprentissage. Ce nombre de centres à mémoriser est déterminé implicitement par
le seuil θ . La figure 14 montre que les meilleurs résultats sont obtenus pour
θ ∈ [ 0,1 ; 0 ,75] . Ceci correspond un nombre K de centres compris dans l’intervalle
[6 ; 40] (Fig. 12). Pour des valeurs de θ inférieur à 0,1 , le nombre important de
centres provoque un phénomène de sur-apprentissage (over-fitting). Par contre, pour
θ > 0,75, le réseau de neurone ne mémorise pas assez de centres pour pouvoir
apprendre la dynamique du signal. Ce compromis pour obtenir le nombre de centres
nécessaires pour l’apprentissage est illustré par la figure 16. On remarque que plus
on augmente le nombre de centres à mémoriser, plus le réseau tend vers une
situation de sur-apprentissage.
120 %
1%
0.9 %
100 %
0.8 %
0.7 %
40 %
0.6 %
60 %
0.5 %
0.4 %
40 %
0.3 %
0.2 %
20 %
0.1 %
0
0
10
20
30
40
50
60
-a-
70
80
90
100
K
0
0
10
20
30
40
50
60
70
80
90
100
K
-b-
Figure 16. -a- Erreur moyenne de prédiction relative sur la partie apprentissage en
fonction du nombre de neurones cachés. -b- Erreur moyenne relative sur la partie
Test en fonction du nombre de neurones cachés.
Le second avantage du réseau présenté dans cet article réside au niveau de la
topologie du réseau de neurone pour la prise en compte de l’aspect temporel. En
27
effet, la dynamique des données est considérée d’une manière implicite par une
auto-connexion au niveau des neurones d’entrées. Contrairement aux autres
architectures neuronales qui intègrent le temps via une fenêtre temporelle (Waibel et
al., 1989), (Berthold, 1994), la mémoire dynamique du réseau n’a pas recours à un
mécanisme externe pour mémoriser les données en entrée et de ce fait, n’est pas
limitée par la taille de la fenêtre.
Le tableau suivant présente une comparaison des performances du RRFR avec
ceux du TDRBF sur l’application présenté précédemment, à savoir le problème de
prédiction de la sortie en CO2 du four à gaz. Nous mettons en évidence l’apport de la
cascade d’auto-connexions sur la longueur de la mémoire du RRFR. En effet, nous
avons comparé les résultats de la prédiction d’un RRFR ayant un et deux neurones
bouclés par rapport respectivement à un et deux retards pour le TDRBF, et ceci pour
plusieurs horizons temporels (t+h), avec h ∈ [1,10] .
RRBF
Un neurone
Deux neurones
bouclé
bouclés
MET StdT Ttime MET StdT Ttime
h=1 0,51 0,41 0,78 0,51 0,42 1,07
h=2 0,81 0,68 0,78 0,82 0,68 1,01
h=3 0,85 0,80 0,80 0,86 0,80 1,05
h=4 0,68 0,80 0,77 0,68 0,79 1,05
h=5 0,61 0,78 0,80 0,61 0,76 1,01
h=6 0,92 0,93 0,80 0,91 0,90 1,05
h=7 1,38 1,18 0,80 1,37 1,14 1,05
h=8 1,79 1,41 0,78 1,77 1,38 1,06
h=9 2,10 1,57 0,81 2,04 1,55 1,03
h=10 2,33 1,66 0,80 2,20 1,63 1,02
Un retard
MET
0,31
0,5
0,7
0,86
1,19
1,79
2,48
3,25
4,05
4,67
TDRBF
Deux retards
StdT Ttime MET
0,31 1,27 0,33
0,54 1,27 0,57
0,77 1,27 0,71
0,98 1,31 0,74
1,54 1,26 0,78
2,39 1,26 1,10
3,24 1,27 1,58
4,18 1,26 2,18
5,15 1,27 2,69
5,93 1,26 3,09
StdT Ttime
0,34 1,60
0,61 1,60
0,79 1,60
0,88 1,53
0,90 1,60
0,96 1,61
1,44 1,60
1,94 1,61
2,34 1,59
2,81 1,61
Tableau 2. Comparaison des résultats de prédiction de la sortie en concentration de
CO2 du four à gaz. Les colonnes MET présentent les erreurs moyenne (absolues) de
prédiction avec leurs déviations standards (colonnes StdT). Les colonnes Ttime
donnent le temps de convergence de l’algorithme d’apprentissage en secondes.
La figure 17 montre l’erreur moyenne relative de prédiction obtenue sur la partie
test pour les deux types de réseau temporel. Le chiffre entre parenthèse représente la
dimension du retard pour le TDRBF et celle du nombre de neurones bouclés pour le
RRFR. On peut voir sur cette figure que les quatre réseaux de neurones ont
relativement la même erreur de prédiction pour h < 4. Cette erreur augmente
considérablement pour les deux types de TDRBF. Le réseau RFR récurrent possède
de meilleures performances de prédiction pour des horizons lointains, avec un temps
d’apprentissage plus court par rapport au TDRBF (Tableau 2).
28
Erreur relative de prédiction par
rapport à l’amplitude du signal y(t)
(sortie du four)
10 %
9%
8%
TDRBF (1)
7%
TDRBF (2)
6%
5%
RRBF (1)
4%
RRBF (2)
3%
2%
1%
0
1
2
3
4
5
6
7
8
9
10
h
Figure 17. Comparaison de l’erreur de prédiction du RRFR (avec un et deux
neurones bouclés) avec le TDRBF (avec un et deux retards).
7.
Conclusion
Le réseau RRBF présenté dans cet article a été testé avec succès sur le problème
de prédiction d’un système non linéaire. Ce traitement dynamique est pris en compte
grâce à une cascade de neurones bouclés jouant le rôle d’une mémoire dynamique.
Les centres des neurones gaussiens ont été déterminés par une méthode des
K-moyens modifiée. L’intérêt de notre application réside dans deux aspects : un
apport au niveau de la topologie du RFR pour prendre en compte l’aspect
dynamique des données. Cette dynamique est prise en compte par une récurrence
des connexions au niveau des neurones d’entrée. La mémoire dynamique ainsi
obtenue permet au réseau RFR de mémoriser un passé plus important par rapport au
TDRBF. Le deuxième apport concerne l’amélioration de l’algorithme
d’apprentissage. Les paramètres des neurones cachés ont été déterminés par une
technique améliorée de l’algorithme non supervisé K-moyens. En effet, l’algorithme
K-moyens possède quelques carences au niveau de la convergence de
l’apprentissage et du choix du nombre des centres. Une technique FuzzyMinMax a
été utilisée pour déterminer le nombre ainsi que l’état initial des centres. L’avantage
d’utiliser une telle technique est que les centres sont choisis d’une manière
dynamique en fonction d’un paramètre θ . L’algorithme K-moyens est plus stable vu
que les centres ne sont plus initialisés aléatoirement. Une seule itération de
l’algorithme K-moyens suffit pour converger le réseau de neurone vers un minimum
local. Les rayons d’influence des centres sont alors déterminés par la technique du
RCE. Durant la partie de l’apprentissage supervisé, une technique de régression
linéaire est utilisée pour calculer les poids des connexions de sortie.
8.
29
Références
Basseville M., Cordier M.O., Surveillance et diagnostic des systèmes dynamiques: approche
complémentaire du traitement du signal et de l'intelligence artificielle, rapport de
recherche n° 2861, 1996, INRIA.
Bernauer E., Demmou H., « Temporal sequence learning with neural networks for process
fault détection », IEEE International Conference on Systems, Man, and Cybernetics,
IEEE-SMC 93, vol. 2, Le Touquet France 1993, p. 375-380.
Bernauer E., Les réseaux de neurones et l'aide au diagnostic: un modèle de neurones bouclés
pour l'apprentissage de séquences temporelles, thèse de doctorat, LAAS 1996.
Berthold M. R., « A Time Delay Radial Basis Function Network for Phoneme Recognition »,
Proceedings of International Conference on Neural Networks, Orlando 1994
Berthold M. R., Diamond J., « Boosting the Performance of RBF Networks with Dynamic
Decay Adjustment » Advances in Neural Information Processing Systems, Gerald
Tesauro, David S. Touretzky, and Todd K. Leen editors, vol. 7, p. 521-528, MIT Press,
Cambridge, MA, 1995
Chappelier J.C., RST : une architecture connexionniste pour la prise en compte de relations
spatiales et temporelles. Thèse de doctorat, Ecole Nationale Supérieure des
Télécommunications, janvier 1996.
Chappelier J.C., Grumbach A., « A Kohonen Map for Temporal Sequences », Proceeding of
neural Networks and Their Application, NEURAP'96, IUSPIM, Marseille, mars 1996, p.
104-110.
Combacau M., Commande et surveillance des systèmes à événements discrets complexes :
application aux ateliers flexibles, thèse de Doctorat, Université P.Sabatier de Toulouse
1991.
Dash S., Venkatasubramanian V., « Challenges in the industrial applications of fault
diagnostic systems », Proceedings of the conference on Process Systems Engineering
Comput. & Chem. Engng24 (2-7), Keystone, Colorado, July 2000, p. 785-791.
Dempster A.P., Laird N.M., Rubin D.B., « Maximum likelihood from incomplete data via the
EM algorithm », Journal of the royal statistic society, series B, vol. 39, 1977, p.1-38.
Dubuisson B., Diagnostic et reconnaissance des formes, Paris, Edition Hermès, 1990.
Dubuisson B., Diagnostic, intelligence artificielle et reconnaissance des formes, Paris,
Edition Hermès, 2001.
Elman J.L., « Finding Structure in Time », Cognitive Science, vol. 14, juin 1990, p. 179-211.
Frasconi P., Gori M., Maggini M., Soda G., « Unified Integration of Explicit Knowledge and
Learning by Example in Recurrent Networks », IEEE Transactions on Knowledge and
Data Engineering, vol. 7, n° 2, 1995, p. 340-346.
Freitas N., I.M. Macleod and J.S. Maltz,, « Neural networks for pneumatic actuator fault
détection », Transactions of the SAIEE, vol. 90, n° 1, 1999, p. 28-34.
30
Ghosh J., Beck S., Deuser L., « A Neural Network Based Hybrid System for Detection,
Characterization and Classification of Short-Duration Oceanic Signals », IEEE Jl. of
Ocean Engineering, vol. 17, n° 4, October 1992, p. 351-363.
Ghosh J., Nag A., Radial Basis Function Neural Network Theory and Applications, Edition R.
J. Howlett and L. C. Jain, Physica-Verlag., 2000.
Hernandez N.G., Système de diagnostic par Réseaux de Neurones et Statistiques : application
à la détection d'hypovigilance d'un conducteur automobile, thèse de doctorat,
LAAS/Toulouse, 1999.
Hopfield J.J., « Neural networks and physical Sytems with emergent collective computational
abilities », Proceeding Nat. Acad. Sci. USA, Biophysics, vol. 79, 1982, p. 2554-2558.
Hudak M.J., « RCE Classifiers: Theory and Practice » in Cybernetics and systems, vol. 23 ,
1992, p.483-515.
Hutchinson J.M., A Radial Basis Function Approach to Financial Time Series Analysis,
Thèse de doctorat, Massachusetts Institute of Technology (MIT), 1994.
Hwang Y.S., Bang S.Y., « An efficient method to construct a Radial Basis Function Neural
Network classifier », Neural Networks, vol. 10, n° 08, 1997, p. 1495-1503.
Jordan M.I., « Serial order: a parallel distributed processing approach », University of
California, Institute for cognitive science, 1986.
Keller P., Kouzes R.T., Kangas L.J., « Three Neural Network Based Sensor System for
Environemental Monitoring », Proceedings IEEE Electro94 Conference, Boston, MA,
USA, May 1994
Koivo H.N, « artificial neural networks in fault diagnosis and control », control in
engineering practice, vol.2, n°1, 1994, p. 89-101.
Lefebvre D., Contribution à la modélisation des systèmes dynamiques à événements discrets
pour la commande et la surveillance, Habilitation à Diriger des Recherches, Université de
Franche Comté/ IUT Belfort – Montbéliard, 2000.
MacQueen J., « Some methods for classification and analysis of multivariate observations »,
Fifth Berkeley Symposium on Mathematical statistics and probability, vol. 1, Berkeley,
1967, University of California Press, p. 281-297
Mak M.W., Kung S.Y., « Estimation of Elliptical Basis Function Parameters by the EM
Algorithms with Application to Speaker Verification », IEEE Trans. on Neural Networks,
vol. 11, n° 4, July 2000, p. 961-969.
Michelli C.A., Interpolation of scattered data: distance matrices and conditionally positive
definite functions. Contsructive Approximation, 1986.
Moody J., Darken J., « Fast Learning in networks of locally tuned processing units », Neural
Computation, 1989, p. 281-194.
Mustawi M.T., Ahmed W., Chan K.H., Faris K.B., Hummels D.M., « on the training of
Radial Basis Function Classifiers », Neural Networks, vol. 5, 1992, p. 595-603.
Petsche T.A., Marcontonio A., Darken C., Hanson S.J., M.kuh G., Santoso I., A Neural
Network autoassociator for induction motor failure prediction, Cambridge, MIT Press,
31
Edition D.S. Touretzky, M.C. Mozer, and M.E. Hasselmo, Advances in Neural
Information Prodessing Systems 8, 1996, p. 924-930.
Poulard H., statistiques et réseaux de neurones pour un système de diagnostic. Application au
diagnostic de pannes automobiles, Thèse de Doctorat, LAAS/France, 1996.
Poggio T., Girosi F., A Theory of Networks for Approximation and Learning, AI Memo
1140, July 1989
Rengaswamy R., Venkatasubramanian V., « A Syntactic Pattern Recognition Approach for
Process Monitoring and Fault Diagnosis », Engineering Applications of Artificial
Intelligence Journal, 8(1), 1995, p. 35-51.
Rohwer R., Forrest B., « Training Time-Dependence in Neural Network », in IEEE First
International Conference on Neural Networks, M. Caudill et C.Butler, vol. 2, San Diego,
California, juin 1987, p. 701-708.
Rumelhart D.E, Hinton G.E., Williams R.J., « Learning Internal Representation by Error
Propagation », in Parallel Distributed Processing Explorations in the Microstructure of
Cognition, vol. 1, The MIT Press/Bradford Books, D.E. Rumelhart and J.L.McClelland,
1986, p. 318-362.
Simpson P.K., « Fuzzy min-max neural networks – Part II : Clustering » IEEE Transaction on
Fuzzy Systems, Vol.1, 1993, p. 32-45.
Sejnowski T.J., Rosenberg C.R., NetTalk: a parallel network that learns to read aloud,
electrical engineering and computer science technical report, the johns hopkins university,
1986.
Smyth P., « detecting novel fault conditions with hidden Markov models and neural
netwoks », Pattern Recognition in Practice IV, 1994, p. 525-536.
Vemuri A., Polycarpou M., « Neural Network Based Robust Fault Diagnosis in Robotic
Systems », IEEE Transactions on Neural Networks, vol. 8, n°. 6, novembre 1997, p.
1410-1420,.
Vemuri A., Polycarpou M., Diakourtis S., « Neural Network Based Fault Detection and
Accommodation in Robotic Manipulators », IEEE Transactions on Robotics and
Automation, vol. 14, n° 2, avril 1998, p. 342-348.
Waibel A., Hanazawa T., Hinton G., Shikano K., Lang K., « Phoneme recognition using time
delay neural network » IEEE Trans. in Acoustics, Speech and Signal Processing, vol. 37,
n° 3, 1989.
Werbos P.J., Beyond regression: New tools for prediction and analisys in the behavioral
science, Thèse de doctorat, Harvard University, 1974.
Williams R.J., Zipser D., « A Learning Algorithm for Continually Running Fully Recurrent
Neural Networks », Neural Computation, vol.1, juin 1989, p. 270-280.
Xu L., « RBF nets, mixture experts, and Bayesian Ying-Yang learning », Neurocomputing,
1998, p. 223-257.
32
Zemouri M.R., Racoceanu D., Zerhouni N., « The RRBF - Dynamic Representation of time
in Radial Basis Function Network », IEEE International Conference on Emerging
Technologies and Factory Automation, ETFA' 01, Juan-Les-Pins, France, octobre 2001.
Zemouri R., Racoceanu D., Zerhouni N.,( – a – ) « Application of the dynamic RBF network
in a monitoring problem of the production systems » , 15e IFAC World Congress on
Automatic Control, Barcelone, Espagne, juillet 2002.
Zemouri R., Racoceanu D., Zerhouni N.,( – b – ) « From the spherical to an elliptic form of
the dynamic RBF neural network influence field », IEEE World Congress on
Computational Intelligence, International Joint Conference on Neural Networks (IJCNN),
Honolulu, Hawaii, USA, May 12-17, 2002
Zwingelstein G., Diagnostic des défaillances, Théorie et pratique pour les systèmes
industriels, Paris, Edition Hermès 1995.

Réseaux de neurones récurrents à fonctions de base radiales : RRFR

Transcription

Documents pareils

Cours 3 - apprentissage automatique copy

Réseaux de neurones récurrents à fonctions de base radiales : RRFR

“NEURONES OBAMA”

Support Chapitres I et II PHY052

Algorithmes évolutionnistes: de l`optimisation de paramètres à

compétenc expérience formation compétences

JEUX Wii

un grand concours

Liste des jeux console Wii pour jouer sur place

Bulletin

Mythes et réalité sur le fonctionnement du cerveau

CURRICULUM VITAE Nom : KLAM Prénom