Gécodage sur le Web, limites et problématiques

Transcription

Gécodage sur le Web, limites et problématiques
GEOCODAGE SUR LE WEB
LIMITES ET PROBLEMATIQUES
Auteur : Philippe Latour Tel : 06 62 30 74 33
Mail : [email protected]
Résumé :
L’analyse géomarketing repose sur une fonction préparatoire primordiale : il faut pouvoir
positionner dans l'espace les données liées à une adresse postale ou à un territoire administratif
(commune, IRIS, îlot) .
Les données utilisées en géomarketing comportent toujours deux volets : la localisation ou
géoréférencement et la description (nom, appartenance, valeurs…); la localisation se fait soit par
rattachement à un objet de la carte (population d’un IRIS, revenu d’une commune…) soit par
détermination des coordonnées (X,Y et parfois Z) du support de la donnée (en principe une
adresse).
Le web apporte des accès payants et gratuits à des fonctions de géocodage dont on peut, à
priori, espérer des progrès sur les outils classiques, en particulier au niveau de la couverture
géographique et de la mise à jour des référentiels.
Il n’en reste pas moins que les problèmes rencontrés en particulier au niveau des outils et
méthodes de rapprochement sont nombreux et complexes. Il en résulte que la fiabilité des
résultats obtenus peut et doit être remise en question.
La valeur d'une étude géomarketing repose largement sur la qualité et l'exhaustivité des données
utilisées, ce qui explique qu'en pratique le temps passé à la préparation et au géoréférencement
des données représente près du tiers des opérations. Il est donc essentiel de bien maîtriser
cette phase première du travail de l'analyste, gage de fiabilité de l'ensemble.
SPATIALIST 5 PLACE MARINE 78600 MAISONS LAFFITTE Tel – fax : 01 34 93 43 33
Port : 06 62 30 74 33
E-mail : [email protected]
1
Principes du géocodage
Le géomarketing utilise encore couramment en France
la projection Lambert II étendu (associée au système
NTF) dont les données X,Y correspondent au nombre
de mètres calculés dans un repère orthonormé qui
contiendrait la totalité du territoire métropolitain français
(tout en tenant compte du fait que le point origine est
l’Observatoire de Paris dont l’ordonnée est de
2.200.000 m.
Les normes européennes sont, elles, fondées sur le
système « EUREF » , correspondant à la projection
WGS84. Le nouveau système légal de référence
français est nommé « RGF93 » . Les coordonnées
géographiques sont définies en degrés avec pour
origine le méridien de Paris. Le territoire national est
découpé en 4 zones qui peuvent être réunies dans la
projection « Lambert 93 II étendu ».
En tout état de cause, et quels que soient le système
ou le mode de projection le point repère de la
localisation sera toujours la valeur des coordonnées
IGN Projection Lambert
(X,Y et éventuellement Z1) d’une adresse ou des
contours d’un objet (IRIS, commune…). Les territoires administratifs peuvent également être
repérés par la position de leur barycentre (ou centroïde géographique). Le géocodage, dans ce
dernier cas, est réalisé par l’intermédiaire du code de l’objet concerné (Secteur postal, commune,
IRIS, îlot…).
La nature ou la description des données à géocoder peut être très variée, nous citerons au
hasard : le nombre de logements de 3 pièces dans un IRIS, la vitesse de circulation sur une
portion d’axe routier, un relevé de pollution à un endroit donné, le nombre d’employés travaillant
sur un site d’entreprise, le revenu moyen des contribuables d’une commune, le chiffre d’affaires
réalisé avec des clients...
Le géocodage, également appelé géoréférencement, est un processus qui consiste à affecter
ses coordonnées propres (X, Y) à un point dans l’espace : adresse postale (n° 16, rue des
Peupliers à Nanterre) ou géographique (angle de la rue des Peupliers et du Bd Clémenceau ou
barycentre d’un objet de la carte).
La localisation d’une donnée peut être faite au barycentre d’une commune ou d’une rue ou, de
façon encore plus précise, au numéro dans une rue. Pour ce faire, des logiciels spécialisés
(géocodeurs) analysent l’adresse fournie et la comparent avec les informations contenues dans
un référentiel contenant des données issues principalement de la carte vecteur2.
1 Z est la mesure d’altitude d’un point dans l’espace (au dessus ou en dessous de la surface) Les cartes 3D sont utilisées en
particulier pour les études de propagation d’ondes (Télécoms en particulier) et pour les positionnement techniques de réseaux
enterrés ou les études géologiques.
2 Il est également conseillé de ne pas se limiter au référentiel de la carte, et d’effectuer un premier traitement sur le référentiel des
rues publié par la Direction Générale des Impôts, appelé fichier FANTOIR ou encore le référentiel Hexavia de La Poste, afin de
contrôler avec certitude l’existence d’une voie et son type (allée, avenue, place, ….) dans une commune donnée et d’extraire le code
de la voie.
SPATIALIST 5 PLACE MARINE 78600 MAISONS LAFFITTE Tel – fax : 01 34 93 43 33
Port : 06 62 30 74 33
E-mail : [email protected]
2
Les modes principaux de géocodage
En géomarketing, le géocodage doit être effectué au niveau du raisonnement de l’analyse, ce
peut être à la commune, à l’Iris, à l’Ilot ou au N° dans la rue.
Le code postal est d’une dimension trop grande en France
pour que ce niveau d’analyse puisse être retenu3 ; par
contre on l’utilisera dans la plupart des pays du nord de
l’Europe. Par exemple, Amsterdam possède 89 secteurs
postaux, alors que Marseille n’en a que 16.
En fonction du niveau recherché, l’opération de géocodage
peut être plus ou moins complexe : le niveau du code
postal (hors France) ou de la commune est le plus simple.
Les autres niveaux font appel à des outils sophistiqués et à
des référentiels lourds.
Codes postaux d’Amsterdam
L’opération de géocodage ne s’applique évidemment qu’aux adresses, puisque les données
statistiques sont repérées par le code du territoire qu’elles qualifient (ménages à l’Iris, par
exemple) ; le code du territoire étant contenu dans la carte (vecteur), on peut charger ces
données directement dans un SIG sans leur affecter un code X,Y.4
A noter que pour effectuer un géocodage à la commune à partir d’une adresse postale (code
postal et nom de la commune), il est indispensable d’effectuer préalablement une recherche du
code INSEE commune. En effet il est fréquent, même dans des fichiers de qualité, de rencontrer
soit des fautes d’orthographe dans les noms des villes, soit des erreurs de codes postaux. En
outre les dénominations des codes postaux utilisées par La Poste sont souvent des lieux dits (La
Varenne St Hilaire, Juan les Pins…). Pour gérer ces zones des codes Insee factices ont même
été créés. Le code Cedex, s’il est indiqué, peut également être utilisé car La Poste met à
disposition le fichier des rattachements de codes Cedex aux communes.
Si ces précautions sont respectées, un géocodage à la commune doit être réalisé à quasiment
100%.
Géocodage au numéro dans la rue ou à l’Iris
Une fois le code commune (Insee) trouvé, le logiciel de géocodage recherche la voie (type et
toponyme) en utilisant des algorithmes de comparaison orthographique et/ou phonétique, puis
calcule la position la plus proche par interpolation linéaire entre les coordonnées des deux
bornes (numéros des bâtiments aux intersections de voies) qui encadrent l’adresse recherchée.
Un géocodage au numéro dans la rue pratiqué de façon sérieuse devra produire pour chaque
adresse traitée la qualification du résultat, par exemple : Position correcte, Intersection correcte,
Position correcte sur un lieu sans numéro, Position approximée sur bornes extrêmes de la voie
ou en excès des bornes minimales ou maximales de la carte, Barycentre de la voie…
Le principe du géocodage à l’Iris est fondamentalement le même que celui du codage à la rue,
car on recherche également la correspondance d’une adresse dans un référentiel composé de
voies et de bornes de voies
3 Sauf en cas d’analyse sur l’ensemble du territoire français, par exemple.
4 Sous réserve d’utiliser une carte vecteur
SPATIALIST 5 PLACE MARINE 78600 MAISONS LAFFITTE Tel – fax : 01 34 93 43 33
Port : 06 62 30 74 33
E-mail : [email protected]
3
Géocodage sur le Web
Tous les internautes ont l’habitude de rechercher la position d’une adresse sur des sites aussi
connus que Michelin, Mappy, Maporama, Google map ou Virtual Earth.
Dans la pratique si l’adresse saisie est parfaitement libellée, un extrait de la carte et la position
de l’adresse sont affichés à l’écran.
Si une erreur de saisie est commise ou si le libellé saisi est incomplet, l’outil renvoie une liste de
propositions qui permettent d’extraire la position dans le référentiel, puis d’afficher la carte. Ces
liste de propositions ne sont pas toujours exhaustives et ne correspondent pas forcément à la
logique de la requête qui a été lancée.
Par exemple, il existe 12 communes dans le département du Calvados dont le libellé inclut
« Saint-Martin ». Une requête sur « 14 Saint Martin » dans le champ commune lancée sur les 6
sites les plus connus ne produit de réponse satisfaisante que dans un seul cas.
Actuellement peu de services offrent la pratique de géocodage réellement en ligne. Des sociétés
spécialisées en géomarketing ont des offres (payantes) avec des délais de traitement qui
montrent bien que le traitement est effectué manuellement soit dans un géocodeur classique,
soit sur un site (théoriquement gratuit).
Quatre sites pratiquent le géocodage en ligne :
- Maporama (payant).
- Eturama (destiné aux étudiants québécois sur le seul territoire du Canada)
- Virtual Earth (Microsoft) qui couvre la Grande Bretagne et 40% des Etats-Unis qui a
l’avantage de proposer une très forte précision de la localisation (toit de l’immeuble), mais
l’inconvénient d’être réservé aux internautes suffisamment experts en informatique pour être
capables d’installer et de faire fonctionner les A.P.I. nécessaires.
- Google qui a la plus large couverture et qui permet d’effectuer des traitements jusqu’à 1.500
adresses simultanément grâce à un petit outil « Batch Geocoder » disponible gratuitement.
Test et résultats
A priori, on peut attendre de ces sites qu’ils disposent de bases cartographiques à la fois très
exhaustives et fréquemment mises à jour. Également, la couverture géographique européenne
ou mondiale implique que le moteur de recherche d’une adresse dans le référentiel tienne
compte des particularités locales de gestion de l’adresse et des spécificités linguistiques.
Des tests ont été effectués avec des fichiers de qualité courante sur 2 de ces 4 sites et ont fourni
des résultats plutôt décevants en géocodage à la rue, avec 10 à 30% d’effectivement trouvés au
n°, 50 à 60% à la rue et 25 à 30% non trouvés (sou vent affectés de façon abusive au barycentre
de la commune).
A partir du moment où le logiciel fournit également le libellé complet de la voie qui a été choisie, il
est possible de détecter des erreurs inadmissibles, dont l’origine est, en outre, totalement
incompréhensible, comme, par exemple : 110 B Rue de Flandres, 75019 Paris, localisé Rue de
Paris, 59200 Tourcoing.
SPATIALIST 5 PLACE MARINE 78600 MAISONS LAFFITTE Tel – fax : 01 34 93 43 33
Port : 06 62 30 74 33
E-mail : [email protected]
4
Les causes de ces résultats déficients.
On retrouve d’abord les problématiques auxquelles sont confrontés tous les géocodeurs
traditionnels :
- La complexité de l’adresse, en particulier en France : aucune règle (sauf à Paris)5 ne régit la
gestion des adresses par les communes, les particuliers ne respectent pas les normes
théoriques (et trop peu contraignantes) de La Poste et ignorent de plus en plus les
désignations de voies au profit de noms d’immeubles et résidences6.
- L’absence d’un référentiel unique officiel de gestion des voies (BD adresses de l’IGN est
réservé à l’administration et aux seules collectivités locales) 7
- La mauvaise qualité des fichiers dont la saisie manque de procédures de contrôle. Il a été
démontré que la meilleure méthode consistait à procéder à une double saisie, ce qui
augmenterait considérablement le coût de gestion de ces fichiers.
A ces causes déjà bien connues, s’ajoutent les déficiences des moteurs de rapprochement qui,
conçus pour travailler sur des données internationales, ne prennent pas en compte les
spécificités des adresses françaises et les particularismes de la langue. Plus encore que pour les
outils traditionnels comptent la rapidité de traitement et les taux de retour.
Les algorithmes de comparaison sont composés de moyens de reconnaissance divers qui vont
de l’association de caractères jusqu’aux méthodes de phonétisation sophistiquées; ceci implique
qu’un logiciel de géocodage n’est performant que pour la langue dans laquelle il a été conçu. La
technique du géocodage ne relève pas de la cartographie ou de la géographie, mais du
traitement de données
En France, les scores obtenus par de bons géocodeurs conçus pour les adresses françaises
peuvent atteindre 90 à 95% sur la région parisienne, mais plafonnent à 85% sur Marseille ou
Nice, pour des raisons liées aussi bien à la moins bonne qualité moyenne des fichiers adresses
qu’aux absences d’information dans la carte (bornes manquantes, rues nouvelles, changements
de noms des rues). Il se trouve par exemple qu’à Bordeaux il a existé 60 voies homonymes,
suite à l’intégration de l’ancienne commune de Cauderan.
Parmi les erreurs les plus courantes on notera des rapprochements qui ignorent les types de
voies et l’usage abusif du seul mot « directeur » qui confond la rue Jean Moulin et la rue du
moulin. Certains logiciels de géocodages sont également paramétrés pour rechercher dans les
communes voisines une voie non trouvée dans la commune spécifiée par l’adresse. (Voir
exemple en annexe)
5
Dans la pratique, les communes ont toutes compétences pour nommer les voies et attribuer les numéros
dans ces dernières ; les voies privées sont nommées par leurs propriétaires (problème des zones
industrielles privées) les voies départementales et nationales sont du ressort de l’administration (DDE).
Quand au sous adressage, chaque propriétaire est libre de son libellé (Bâtiment, escalier, niveau…). Seule
une norme Afnor codifie le libellé de l’adresse (6 lignes d’au plus 36 caractères chacune). Une des
conséquences immédiates de cette situation est que les prestations de livraison à domicile sont très
onéreuses et que même les services de secours (SAMU, pompiers…) rencontrent de grandes difficultés à
localiser l’emplacement précis de leurs interventions.
6
En fait, la difficulté du rapprochement n’est pas seulement liée aux fautes d’orthographe (qui sont légion
dans les fichiers) mais aussi au mode de désignation d’un lieu que seul le postier local saura interpréter
(et, encore, sachant que près de 2% des objets ou lettres traités par la poste, soit environ 500 millions ne
peuvent parvenir à destination chaque année).
7
Cout France entière : près de 80.000 €
SPATIALIST 5 PLACE MARINE 78600 MAISONS LAFFITTE Tel – fax : 01 34 93 43 33
Port : 06 62 30 74 33
E-mail : [email protected]
5
Qualité du géocodage
En réalité un géocodeur ne doit pas être jugé sur ses taux de « réussite », mais sur la qualité de
la position trouvée ; il est préférable d’obtenir un taux inférieur au profit d’une meilleure qualité,
car que peut faire un analyste avec des données erronées, parfois même, grossièrement ?
Un test de géocodage à l’IRIS réalisé sur un fichier identique de qualité standard auprès de 4
sociétés utilisant des référentiels et des outils de rapprochement différents offre des résultats
assez mitigés ; en premier lieu le taux atteint n’est pas supérieur à 85%, en second, aspect le
plus préoccupant, les résultats trouvés à l’identique par les 4 intervenants sont largement
inférieurs à 50%.
5 020
En %
Total communes découpées
3 913
4 codes IRIS identiques
1 169
100,0 %
29,9 %
3 codes IRIS identiques
1 167
2 codes IRIS identiques
783
29,8 %
20,0 %
Géocodés 1 fois
201
5,1 %
Tous différents
393
10,0 %
Tous non géocodés
200
5,1 %
Total fichier
= 1 369 "certains"
sur 3 913, soit 35%
Un second test de géocodage au N° dans la rue sur u n fichier de 4.688 adresses avec 3
géocodeurs différents donne des résultats encore plus décevants :
Total fichier
4 688
En %
Adresses trouvées
4 025
Distance entre Adresses < 50 M.
835
85,8 %
18,8 %
Distance entre 50 et 100 M.
330
7%
Distance entre 50 et 250 M.
643
13,7 %
Distance > 250 M.
2 217
47,3 %
= 835 "acceptables"
sur 4 688, soit 19%
Ces résultats obligent à reconnaître modestement la difficulté de l’exercice et à procéder à des
contrôles de qualité intensifs sur les résultats obtenus. Les différences relevées dans les
résultats peuvent provenir pour une faible part du référentiel utilisé, mais sont plutôt dépendante
des méthodes de l’outil de rapprochement. En effet, plusieurs procédés sont utilisés qui se
résument en trois grandes catégories :
- Comparaison caractère à caractère, avec possibilité d’erreur sur un nombre plus ou moins
important de caractères.
- Phonétisation du toponyme à trouver et comparaison avec un référentiel lui-même phonétisé
- Comparaison avec plusieurs modes d’écriture des toponymes prenant en compte les erreurs
courantes. Ce mode est le plus restrictif, mais certainement le plus fiable
Tous les abus sont possibles et on ne pourra que se référer alors à l’aphorisme d’ Alfred Jarry :
« Quand on passe les bornes, il n’y a plus de limites »
SPATIALIST 5 PLACE MARINE 78600 MAISONS LAFFITTE Tel – fax : 01 34 93 43 33
Port : 06 62 30 74 33
E-mail : [email protected]
6
ANNEXE
Voici quelques exemples d’erreurs flagrantes renvoyées par un géocodeur dont le paramétrage utilisateur
a pourtant été prévu pour limiter les erreurs possibles ; on admirera au passage la « précision » des
e
valeurs X et Y proposées (au 10.000 de millimètre):
ADR1
ADRESSE A CODER
CP
VILLE
RUE
RESULTAT RETOURNE PAR LE GEOCODEUR
CP
COMMUNE
QUALITE
X1
Y1
Erreurs sur les voies
CITE COMMERCIALE
76600
LE HAVRE
PASSERELLE DU
COMMERCE
ALLEE HENRI
BECQUEREL
76600
LE HAVRE
CORR MINEURE 438730,037922305
2501543,0277183
CORR
COURANTE
632941,007618691 2602637,00667564
270 RUE GERMAIN DEL BECQUE
62800
LIEVIN
62800
LIEVIN
1 PL DE LA FONTAINE GUEFFIER
92220
BAGNEUX
RUE DE LA FONTAINE
92220
BAGNEUX
EXACT
597588,011361112 2421398,96822591
HALL GARE DE LILLE
59800
LILLE
RUE ALAIN DE LILLE
59000
LILLE
EXACT
652333,955364533 2625237,04120096
13 RUE DE LA MADELEINE
77600
GUERMANTES
RUE SAINTE MARIE
MADELEINE
77600
GUERMANTES
EXACT
622899,972123604 2425538,97779485
10 RUE CHEMIN DE PAIX
59552
COURCHELETTES
RUE CHARLES PAIX
59552
COURCHELETTES
EXACT
651518,464216877 2594659,33105261
41 RUE DUNAN C CL LES
LOUVRAIS
95300
PONTOISE
COUR DES LOUVRAIS
95300
PONTOISE
EXACT
581749,977189394
AV HALPHEN MONASTERE
92410
VILLE D'AVRAY
RUE DU MONASTERE
92410
VILLE D'AVRAY
EXACT
588911,015990216 2425298,95897575
BD CLAUDE BERNARD
63000
CLERMONT FERRAND RUE JACQUES BERNARD
63000
CLERMONT FERRAND
EXACT
658539,959857002 2085003,94341716
CENTRE COMMERCIAL MARINELLA
64500
CIBOURE
RESIDENCE LES MARINES
64500
CIBOURE
CORR
COURANTE
274682,044185666 1828513,99038879
606691,999638346 2435360,96031518
576287,973752403
GARE DE DRANCY
93700
DRANCY
RUE DES RUPINS DE
DRANCY
93700
DRANCY
EXACT
GARE SNCF
78180
TRAPPES
ALLEE DU STADE SNCF
78190
TRAPPES
EXACT
5 RUE CHAUDET BRETON
91180
SAINT GERMAIN LES
ARPAJON
RUE DE LA BRETONNIERE
91180
AVENUE DE L'EUROPE VELIZY 2
78140
VELIZY VILLACOUBLAY
ROUTE DU CORDON DE
VELIZY
78140
DOMAINE UNIVERSITAIRE
38400
SAINT MARTIN
D'HERES
RUE DES UNIVERSITES
38400
36 PLACE JEAN MACE
44100
NANTES
RUE DOC PAUL MACE
44000
RUE RAOUL BRIQUET
SAINT GERMAIN LES
ARPAJON
VELIZY
VILLACOUBLAY
SAINT MARTIN
D'HERES
2451252,9557584
2420135,9765974
CORR
COURANTE
594999,703408337 2399258,57833172
EXACT
590552,996761249 2420936,00113857
EXACT
869733,950874539 2026988,01510123
NANTES
EXACT
302379,986774666 2252694,95310114
62138
AUCHY LES MINES
EXACT
632003,960400837 2612604,94813417
77580
GUERARD
EXACT
646009,029853343 2423049,99982592
13700
LAURE
EXACT
834771,973342298 1827477,95688946
Erreurs sur les communes
101 RUE RAOUL BRIGUET
62217
ACHICOURT
38 GRANDE RUE
77130
MAROLLES SUR SEINE RUE GRANDE
AEROPORT DE MARIGNANE
13700
MARIGNANE
LOT, LES HAUTS DE
MARIGNANE
Erreurs sur les départements
93 RUE DE PARIS
77720
MORMANT
ROUTE DE PARIS
78760
PONTCHARTRAIN
EXACT
568229,986343123
43 RUE DE PARIS
27140
GISORS
ROUTE DE PARIS
78760
PONTCHARTRAIN
EXACT
568568,074904058 2422396,73619514
7 GRANDE RUE
02800
ROGECOURT
RUE GRANDE
77580
GUERARD
EXACT
646009,029853343 2423049,99982592
76 RUE DE PARIS
60700
FLEURINES
ROUTE DE PARIS
78760
PONTCHARTRAIN
EXACT
568229,986343123
43 GRANDE RUE
80300
BOUZINCOURT
RUE GRANDE
77580
GUERARD
EXACT
646009,029853343 2423049,99982592
47 RUE DE PARIS
95700
ROISSY EN FRANCE
ROUTE DE PARIS
78760
PONTCHARTRAIN
EXACT
568619,057421718 2422365,68841472
SPATIALIST 5 PLACE MARINE 78600 MAISONS LAFFITTE Tel – fax : 01 34 93 43 33
Port : 06 62 30 74 33
2422598,0312143
2422598,0312143
E-mail : [email protected]
7