Gécodage sur le Web, limites et problématiques
Transcription
Gécodage sur le Web, limites et problématiques
GEOCODAGE SUR LE WEB LIMITES ET PROBLEMATIQUES Auteur : Philippe Latour Tel : 06 62 30 74 33 Mail : [email protected] Résumé : L’analyse géomarketing repose sur une fonction préparatoire primordiale : il faut pouvoir positionner dans l'espace les données liées à une adresse postale ou à un territoire administratif (commune, IRIS, îlot) . Les données utilisées en géomarketing comportent toujours deux volets : la localisation ou géoréférencement et la description (nom, appartenance, valeurs…); la localisation se fait soit par rattachement à un objet de la carte (population d’un IRIS, revenu d’une commune…) soit par détermination des coordonnées (X,Y et parfois Z) du support de la donnée (en principe une adresse). Le web apporte des accès payants et gratuits à des fonctions de géocodage dont on peut, à priori, espérer des progrès sur les outils classiques, en particulier au niveau de la couverture géographique et de la mise à jour des référentiels. Il n’en reste pas moins que les problèmes rencontrés en particulier au niveau des outils et méthodes de rapprochement sont nombreux et complexes. Il en résulte que la fiabilité des résultats obtenus peut et doit être remise en question. La valeur d'une étude géomarketing repose largement sur la qualité et l'exhaustivité des données utilisées, ce qui explique qu'en pratique le temps passé à la préparation et au géoréférencement des données représente près du tiers des opérations. Il est donc essentiel de bien maîtriser cette phase première du travail de l'analyste, gage de fiabilité de l'ensemble. SPATIALIST 5 PLACE MARINE 78600 MAISONS LAFFITTE Tel – fax : 01 34 93 43 33 Port : 06 62 30 74 33 E-mail : [email protected] 1 Principes du géocodage Le géomarketing utilise encore couramment en France la projection Lambert II étendu (associée au système NTF) dont les données X,Y correspondent au nombre de mètres calculés dans un repère orthonormé qui contiendrait la totalité du territoire métropolitain français (tout en tenant compte du fait que le point origine est l’Observatoire de Paris dont l’ordonnée est de 2.200.000 m. Les normes européennes sont, elles, fondées sur le système « EUREF » , correspondant à la projection WGS84. Le nouveau système légal de référence français est nommé « RGF93 » . Les coordonnées géographiques sont définies en degrés avec pour origine le méridien de Paris. Le territoire national est découpé en 4 zones qui peuvent être réunies dans la projection « Lambert 93 II étendu ». En tout état de cause, et quels que soient le système ou le mode de projection le point repère de la localisation sera toujours la valeur des coordonnées IGN Projection Lambert (X,Y et éventuellement Z1) d’une adresse ou des contours d’un objet (IRIS, commune…). Les territoires administratifs peuvent également être repérés par la position de leur barycentre (ou centroïde géographique). Le géocodage, dans ce dernier cas, est réalisé par l’intermédiaire du code de l’objet concerné (Secteur postal, commune, IRIS, îlot…). La nature ou la description des données à géocoder peut être très variée, nous citerons au hasard : le nombre de logements de 3 pièces dans un IRIS, la vitesse de circulation sur une portion d’axe routier, un relevé de pollution à un endroit donné, le nombre d’employés travaillant sur un site d’entreprise, le revenu moyen des contribuables d’une commune, le chiffre d’affaires réalisé avec des clients... Le géocodage, également appelé géoréférencement, est un processus qui consiste à affecter ses coordonnées propres (X, Y) à un point dans l’espace : adresse postale (n° 16, rue des Peupliers à Nanterre) ou géographique (angle de la rue des Peupliers et du Bd Clémenceau ou barycentre d’un objet de la carte). La localisation d’une donnée peut être faite au barycentre d’une commune ou d’une rue ou, de façon encore plus précise, au numéro dans une rue. Pour ce faire, des logiciels spécialisés (géocodeurs) analysent l’adresse fournie et la comparent avec les informations contenues dans un référentiel contenant des données issues principalement de la carte vecteur2. 1 Z est la mesure d’altitude d’un point dans l’espace (au dessus ou en dessous de la surface) Les cartes 3D sont utilisées en particulier pour les études de propagation d’ondes (Télécoms en particulier) et pour les positionnement techniques de réseaux enterrés ou les études géologiques. 2 Il est également conseillé de ne pas se limiter au référentiel de la carte, et d’effectuer un premier traitement sur le référentiel des rues publié par la Direction Générale des Impôts, appelé fichier FANTOIR ou encore le référentiel Hexavia de La Poste, afin de contrôler avec certitude l’existence d’une voie et son type (allée, avenue, place, ….) dans une commune donnée et d’extraire le code de la voie. SPATIALIST 5 PLACE MARINE 78600 MAISONS LAFFITTE Tel – fax : 01 34 93 43 33 Port : 06 62 30 74 33 E-mail : [email protected] 2 Les modes principaux de géocodage En géomarketing, le géocodage doit être effectué au niveau du raisonnement de l’analyse, ce peut être à la commune, à l’Iris, à l’Ilot ou au N° dans la rue. Le code postal est d’une dimension trop grande en France pour que ce niveau d’analyse puisse être retenu3 ; par contre on l’utilisera dans la plupart des pays du nord de l’Europe. Par exemple, Amsterdam possède 89 secteurs postaux, alors que Marseille n’en a que 16. En fonction du niveau recherché, l’opération de géocodage peut être plus ou moins complexe : le niveau du code postal (hors France) ou de la commune est le plus simple. Les autres niveaux font appel à des outils sophistiqués et à des référentiels lourds. Codes postaux d’Amsterdam L’opération de géocodage ne s’applique évidemment qu’aux adresses, puisque les données statistiques sont repérées par le code du territoire qu’elles qualifient (ménages à l’Iris, par exemple) ; le code du territoire étant contenu dans la carte (vecteur), on peut charger ces données directement dans un SIG sans leur affecter un code X,Y.4 A noter que pour effectuer un géocodage à la commune à partir d’une adresse postale (code postal et nom de la commune), il est indispensable d’effectuer préalablement une recherche du code INSEE commune. En effet il est fréquent, même dans des fichiers de qualité, de rencontrer soit des fautes d’orthographe dans les noms des villes, soit des erreurs de codes postaux. En outre les dénominations des codes postaux utilisées par La Poste sont souvent des lieux dits (La Varenne St Hilaire, Juan les Pins…). Pour gérer ces zones des codes Insee factices ont même été créés. Le code Cedex, s’il est indiqué, peut également être utilisé car La Poste met à disposition le fichier des rattachements de codes Cedex aux communes. Si ces précautions sont respectées, un géocodage à la commune doit être réalisé à quasiment 100%. Géocodage au numéro dans la rue ou à l’Iris Une fois le code commune (Insee) trouvé, le logiciel de géocodage recherche la voie (type et toponyme) en utilisant des algorithmes de comparaison orthographique et/ou phonétique, puis calcule la position la plus proche par interpolation linéaire entre les coordonnées des deux bornes (numéros des bâtiments aux intersections de voies) qui encadrent l’adresse recherchée. Un géocodage au numéro dans la rue pratiqué de façon sérieuse devra produire pour chaque adresse traitée la qualification du résultat, par exemple : Position correcte, Intersection correcte, Position correcte sur un lieu sans numéro, Position approximée sur bornes extrêmes de la voie ou en excès des bornes minimales ou maximales de la carte, Barycentre de la voie… Le principe du géocodage à l’Iris est fondamentalement le même que celui du codage à la rue, car on recherche également la correspondance d’une adresse dans un référentiel composé de voies et de bornes de voies 3 Sauf en cas d’analyse sur l’ensemble du territoire français, par exemple. 4 Sous réserve d’utiliser une carte vecteur SPATIALIST 5 PLACE MARINE 78600 MAISONS LAFFITTE Tel – fax : 01 34 93 43 33 Port : 06 62 30 74 33 E-mail : [email protected] 3 Géocodage sur le Web Tous les internautes ont l’habitude de rechercher la position d’une adresse sur des sites aussi connus que Michelin, Mappy, Maporama, Google map ou Virtual Earth. Dans la pratique si l’adresse saisie est parfaitement libellée, un extrait de la carte et la position de l’adresse sont affichés à l’écran. Si une erreur de saisie est commise ou si le libellé saisi est incomplet, l’outil renvoie une liste de propositions qui permettent d’extraire la position dans le référentiel, puis d’afficher la carte. Ces liste de propositions ne sont pas toujours exhaustives et ne correspondent pas forcément à la logique de la requête qui a été lancée. Par exemple, il existe 12 communes dans le département du Calvados dont le libellé inclut « Saint-Martin ». Une requête sur « 14 Saint Martin » dans le champ commune lancée sur les 6 sites les plus connus ne produit de réponse satisfaisante que dans un seul cas. Actuellement peu de services offrent la pratique de géocodage réellement en ligne. Des sociétés spécialisées en géomarketing ont des offres (payantes) avec des délais de traitement qui montrent bien que le traitement est effectué manuellement soit dans un géocodeur classique, soit sur un site (théoriquement gratuit). Quatre sites pratiquent le géocodage en ligne : - Maporama (payant). - Eturama (destiné aux étudiants québécois sur le seul territoire du Canada) - Virtual Earth (Microsoft) qui couvre la Grande Bretagne et 40% des Etats-Unis qui a l’avantage de proposer une très forte précision de la localisation (toit de l’immeuble), mais l’inconvénient d’être réservé aux internautes suffisamment experts en informatique pour être capables d’installer et de faire fonctionner les A.P.I. nécessaires. - Google qui a la plus large couverture et qui permet d’effectuer des traitements jusqu’à 1.500 adresses simultanément grâce à un petit outil « Batch Geocoder » disponible gratuitement. Test et résultats A priori, on peut attendre de ces sites qu’ils disposent de bases cartographiques à la fois très exhaustives et fréquemment mises à jour. Également, la couverture géographique européenne ou mondiale implique que le moteur de recherche d’une adresse dans le référentiel tienne compte des particularités locales de gestion de l’adresse et des spécificités linguistiques. Des tests ont été effectués avec des fichiers de qualité courante sur 2 de ces 4 sites et ont fourni des résultats plutôt décevants en géocodage à la rue, avec 10 à 30% d’effectivement trouvés au n°, 50 à 60% à la rue et 25 à 30% non trouvés (sou vent affectés de façon abusive au barycentre de la commune). A partir du moment où le logiciel fournit également le libellé complet de la voie qui a été choisie, il est possible de détecter des erreurs inadmissibles, dont l’origine est, en outre, totalement incompréhensible, comme, par exemple : 110 B Rue de Flandres, 75019 Paris, localisé Rue de Paris, 59200 Tourcoing. SPATIALIST 5 PLACE MARINE 78600 MAISONS LAFFITTE Tel – fax : 01 34 93 43 33 Port : 06 62 30 74 33 E-mail : [email protected] 4 Les causes de ces résultats déficients. On retrouve d’abord les problématiques auxquelles sont confrontés tous les géocodeurs traditionnels : - La complexité de l’adresse, en particulier en France : aucune règle (sauf à Paris)5 ne régit la gestion des adresses par les communes, les particuliers ne respectent pas les normes théoriques (et trop peu contraignantes) de La Poste et ignorent de plus en plus les désignations de voies au profit de noms d’immeubles et résidences6. - L’absence d’un référentiel unique officiel de gestion des voies (BD adresses de l’IGN est réservé à l’administration et aux seules collectivités locales) 7 - La mauvaise qualité des fichiers dont la saisie manque de procédures de contrôle. Il a été démontré que la meilleure méthode consistait à procéder à une double saisie, ce qui augmenterait considérablement le coût de gestion de ces fichiers. A ces causes déjà bien connues, s’ajoutent les déficiences des moteurs de rapprochement qui, conçus pour travailler sur des données internationales, ne prennent pas en compte les spécificités des adresses françaises et les particularismes de la langue. Plus encore que pour les outils traditionnels comptent la rapidité de traitement et les taux de retour. Les algorithmes de comparaison sont composés de moyens de reconnaissance divers qui vont de l’association de caractères jusqu’aux méthodes de phonétisation sophistiquées; ceci implique qu’un logiciel de géocodage n’est performant que pour la langue dans laquelle il a été conçu. La technique du géocodage ne relève pas de la cartographie ou de la géographie, mais du traitement de données En France, les scores obtenus par de bons géocodeurs conçus pour les adresses françaises peuvent atteindre 90 à 95% sur la région parisienne, mais plafonnent à 85% sur Marseille ou Nice, pour des raisons liées aussi bien à la moins bonne qualité moyenne des fichiers adresses qu’aux absences d’information dans la carte (bornes manquantes, rues nouvelles, changements de noms des rues). Il se trouve par exemple qu’à Bordeaux il a existé 60 voies homonymes, suite à l’intégration de l’ancienne commune de Cauderan. Parmi les erreurs les plus courantes on notera des rapprochements qui ignorent les types de voies et l’usage abusif du seul mot « directeur » qui confond la rue Jean Moulin et la rue du moulin. Certains logiciels de géocodages sont également paramétrés pour rechercher dans les communes voisines une voie non trouvée dans la commune spécifiée par l’adresse. (Voir exemple en annexe) 5 Dans la pratique, les communes ont toutes compétences pour nommer les voies et attribuer les numéros dans ces dernières ; les voies privées sont nommées par leurs propriétaires (problème des zones industrielles privées) les voies départementales et nationales sont du ressort de l’administration (DDE). Quand au sous adressage, chaque propriétaire est libre de son libellé (Bâtiment, escalier, niveau…). Seule une norme Afnor codifie le libellé de l’adresse (6 lignes d’au plus 36 caractères chacune). Une des conséquences immédiates de cette situation est que les prestations de livraison à domicile sont très onéreuses et que même les services de secours (SAMU, pompiers…) rencontrent de grandes difficultés à localiser l’emplacement précis de leurs interventions. 6 En fait, la difficulté du rapprochement n’est pas seulement liée aux fautes d’orthographe (qui sont légion dans les fichiers) mais aussi au mode de désignation d’un lieu que seul le postier local saura interpréter (et, encore, sachant que près de 2% des objets ou lettres traités par la poste, soit environ 500 millions ne peuvent parvenir à destination chaque année). 7 Cout France entière : près de 80.000 € SPATIALIST 5 PLACE MARINE 78600 MAISONS LAFFITTE Tel – fax : 01 34 93 43 33 Port : 06 62 30 74 33 E-mail : [email protected] 5 Qualité du géocodage En réalité un géocodeur ne doit pas être jugé sur ses taux de « réussite », mais sur la qualité de la position trouvée ; il est préférable d’obtenir un taux inférieur au profit d’une meilleure qualité, car que peut faire un analyste avec des données erronées, parfois même, grossièrement ? Un test de géocodage à l’IRIS réalisé sur un fichier identique de qualité standard auprès de 4 sociétés utilisant des référentiels et des outils de rapprochement différents offre des résultats assez mitigés ; en premier lieu le taux atteint n’est pas supérieur à 85%, en second, aspect le plus préoccupant, les résultats trouvés à l’identique par les 4 intervenants sont largement inférieurs à 50%. 5 020 En % Total communes découpées 3 913 4 codes IRIS identiques 1 169 100,0 % 29,9 % 3 codes IRIS identiques 1 167 2 codes IRIS identiques 783 29,8 % 20,0 % Géocodés 1 fois 201 5,1 % Tous différents 393 10,0 % Tous non géocodés 200 5,1 % Total fichier = 1 369 "certains" sur 3 913, soit 35% Un second test de géocodage au N° dans la rue sur u n fichier de 4.688 adresses avec 3 géocodeurs différents donne des résultats encore plus décevants : Total fichier 4 688 En % Adresses trouvées 4 025 Distance entre Adresses < 50 M. 835 85,8 % 18,8 % Distance entre 50 et 100 M. 330 7% Distance entre 50 et 250 M. 643 13,7 % Distance > 250 M. 2 217 47,3 % = 835 "acceptables" sur 4 688, soit 19% Ces résultats obligent à reconnaître modestement la difficulté de l’exercice et à procéder à des contrôles de qualité intensifs sur les résultats obtenus. Les différences relevées dans les résultats peuvent provenir pour une faible part du référentiel utilisé, mais sont plutôt dépendante des méthodes de l’outil de rapprochement. En effet, plusieurs procédés sont utilisés qui se résument en trois grandes catégories : - Comparaison caractère à caractère, avec possibilité d’erreur sur un nombre plus ou moins important de caractères. - Phonétisation du toponyme à trouver et comparaison avec un référentiel lui-même phonétisé - Comparaison avec plusieurs modes d’écriture des toponymes prenant en compte les erreurs courantes. Ce mode est le plus restrictif, mais certainement le plus fiable Tous les abus sont possibles et on ne pourra que se référer alors à l’aphorisme d’ Alfred Jarry : « Quand on passe les bornes, il n’y a plus de limites » SPATIALIST 5 PLACE MARINE 78600 MAISONS LAFFITTE Tel – fax : 01 34 93 43 33 Port : 06 62 30 74 33 E-mail : [email protected] 6 ANNEXE Voici quelques exemples d’erreurs flagrantes renvoyées par un géocodeur dont le paramétrage utilisateur a pourtant été prévu pour limiter les erreurs possibles ; on admirera au passage la « précision » des e valeurs X et Y proposées (au 10.000 de millimètre): ADR1 ADRESSE A CODER CP VILLE RUE RESULTAT RETOURNE PAR LE GEOCODEUR CP COMMUNE QUALITE X1 Y1 Erreurs sur les voies CITE COMMERCIALE 76600 LE HAVRE PASSERELLE DU COMMERCE ALLEE HENRI BECQUEREL 76600 LE HAVRE CORR MINEURE 438730,037922305 2501543,0277183 CORR COURANTE 632941,007618691 2602637,00667564 270 RUE GERMAIN DEL BECQUE 62800 LIEVIN 62800 LIEVIN 1 PL DE LA FONTAINE GUEFFIER 92220 BAGNEUX RUE DE LA FONTAINE 92220 BAGNEUX EXACT 597588,011361112 2421398,96822591 HALL GARE DE LILLE 59800 LILLE RUE ALAIN DE LILLE 59000 LILLE EXACT 652333,955364533 2625237,04120096 13 RUE DE LA MADELEINE 77600 GUERMANTES RUE SAINTE MARIE MADELEINE 77600 GUERMANTES EXACT 622899,972123604 2425538,97779485 10 RUE CHEMIN DE PAIX 59552 COURCHELETTES RUE CHARLES PAIX 59552 COURCHELETTES EXACT 651518,464216877 2594659,33105261 41 RUE DUNAN C CL LES LOUVRAIS 95300 PONTOISE COUR DES LOUVRAIS 95300 PONTOISE EXACT 581749,977189394 AV HALPHEN MONASTERE 92410 VILLE D'AVRAY RUE DU MONASTERE 92410 VILLE D'AVRAY EXACT 588911,015990216 2425298,95897575 BD CLAUDE BERNARD 63000 CLERMONT FERRAND RUE JACQUES BERNARD 63000 CLERMONT FERRAND EXACT 658539,959857002 2085003,94341716 CENTRE COMMERCIAL MARINELLA 64500 CIBOURE RESIDENCE LES MARINES 64500 CIBOURE CORR COURANTE 274682,044185666 1828513,99038879 606691,999638346 2435360,96031518 576287,973752403 GARE DE DRANCY 93700 DRANCY RUE DES RUPINS DE DRANCY 93700 DRANCY EXACT GARE SNCF 78180 TRAPPES ALLEE DU STADE SNCF 78190 TRAPPES EXACT 5 RUE CHAUDET BRETON 91180 SAINT GERMAIN LES ARPAJON RUE DE LA BRETONNIERE 91180 AVENUE DE L'EUROPE VELIZY 2 78140 VELIZY VILLACOUBLAY ROUTE DU CORDON DE VELIZY 78140 DOMAINE UNIVERSITAIRE 38400 SAINT MARTIN D'HERES RUE DES UNIVERSITES 38400 36 PLACE JEAN MACE 44100 NANTES RUE DOC PAUL MACE 44000 RUE RAOUL BRIQUET SAINT GERMAIN LES ARPAJON VELIZY VILLACOUBLAY SAINT MARTIN D'HERES 2451252,9557584 2420135,9765974 CORR COURANTE 594999,703408337 2399258,57833172 EXACT 590552,996761249 2420936,00113857 EXACT 869733,950874539 2026988,01510123 NANTES EXACT 302379,986774666 2252694,95310114 62138 AUCHY LES MINES EXACT 632003,960400837 2612604,94813417 77580 GUERARD EXACT 646009,029853343 2423049,99982592 13700 LAURE EXACT 834771,973342298 1827477,95688946 Erreurs sur les communes 101 RUE RAOUL BRIGUET 62217 ACHICOURT 38 GRANDE RUE 77130 MAROLLES SUR SEINE RUE GRANDE AEROPORT DE MARIGNANE 13700 MARIGNANE LOT, LES HAUTS DE MARIGNANE Erreurs sur les départements 93 RUE DE PARIS 77720 MORMANT ROUTE DE PARIS 78760 PONTCHARTRAIN EXACT 568229,986343123 43 RUE DE PARIS 27140 GISORS ROUTE DE PARIS 78760 PONTCHARTRAIN EXACT 568568,074904058 2422396,73619514 7 GRANDE RUE 02800 ROGECOURT RUE GRANDE 77580 GUERARD EXACT 646009,029853343 2423049,99982592 76 RUE DE PARIS 60700 FLEURINES ROUTE DE PARIS 78760 PONTCHARTRAIN EXACT 568229,986343123 43 GRANDE RUE 80300 BOUZINCOURT RUE GRANDE 77580 GUERARD EXACT 646009,029853343 2423049,99982592 47 RUE DE PARIS 95700 ROISSY EN FRANCE ROUTE DE PARIS 78760 PONTCHARTRAIN EXACT 568619,057421718 2422365,68841472 SPATIALIST 5 PLACE MARINE 78600 MAISONS LAFFITTE Tel – fax : 01 34 93 43 33 Port : 06 62 30 74 33 2422598,0312143 2422598,0312143 E-mail : [email protected] 7