Activité 4 : CODAGE ALPHANUMERIQUE Classe de Terminale S
Transcription
Activité 4 : CODAGE ALPHANUMERIQUE Classe de Terminale S
Activité 4 : CODAGE ALPHANUMERIQUE Classe de Terminale S - Spécialité ISN Objectif: Après avoir vu comment sont codés les nombres, on se propose de découvrir comment l’ordinateur travaille pour coder les caractères et pourquoi découle la nécessité de définir un code universel de codage. 1 – Ecriture d’un texte dans le bloc-notes. a) Ecriture d’un texte. Ouvrir le « Bloc Note » de Windows. Ecrire en majuscule votre « PRENOM ». faire un espace puis votre « NOM ». Aller à la ligne et écrire votre classe « TERMINALE S3» Ecrire le nom de votre lycée « LYCEE LES CORDELIERS ». Enregistrer le fichier sous le nom : « Essai_Ansi.text » en prenant soin de vérifier le codage d’enregistrement ANSI. Ouvrir le texte avec un logiciel éditeur hexadécimal (par exemple HextEdit à télécharger). Remarquer ce que fait ce logiciel et noter vos observations. Faire une copie d’écran à placer dans un fichier de type « Word » ou « Open Office Writter ». Vérifier avec la table ASCII que le codage des caractères saisis au clavier est conforme au code ASCII. Noter les caractères de contrôle qui permettent de réaliser : L’espace : Le saut de ligne : Le retour de chariot : b) Codage en binaire d’un texte avec l’éditeur hexadécimal. Dans l’éditeur hexadécimal, et en utilisant la fiche du code ASCII, remplacer les données en binaire pour faire apparaître à la place du nom du lycée le code postal : « 22100 DINAN ». Sauver le fichier sous le même nom. Ouvrir le fichier dans « Bloc Note » avec le même nom et vérifier que la modification a été bien faite. Dans le « Bloc-Note », on peut taper du texte en appuyant simultanément sur la touche ALT et en composant le code ASCII correspondant à une lettre. Exemple : si on fait « ALT » + 65, il apparaît le caractère « A ». Quelques questions. Est-il possible de faire apparaître le mot « Lycée avec le code ASCII ? Décoder la chaîne ASCII suivante : $49 - $53 - $4E - $20 - %0110000 - $31 - $32. Que signifient les acronymes : ESC ? BEL ? EOT ? c) Codage d’un texte en ANSI. Codé sur 7 bits, le codage ASCII ne permet qu’une représentation de 128 caractères (même moins car en réalité certains caractères, dits de contrôle, ne sont pas affichables). Comme nous utilisons dans la langue française des caractères d’accentuation (é, ê, ù …) et qu’il faut aussi utiliser des symboles monétaires € …, le jeu ASCII de base a été étendu tout d’abord à 8 bits, soit 256 codes possibles. Ce jeu était connu sous l’appellation ANSI (Américan National Standards Institute). Différentes versions de ce jeu existent et correspondent à des zones linguistiques. La version ANSI englobant les caractères accentués des langues occidentales s’appellent Latin-1 et correspondent à la norme ISO-8859-1. Les 128 premiers caractères sont identiques à ceux du jeu ASCII, les autres (caractères étendus) sont définis dans le document fourni en annexe. Remarque. Le « Bloc Note » de Windows est un utilitaire intégré, c’est le code « Windows-1252 » qui est utilisé lors d’une sauvegarde ANSI. Ce code est néanmoins très proche du code ISO-8859-1. Dans le « bloc note » écrire maintenant votre PRENOM, NOM, le nom du lycée, le code postal… en minuscule et en mettant des accents. Ajouter le symbole « € ». _____________________________________________________________________________________________________________________ Année Scolaire 2014-2015 - Lycée « Cordeliers-Victoire » - DINAN - Spécialité ISN - Terminale S – Mardi 13 Octobre 1 Ouvrir le fichier avec l’éditeur hexadécimal et vérifier les codes binaires utilisés par rapport à la table Latin-1 ou Windows-1252 fournies. Repérer sur la copie d’écran les caractères étendus par un surlignage. Regarder surtout le caractère « € ». Chercher des renseignements sur cette norme ISO-8859-n. Expliquer pourquoi on place « - n » à la fin. Que propose la norme ISO-8859-15 par rapport à la norme ISO-8859-1. 2 – Encore plus d’universalité. Pour coder tous les caractères ou symboles utilisés dans le monde entier et ce, quelle que soit la langue utilisée, il faut lui attribuer un nom et un identifiant numérique, et cela de manière unifiée. C’est ce que propose la norme UNICODE., développée par le consortium du même nom (voir www.unicode.org) Chaque symbole d’écriture est donc représenté par un nom et une valeur hexadécimale préfixée par « U+ ». Exemple : A = U+0041 ; é = U+000E9 ; € : U+20AC. Ouvrir le fichier UNICODE.pdf. On peut vérifier que le caractère « é » est bien représenté par le U+00E9. Essayer avec le « Bloc Note ». Sauver cette fois sous le format UTF-8 avec le nom suivant « Essai_UTF8.txt » Ouvrir le fichier avec l’éditeur hexadécimal et examiner les codes. Faire une copie d’écran. Repérer déjà les trois octets appelés BOM (byte order mark) au début du fichier pour indiquer que le codage est en UTF-8. Les noter. Repérer ensuite les 2 octets utilisés pour le caractère « é » de lycée puis les trois octets utilisés pour le caractère « € ». Les noter. En utilisant cette fois la norme UTF-8, détailler le codage du « é » ci-dessous pour montrer que vous avez compris le principe. 2 2 octets codant de 8 à 11 bits 3 3 octets codant de 12 à 16 bits Pour conclure. Un inconvénient du codage UTF-8 ? Regarder la taille du fichier texte pour les deux cas « Essai_UTF8.txt » et « Essai_ANSI.txt » Heureusement, c’est pour cela que l’on peut mélanger l’ASCCI et l’UTF-8 dans un même fichier pour éviter la surcharge de sa taille. Ici, tous les caractères sauf « € » et « é » sont codés sur un octet. 3 – Monsieur Jourdain et l’Unicode. Comme Monsieur Jourdain faisait de la prose sans le savoir, vous utilisez UNICODE sans le savoir. Quelques exemples : a) Traitement de texte comme Open Office ou Word Faire « insérer caractère » et regarder le codage associé. Par exemple retrouver le symbole « ∫ » qui ne peut être tapé au clavier On voit que ∫ = U+222B b) Dans la messagerie Thunberbird _____________________________________________________________________________________________________________________ Année Scolaire 2014-2015 - Lycée « Cordeliers-Victoire » - DINAN - Spécialité ISN - Terminale S – Mardi 13 Octobre 2 (Linux). c) Dans les pages HTML (ici Firefox). Ouvrir la page avec le moteur de recherche Google. Changer le codage dans le menu comme indiqué ci-dessous et observer le résultat sur les caractères affichés. Voir aussi avec « Internet Explorer ». Choisir plus d’encodage si vous voulez encore observer d’autres choses ou aller sur les sites asiatiques et observer ce qui se passe Expliquer comment le logiciel qui lit les données peut reconnaître si le codage d’un caractère en UFT-8 a lieu sur 1, 2, 3 ou 4 octets Chercher d’autres exemples qui utilisent le codage UTF-8. _______________________________________________________________________________________________ _____________________________________________________________________________________________________________________ Année Scolaire 2014-2015 - Lycée « Cordeliers-Victoire » - DINAN - Spécialité ISN - Terminale S – Mardi 13 Octobre 3
Documents pareils
Codage des caractères Table ASCII (American Standard Code for
Pour un texte "normal", on occuperait donc presque deux fois plus de place en mémoire !
L'une des principales normes d'encodage des caractères est l'Utf-8.
Les principaux caractères (pour les anglo...