English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية

Manuel de référence HTML

Toute la collection des balises HTML

Jeux de caractères HTML

Le jeu de caractères détermine comment les octets représentant le texte de votre document HTML sont traduits en caractères lisibles. Il peut être conforme à ISO010646 Le code point explique le nombre ou la référence en hexadécimal ("〹" ou "ሴ") est conforme à la version standard Unicode 2.0 est conforme et indépendant du jeu de caractères sélectionné.

Jeux de caractères HTML

Pour afficher correctement une page HTML, le navigateur doit savoir quel jeu de caractères utiliser.

Le jeu de caractères utilisé à l'origine sur le World Wide Web était ASCII. ASCII supporte 0-9 des nombres, de l'alphabet anglais majuscules et minuscules, ainsi que certains caractères spéciaux.

Manuel complet de l'ASCII.

Comme de nombreux pays utilisent des caractères qui ne font pas partie de l'ASCII, le jeu de caractères par défaut des navigateurs modernes est ISO-8859-1.

Manuel complet ISO-8859-1 Manuel de référence.

Si le site Web utilise un jeu de caractères différent de l'ISO-8859-1 des jeux de caractères, doivent être spécifiés dans l'étiquette <meta>.

Jeu de caractères ISO

Les jeux de caractères ISO sont des normes internationales (ISO) pour différents alphabets/Jeu de caractères standard défini pour la langue.

Ci-dessous est énuméré les différents jeux de caractères utilisés dans le monde entier :

collection de caractèresdescriptionPortée d'utilisation
ISO-8859-1Partie alphabet latin 1Amérique du Nord, Europe occidentale, Amérique latine, Caraïbes, Canada, Afrique
ISO-8859-2Partie alphabet latin 2Europe de l'Est
ISO-8859-3Partie alphabet latin 3Europe de l'Est, langage universel, divers éléments
ISO-8859-4Partie alphabet latin 4Scandinave/Baltique (et d'autres qui ne sont pas inclus dans ISO-8859-1 dans certaines parties)
ISO-8859-5Latin/Partie cyrillique 5Les langues utilisant l'alphabet slave ancien, telles que le bulgare, le biélorusse, le russe, le macédonien
ISO-8859-6Latin/Partie arabe 6Les langues utilisant l'alphabet arabe
ISO-8859-7Latin/Partie grecque 7Langue grecque moderne, ainsi que les symboles mathématiques dérivés du grec
ISO-8859-8Latin/Partie hébraïque 8Les langues utilisant l'hébreu
ISO-8859-9Latin 5 part 9La langue turque. À l'exception des caractères turcs qui ont remplacé les caractères islandais, les autres sont compatibles avec ISO-8859-1 .
ISO-8859-10Latin 6Langue lapone, langue germanique, langue eskimaque nordique
ISO-8859-15Latin 9 (alias Latin 0)Avec ISO 8859-1 De même, le symbole de l'euro et d'autres caractères ont remplacé certains caractères moins utilisés
ISO-2022-JPLatin/Partie japonaise 1Langue japonaise
ISO-2022-JP-2Latin/Partie japonaise 2Langue japonaise
ISO-2022-KRLatin/Partie coréenne 1Coréen

La norme Unicode

Comme les jeux de caractères énumérés ci-dessus ont des limites de capacité et ne sont pas compatibles avec des environnements multilingues, l'Union Unicode a développé la norme Unicode.

La norme Unicode couvre tous les caractères, points de suspension et symboles du monde.

Que ce soit sur quel support, programme ou langage, Unicode peut traiter, stocker et échanger des données textuelles.

L'Union Unicode

L'Union Unicode a développé la norme Unicode. Leur objectif est de remplacer les jeux de caractères existants par un format de conversion Unicode standard (UTF).

La norme Unicode a eu du succès, dans XML, Java, ECMAScript (JavaScript), LDAP, CORBA 3.0, dans WML, Unicode est déjà mis en œuvre. Unicode est également pris en charge dans de nombreux systèmes d'exploitation et dans tous les navigateurs modernes.

l'Union Unicode collabore avec des organisations de développement de normes de pointe, telles que l'ISO et la W3C et ECMA.

Unicode peut être compatible avec différentes collections de caractères. Le codage le plus couramment utilisé est UTF-8 et UTF-16:

collection de caractèresdescription
UTF-8UTF8 les caractères peuvent être 1-4 long de plusieurs octets. UTF-8 peut représenter n'importe quel caractère du standard Unicode. UTF-8 est compatible avec ASCII. UTF-8 est le codage préféré pour les pages Web et les e-mails.
UTF-1616 le format de conversion Unicode d'un bit est un codage de caractères Unicode variable qui peut coder l'ensemble des instructions Unicode. UTF-16 principalement utilisés dans les systèmes d'exploitation et les environnements, comme Windows de Microsoft 2000/XP/2003/Vista/CE ainsi que les environnements de code binaire Java et .NET.

Avis : les caractères les plus anciens 256 les caractères de la collection Unicode correspondent à 256 ISO-8859-1 caractères.

Avis : tous les HTML 4 les traiteurs sont maintenant compatibles UTF-8tous les XHTML et les traiteurs XML supportent UTF-8 et UTF-16!