English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية
Le jeu de caractères détermine comment les octets représentant le texte de votre document HTML sont traduits en caractères lisibles. Il peut être conforme à ISO010646 Le code point explique le nombre ou la référence en hexadécimal ("〹" ou "ሴ") est conforme à la version standard Unicode 2.0 est conforme et indépendant du jeu de caractères sélectionné.
Pour afficher correctement une page HTML, le navigateur doit savoir quel jeu de caractères utiliser.
Le jeu de caractères utilisé à l'origine sur le World Wide Web était ASCII. ASCII supporte 0-9 des nombres, de l'alphabet anglais majuscules et minuscules, ainsi que certains caractères spéciaux.
Comme de nombreux pays utilisent des caractères qui ne font pas partie de l'ASCII, le jeu de caractères par défaut des navigateurs modernes est ISO-8859-1.
Manuel complet ISO-8859-1 Manuel de référence.
Si le site Web utilise un jeu de caractères différent de l'ISO-8859-1 des jeux de caractères, doivent être spécifiés dans l'étiquette <meta>.
Les jeux de caractères ISO sont des normes internationales (ISO) pour différents alphabets/Jeu de caractères standard défini pour la langue.
Ci-dessous est énuméré les différents jeux de caractères utilisés dans le monde entier :
collection de caractères | description | Portée d'utilisation |
---|---|---|
ISO-8859-1 | Partie alphabet latin 1 | Amérique du Nord, Europe occidentale, Amérique latine, Caraïbes, Canada, Afrique |
ISO-8859-2 | Partie alphabet latin 2 | Europe de l'Est |
ISO-8859-3 | Partie alphabet latin 3 | Europe de l'Est, langage universel, divers éléments |
ISO-8859-4 | Partie alphabet latin 4 | Scandinave/Baltique (et d'autres qui ne sont pas inclus dans ISO-8859-1 dans certaines parties) |
ISO-8859-5 | Latin/Partie cyrillique 5 | Les langues utilisant l'alphabet slave ancien, telles que le bulgare, le biélorusse, le russe, le macédonien |
ISO-8859-6 | Latin/Partie arabe 6 | Les langues utilisant l'alphabet arabe |
ISO-8859-7 | Latin/Partie grecque 7 | Langue grecque moderne, ainsi que les symboles mathématiques dérivés du grec |
ISO-8859-8 | Latin/Partie hébraïque 8 | Les langues utilisant l'hébreu |
ISO-8859-9 | Latin 5 part 9 | La langue turque. À l'exception des caractères turcs qui ont remplacé les caractères islandais, les autres sont compatibles avec ISO-8859-1 . |
ISO-8859-10 | Latin 6 | Langue lapone, langue germanique, langue eskimaque nordique |
ISO-8859-15 | Latin 9 (alias Latin 0) | Avec ISO 8859-1 De même, le symbole de l'euro et d'autres caractères ont remplacé certains caractères moins utilisés |
ISO-2022-JP | Latin/Partie japonaise 1 | Langue japonaise |
ISO-2022-JP-2 | Latin/Partie japonaise 2 | Langue japonaise |
ISO-2022-KR | Latin/Partie coréenne 1 | Coréen |
Comme les jeux de caractères énumérés ci-dessus ont des limites de capacité et ne sont pas compatibles avec des environnements multilingues, l'Union Unicode a développé la norme Unicode.
La norme Unicode couvre tous les caractères, points de suspension et symboles du monde.
Que ce soit sur quel support, programme ou langage, Unicode peut traiter, stocker et échanger des données textuelles.
L'Union Unicode a développé la norme Unicode. Leur objectif est de remplacer les jeux de caractères existants par un format de conversion Unicode standard (UTF).
La norme Unicode a eu du succès, dans XML, Java, ECMAScript (JavaScript), LDAP, CORBA 3.0, dans WML, Unicode est déjà mis en œuvre. Unicode est également pris en charge dans de nombreux systèmes d'exploitation et dans tous les navigateurs modernes.
l'Union Unicode collabore avec des organisations de développement de normes de pointe, telles que l'ISO et la W3C et ECMA.
Unicode peut être compatible avec différentes collections de caractères. Le codage le plus couramment utilisé est UTF-8 et UTF-16:
collection de caractères | description |
---|---|
UTF-8 | UTF8 les caractères peuvent être 1-4 long de plusieurs octets. UTF-8 peut représenter n'importe quel caractère du standard Unicode. UTF-8 est compatible avec ASCII. UTF-8 est le codage préféré pour les pages Web et les e-mails. |
UTF-16 | 16 le format de conversion Unicode d'un bit est un codage de caractères Unicode variable qui peut coder l'ensemble des instructions Unicode. UTF-16 principalement utilisés dans les systèmes d'exploitation et les environnements, comme Windows de Microsoft 2000/XP/2003/Vista/CE ainsi que les environnements de code binaire Java et .NET. |
Avis : les caractères les plus anciens 256 les caractères de la collection Unicode correspondent à 256 ISO-8859-1 caractères.
Avis : tous les HTML 4 les traiteurs sont maintenant compatibles UTF-8tous les XHTML et les traiteurs XML supportent UTF-8 et UTF-16!