Manuel de référence HTML

Toute la collection des balises HTML

Manuel de référence ASCII HTML Association des couleurs HTML

Jeux de caractères HTML

Le jeu de caractères détermine comment les octets représentant le texte de votre document HTML sont traduits en caractères lisibles. Il peut être conforme à ISO010646 Le code point explique le nombre ou la référence en hexadécimal ("〹" ou "ሴ") est conforme à la version standard Unicode 2.0 est conforme et indépendant du jeu de caractères sélectionné.

Jeux de caractères HTML

Pour afficher correctement une page HTML, le navigateur doit savoir quel jeu de caractères utiliser.

Le jeu de caractères utilisé à l'origine sur le World Wide Web était ASCII. ASCII supporte 0-9 des nombres, de l'alphabet anglais majuscules et minuscules, ainsi que certains caractères spéciaux.

Manuel complet de l'ASCII.

Comme de nombreux pays utilisent des caractères qui ne font pas partie de l'ASCII, le jeu de caractères par défaut des navigateurs modernes est ISO-8859-1.

Manuel complet ISO-8859-1 Manuel de référence.

Si le site Web utilise un jeu de caractères différent de l'ISO-8859-1 des jeux de caractères, doivent être spécifiés dans l'étiquette <meta>.

Jeu de caractères ISO

Les jeux de caractères ISO sont des normes internationales (ISO) pour différents alphabets/Jeu de caractères standard défini pour la langue.

Ci-dessous est énuméré les différents jeux de caractères utilisés dans le monde entier :

collection de caractères	description	Portée d'utilisation
ISO-8859-1	Partie alphabet latin 1	Amérique du Nord, Europe occidentale, Amérique latine, Caraïbes, Canada, Afrique
ISO-8859-2	Partie alphabet latin 2	Europe de l'Est
ISO-8859-3	Partie alphabet latin 3	Europe de l'Est, langage universel, divers éléments
ISO-8859-4	Partie alphabet latin 4	Scandinave/Baltique (et d'autres qui ne sont pas inclus dans ISO-8859-1 dans certaines parties)
ISO-8859-5	Latin/Partie cyrillique 5	Les langues utilisant l'alphabet slave ancien, telles que le bulgare, le biélorusse, le russe, le macédonien
ISO-8859-6	Latin/Partie arabe 6	Les langues utilisant l'alphabet arabe
ISO-8859-7	Latin/Partie grecque 7	Langue grecque moderne, ainsi que les symboles mathématiques dérivés du grec
ISO-8859-8	Latin/Partie hébraïque 8	Les langues utilisant l'hébreu
ISO-8859-9	Latin 5 part 9	La langue turque. À l'exception des caractères turcs qui ont remplacé les caractères islandais, les autres sont compatibles avec ISO-8859-1 .
ISO-8859-10	Latin 6	Langue lapone, langue germanique, langue eskimaque nordique
ISO-8859-15	Latin 9 (alias Latin 0)	Avec ISO 8859-1 De même, le symbole de l'euro et d'autres caractères ont remplacé certains caractères moins utilisés
ISO-2022-JP	Latin/Partie japonaise 1	Langue japonaise
ISO-2022-JP-2	Latin/Partie japonaise 2	Langue japonaise
ISO-2022-KR	Latin/Partie coréenne 1	Coréen

La norme Unicode

Comme les jeux de caractères énumérés ci-dessus ont des limites de capacité et ne sont pas compatibles avec des environnements multilingues, l'Union Unicode a développé la norme Unicode.

La norme Unicode couvre tous les caractères, points de suspension et symboles du monde.

Que ce soit sur quel support, programme ou langage, Unicode peut traiter, stocker et échanger des données textuelles.

L'Union Unicode

L'Union Unicode a développé la norme Unicode. Leur objectif est de remplacer les jeux de caractères existants par un format de conversion Unicode standard (UTF).

La norme Unicode a eu du succès, dans XML, Java, ECMAScript (JavaScript), LDAP, CORBA 3.0, dans WML, Unicode est déjà mis en œuvre. Unicode est également pris en charge dans de nombreux systèmes d'exploitation et dans tous les navigateurs modernes.

l'Union Unicode collabore avec des organisations de développement de normes de pointe, telles que l'ISO et la W3C et ECMA.

Unicode peut être compatible avec différentes collections de caractères. Le codage le plus couramment utilisé est UTF-8 et UTF-16：

collection de caractères	description
UTF-8	UTF8 les caractères peuvent être 1-4 long de plusieurs octets. UTF-8 peut représenter n'importe quel caractère du standard Unicode. UTF-8 est compatible avec ASCII. UTF-8 est le codage préféré pour les pages Web et les e-mails.
UTF-16	16 le format de conversion Unicode d'un bit est un codage de caractères Unicode variable qui peut coder l'ensemble des instructions Unicode. UTF-16 principalement utilisés dans les systèmes d'exploitation et les environnements, comme Windows de Microsoft 2000/XP/2003/Vista/CE ainsi que les environnements de code binaire Java et .NET.

Avis : les caractères les plus anciens 256 les caractères de la collection Unicode correspondent à 256 ISO-8859-1 caractères.

Avis : tous les HTML 4 les traiteurs sont maintenant compatibles UTF-8tous les XHTML et les traiteurs XML supportent UTF-8 et UTF-16!

Manuel de référence ASCII HTML Association des couleurs HTML