Unicode
Unicode est un universel Encodage de caractère la norme. Il définit la manière individuelle caractères sont représentés dans des fichiers texte, les pages Webet d'autres types de documents.
contrairement à ASCII, qui a été conçu pour représenter uniquement les caractères anglais de base, Unicode a été conçu pour prendre en charge les caractères de toutes les langues du monde. Le jeu de caractères ASCII standard ne prend en charge que les caractères 128, tandis qu'Unicode peut prendre en charge les caractères 1,000,000 à peu près. Si ASCII n’utilise qu’un seul octet Pour représenter chaque caractère, Unicode prend en charge jusqu'à 4 octets pour chaque caractère.
Il existe plusieurs types de codages Unicode, bien que UTF-8 et UTF-16 sont les plus courants. UTF-8 est devenu le codage de caractères standard utilisé sur le Web et est également le codage par défaut utilisé par beaucoup logiciel programmes. Bien que UTF-8 prenne en charge jusqu'à quatre octets par caractère, il serait inefficace d'utiliser quatre octets pour représenter les caractères fréquemment utilisés. Par conséquent, UTF-8 utilise un seul octet pour représenter les caractères anglais courants. Les caractères européens (latins), hébreux et arabes sont représentés par deux octets, tandis que trois octets sont utilisés pour les caractères chinois, japonais, coréen et autres caractères asiatiques. Les caractères Unicode supplémentaires peuvent être représentés avec quatre octets.