Encodage de caractère
Alors que nous considérons les documents texte comme des lignes de texte, les ordinateurs les voient en réalité binaire données, ou une série de uns et de zéros. Par conséquent, la caractères au sein d'un document texte doit être représenté par des codes numériques. Pour ce faire, le texte est enregistré à l’aide d’un ou plusieurs types de codage de caractères.
Les types les plus populaires d’encodage de caractères sont ASCII et Unicode. Bien que l'ASCII soit encore pris en charge par presque tous les éditeurs de texte, Unicode est plus couramment utilisé car il prend en charge un jeu de caractères plus étendu. Unicode est souvent défini en tant que UTF-8, UTF-16 ou UTF-32, qui font référence à différents standards Unicode. UTF signifie "Unicode Transformation Format" et le nombre indique le nombre de les bits utilisé pour représenter chaque personnage. Depuis le début de l'informatique, les personnages ont été représentés par au moins un octet (Bits 8), c’est pourquoi les différentes normes Unicode enregistrent les caractères dans des multiples de bits 8.
Bien que les types de codage de caractères les plus courants soient ASCII et Unicode, d’autres normes de codage peuvent également être utilisées pour: encoder fichiers texte. Par exemple, il existe plusieurs types de normes de codage de caractères spécifiques à une langue, telles que les normes occidentales, latino-américaines, japonaise, coréenne et chinoise. Alors que les langues occidentales utilisent des caractères similaires, les langues orientales exigent un jeu de caractères complètement différent. Par conséquent, un codage latin ne prend pas en charge les symboles nécessaires pour représenter un texte. un magnifique en chinois. Heureusement, les normes modernes telles que UTF-16 prennent en charge un jeu de caractères suffisamment important pour représenter les lettres et symboles occidentaux et orientaux.