Encodeur et décodeur UTF-8 — Convertir du texte en octets UTF-8 en ligne

Convertissez du texte en représentation d'octets UTF-8 au format hex, décimal, binaire ou encodé en pourcentage. Décodez des séquences d'octets UTF-8 en texte lisible. Consultez le nombre de caractères, le nombre d'octets et les détails d'encodage.

Texte → octets UTF-8

Format de sortie

Octets UTF-8 → texte

Format d'entrée

Comment fonctionne l'encodage UTF-8

UTF-8 est l'encodage de caractères dominant sur le web, utilisé par plus de 98 % des sites. Il encode chaque point de code Unicode en un à quatre octets, ce qui le rend rétrocompatible avec l'ASCII tout en prenant en charge chaque caractère de la norme Unicode — y compris les emoji, les caractères CJK et les symboles mathématiques.

Les caractères ASCII (U+0000 à U+007F) utilisent un seul octet, identique à leurs valeurs ASCII. Les caractères en dehors de cette plage utilisent 2 à 4 octets, les bits de tête indiquant le nombre d'octets. Cet encodage à longueur variable garde le texte anglais compact tout en prenant en charge toutes les écritures du monde.

Plages d'octets UTF-8

  • 1 octet (0xxxxxxx) : caractères ASCII U+0000–U+007F (A-Z, 0-9, ponctuation de base)
  • 2 octets (110xxxxx 10xxxxxx) : latin, grec, cyrillique, arabe, hébreu U+0080–U+07FF
  • 3 octets (1110xxxx 10xxxxxx 10xxxxxx) : CJK, la plupart des emoji, symboles U+0800–U+FFFF
  • 4 octets (11110xxx 10xxxxxx 10xxxxxx 10xxxxxx) : caractères rares, drapeaux, emoji étendus U+10000–U+10FFFF

Cas d'usage courants

  • Déboguer les problèmes d'encodage lorsque le texte apparaît brouillé (mojibake)
  • Inspecter la représentation au niveau de l'octet pour les protocoles réseau
  • Vérifier l'encodage correct dans les bases de données et les systèmes de fichiers

FAQ

Quelle est la différence entre UTF-8 et Unicode ?

Unicode est un jeu de caractères qui attribue un numéro unique (point de code) à chaque caractère. UTF-8 est un encodage qui définit la manière dont ces points de code sont stockés sous forme d'octets. Unicode définit quels caractères existent ; UTF-8 définit comment les représenter en binaire.

Pourquoi certains caractères utilisent-ils plus d'octets que d'autres en UTF-8 ?

UTF-8 utilise un encodage à longueur variable par souci d'efficacité. Les caractères ASCII (les plus courants en anglais) n'utilisent qu'un seul octet, ce qui garde le texte compact. Les caractères moins courants utilisent 2 à 4 octets. Cette conception rend UTF-8 rétrocompatible avec ASCII tout en prenant en charge tous les caractères Unicode.

Comment savoir si un texte est encodé en UTF-8 ?

Examinez les motifs d'octets : les séquences multi-octets UTF-8 commencent toujours par des motifs de bits spécifiques (110, 1110 ou 11110) suivis d'octets de continuation commençant par 10. Si les octets respectent ces motifs, le texte est probablement en UTF-8. Des séquences invalides indiquent un encodage différent.

Qu'est-ce qui provoque le texte illisible (mojibake) et comment le corriger ?

Le mojibake se produit lorsqu'un texte encodé dans un format (par exemple UTF-8) est décodé à l'aide d'un format différent (par exemple Latin-1). Pour le corriger, identifiez l'encodage d'origine en examinant la séquence d'octets, puis décodez avec le bon encodage. Cet outil vous aide à inspecter les octets pour diagnostiquer les problèmes d'encodage.

Outils associés