Codificador e Decodificador UTF-8 — Converta Texto em Bytes UTF-8 Online

Converta texto em representação de bytes UTF-8 nos formatos hex, decimal, binário ou codificado em porcentagem. Decodifique sequências de bytes UTF-8 de volta para texto legível. Veja a contagem de caracteres, a contagem de bytes e os detalhes de codificação.

Texto → Bytes UTF-8

Formato de saída

Bytes UTF-8 → Texto

Formato de entrada

Como funciona a codificação UTF-8

UTF-8 é a codificação de caracteres dominante na web, usada por mais de 98% dos sites. Codifica cada ponto de código Unicode em um a quatro bytes, tornando-a retrocompatível com ASCII e suportando ao mesmo tempo todos os caracteres do padrão Unicode — incluindo emojis, caracteres CJK e símbolos matemáticos.

Os caracteres ASCII (U+0000 a U+007F) usam um único byte, idêntico aos seus valores ASCII. Os caracteres fora deste intervalo usam de 2 a 4 bytes, com os bits iniciais a indicar a quantidade de bytes. Esta codificação de comprimento variável mantém o texto em inglês compacto, ao mesmo tempo que suporta todos os sistemas de escrita do mundo.

Intervalos de bytes do UTF-8

  • 1 byte (0xxxxxxx): caracteres ASCII U+0000–U+007F (A-Z, 0-9, pontuação básica)
  • 2 bytes (110xxxxx 10xxxxxx): latim, grego, cirílico, árabe, hebraico U+0080–U+07FF
  • 3 bytes (1110xxxx 10xxxxxx 10xxxxxx): CJK, maioria dos emojis, símbolos U+0800–U+FFFF
  • 4 bytes (11110xxx 10xxxxxx 10xxxxxx 10xxxxxx): caracteres raros, bandeiras, emojis estendidos U+10000–U+10FFFF

Casos de uso comuns

  • Depurar problemas de codificação quando o texto aparece corrompido (mojibake)
  • Inspecionar a representação ao nível dos bytes para protocolos de rede
  • Verificar a codificação correta em bases de dados e sistemas de ficheiros

Perguntas frequentes

Qual é a diferença entre UTF-8 e Unicode?

Unicode é um conjunto de caracteres que atribui um número único (ponto de código) a cada caractere. UTF-8 é uma codificação que define como esses pontos de código são armazenados como bytes. O Unicode define quais caracteres existem; o UTF-8 define como representá-los em binário.

Por que alguns caracteres usam mais bytes do que outros em UTF-8?

O UTF-8 usa codificação de comprimento variável por questões de eficiência. Os caracteres ASCII (os mais comuns em inglês) usam apenas 1 byte, mantendo o texto compacto. Os caracteres menos comuns usam de 2 a 4 bytes. Este design torna o UTF-8 retrocompatível com ASCII, ao mesmo tempo que suporta todos os caracteres Unicode.

Como posso saber se um texto está codificado em UTF-8?

Observe os padrões de bytes: as sequências multibyte do UTF-8 começam sempre com padrões de bits específicos (110, 1110 ou 11110) seguidos de bytes de continuação que começam com 10. Se os bytes seguirem estes padrões, o texto é provavelmente UTF-8. Sequências inválidas indicam uma codificação diferente.

O que causa texto corrompido (mojibake) e como o corrijo?

O mojibake ocorre quando um texto codificado num formato (por exemplo, UTF-8) é descodificado usando um formato diferente (por exemplo, Latin-1). Para o corrigir, identifique a codificação original examinando a sequência de bytes e, em seguida, descodifique com a codificação correta. Esta ferramenta ajuda-o a inspecionar bytes para diagnosticar problemas de codificação.

Ferramentas relacionadas