Movatterモバイル変換

UTF-32/UCS-4

Origem: Wikipédia, a enciclopédia livre.

Este artigonão citafontes confiáveis. Ajude ainserir referências. Conteúdo nãoverificável pode ser removido.—Encontre fontes:Google (N • L • A • I • WP refs) • ABW • CAPES(julho de 2016)

Série Unicode

UTF-32 ouUCS-4 são nomes alternativos para o método de codificação de caracters, usando a quantidade fixa de exatamente 32bits para cadacaractere Unicode.

Ele pode ser considerado como a forma de codificação mais simples, como todos os outrosUnicode Transformation Formats (emportuguês:Formato de Transformação Unicode) possui codificação de comprimento variável para vários code points.

No entanto, o UTF-32 usa 4 bytes para cada caractere, que é considerado ineficiente. Especificamente, caracteres que não pertencem aoPlano Básico Multilingual (PBM) são tão raros em quase todos os textos que eles podem ser considerados como pouco importantes para discussões importantes. Isto significa que UTF-32 é geralmente pelo menos o dobro ou quatro vezes maior que o tamanho normal das outras codificações.

Também, enquanto um número fixo de bytes por ponto de código pareça ser conveniente de primeiro, não é. Torna o truncamento levemente mais fácil, mas não tão significativo deUTF-8 eUTF-16. Não faz o cálculo de largura de uma string exibida mais fácil, exceto em casos muito limitados; mesmo com uma fonte de "tamanho fixo" pode haver mais que um ponto de código por posição de caractere (marcas combinadas) (por exemplo ideógrafosCJK). Combinando marcas também quer dizer que os editores não podem tratar um ponto de código como se fosse uma unidade para edição.

Por estas razões o UTF-32 é pouco utilizado na prática, comUTF-8 eUTF-16 sendo o método comum de codificar texto Unicode.

História

[editar |editar código]

O padrão originalISO 10646 define umaforma de codificação de 31-bit chamado deUCS-4, em que cadacaractere codificado em noConjunto Universal de Caracteres (UCS em inglês) é representado por umvalor de código amigavel de 32-bit em umespaço de código de inteiros entre 0 ehexadecimal 7FFFFFFF.

UCS-4 é suficiente para representar todo o espaço unicode, que possui 1114112 (= 2²⁰+2¹⁶) pontos de código e portanto requer no máximo 10FFFF(hexadecimal). Algumas pessoas consideram que é um desperdício reservar um espaço tão grande de código para mapear um conjunto relativamente pequeno de pontos de código, então uma nova codificação, UTF-32, foi proposta. UTF-32 é um subconjunto do UCS-4 que usa valores de código de 32-bit somente do espaço de código de 0 a 10FFFF.

UTF-32 Era originalmente somente um subconjunto do padrão UCS-4, mas oDocumento de Principios e Procedimentos deJTC1/SC2/WG2 afirmou que todas as atribuições futuras de caracteres serão limitados ao PBM (BMP) ou os primeiros 14 planos suplementares e removeu antigas provisões para posições de código privadas nos grupos de 60 a 7F e nos planos de E0 a FF.

De acordo com UCS-4 e UTF-32 agora podem ser considerados identicos, salvo que o padrão UTF-32 possui semantica Unicode adicional que precisa ser observada.

Ligações externas

[editar |editar código]

Em inglês

The Unicode Standard 4.1, chapter 3 - formally defines UTF-32 in §3.10, D43-D45
Unicode Standard Annex #19 - formally defined UTF-32 for Unicode 3.x (March 2001; last updated March 2002)
Registration of new charsets: UTF-32, UTF-32BE, UTF-32LE - announcement of UTF-32 being added to the IANA charset registry (April 2002)

Obtida de "https://pt.wikipedia.org/w/index.php?title=UTF-32/UCS-4&oldid=63095524"

Categoria:

Unicode

Categorias ocultas:

[8]ページ先頭