Unicode és unestàndard internacional de codificació de caràcters, per a suportsinformàtics. Permet emmagatzemar qualsevol mena d'escriptura que es faci servir actualment, moltes formes d'escriptura conegudes només pels estudiosos, i símbols com ara els símbols matemàtics, lingüístics, i APL.[1]
Unicode vol reemplaçar tots els codis de caràcters existents. És el conjunt de caràcters més complet, i ha esdevingut l'opció a triar als entorns multilingües. Molts estàndards recents ja l'han adoptat,[4] per exempleXML, Java, isistemes operatius moderns.
Les computadores fan servir 8, 16, o 32 bits per representar els caràcters. Unicode té tres formes de codificació amb el nomUTF (Unicode transformation format, en català format de transformació Unicode):[6]
Elsesquemes de codificació tracten de la forma en què es serialitza la informació.[6] La seguretat fa determinar l'ordre correcte dels bits, per reconstruir la informació. Una diferència fonamental entreprocessadors és l'ordre de disposició dels bytes, amb paraules de 16 o 32 bits, això es diuendianness. Els esquemes de codificació han de garantir que els extrems d'una comunicació saben com interpretar la informació rebuda. A partir de les 3 formes de codificació es defineixen 7 esquemes. Tot i que comparteixen noms, no s'ha de confondre esquemes i formes de codificació.
Unicode defineix una marca especial, lamarca d'ordre de bytes (BOM,Byte Order Mark), a l'inici d'un arxiu o d'una comunicació per dir quina és l'ordenació de bytes. Quan un protocol superior especifica l'ordre de bytes, no cal cap marca. Es pot ometre, donant lloc als esquemes de la llista anterior amb sufixBE oLE. Als esquemes UTF-16 i UTF-32, que admeten BOM, si aquest no s'especifica, es suposa que l'ordenació de bytes ésbig-endian.
La unitat de codificació en UTF-8 és el byte, per tant no cal cap indicació d'ordre de byte. L'estàndard ni demana ni recomana la utilització de BOM, però l'admet com a marca de que el text és Unicode, o com a resultat de la conversió d'uns altres esquemes.
↑The Unicode Consortium. «Appendix C. Relationship to ISO/IEC10646». A: Julie D. Allen, Joe Becker (et al.).Unicode 5.0 estàndard (en anglès). Addisson-Wesley, octubre de 2006.ISBN 0-321-48091-0 [Consulta: 1r juliol 2014].