Unicode testu-karaktereak edozein hizkuntzatan informatikoki adierazteko balio duenkodifikazio-sistema standar erabiliena da. UNICODEkoUTF-8 kodetze-modua erabiliena da egun. Alfabeto guztiak (latindarra,grekoa,zirilikoa,arabiarra...) erabiltzeko aukera eskaintzen du.
Sistema berri horren zabalpena orokorra da: bestekodifikazio-sistemak ordezkatzen ari da, horiek ezin baitituzte hainbat hizkuntzatako karaktere asko adierazi. Gaur egun, nazioarteko proiektu gehienetan erabiltzen den estandarraUTF-8 da; teknologia berri gehienek darabilte.Unicode Technical Committee (UTC) erakundeak kudeatzen du; hor, enpresa hauek parte hartzaileak dira:Microsoft,Apple,Adobe,IBM,Oracle,SAP,Google etaYahoo!.Berkeley-ko Unibertsitateak ere esku hartzen du, bai eta zenbait akademikok eta profesionalek ere.[1] 1991z Unicode Consortium eta ISO/IEC erakundeak ados jartzen dira karakteren kode berak erabiltzeko.
Lehenago, karaktere latinoentarako erabiltzen zenASCII karaktere multzoan oinarrituta dago, hizkuntza guztien karaktereak kodetzea ahalbidetzearren 16biteko eredu bat hartu zuen hasieran, kontrol-kodeak edo ihes-sekuentziak sartu beharrik gabe.
Unicode kodetze-balioak zenbaki osoen bidez identifikatzen dira. Bere arkitekturaren arabera, ordenagailuak 8, 16 edo 32 biteko unitateak erabiltzen ditu zenbaki oso horiek adierazteko. Unicoderen kodetze moduek arautzen dute alfabeto bakoitzeko karaktere bakoitzari zein balio dagokion.
Unicodek hiru kodetze-modu definitzen ditu UTF (Unicode Transformation Format: Unicoderen transformazio-formatua) izenaren pean.
UTF-8: 8 biteko kodetzea, alegia byte batekoa, luzera aldakorreko ikurrak dituena.
UTF-16: 16 biteko kodetzea, luzera aldakorreko ikurrak dituena eta oinarrizko plano eleanitzerako (BMPrako) optimizatua.
UTF-32: 32 biteko kodetzea, luzera finkoko ikurrak dituena.