Movatterモバイル変換


[0]ホーム

URL:


Edukira joan
WikipediaEntziklopedia askea
Bilatu

UTF-8

Wikipedia, Entziklopedia askea
UNICODE logoa

Informatikan,UTF-8 (8bitekoUnicode Transformazio Formatua) testuetakokaraktereak kodetzeko modu bat da. Munduan zehar erabiltzen diren alfabeto guztiak erabiltzeko aukera ematen du (latindar alfabetoa,grekoak,ziriliko‎,arabiarra...

UNICODEkoUTF-8 kodetze-modua erabiliena da gaur egunean. UTF-8Weberako bereziki kodeketa ohikoena da, baita bigarrena baina askoz gehiago erabilia ere. 2020an Web orrialde guztien %95 baino gehiago dira UTF-8-rekin kodetuta daudenak. Are gehiago, % 100-ra arte ailegatu zen 2020an hizkuntza batzuetarako.

Sareko kodeketa nagusien erabilera 2001tik 2012ra.[1]

UTF-8 estandarra beti erabiltzeko aholkua

[aldatu |aldatu iturburu kodea]

Landu behar dituen testu-fitxategi guztiak UTF-8 kodekeran jartzea komeni zaio Informatikariari. Horrela etorkizuneko hainbat arazo ekidingo du hasiera-hasieratik. Linux sistema eragilekoiconv komandoa guztiz lagungarria da horretan; fitxategi berri bat jasotzen duen bakoitzean, informatikariak fitxategiaren kodetze-modua zein den jakin beharko du, eta UTF-8 ez bada, momentuan sortu beharko du fitxategiaren UTF-8 bertsioa (iconv komandoa erabiliz, esaterako).[2]

Adibidez,testukk.txt fitxategiaISO-8859-1 kodekeratikUTF-8 kodekera pasa eta emaitzatestukk_utf8.txt fitxategian gorde:

$iconv-fISO-8859-1-tUTF-8-otestukk_utf8.txttestukk.txt

Zabalera aldakorreko errepresentazioa

[aldatu |aldatu iturburu kodea]

Zabalera aldakorra erabiltzen duUTF-8k, kasu batzuetan karaktere bat errepresentatzekobyte bat (8 bit) erabiltzen du, eta beste kasu batzuetan byte gehiago, lau byte arteraino, eta horrelaUnicodeko 1.112.064 kode desberdin[nb 1] (kode-puntu) definitzeko gai da. Kodetzeko moduaUnicode estandarrak definitu zuen etaKen Thompson-ek etaRob Pike-k diseinatu zuten.[3] Izena sigla bat da,Unicode (edoUniversal Coded Character Set )TransformazioFormat(8 bit)kontzeptutik eratorria da.

'ñ' karakterea etaUTF-8 kudeaketa

ASCIIrekin bateragarria izateko diseinatu zen. Zenbaki baxuenak dituzten kode-balioak (kode-puntuak) maizago gertatzen diren karaktereak errepresentatzeko erabiltzen dira; horrela byte gutxiagorekin kodetzen dira. Unicodeko lehen 128 karaktereak ASCIIkoak dira, ASCIIko balio bitar bera dute eta horiexek dira byte bakarra erabiltzen dutenak. Beraz, ASCIIz ondo kodetutako testu batUTF-8-z ondo kodetutako testua ere bada. Baina testuan agertzen bada ASCII multzoan ez dagoen karaktererik, bat baino ez bada ere, esate baterako 'ñ' letra bat edo 'ü' letra bat, orduan arazoak sortuko dira fitxategi horren erabileran fitxategi osoaUTF-8rekin kodetu ez bada.[4]

Byte kopuruaKode-puntu bakoitzeko

bit kopurua

Lehen kode-puntuaAzken kode-puntuaByte 1Byte 2Byte 3Byte 4
17U+0000U+007F0xxxxxxx
211U+0080U+07FF110xxxxx10xxxxxx
316U+0800U+FFFF1110xxxx10xxxxxx10xxxxxx
421U+10000U+10FFFF11110xxx10xxxxxx10xxxxxx10xxxxxx

Adibide batzuk:

CharacterKodearen puntuaUTF-8
ZortzitarraBitarraBitarraZortzitarraHamaseitarra
$U+0024044010 01000010010004424
¢U+00A20242000 1010 001011000010 10100010302 242C2 A2
U+09390044710000 1001 0011 100111100000 10100100 10111001340 244 271E0 A4 B9
U+20AC0202540010 0000 1010 110011100010 10000010 10101100342 202 254E2 82 AC
U+D55C1525341101 0101 0101 110011101101 10010101 10011100355 225 234ED 95 9C
𐍈U+1034802015100 0001 0000 0011 0100 100011110000 10010000 10001101 10001000360 220 215 210F0 90 8D 88

Oharrak

[aldatu |aldatu iturburu kodea]
  1. 17planes times 216 code points per plane, minus 211 technically-invalidsurrogates.

Erreferentziak

[aldatu |aldatu iturburu kodea]
  1. (Ingelesez)«Unicode over 60 percent of the web» Official Google Blog (Noiz kontsultatua: 2020-06-12).
  2. «iconv(1) - Linux manual page» www.man7.org (Noiz kontsultatua: 2020-06-12).
  3. Email Subject: UTF-8 history, From: "Rob 'Commander' Pike", Date: Wed, 30 Apr 2003...,...UTF-8 was designed, in front of my eyes, on a placemat in a New Jersey diner one night in September or so 1992...So that night Ken wrote packing and unpacking code and I started tearing into the C and graphics libraries. The next day all the code was done...
  4. «Usage Survey of Character Encodings broken down by Ranking» w3techs.com (Noiz kontsultatua: 2020-06-12).

Kanpo estekak

[aldatu |aldatu iturburu kodea]
Autoritate kontrola

"https://eu.wikipedia.org/w/index.php?title=UTF-8&oldid=8818368"(e)tik eskuratuta
Kategoria:

[8]ページ先頭

©2009-2025 Movatter.jp