Movatterモバイル変換


[0]ホーム

URL:


コンテンツにスキップ
Wikipedia
検索

文字コード

出典: フリー百科事典『ウィキペディア(Wikipedia)』

文字コード(もじコード、:character encoding)とは、識別番号を用いて文字などの記号を表す規則である。一般的に、通信技術やコンピュータで使用されるものを指す。文字エンコード[1]または文字エンコーディング[2]とも呼ばれる[3]

概説

[編集]

コンピュータや通信などでは、情報は全て二進数デジタルデータ(1と0の数値の列)形式で表されている。そのため、文字などを直接的に表現・記録することはできない。データを文字として扱うためには、各文字に通し番号(二進数からなる数値)を割り当て、その対応規則から文字情報を参照する体系が必要である。この体系が文字エンコードである。

文字エンコードで定義される文字は、キャラクタまたは符号化文字(英:coded character)[4]と呼ばれる。キャラクタは、自然言語文字数字句読点、その他の記号、そして表示に関わる要素(制御文字)などが含まれる。体系内で登録される全てのキャラクタは符号化文字集合(英:coded character set )と呼ばれ、キャラクタに対応している数値は符号値(英:code value)と呼ばれる[4]

例えば、文字エンコードの一つUTF-8では、英文字「A」は8ビット値「01000001」と対応(紐付け)してる。コンピュータファイル内の情報はこのビット値で管理・保存されているが、テキストエディタなどのアプリケーションでファイルを読み込む(この際、手動か自動でUTF-8の文字エンコードが選択される)と、数値は変換され画面上で文字として表示される。

現在、ASCIIISO/IEC 8859UnicodeUTF-8およびUTF-16)などの文字エンコードが使用されている。その中でも、国際規格として策定されたUnicodeが最も普及している。2024時点、ウェブで使用されている文字エンコードの98%以上がUTF-8である[5]

歴史

[編集]

1870年代にはフランスの電信技術者のエミール・ボドーが、5ビットと文字・記号類を対応させるコードを発明し、1876年に、そのコードを用いる電信装置の特許をフランスで取得した(この装置に使われている5ビットのコードがBaudot Code(ボドー・コード)として知られるようになった)。

1958年から1959年にかけて、日本のコード会が文字コード案を作った。

1963年には、アメリカの情報通信用の文字コードとして7ビットのASCII(アスキー、英: American Standard Code for Information Interchange の略)がアメリカ規格協会(ASA)で制定された。1964年にはIBM社がSystem/360とともにEBCDICという文字コード、4ビットのBCDを8ビットに拡張した文字コードを発表した。

類似の用語

[編集]

文字エンコーディングに関わる用語は頻繁に誤解・誤用される[6]。下記では、用語の実際の使われ方と意味を紹介する。

文字エンコーディング/文字エンコード

[編集]

「文字コード」という呼称は、頻繁に「符号値」と同じ意味で用いられる。つまり、文字と番号を対応させる体系だけではなく、"文字に与えられた数値・番号そのもの"を指した言葉としても使用される。一方、W3Cでは、文字コードを「文字エンコーディング」と訳しており、英語「character encoding」の直訳に近い表現となっている[2]。また、IBMは「文字エンコード」という訳を使用している[1]

コードセット

[編集]

この語はたとえば、ソフトウェアの実装において、任意の文字コードが扱えるよう実装すること(たとえばruby 1.9のStringオブジェクト)を指してコードセット独立(CodeSet Independent, CSI)といったように使われる[7]

キャラクタセット

[編集]

MIMEではキャラクタセット英語:charsetまたはcharacter set)という概念が用いられる。言葉通りには「文字集合」であるが、実際に意味しているものは文字コードに近い。この「キャラクタセット」は「オクテットの並びを文字の並びに変換する方式」などと定義されている[8]。MIMEで実現する電子メールメッセージなどの処理を主眼に置いた概念である。インターネット上で用いることのできる「キャラクタセット」の登録と公開はIANAが行っている(「外部リンク」参照)。

文字マップ

[編集]

Unicode文字符号化モデルでは、文字列をバイト列に変換する4段階の操作を総称して文字マップ:character map; CM)と呼ぶ[9]

コードページ

[編集]

IBMマイクロソフトは独自に文字コードに番号(コードページ)を振って管理している。

外字

[編集]
→詳細は「外字」を参照

外字とは表外字(規格表の外の文字)の略であり、ユーザがデザインして用いるユーザ定義文字や、メーカーなどが定義した環境依存文字(いわゆる機種依存文字)もしくはベンダ拡張漢字のことを指す。

外字というユーザが独自に文字を登録できる領域がある文字コードは複数存在する。Unicodeにおいては6,400+131,072文字の「PUA(Private Use Area=私用領域)」があり、Windows-31J(Microsoft Windows Codepage 932)にも1,880文字の外字領域がある。ユーザが独自にフォントを登録した文字(ユーザ定義文字)は、文書の交換時に配慮しない限りは他の環境で読むことができないため、互換性の上で重大な問題を引き起こす場合がある。ベンダ拡張文字の場合は、ユーザが表外字でないことを認識せずに利用してしまうことがあるため、より重大な問題を引き起こす(例として挙げれば、Windows環境(CP932)のローマ数字がMac環境では化けて表示されるなど)。

JIS規格においては、JIS X 0208で定義された文字集合に対してEUC-JPまたはShift_JISによる符号化を行う際、1〜94区に対応しない領域(EUC-JPやShift_JISでは94区に94点をかけた8,836を超える文字が定義可能であるため)や、1〜94区の範囲内であっても文字が定義されていない箇所(JIS X 0208には、そのような空き領域が複数存在している)に外字を入れる実装が存在した。1997年改正(JIS X 0208:1997)ではShift_JIS符号化およびEUC-JP符号化も規格で規定することにより、空き領域を外字として使用することが原則禁止された。またJIS X 0213:2000では、主要なベンダ外字の文字を規格に入れて94区までの空き領域をなくしたことで、94区までの区間内の外字を扱える箇所をなくし、2面を使用した実装水準4を選択する場合にはShift_JIS-2004符号化の場合、94区外の領域も埋まるため、外字を入れることが可能な領域がなくなった。

文字コードの一覧(一部)

[編集]

1バイト系文字コード(符号化文字集合)

[編集]

1バイト系文字コードは、俗に「半角文字」と呼ばれることもある。

2バイト系符号化文字集合

[編集]

2バイト系文字コードは、俗に「全角文字」と呼ばれることもある。

文字符号化方式と文字コード(キャラクタセット)

[編集]

大規模文字集合

[編集]
→「大規模文字セット」を参照

ISO/IEC 10646およびUnicode

[編集]
  • Unicode
  • ISO/IEC 10646(UCS、JIS X 0221)※ISO/IEC 10646-1とISO/IEC 10646-2はISO/IEC 10646:2003で統合された。同様にJIS X 0221-1はJIS X 0221:2007で改訂された。JIS X 0221のうち、「日本文字部分レパートリ」はJIS X 0221 附属書JAという制限部分集合として定義する。

Unicode の文字符号化方式

[編集]

印刷業界の文字集合

[編集]

印刷業界においては、公的な文字コード規格では包摂されている異体字グリフの相違を厳密に区別したいというニーズが強く存在する。そのため、そのようなニーズに応える文字集合が企業主導で策定されている。一般的な情報交換に用いられることはない。

  • Adobe-Japan1文字コレクション
    • Adobe-Japan1-0
    • Adobe-Japan1-1(JIS X 0208-1990、MacJapanese対応)
    • Adobe-Japan1-2(IBM拡張文字に対応)
    • Adobe-Japan1-3(OpenType Std)
    • Adobe-Japan1-4(OpenType Pro)
    • Adobe-Japan1-5(OpenType Pr5、JIS X 0213にほぼ対応)
    • Adobe-Japan1-6(OpenType Pr6、JIS X 0212・U-PRESS対応)
    • Adobe-Japan1-7(「令和元号合字対応)
  • Adobe-Japan2文字コレクション
    • Adobe-Japan2-0(Adobe-Japan1-6に統合され廃止)
  • Adobe-GB1文字コレクション(簡体字中国語
    • Adobe-GB1-0
    • Adobe-GB1-1
    • Adobe-GB1-2
    • Adobe-GB1-3
    • Adobe-GB1-4
    • Adobe-GB1-5
  • Adobe-CNS1文字コレクション(繁体字中国語
    • Adobe-CNS1-0
    • Adobe-CNS1-1
    • Adobe-CNS1-2
    • Adobe-CNS1-3
    • Adobe-CNS1-4
    • Adobe-CNS1-5
    • Adobe-CNS1-6
    • Adobe-CNS1-7
  • Adobe-Korea1文字コレクション(朝鮮語
    • Adobe-Korea1-0
    • Adobe-Korea1-1
    • Adobe-Korea1-2(Adobe-KR9に移行)
  • Adobe-KR文字コレクション
    • Adobe-KR9
  • 電算写植
    • SKコード(SK72、SK78、外字A、外字B、外字C)
      写研が開発した文字コード。独自の文字セットを持つ。文字セットの大部分はすでにAdobe-Japan1に収録されている。
    • PMTコード
      印刷機械貿易が開発した文字コード。
  • 新聞業界
  • 電子書籍

ベンダごとの文字コード

[編集]

以下は、主にメインフレームオフコンなどのプロプライエタリな古いレガシーコンピュータやレガシーなシステム、特殊な環境において利用される文字コードを含む。レガシーなものとの連携を目的とする場合を除き、パソコンで利用されることがないものが多い。

ベンダー文字コード特徴
マイクロソフトcp932マイクロソフト版Shift_JIS
マイクロソフトcp10001マイクロソフト版MacJapanese
マイクロソフトcp20290マイクロソフト版IBM CCSID 00290。
マイクロソフトcp20932マイクロソフト版日本語EUC。
マイクロソフトcp21027マイクロソフト版IBM CCSID 01027。
マイクロソフトcp50220マイクロソフト版ISO-2022-JPの一つ。
マイクロソフトcp50221マイクロソフト版ISO-2022-JPの一つ。
マイクロソフトcp50222マイクロソフト版ISO-2022-JPの一つ。
マイクロソフトcp51932Windows-31JをEUC-JPで表したもの。
サン・マイクロシステムズcp942Ccp942の拡張。
サン・マイクロシステムズcp943Ccp943の拡張。
AppleMacJapaneseApple版Shift_JIS
富士通JEFジェフメインフレーム(Mシリーズ、GSシリーズ)で利用される。JIS C 6226-1978をGR(Graphic Right)に展開し、その上方エリアに「JEF拡張漢字」というベンダ選定拡張漢字を配置。
富士通EUC-U90DS/90系UNIXサーバで利用される。JIS X 0208-1990をGRに展開し、「JEF拡張漢字」をシングルシフトのGR展開で表現。
日本電気JIPS(J)ジップスジェーACOS-6メインフレームで利用される。JIS C 6226-1978の9区〜13区に特殊文字を登録し、GR領域に「G1集合」というベンダ選定拡張漢字を登録したコード。
日本電気JIPS(E)ジップスイーACOS-2ACOS-4メインフレームで利用される。JIPS(J)の上下1バイトをそれぞれEBCDICに変換して得られるコード。
日本電気NEC内部コード(E)ITOSA-VX系のオフコンで利用される。JIPS(J)の上1バイトをシフトさせたものに対して上下1バイトをそれぞれEBCDICに変換して得られるコード。
日立製作所KEIS(78)ケイスナナハチメインフレーム(Mシリーズ、APシリーズ)で利用される。JIS C 6226-1978をGRに展開し、その上方エリアに「拡張文字セット3」というベンダ選定拡張漢字を配置。
日立製作所KEIS(83)ケイスハチサンメインフレーム(Mシリーズ、APシリーズ)で利用される。JIS X 0208-1983をGRに展開し、その上方エリアに「拡張文字セット3」というベンダ選定拡張漢字を配置。
日本IBMIBM漢字DBCS-Hostメインフレームシステム/360系)、AS/400オフコン(現行製品ではIBM i搭載のPowerSystem)で利用される。JIS C 6226-1978以前に制定されたため、完全に独自の漢字表を使用。漢字部分については、Windows-31Jの第一・第二水準漢字およびIBM拡張文字との間で一対一の対応がある。
日本IBMcp930メインフレームで利用される。
日本IBMcp932IBM OS/2で利用される。マイクロソフトのcp932との同一性は未確認。
日本IBMcp939メインフレームで利用される。
日本IBMcp942IBM OS/2で利用される。
日本IBMcp943IBM OS/2で利用される。
日本ユニシスLETS-Jレッツジェーユニバックメインフレームで利用される。JIS X 0208-1983をGRに展開し、その上方および左方エリアにベンダ選定拡張漢字を配置。
日本ユニシスJBISジェイビスバロース系のコンピュータで利用される。
三菱電機JSIIジェイエスツー
MELCOM漢字
三菱電機のメインフレームで利用される。JIS X 0208-1983をGRに展開し、その上方エリアにベンダ選定拡張漢字を配置。
DECDEC 漢字ミニコンVAX用OSであるVMSで利用される。JIS X 0208-1983をGRに展開し、その左方エリアにベンダ選定拡張漢字を配置。
DECSuper DEC 漢字ミニコンVAX用OSであるVMSで利用される。JIS X 0208-1983をGRに展開し、その左方エリアにベンダ選定拡張漢字を配置。そして、シングルシフトのGR展開でJIS X 0212を表現。
アドビ90ms-RKSJ-Hアドビ版cp932 横書き用。
アドビ90ms-RKSJ-Vアドビ版cp932 縦書き用。
アドビ90msp-RKSJ-Hアドビ版cp932 半角英字プロポーショナル版横書き用。
アドビ90msp-RKSJ-Vアドビ版cp932 半角英字プロポーショナル版縦書き用。
アドビ83pv-RKSJ-Hアドビ版漢字Talk6拡張版Shift_JIS 横書き用。
アドビ90pv-RKSJ-Hアドビ版MacJapanese 横書き用。
アドビAdd-RKSJ-Hアドビ版富士通FMR拡張版Shift_JIS 横書き用。
アドビAdd-RKSJ-Vアドビ版富士通FMR拡張版Shift_JIS 縦書き用。
アドビExt-RKSJ-Hアドビ版NEC拡張版Shift_JIS 横書き用。
アドビExt-RKSJ-Vアドビ版NEC拡張版Shift_JIS 縦書き用。

その他の文字コード

[編集]

脚注

[編集]
[脚注の使い方]

注釈

[編集]

出典

[編集]
  1. ^ab文字エンコード”. www.ibm.com (2016年6月21日). 2025年8月16日閲覧。
  2. ^abHTMLで文字エンコーディングを指定する”. www.w3.org. 2025年8月16日閲覧。
  3. ^文字コード#類似の用語を参照。
  4. ^abUnicode Terminology: English - Japanese”. www.unicode.org. 2025年8月16日閲覧。
  5. ^Usage Survey of Character Encodings broken down by Ranking”. w3techs.com. 2025年8月16日閲覧。
  6. ^kexugit. “What's the difference between an Encoding, Code Page, Character Set and Unicode?” (英語). learn.microsoft.com. 2025年8月16日閲覧。
  7. ^https://docs.oracle.com/cd/E19455-01/806-5582/6jej6u9sp/index.html
  8. ^Freed and Postel. 参考文献, ‘1.3. Charset’, p.1.
  9. ^UTR#17: Unicode Character Encoding Model” (English). The Unicode Consortium (2008年11月11日). 2019年7月20日閲覧。 “a mapping from sequences of members of an abstract character repertoire to serialized sequences of bytes bridging all four levels in a single operation”
  10. ^文学作品に現れたJIS X 0208にない文字(1999.2-3青空文庫
  11. ^【事例編】JTB、基幹系プラットフォームを刷新 - 進化するITプラットフォーム Part8(2009.6IT Leaders編集部、インプレス (企業))

参考文献

[編集]
  • 安岡孝一、安岡素子『文字コードの世界』東京、東京電機大学出版局、1999年9月、ISBN 4-501-53060-X
  • 小池和夫、府川充男、直井靖、永瀬唯『漢字問題と文字コード』東京、太田出版、1999年10月、ISBN 4-87233-486-8
  • 『bit』2001年4月号別冊、小林龍生・安岡孝一・戸村哲・三上喜貴編「インターネット時代の文字コード」東京、共立出版、2001年4月、ISBN 4-320-12038-8
  • 三上喜貴『文字符号の歴史』アジア編、東京、共立出版、2002年3月、ISBN 4-320-12040-X
  • Ken Lunde 『CJKV日中韓越情報処理』、東京、オライリー・ジャパン、2002年12月、ISBN 4-87311-108-0
  • 安岡孝一、安岡素子『文字符号の歴史』欧米と日本編、東京、共立出版、2006年2月、ISBN 4-320-12102-3

関連項目

[編集]

外部リンク

[編集]
日本語用の
文字コード
JIS規格
符号化文字集合
文字符号化方式
文字一覧
JIS以外の公規格
メーカーの規格
符号化文字集合
文字符号化方式
日本語を含む
多言語文字集合
Unicode
ISO/IEC 10646
JIS X 0221
文字符号化方式
文字一覧
TRONコード
日本語以外用の
文字集合
初期の文字コード
ISO/IEC 8859
書誌用
国家標準
EUC
ISO/IEC 2022
MacOS
コードページ
DOS
コードページ
Windows
コードページ
EBCDIC
コードページ
その他標準
記号用
プラットフォーム
固有
ソフトウェア
区分け
概念
関連トピック
カテゴリカテゴリ
印刷
組版
ページ
文字
書式
欧文書体
漢字仮名書体
五体
印刷
その他
フォント
約物
単位
DTP
カテゴリカテゴリ


典拠管理データベース: 国立図書館ウィキデータを編集
スタブアイコン

この項目は、文字文字学に関連した書きかけの項目です。この項目を加筆・訂正などしてくださる協力者を求めていますP:文字)。

https://ja.wikipedia.org/w/index.php?title=文字コード&oldid=107237520」から取得
カテゴリ:
隠しカテゴリ:

[8]ページ先頭

©2009-2025 Movatter.jp