
プログラマのための文字コード技術入門 (WEB+DB PRESS plus) (WEB+DB PRESS plusシリーズ)
読んだ。これ一冊で文字コードのことがだいたい分かるというボリュームでかつてなかった。やや情報が古いところもあるので適宜調べていくとよさそう*1。
Shift-JIS のダメ文字や幽霊文字の話は知っていたけど、符号化文字集合と文字符号化形式の違いとか、Unicode とUTF-8 やUTF-16 の違いとか、今まであいまいにしていてライブラリに頼っていたところの話が全部書いてあった。RFC に準拠しているメーラーと準拠していないメーラーとの間で添付ファイルの名前が文字化けするのでうまくやっていくという話があって、大変という感じだった。ぜんぶ準拠していればこんなことにはならなさそう?
UnicodeError に悩まされた経験のある人は絶対に一度は読んでおいたほうがいいと思う。ぼく自身はたぶん一度読んだだけではまだ理解しきれていなくて、何度も読み返して噛み砕かないといけなさそう。
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。