Javaです。文字です。ユニコードです。えーとサロゲートペアとコードポイントです。 コード書いて手を動かさないといまいちイメージがわかないんですよね。ということでサロゲートペアのデータからコードポイントを求めるのと、その逆を行ってみます。 この記事はmacosx上のJava1.6を使用したものをベースとしてます。javaの用意されているapiを使うのと、自分実装です。 参考 Unicode -WikipediaJavaとサロゲートペアJava プラットフォームにおける補助文字のサポートJava による Unicode サロゲートプログラミング サロゲートペアとは、BMPの中の文字の割り当てのない符号位置2つを用いて、BMP外の面の符号位置を指すものです。プログラマのための文字コード技術入門 (WEB+DB PRESS plus) (WEB+DB PRESS plusシリーズ) この本一
今回はけろさんの Vistaとサロゲートペア のアレンジとなるカクテルをお出ししましょう。JavaSE5.0からはUnicode4.0に対応しています。 Unicode4.0のリリースが2003年4月(だと思うけど自信がない)なのに対し、 5.0のリリースが2004年4月ですのでおよそ1年で対応が盛り込まれたことになります。 さて、このblog執筆時点ですでに5.0リリースから3年以上が経っているわけです。 私はこの間、サロゲートペアに対する悲鳴を聞いた覚えがありません。Javaだと問題がないのでしょうか? 実はあまり影響がないのです。これはSunの努力の賜物といえるでしょう。 http://java.sun.com/developer/technicalArticles/Intl/Supplementary/index_ja.html Unicode4.0で変わったこと サロゲートペ
はじめにWindows VistaのJIS2004対応により、WindowsのUnicode環境で使用できる日本語漢字の数が増えました。従来、12238字(Windows XP)だったのが13145字(Windows Vista)になり、907字追加されることになりました。これによって、JIS第3水準、JIS第4水準の漢字がすべてサポートされることになったのです(Windows XPまでは一部サポート)。 またWindows XPでも、パッチさえ当てれば、Windows Vistaと同じように追加907字を加えた13145字の漢字が使用できるようになりました。 ところが、この追加された907字の中には「サロゲートペア」という特殊な文字が304字あり、これらは今までのUnicodeの文字とは扱いが少し違います。この点について解説していきたいと思います。 対象読者 Unicodeでデータ処理

1リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く