Movatterモバイル変換

shidho id:shidho

文字コードとperlに関するshidhoのブックマーク (3)

404 Blog Not Found:perl tips - Encodeを速く使う方法
2007年04月23日01:30 カテゴリLightweight LanguagesTipsperl tips - Encodeを速く使う方法はっきり言ってこれはフェアではない。みかログ: ErlangとPerlの速度比較Perl側は，Encodeが遅い． Encode::from_toがinplaceでコンバートしてしまうために，直前に文字列コピーがあるのも影響しているのかもなぜなら、Encode::from_to()は速度ではなく、安全性に最適化しているから。そもそもはじめからUTF-8、それもutf8フラグがたっている文字列にfrom_toを使うのはばかげている。 for(my $i = 0; $i < 0xffff; $i++) { my $str2 = $str; Encode::from_to($str2, "UTF-8", "Shift_JIS"); } は単に
shidho2008/04/01
今回多用したけど、そこはかとなくバッドノウハウの香りがする。
perl
日本語
文字コード
リンク
UTF8 フラグあれこれ - daily dayflower
UTF8 フラグについてわかってるつもりだったんですが，utf8::is_utf8 considered harmful - Bulknews::Subtech - subtech を読んで混乱したので，自分なりにまとめてみました。間違いがありましたらご指摘よろしく。まとめスカラー変数の内部表象の状態を示すものとして UTF8 フラグというものがあるスカラー変数は（リファレンス等は別として）下記のものを格納できる (A) 文字列（内部表象:UTF-8） (B) 文字列（内部表象: ISO-8859-1） (C) バイナリ列純粋なバイナリストリーム（画像ファイル等）かもしれないし，UTF-8 octet stream かもしれないし， CP932 octet stream かもしれないし，etc,etc ...Perl は（後方互換性確保などの理由から）ISO-8859-1
shidho2008/02/20
まあ、いくら聞いてわかった気になっても次の日には忘れるんだよね。
utf8
perl
文字コード
リンク
ruby|perl - 文字コードのちょっと高度な判定 : 404 Blog Not Found
2007年01月11日21:00 カテゴリLightweight Languagesruby|perl - 文字コードのちょっと高度な判定これははっきり言って悩ましい。ですが、判定が曖昧な場合はその旨をきちんと通知するのがBetter Practiceではないかと思います。 Matzにっき(2007-01-03) 手元のcalkiがUTF-8の「》」相当の文字(U+8BB)を含むエントリが文字化けするので、 nkf-utf8のソースを見てみた。どうも自動判定の優先順位がEUC-JP,SJIS,JIS,UTF-8で固定されていて、 EUCの範囲内に収まる文字列はすべてEUC-JPとみなすことになっている。で、UTF-8の「》」はEUC-JPの「損」と同じバイト列なのだ。例えば、以下を行ごとにコード判定すると、以下のような結果になります。 son.utf8 » 損 »損 »Son nk
shidho2007/10/03
とはいうものの面倒くさい。
perl
文字コード
utf8
リンク
1