Movatterモバイル変換


[0]ホーム

URL:


はてなブックマークアプリ

サクサク読めて、
アプリ限定の機能も多数!

アプリで開く

はてなブックマーク

タグ

関連タグで絞り込む (9)

タグの絞り込みを解除

Unicodeに関するchoplinのブックマーク (10)

  • 404 Blog Not Found:perl - utf8::is_utf8("\x{ff}") == 0

    2008年02月18日10:00 カテゴリLightweight Languagesperl - utf8::is_utf8("\x{ff}") == 0 ちょうどいい機会なので、Perl 5.8以降におけるutf8フラグの立ち方を。 unknownplace.org - 2008/02/17 - utf8::is_utf8 ということで、"\x{6751}\x{702c}\x{5927}\x{8f14}" などというData::Dumper表記でかならずしもutf-8フラグがたつわけじゃない。ということがいいたかったんだと思うのだけれど、 \x{UUUUUU}とutf8 flag まずはクイズです。以下がどう出力されるかを答えなさい。 sub pfrag{ print utf8::is_utf8($_[0]) ? 1 : 0, "\n" } pfrag "Hell\xC3, worl

    404 Blog Not Found:perl - utf8::is_utf8("\x{ff}") == 0
    • perl - use utf8; #って何だ? : 404 Blog Not Found

      2009年06月15日07:00 カテゴリLightweight Languagesperl - use utf8; #って何だ? id:otsuneに建設予定フラグがたてられていたので。 冬通りに消え行く制服ガールは、夢物語にリアルを求めない。 - subtechPerl の utf8 関係が未だ全く理解できない。わからないことがわからないので整理 use utf8はいつフラグをたてるか use utf8 しててもフラグたたないことがある…… これは、以下の実例を見ていただくのが一番よいだろう。 #!/usr/bin/perl use strict; use warnings; use utf8 (); sub check_flag{ my $str = shift; print qq("$str" ), utf8::is_utf8($str) ? 'is' : 'IS NOT',

      perl - use utf8; #って何だ? : 404 Blog Not Found
      • utf8::is_utf8 considered harmful - Bulknews::Subtech - subtech

        はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です -はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて -はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28

        utf8::is_utf8 considered harmful - Bulknews::Subtech - subtech
        • UTF8 フラグあれこれ - daily dayflower

          UTF8 フラグについてわかってるつもりだったんですが,utf8::is_utf8 considered harmful - Bulknews::Subtech - subtech を読んで混乱したので,自分なりにまとめてみました。間違いがありましたらご指摘よろしく。 まとめ スカラー変数の内部表象の状態を示すものとして UTF8 フラグというものがある スカラー変数は(リファレンス等は別として)下記のものを格納できる (A) 文字列(内部表象:UTF-8) (B) 文字列(内部表象: ISO-8859-1) (C) バイナリ列 純粋なバイナリストリーム(画像ファイル等)かもしれないし,UTF-8 octet stream かもしれないし, CP932 octet stream かもしれないし,etc,etc ...Perl は(後方互換性確保などの理由から)ISO-8859-1

          UTF8 フラグあれこれ - daily dayflower
          • Unicode 簡単メモ

            稿は "ファイル名における Unicode" と題してもよい内容になっていて、Unicode の様々な側面のうち、Mac OS X でファイル名を扱う場合に必要となる事柄にのみフォーカスをあてています。そのようにした理由は、あらゆるMac OS X アプリケーションがサポートすべき領域であるからです。もし Unicode を扱うようなワードプロセッサを作っているような場合には、Unicode に関してここで扱うよりもたくさんの様々な理解が必要になることでしょう。稿記載の情報の大部分は、Richard Gillam 氏の手になる素晴らしい書籍 "Unicode Demystified" に基づいています。しかし、Mac OS X でファイル名を適切に扱いたいというだけなら、800 ページもあるこののボリュームはちょっと多すぎるかも知れません。 訳注:"Unicode Demystif

            • perl - 文字列ばらしはsplit //, $strで : 404 Blog Not Found

              2007年11月27日13:30 カテゴリLightweight Languagesperl - 文字列ばらしはsplit //, $strで うーん、ここがあきまへん。 [を] 転置インデックスによる検索システムを作ってみよう! 9 my @char = ($c =~ /([\x00-\x7f]|[\xC0-\xDF][\x80-\xBF]| 10 [\xE0-\xEF][\x80-\xBF]{2}| 11 [\xF0-\xF7][\x80-\xBF]{3})/gsx); 文字列をばらして(utf8の)文字一つ一つの配列にするには、バイト列に正規表現をかますのではなく、utf8文字列にしてからそれにsplit //をかますのが一番です。単にわかりやすいだけではなく、その方がずっと高速です。以下、Benchmark。 #!/usr/local/bin/perl use strict; u

              perl - 文字列ばらしはsplit //, $strで : 404 Blog Not Found
              choplin
              choplin2009/08/08非公開
              split //,$strは使ってなかった substrで一文字ずつみたいなことをやってた気がする 覚えとこう
              • Perl 5.8.x Unicode関連

                -> 趣旨と注意書き -> UTF8フラグ? -> UTF8フラグとPerlIOレイヤ -> UTF8フラグのついた文字列を記述する -> Wide character in print ... -> Encode -> utf8::* -> use utf8; -> use encoding; -> use UTF8 と use encoding -> JcodeからEncodeへ -> 情報源 <- モドル 趣旨と注意書きPerl 5.8.x のUnicode 関連です。 正直、5.8.x は、ネタでしか使ってなかったので(ぉ、ちゃんといじったことがありませんでした。 使ってみると、よくわかんなくなったので、ちょっとまとめてみました。 今でもあんまりわかってないかもしれないので、内容は無保証です。 突っ込み歓迎。 Jcode、Encodeのメンテナの弾さんから、ご指摘いただいたので、

                • 404 Blog Not Found:perl - Encode 入門

                  2008年04月09日01:00 カテゴリLightweight Languagesperl - Encode 入門 すでにOSCONでもYAPCでも、あちこちそちこちでこの基方針に関しては話したのですが、ここ 404Blog Not Found でも改めて。Perl で utf8 化けしたときにどうしたらいいか - TokuLog 改め だまってコードを書けよハゲ 入り口で decode して、内部ではすべて flagged utf8 で扱い、出口で encode する。これがすべてです!とにかくこの基方針をまもっていれば幸せになれます。ここでは、EUC-JPでエンコードされたファイル中の「小飼弾」「こがいだん」「コガイダン」「Kogai Dan」を正規表現で書き換えて標準出力にEUC-JPで出力するプログラムを例にとって説明します。 decode() then encode(

                  404 Blog Not Found:perl - Encode 入門
                  • Variable Byte Code と UTF-8、またはUTF-24が存在しないわけ : 404 Blog Not Found

                    2009年08月05日00:30 カテゴリLightweight Languages Variable Byte Code とUTF-8、またはUTF-24が存在しないわけ 実は、これに非常に良く似た符号化を、我々は日々目にしています。 γ符号、δ符号、ゴロム符号による圧縮効果 - naoyaのはてなダイアリー 通常の整数は 32 ビットは 4 バイトの固定長によるバイナリ符号ですが、小さな数字がたくさん出現し、大きな数字はほとんど出現しないという確率分布のもとでは無駄なビットが目立ちます。UTF-8です。UTF-8は、0x0から0x10FFFFまでの整数を、以下のようにしてバイト列に変換します。 Range/Offset0123 0x00-0x7F0xxxxxxx 0x80-0x3FF110xxxxx10xxxxxx 0x400-0xFFFF1110xxxx10xxxxxx10xx

                    Variable Byte Code と UTF-8、またはUTF-24が存在しないわけ : 404 Blog Not Found
                    • 残りのブックマークを読み込んでいます1

                    お知らせ

                    公式Twitter

                    • @HatenaBookmark

                      リリース、障害情報などのサービスのお知らせ

                    • @hatebu

                      最新の人気エントリーの配信

                    処理を実行中です

                    キーボードショートカット一覧

                    j次のブックマーク

                    k前のブックマーク

                    lあとで読む

                    eコメント一覧を開く

                    oページを開く

                    はてなブックマーク

                    公式Twitter

                    はてなのサービス

                    • App Storeからダウンロード
                    • Google Playで手に入れよう
                    Copyright © 2005-2025Hatena. All Rights Reserved.
                    設定を変更しましたx

                    [8]ページ先頭

                    ©2009-2025 Movatter.jp