Movatterモバイル変換


[0]ホーム

URL:


はてなブックマークアプリ

サクサク読めて、
アプリ限定の機能も多数!

アプリで開く

はてなブックマーク

タグ

関連タグで絞り込む (19)

タグの絞り込みを解除

文字コードに関するuturiのブックマーク (15)

  • uturi
    uturi2020/03/04非公開
    ExcelがSJISからUnicodeに変わらないと無理でしょ
    • ゼロ幅文字にエンコードした隠し情報で、文書をリークしたメンバーを特定 | 秋元@サイボウズラボ・プログラマー・ブログ

      とある会員制掲示板からの文書の流出に困った運営者が、ユニコードの見えない文字「ゼロ幅文字(Zero-Width characters)」を使って流出させたユーザーを特定した、という話が出ていました。 数年前の話、Tom さんが所属していた競技ビデオゲームのチームでは、ログインが必要なプライベートの掲示板を使って連絡していました。その掲示板に書かれた秘密情報や戦術に関する重大アナウンスなどがしばしば掲示板外のウェブにコピペされ、チームにとって大きな問題となっていたそうです。 外部ユーザーの攻撃で中身が漏れたというよりは、メンバーの誰かがコピーしているのでは、と考えた Tom さんは、当時気になっていたユニコードのゼロ幅文字を使ったトリックを仕掛けたそうです。 ユーザーを特定する情報を、見えない文字に変換して埋め込む ログイン中のログインユーザーのユーザーIDを、一定のルールによってゼロ幅文字

      ゼロ幅文字にエンコードした隠し情報で、文書をリークしたメンバーを特定 | 秋元@サイボウズラボ・プログラマー・ブログ
      uturi
      uturi2018/04/10非公開
      ゼロ幅文字というバグみたいな文字があるのに驚いた。サロゲートペアとも違うってことでしょ?
      • コンピューターで全漢字使用可に 6万字コード化 | NHKニュース

        語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、コンピューターは、実は1万字しか扱うことができません。これに対し、このほど15年越しの作業の末、6万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。 中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に名の外字を充てたものと略字を充てたものの2つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。 このためIPA=情報処理推進機構は平成14年から、経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、コードを割りつける作業を進め

        コンピューターで全漢字使用可に 6万字コード化 | NHKニュース
        uturi
        uturi2017/12/25非公開
        “「斉藤」や「斎藤」の「サイ」は「斉」「斎」「齊」「齋」などおよそ60種類あります” 多過ぎ。/Unicodeとの互換性がどうなるかが気になる。
        • 絵文字を支える技術の紹介 - Qiita

          絵文字を扱う上で知っておくと良いかもしれないことをまとめてみました。 Ruiさんの記事を見て、「EmojiはSurrogate Pair以外にも、色々とおもしろい技術があるんですよ〜」思って書いてみました。 なお、書いた人はAndroidの人間なので、特に表記していない場合は主にAndroid上での動作のことを書いてます。 またQiita初めてなので読みにくい部分等がありましてもご容赦ください。 サロゲートペア(Surrogate Pairs) このエントリーを書くきっかけにもなったサロゲートペア。なぜこれが導入されたかの経緯は、Ruiさんのブログエントリーに譲るとして、技術的な解説をします。 サロゲートペアは、U+0000..U+FFFFに収まりきらなかった範囲のUnicodeコードポイント(U+10000..U+10FFFF)を、なんとか16bitでエンコードしようとして導入されました

          絵文字を支える技術の紹介 - Qiita
          uturi
          uturi2017/11/16非公開
          人+色で肌色を変えるとか、男性+ペイントで男性画家とかパズルちっくな仕様だな。実装する方は大変そうだ。Webサイトの文字入力判定とかで大混乱してそう。
          • 絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama

            UnicodeのUTF-16エンコーディングではほとんどの文字(コードポイント)は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語

            絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama
            uturi
            uturi2017/11/14非公開
            絵文字ってサロゲートペアを使ってたのか! Macで作った日本語がウィンドウズだと変な表示されててイラッとさせられることでお馴染みのサロゲートペアを!!
            • グーグル、大急ぎでハンバーガー絵文字を修正へ - BBCニュース

              グーグルのスンダル・ピチャイ最高経営責任者(CEO)は先月30日、週明けに出勤してきた従業員たちにある重大な目標を大急ぎで達成するよう指示したらしい。ハンバーガーの絵文字を修正せよ。これが使命だった。 ピチャイCEOの指示は、作家トーマス・ベクダル氏のツイートに反応してのものだった。ベクダル氏は、IT企業2社のハンバーガー絵文字が違うと、その相違点を指摘していた。 溶けたチーズが流れ出るようにチーズがらみのダジャレも飛び交うなか、この絵文字をめぐって、非常に「肉厚」な議論が繰り広げられた。ポイントはつまり、ハンバーガーにおけるチーズの適正な位置。チーズはどこにあるべきなのか。

              グーグル、大急ぎでハンバーガー絵文字を修正へ - BBCニュース
              uturi
              uturi2017/11/04非公開
              ハンバーガーよりもビールの方が気になる。泡が浮いてんじゃん。
              • 「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記

                自分の知らないCJK Ideographのバリエーションがまだあったことに戦慄している pic.twitter.com/kUlyRLDDTM— moriyoshit (@moriyoshit) March 9, 2017 などというツイートをしたところ、思ったより反響があったのでまとめておく。 上記ではあいまいに「バリエーション」などと書いたが、Unicodeとそれを扱う環境においては、バリエーションと一口に言っても次のような状況がある。 意味論的に等価な異なる字形の集合 同じ字形で異なるコードポイントの集合 aは結構なじみ深いと思う。 a-1. 異なるコードポイントにそれぞれ異なる字形が割り当てられているもの 例: 「東」(U+6771) ⇔「东」(U+4E1C) 「斉」(U+6589) ⇔「齊」(U+9F4A) 「高」(U+9AD8) ⇔「髙」(U+9AD9) a-2. 同じコードポイ

                「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記
                uturi
                uturi2017/03/13非公開
                冒頭で紹介された例にも驚くが、フォントが異なると別の文字として扱われる文字もあるのか。Unicodeこわい。
                • Rubyの内部文字コードはUTF-8ではない...だと...?!|TechRacho by BPS株式会社

                  こんにちは、hachi8833です。 少し前に、babaさんから「Rubyの内部文字コードはUTF-8じゃないよ」とツッコミがありました。 (追記: 上は会話の途中から切り取りましたのでご了承ください) いきなりの展開にくらくらきましたが、babaさんはさらにたたみかけます。 こうしたことはとっくにご存じの方も多いと思いますが、「Rubyといえば2.0以来UTF-8完全対応なんじゃないの」と勝手に思い込んでた私は脳に掌底をらったような思いです。ああ、でもこういうことがあるから面白い。 ⚓ プログラミング言語と内部文字コードの関係 まず最初に押さえておきたい点です。プログラミング言語で文字コードに関連する部分は、「文字列」「正規表現」「入出力」「コード中の文字リテラル(""の中など)」「コード中の文字リテラル以外の要素(変数名など)」「ファイル名」などが中心になります。そして文字列に関連し

                  Rubyの内部文字コードはUTF-8ではない...だと...?!|TechRacho by BPS株式会社
                  uturi
                  uturi2016/10/14非公開
                  文字列だけ特殊であってそれ以外はバイナリで問題ないだろという設計なのか。なるほど。
                  • 作家さんが「コレ使えますか?」と聞いてきたナゾの記号の正体に驚きの声「そんな名前だったのか」「使い方は?」

                    稀見理都 @kimirito えええ〜〜今の編集さんはこれを知らないのかと、逆に衝撃(;゚∀゚)=3 ま、確かに使わないけどw https://t.co/SSIwnzNVxK 2016-09-26 23:44:18 リンク ニコニコ大百科 記号BA-90とは (キゴウビーエーキューゼロとは) [単語記事] - ニコニコ大百科 記号BA-90とは、顔である。 概要 別名 FULL MOON WITH FACE、顔付満月などの名前がある。来は天文学・占星術で満月を示す記号である。歴史 意外にもこの記号の歴史は...

                    作家さんが「コレ使えますか?」と聞いてきたナゾの記号の正体に驚きの声「そんな名前だったのか」「使い方は?」
                    uturi
                    uturi2016/09/28非公開
                    こち亀のタイトルに使われてたような。占星術で使う記号だったのか。
                    • Unicodeにあるハイフン/マイナス/長音符/波線/チルダのコレクション | hydroculのメモ

                      Unicodeにあるハイフン/マイナス/長音符/波線/チルダのコレクション 2015/06/18 Unicodeにある文字の中からハイフンのような横棒と波線を集めてみました。複数あるのはわかっていたつもりでしたが、こんなにたくさんあるとは思いませんでした。 横線に関しては、ハイフンや長音符(カタカナの長音記号)、罫線など、線が横に延びているものです。縦方向や斜めの線は除きます。ほとんど横線だけどほんのちょっとだけ斜め(主観)になっているものは含みます。点線や矢印、線が2つ以上に分かれているものは除きます。途中で曲がっているものも除きます。横線が上の方だったり下の方だったり、太さが途中で変わるものも含めています。 波線に関しては、横方向の線が、直線ではなくS字カーブになっているもので、縦や斜めのS字を除きます。 S字カーブを超えて複雑な曲線も除いています。ただ、文字の名前に “wave” と

                      uturi
                      uturi2015/06/10非公開
                      ウォアアアアア
                      • 漢数字が数字順にソートされない理由を調べてみた - give IT a try

                        はじめに:「なぜ漢数字は数字順に並ばない!?」 先日、こんなツイートをしたところ、結構たくさんの人にリツイートされました。(執筆時点で50件以上) 「漢数字はソートしても数字順に並ばない」という事実を生まれて初めて知った。まさかのサプライズ。 pic.twitter.com/Eqx3ltIfHs— JunichiIto (伊藤淳一) (@jnchito) 2014年11月27日 「なぜ漢数字は数字順に並ばないのか」という問いに対して、表面的な回答をするなら「数字順に並ばないのは、数字の大きさではなく文字コード順でソートされているから」ということになります。 いや、もちろんそれはわかってるんです。 問題は「そもそもなんで数字順に文字コードを振らなかったの!?」ということです。 感覚的には「一郎、二郎、三郎」って並んでほしいじゃないですか。でも、プログラム上でソートすると「一郎、三郎、二郎」

                        漢数字が数字順にソートされない理由を調べてみた - give IT a try
                        uturi
                        uturi2014/12/04非公開
                        九の部首って乙だったのか。/漢数字って数字のように使えるけど、結局はただの漢字だからなぁ。そもそもソートキーに使うつもりなかったんだろうし。
                        • 全角チルダ問題

                          2019年8月6日に開催されたヤフー名古屋Tech Meetup #3の内容です。 #3 は「Webフロントエンドを支えるノウハウ」をテーマに開催しました。 JJUGCCC 2019 fall g3のセッション資料です。 「ちょっと凝ったことをしようとすると大量のXMLを書かなきゃいけない」「プラグインを並べてもうまく動いてくれない」など、Mavenは誤解され敬遠され、Gradleなどの他のビルドツールにシェアを奪われてきました。 が、依然としてMavenはJavaのデファクトスタンダードなビルドツールに位置づけられており、マスターする価値は十分にあります。そして良く学んでみると、そもそもXMLで過度なカスタマイズしようというのが誤った使い方だったのに気づきます。そこへ至るにも、タスクランナーの延長線上にある他のビルドツールと異なり、Maven独特なライフサイクルとプラグインの関係性もき

                          全角チルダ問題
                          uturi
                          uturi2014/07/07非公開
                          恐ろしい……。ただ表示させるだけならともかく、名前によるマッチングとかパスワード管理とか考えるとぞわぞわする。サロゲート文字や結合文字といい、Unicodeってややこし過ぎる。
                          • 誕生日に一人で仕事しながら見ると元気が出る「ユ・鬣`、ホ・、・゚・ニゥ`・キ・逾?ホユ」5選 - 自省log

                            先日以下のような記事を書きまして 誕生日に片思いの相手から電話がかかってきた。 - 自省log 要約すると 誕生日に片想いの人から電話があって、うぉおおおお!ってなってうぉおおおおおおお!!!ってなった 話で、おかげ様でたくさんの方にご覧いただいた次第でございます。皆さんその切はありがとうございました。 ただ上記記事を投下した5月24日(私の誕生日)はなんだか休日出勤を余儀なくされておりまして、何故誕生した日に一人さみしく休日出勤しなければいけないのか。なんて毒付きながら半べそかいておりましてね。 そんな自分へのご褒美を買うべく、Amazonで「馬のたてがみ」と検索したら、「ユ・鬣`、ホ・、・゚・ニゥ`・キ・逾ホユ」みたいな商品が出てきまして、すごく元気になりましたので日は皆さんにもおすそ分けすることにしました。 誕生日に一人で仕事しながら見ると元気が出る「ユ・鬣`、ホ・、・゚・ニゥ`

                            誕生日に一人で仕事しながら見ると元気が出る「ユ・鬣`、ホ・、・゚・ニゥ`・キ・逾?ホユ」5選 - 自省log
                            uturi
                            uturi2014/05/28非公開
                            Unicodeで四苦八苦してる俺にとっては迂闊に見ちゃいけない記事だった
                            • uturi
                              uturi2014/04/25非公開
                              今更かよ。/こんなに遅いからLINEに全部持ってかれるんだよ。キャリア間での問題が起きてから15年ぐらい経つだろ。生きてたのか?
                              • 「ユニコードは犯罪だからやめてください」の衝撃 - yanok.net

                                新年早々、大笑いしてしまったこと。 下らないといえば下らないので書くまでもないかと思ったのですが、後で忘れた頃に読み返すと面白いかもしれないので書きとめておくことにします。 何があったのかは下記のページに詳しく書かれてあります。こちらを読んでいただければ、ぶっちゃけそれ以上のことはないです。 「LINEウイルス」の正体とは―LINE内で流行する「ウイルス攻撃」の現状について 簡単にまとめていうと、LINE上で「ウイルス」なるものを送りつけることができるという噂があって、実際にそれを送りつけられるとLINEのアプリが誤動作(重くなる)らしい 実際のところ、ここで「ウイルス」と呼ばれているものはある特定の文字列である (プログラムではない。であるからしてウイルスでもない) 特定の文字列を受け取ると動作が極端に重くなる不具合のあるアプリがある、というのが真相らしい 問題を引き起こす文字列は、U

                                uturi
                                uturi2014/01/11非公開
                                関係ないけど、S-JISでデータよこせって言ってるのにUnicodeで送られたときは殺意を覚えましたね
                                • 残りのブックマークを読み込んでいます1

                                お知らせ

                                公式Twitter

                                • @HatenaBookmark

                                  リリース、障害情報などのサービスのお知らせ

                                • @hatebu

                                  最新の人気エントリーの配信

                                処理を実行中です

                                キーボードショートカット一覧

                                j次のブックマーク

                                k前のブックマーク

                                lあとで読む

                                eコメント一覧を開く

                                oページを開く

                                はてなブックマーク

                                公式Twitter

                                はてなのサービス

                                • App Storeからダウンロード
                                • Google Playで手に入れよう
                                Copyright © 2005-2025Hatena. All Rights Reserved.
                                設定を変更しましたx

                                [8]ページ先頭

                                ©2009-2025 Movatter.jp