Movatterモバイル変換


[0]ホーム

URL:


はてなブックマークアプリ

サクサク読めて、
アプリ限定の機能も多数!

アプリで開く

はてなブックマーク

  • はてなブックマーク
  • テクノロジー
  • 「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記
  • Twitterでシェア
  • Facebookでシェア

気に入った記事をブックマーク

  • 気に入った記事を保存できます
    保存した記事の一覧は、はてなブックマークで確認・編集ができます
  • 記事を読んだ感想やメモを書き残せます
  • 非公開でブックマークすることもできます
適切な情報に変更

エントリーの編集

loading...

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。

タイトルガイドライン

このページのオーナーなので以下のアクションを実行できます

タイトル、本文などの情報を
再取得することができます
コメントを非表示にできますコメント表示の設定

ブックマークしました

ここにツイート内容が記載されますhttps://b.hatena.ne.jp/URLはspanで囲んでください

Twitterで共有

ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します

689usersがブックマークコメント105

    ガイドラインをご確認の上、良識あるコメントにご協力ください

    0/0
    入力したタグを追加

    現在プライベートモードです設定を変更する

    おすすめタグタグについて

      よく使うタグ

        「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記

        ガイドラインをご確認の上、良識あるコメントにご協力ください

        0/0
        入力したタグを追加

        現在プライベートモードです設定を変更する

        おすすめタグタグについて

          よく使うタグ

            はてなブックマーク

            はてなブックマークで
            関心をシェアしよう

            みんなの興味と感想が集まることで
            新しい発見や、深堀りがもっと楽しく

            ユーザー登録

            アカウントをお持ちの方はログインページ

            記事へのコメント105

            • 注目コメント
            • 新着コメント
            luccafort
            かつての人類のせいでバベっちゃった結果が子孫に影響してるので地獄で悔い改めよ感ある。

              その他
              shields-pikes
              OCRとか部首検索とかで入力したんだろうなー。これらを、業者ごとに個別にやるとか、無駄すぎるので、オープンソースのライブラリにしてほしい。

                その他
                morobitokozou
                「長⻑」「母⺟」「⺠民」

                その他
                indication
                世の中(ユニコード)にはサロゲートペアというものがあってですね、組み合わせることができるそうなんですよ。恐い

                その他
                megamouth
                OCRとかかなあ。もうCP932捨てたいんだけど、CSVファイル(笑)があるからなんとも…(BOM付きUTF-8の話はしないぜ?)

                  その他
                  onionskin
                  面白い。CP932文字セットに制限するのが根本原因なんで、みんなutf-8を使おう。まずはメールから!

                    その他
                    hirata_yasuyuki
                    空白文字地獄とハイフン地獄も何とかして欲しい。

                      その他
                      reachout
                      文字コード沼の深淵からこういうもののけが時折こんにちはしてくるから、本当に恐ろしい。恐ろしいのに未だに全角2bite/半角1biteで止まってるSJISおじいちゃんいっぱいいてもっと恐ろしい。

                        その他
                        houyhnhm
                        CP932が簡易の文字問題チェッカーになってるなあ。

                          その他
                          cloudliner_tweets
                          「「西」 (WEST U+897F) ⇔「⻄」(CJK RADICAL WEST TWO U+2EC4)」

                            その他
                            ngsw
                            今日この話をしてもらって学びを得た

                              その他
                              tgk
                              Unicodeには包摂されていない異字体があるらしい。「意味論的に異なっているため」とのことだが

                              その他
                              tmatsuu
                              これってIMEの変換候補にでてくるから入力しちゃうってことなんだろうか。もしそうだとしたら変換候補に部首がでてくるIMEは滅んで欲しい(一手間かけないと入力できないようにして欲しい)

                                その他
                                kkobayashi
                                ヤバイ/波線ダッシュ問題とか、Unicodeに関する諸々の問題をよきに計らってくれるフィルターみたいなの欲しい

                                  その他
                                  T-miura
                                  こわ・・・「「⻄」(CJK RADICAL WEST TWO U+2EC4) ~CJK Radicalsとは「部首」を表す文字のこと」 こんな入力してくるユーザいるのか・・

                                    その他
                                    richard_raw
                                    部首の「⻄」(CJK RADICAL WEST TWO U+2EC4)で入力する人なんているんかー、と思ってぐぐってみたら14万件も出てきた……。

                                    その他
                                    stealthinu
                                    CP932に変換しなけりゃ問題表出しないだろうと思ったが、結局検索とかで使われると問題出たりするよね。というか住所とかで使われて紛れ込むほうが後からもっとヤバイ問題になったりするのか。

                                    その他
                                    tsekine
                                    むしろ CP932 へのコンバートが正規化になってる件

                                    その他
                                    l-_-ll
                                    # 文字コード

                                      その他
                                      hakatashi
                                      Unicodeは光であり闇。CJK Radicals の文字はWikipediaの漢字関連の記事を執筆するときによく区別して使うけど、意味のある行為かは正直疑問。意味論と運用の兼ね合いは難しい。

                                        その他
                                        habarhaba
                                        ひえ〜〜っ!! ユーザがUnicodeで何でも入力できるって冷静に考えると怖くない?

                                          その他
                                          hisasann
                                          文字コード

                                            その他
                                            kamezo
                                            unicodeは昔から「スゲエな、しかしわからん」の世界/ブコメにあった「関⻄電⼒」の「⻄」も「⼒」も非unicode環境にコピペったら消えた。震える。

                                            その他
                                            Bookmarker
                                            見た目似た文字が多いという事以外Unicode関係無いのでは?JIS X 0208の範囲でも○と〇を間違えて使っている事はあるし。

                                            その他
                                            quick_past
                                            月<->月(にくづき)みたいな?

                                              その他
                                              ushi2
                                              Unicodeはまだ「枯れていない」のが難しい所である

                                              その他
                                              mohno
                                              泣ける。

                                              その他
                                              airj12
                                              深い(闇が)

                                                その他
                                                doscoy_t
                                                unicodeは文字がコードポイントという「概念」にマッピングされる。文字の見た目やメモリ上でのバイナリ表現は一切関係無い。違うコードポイントを偶然見た目が似てるだけで同じものと扱おうとするのは間違い

                                                  その他
                                                  rryu
                                                  普通の漢字と全く同じ字形の部首が収録されているのか。

                                                  その他
                                                  u06nh
                                                  名刺入力案件の判定文でエラった感…。

                                                    その他
                                                    spacefrontier
                                                    これ、逆SEOで(一時的に)使えるな、と、悪いことを思いついてしまった…。文字としての「西」と部首としての「⻄」は、見た目は全く同じだけど全く別の文字、と。

                                                      その他
                                                      namisk
                                                      ああ、部首の表現……。

                                                      その他
                                                      blueboy
                                                      部首の方の「⻄」でググってごらん。「関⻄電⼒」などがヒットする。 多用されているわけだ。これを unicode に対応しない古いアプリにコピペすると、該当の文字が消失することから、シフトJISの文字ではないとわかる。

                                                        その他
                                                        tsutsumi154
                                                        わりとよくある

                                                          その他
                                                          koukinbc
                                                          英語圏の人はホーン!くらいの問題なんだろなぁ

                                                            その他
                                                            e_denker
                                                            どうでもいいけど個人的にユニコードで予期せぬ目に遭うのは日常茶飯事なのでタイトルの情報量がほとんどない。

                                                              その他
                                                              o_mega
                                                              いつもの地獄感

                                                                その他
                                                                ShoCoh
                                                                ひええ、住所入力は郵便番号から自動入力されるのを基本にしておけばある程度なんとかならないかな

                                                                その他
                                                                fashi
                                                                Unicode対応の手書き入力とかOCRだと出てくるのかなあ…

                                                                その他

                                                                注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

                                                                リンクを埋め込む

                                                                以下のコードをコピーしてサイトに埋め込むことができます

                                                                プレビュー
                                                                アプリのスクリーンショット
                                                                いまの話題をアプリでチェック!
                                                                • バナー広告なし
                                                                • ミュート機能あり
                                                                • ダークモード搭載
                                                                アプリをダウンロード

                                                                関連記事

                                                                  usersに達しました!

                                                                  さんが1番目にブックマークした記事「「ユニコード」で...」が注目されています。

                                                                  気持ちをシェアしよう

                                                                  ツイートする

                                                                  「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記

                                                                  自分の知らないCJK Ideographのバリエーションがまだあったことに戦慄している pic.twitter.com/kUlyRLD...自分の知らないCJK Ideographのバリエーションがまだあったことに戦慄している pic.twitter.com/kUlyRLDDTM— moriyoshit (@moriyoshit) March 9, 2017 などというツイートをしたところ、思ったより反響があったのでまとめておく。 上記ではあいまいに「バリエーション」などと書いたが、Unicodeとそれを扱う環境においては、バリエーションと一口に言っても次のような状況がある。 意味論的に等価な異なる字形の集合 同じ字形で異なるコードポイントの集合 aは結構なじみ深いと思う。 a-1. 異なるコードポイントにそれぞれ異なる字形が割り当てられているもの 例: 「東」(U+6771) ⇔「东」(U+4E1C) 「斉」(U+6589) ⇔「齊」(U+9F4A) 「高」(U+9AD8) ⇔「髙」(U+9AD9) a-2. 同じコードポイ

                                                                  ブックマークしたユーザー

                                                                  • techtech05212024/01/12techtech0521
                                                                  • ngsw2021/06/16ngsw
                                                                  • sharaku3eyes2018/03/13sharaku3eyes
                                                                  • Yeshi2018/02/21Yeshi
                                                                  • kfujii2017/06/09kfujii
                                                                  • tgk2017/05/05tgk
                                                                  • cohortfact2017/04/06cohortfact
                                                                  • ashfcvrgnw222017/04/06ashfcvrgnw22
                                                                  • bagelscleavage2017/04/06bagelscleavage
                                                                  • lugecy2017/04/03lugecy
                                                                  • tmatsuu2017/04/01tmatsuu
                                                                  • yoshida17032017/03/31yoshida1703
                                                                  • yyamano2017/03/29yyamano
                                                                  • mimesis2017/03/23mimesis
                                                                  • oonotakashi2017/03/21oonotakashi
                                                                  • tokyowestnews2017/03/21tokyowestnews
                                                                  • water010pet2017/03/21water010pet
                                                                  • informeject2017/03/21informeject
                                                                  すべてのユーザーの
                                                                  詳細を表示します

                                                                  ブックマークしたすべてのユーザー

                                                                  同じサイトの新着

                                                                  同じサイトの新着をもっと読む

                                                                  いま人気の記事

                                                                  いま人気の記事をもっと読む

                                                                  いま人気の記事 - テクノロジー

                                                                  いま人気の記事 - テクノロジーをもっと読む

                                                                  新着記事 - テクノロジー

                                                                  新着記事 - テクノロジーをもっと読む

                                                                  同時期にブックマークされた記事

                                                                  いま人気の記事 - 企業メディア

                                                                  企業メディアをもっと読む

                                                                  はてなブックマーク

                                                                  公式Twitter

                                                                  はてなのサービス

                                                                  • App Storeからダウンロード
                                                                  • Google Playで手に入れよう
                                                                  Copyright © 2005-2025Hatena. All Rights Reserved.
                                                                  設定を変更しましたx

                                                                  [8]ページ先頭

                                                                  ©2009-2025 Movatter.jp