ウェブブラウザ「GoogleChrome」の最新安定版であるバージョン139がリリースされました。HTMLの文字コード自動検出の対象からISO-2022-JP(JISコード)が除外されることになりました。Chrome 139 | Releasenotes | Chrome for Developers https://developer.chrome.com/release-notes/139?hl=ja ◆ISO-2022-JP文字コードの自動検出を削除 ISO-2022-JPは国際的な文字コード規格ISO/IEC2022に準拠する日本語文字コードであり、Unicode系の文字セットが普及する以前から、Shift JISコードや日本語EUCコードと並び広く用いられてきました。その特徴の一つに、複数の文字セットを「エスケープシーケンス」によって切り替えて使用できる点がありま

はじめにWindows ではディレクトリ区切りに Unix 系 OS の / ではなくバックスラッシュ ⧵ を使い、しかも 日本語フォントでは 円マーク ¥ で表示されます。なぜこうなったかは次の独立した 2 つの理由からです。 はるか昔に JIS の文字コードの標準規格はあまり使わない ⧵ を必須の ¥ に置き換えた はるか昔にコマンドのオプション(スイッチ)としてすでに / を使っていたMicrosoft は他の OS のやり方を真似するのが嫌だからとか権利侵害になりそうだから ⧵ に変更したなどという根も葉もない噂がありますが、そうではありません。むしろMicrosoft は他の OS のやり方を取り込んだんです。なお、後で解説しますが、Windows は昔からディレクトリ区切りに/ と ⧵ の両方を使えるので Unix 系 OS と互換性がないわけではありません(どっちかと言

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?Webサービスのフォームに住所を入力するとき、丁目や番地などを入れる欄について、数字やハイフンを全角で書かなければいけない「全角縛り」をやっているフォームをよく見ます。半角文字を入力してしまってエラーになったり、咄嗟に変換方法を思い出せなかったり、全角と半角の見分けが付きづらかったり、「全角縛り」であることが明示されていなかったり、「ハイフン」としてどの文字を使うべきかわからなかったり……と、鬱陶しさを感じることが多くあります。 「住所は全角のみ」(数字やハイフンも絶対に半角を受け付けない)という仕様がどういう経緯で生まれて、どう広まっ

最近知ったんですが、Windowsではキーボードから円記号(¥)の入力はできないらしい。 というのも キーボード右上の¥キー キーボード右下の\キー のどちらかを押せば円記号(¥)を入力できますが、どちらを押しても入力されるのは円記号(¥)に偽装されたバックスラッシュ記号(\ )らしい。 皆さんこれ知ってました? いや正直、これを聞いても「何言ってんだコイツ」って思う人が大半だと思いますし、私も今でもそう思います。 これは「バックスラッシュと円記号問題」などと言って、Windowsで昔から続く”呪い”のようなものらしいのですが この”呪い”を理解するには文字コードの歴史を知る必要があります。 文字コードとは? その前に、そもそも文字コードってなによ?という根本的な話からすると、文字コードは「パソコンに文字を覚えさせるための暗記表」みたいなものです。 パソコンは2進数しか理解できないので あ
2023.05.10 官報に使われる「官報文字」というものがあります。 そこには渡辺さんの「辺」の異体字が140文字も登録されています。 日本語の常用漢字には2136文字ありますが、そこには邉や邊などは入っていません。 そこでJISの第四水準までを含むJIS X 0213という標準を定め、スマホやパソコンではここまでを標準的に表示できるようにしています。 ところが我が国の戸籍で使ってもよいとされている文字はそれを遙かに超えていて、少なくとも55,270文字もあります。 全ての国民の氏名をコンピュータで扱えるようになることを目指して、戸籍統一文字や住基ネット用の統一文字を網羅した「文字情報基盤」を2011年に策定し、それにあわせたフォントを作成し、無償で提供しています。 この「文字情報基盤」(MJ)には、58,862文字が含まれています。 しかし、このMJを全庁的に採用している自治体は、川口

とある会員制掲示板からの文書の流出に困った運営者が、ユニコードの見えない文字「ゼロ幅文字(Zero-Width characters)」を使って流出させたユーザーを特定した、という話が出ていました。 数年前の話、Tom さんが所属していた競技ビデオゲームのチームでは、ログインが必要なプライベートの掲示板を使って連絡していました。その掲示板に書かれた秘密情報や戦術に関する重大アナウンスなどがしばしば掲示板外のウェブにコピペされ、チームにとって大きな問題となっていたそうです。 外部ユーザーの攻撃で中身が漏れたというよりは、メンバーの誰かがコピーしているのでは、と考えた Tom さんは、当時気になっていたユニコードのゼロ幅文字を使ったトリックを仕掛けたそうです。 ユーザーを特定する情報を、見えない文字に変換して埋め込む ログイン中のログインユーザーのユーザーIDを、一定のルールによってゼロ幅文字

自分の知らないCJK Ideographのバリエーションがまだあったことに戦慄している pic.twitter.com/kUlyRLDDTM— moriyoshit (@moriyoshit) March 9, 2017 などというツイートをしたところ、思ったより反響があったのでまとめておく。 上記ではあいまいに「バリエーション」などと書いたが、Unicodeとそれを扱う環境においては、バリエーションと一口に言っても次のような状況がある。 意味論的に等価な異なる字形の集合 同じ字形で異なるコードポイントの集合 aは結構なじみ深いと思う。 a-1. 異なるコードポイントにそれぞれ異なる字形が割り当てられているもの 例: 「東」(U+6771) ⇔「东」(U+4E1C) 「斉」(U+6589) ⇔「齊」(U+9F4A) 「高」(U+9AD8) ⇔「髙」(U+9AD9) a-2. 同じコードポイ
コラムのお題を考えるとき、内容が重複しないよう連載第1回からの見出しをざっとチェックしているのだが、なぜこれほど重要なことを取りあげてこなかったか、と反省することも少なくない。今回は、濁点(゛)や半濁点(゜)が付く文字を含むファイル/フォルダ名をTerminal上で扱うときの問題と対策、というかなり昔から存在するテーマについて考えてみたい。 「ダ」や「パ」を含むファイルを検索できない理由 まず、具体事例から説明しよう。カレントディレクトリに「オランダ」と「パナマ」、「ニホン」という名前のPNGファイルがあるとして、以下に示す図のとおりfindコマンドでファイル検索したとする。そのとき、ヒットするのは「ニホン」だけ。lsコマンドを実行すると確かに存在するし、綴りに誤りがあるわけでもなく、ただ濁点・半濁点を使うカナ(日本語IMEで入力)を検索語としただけなのに、ヒットしないのだ。 この問題は、

2019年8月6日に開催されたヤフー名古屋Tech Meetup #3の内容です。 #3 は「Webフロントエンドを支えるノウハウ」をテーマに開催しました。 JJUGCCC 2019 fall g3のセッション資料です。 「ちょっと凝ったことをしようとすると大量のXMLを書かなきゃいけない」「プラグインを並べてもうまく動いてくれない」など、Mavenは誤解され敬遠され、Gradleなどの他のビルドツールにシェアを奪われてきました。 が、依然としてMavenはJavaのデファクトスタンダードなビルドツールに位置づけられており、マスターする価値は十分にあります。そして良く学んでみると、そもそもXMLで過度なカスタマイズしようというのが誤った使い方だったのに気づきます。そこへ至るにも、タスクランナーの延長線上にある他のビルドツールと異なり、Maven独特なライフサイクルとプラグインの関係性もき
1リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く