どうも、『人文×社会』の中の人です。 今回は、WindowsとMacで起こった「波ダッシュ」をめぐるドタバタ劇をご紹介したいと思います。 波ダッシュといえば、「〜」という記号。どこにもドタバタする要素がないように思えますが、実は今でも組版業界で問題となっている大混乱があります。 波ダッシュと全角チルダ「それ、不等号ですよ! 紛らわしい約物3連発!」の記事でもご紹介したように、見た目が「〜」に見える約物には、2種類あります。 「波ダッシュ」と「全角チルダ」です。 「波ダッシュ」は、日本語で範囲を表すときに使われる約物です。「明治〜大正」みたいな感じで使います。 「全角チルダ」は、半角チルダ(~)の全角版です。チルダは「漸近的に等しい」ことを表す数学記号として使われます。つまり、全角イコール(=)の仲間です。(他にも半角チルダは、コンピュータ上のホームディレクトリを表したり、プログラミング言語

2024年12月30日、「中国政府が支援する高度で持続的な脅威攻撃者」がアメリカ財務省の機密データを管理するシステムを侵害しました。この侵入にはPostgreSQLに9年以上存在していたのに誰も気付いていなかったSQLインジェクションの脆弱(ぜいじゃく)性が使用されたことが判明しており、ソフトウェアエンジニアのニック・アグリアーノ氏が記事にまとめています。 Hidden Messages inEmojis and Hacking the US Treasury https://slamdunksoftware.substack.com/p/hidden-messages-in-emojis-and-hackingSQLインジェクションは多くのセキュリティの教科書の冒頭に載っているような非常に有名な攻撃手法で、SQLインジェクションを通して攻撃者はSQL文を書き換えられるためシステムに重


まえがき ミャンマーでは公用語としてビルマ語が使われている。ビルマ語の表記にはビルマ文字を用いるのだが、このビルマ文字のインターネット上での使用は、混迷を極めていた。そしておそらく今もまだ…。なぜか? それは、Unicodeという文字コードの標準がありながら、Zawgyiというものが広く使われていたためである。なぜそのようなものが登場し、普及することとなったのか、この記事で解説する。 目次 まえがき 目次 凡例 この記事で使う名称について ビルマ語表記 コードポイント ラテン文字表記について Zawgyiの概説と歴史 Zawgyiとは Zawgyiのダウンロード Zawgyi誕生・普及の経緯 複雑なビルマ文字 ビルマ文字とUnicode 回避策としてのビルマ文字フォントの登場 Zawgyiの普及 Zawgyiの実装 実装の方針 文字の並べ替えをせず、左から右に書く 文字の形のバリエーション

こんにちは!アルダグラムのKANNAの開発お手伝いをさせて頂いているoubakiouです。本記事は株式会社アルダグラム Advent Calendar2023 6日目の記事です。 この記事を読めば以下のTypeScript(JavaScript)のテストコードがなぜこけるのかが分かったような気持ちになります。また最後に「細かい理屈はいいからいけてる感じに動くlengthやtruncateがほしい!」という方向けの付録もついています。it('surrogate pair', () => { // 2 expect('😊'.length).toEqual(1) })it('variation selectors', () => { // 4 expect('👍🏿'.length).toEqual(1) })it('combining character', () => { //

令和5年9/12にユニコード15.1が正式公開され、CJK漢字拡張-Iの他に“漢字構成記述文字”に指示記号4種、“CJK筆画”に拡張漢字構成記述文字の指示記号が1種類追加されました。ユニコードに採用されていない字の説明がしやすくなったのが重要です。𝚄+𝟹𝟷𝙴𝙵の一部除去指示記号は文字構成要素の一部が削除されていることを示す記号です。 漢字構成記述文字記号をラテン・ギリシャ・キリル各文字体系に応用した例で、ユニコードに採用されていない左右逆になる字形と逆になる字形を説明しやすくなりそうです。画像はにしき的フォントに含まれるユニコード未登録のラテン・ギリシャ・キリル各種字母を漢字構成記述文字記号で説明した例です。

導入 アイヌ語は日本語と異なり、閉音節(子音で終わる音節)も存在するので、表記の際音素文字であるラテン文字なら、そのまま p, t, k, m, n, s, r などの子音文字を後ろの付ければ良いわけなので、アイヌ語ローマ字表記では、何も問題が生じない。しかし、元々開音節言語である日本語に特化したカタカナのような仮名文字で表記する際、鼻音 n は「ン」でなんとかなる(実はそれでもまずい事になっているけどここでは割愛する)が、p, t, k, m, n, s, r, h はどうしようもないので、特殊の捨て仮名(小書き仮名文字)を利用することになっている。 具体的には以下のような特殊仮名文字(通称 アイヌ語仮名)である。 ㇷ゚ -p ッ -t ㇰ -k ㇺ -m ㇱ -s ㇻ -(a)r, ㇼ -(i)r, ㇽ -(u)r, ㇾ -(e)r, ㇿ -(o)r お分かり頂けただろうか… 問題 r

NFCではそのまま「パ」として表されますが、NFDでは「ハ」(基底文字)と「゜」(結合文字)の組み合わせとしての「パ(UTF-8でe3 83 8f e3 82 9a)」(合成文字)で表されます。試しにNFDで正規化された「パ(e3 83 8f e3 82 9a)」を任意のテキストエリアに貼り付けて削除してみると、半濁音のみが取れて「ハ」のみになると思います。 このように文字列の正規化形式が異なる場合、単純な比較演算子での評価は困難であり、文字列によっては想定外の挙動を引き起こす可能性があります。 特にMacファイルシステムではNFDを正規化方式と採用しているため、NFC/NFD問題が度々引き起こされています。先日(2023年03月27日)リリースされた「macOS 13.3 Ventura (22E252)」では、ファイル名に濁音や半濁音が含まれるファイルがFinderから開けなくなる

スマートフォンなどの絵文字では、多様な人種を表すために肌の色が変えられるようになっている。このアイデアを初めに形にし、推進したのはあるアメリカの黒人女性だったが、アップルにアイデアを盗まれ、彼女は充分な対価を得られなかった。そのため、著作権侵害でアップルを起訴し、現在裁判が進行しているという。 インクルーシブなアプリのアイデア カトリーナ・パロットには、それは夢のようなことだった。自分の考案したアプリのプレゼンテーションをするため、カリフォルニア州クパチーノのアップル本社に招かれたのだ。テキサス州のNASAに解雇されて1年も経たたない今、自分が先駆けて開発した「肌の色を選べる絵文字」について、あのiPhoneメーカーと事業提携の話し合いをするのだ。

I usecookies to analyze how visitors use my website viaGoogle Analytics: Accept Reject Dismiss _emacs -nw でこの先生きのこるには。 🍄 (2020/12/20 ひっそりと修正。 mintty, wsltty はファイルに設定を書くのであった)。 はじめに. この文書はEmacs Advent Calendar 2020の12/18(金)分の記事です。 昨日はfiboさんのemacs -nw のコピペ事情でした。 手元では gpaste + xclip で生活してますが、 …ネットワークごしのコピペは面倒そうですね。 さて。 最近Emacs絡みで頑張った事と言えば, ターミナルでもall-the-icons.elしたくて, isfit-plusを作ったぐらいだったので, 特に記事

(表ではフォントに源ノ角ゴシックを指定しているので、インストールしてない人はsource-han-sansからどうぞ。どのファイルか迷う人はSuperOTCを入れればOK。) 百聞は一見にしかず、次の表に適当に漢字を比較させてみたのでどうぞ。 国および地域別のUnicodeコードポイントとグリフの比較 地域 言語タグ U+9AA8 U+6B21 U+771F U+4E03 U+904D台湾(繁体字) zh-Hant-TW 骨 次 真 七 遍 香港(繁体字) zh-Hant-HK 骨 次 真 七 遍中国(簡体字) zh-Hans 骨 次 真 七 遍 日本(参考) ja 骨 次 真 七 遍韓国(参考) ko 骨 次 真 七 遍 …とそれだけではあまりにも味気ないので、補足説明をほんのちょっと。 ふと簡体字と繁体字を言語コードで表すときに、zh-Hansとzh-Hantとしましょうというと
すべてのMicrosoft 製品 GlobalMicrosoft 365 Teams CopilotWindows Surface Xbox セール 法人向け サポート ソフトウェアWindows アプリAI OneDriveOutlook Skype から Teams への移行OneNoteMicrosoft TeamsPC とデバイス Xbox を購入する アクセサリVR & 複合現実 エンタメ Xbox Game Pass Ultimate Xbox とゲームPCゲーム 法人向けMicrosoft CloudMicrosoftSecurity Azure Dynamics 365 一般法人向けMicrosoft 365Microsoft IndustryMicrosoft Power PlatformWindows 365 開発者 &IT Mi

米Googleは2月12日(現地時間)、Android向けキーボードアプリ「Gboard」の新機能「Emoji Kitchen」を発表した。2つの絵文字をミックスしてカスタマイズした絵文字を使える。同日からすべてのGboardユーザー向けにロールアウトしていく。 Gboardをメインのキーボードに設定し、Gmail、Googleのメッセージ、メッセンジャー、Snapchat、Telegram、WhatsAppなどのアプリでの入力で絵文字を選ぶと使える(本稿執筆現在、筆者のGboardではまだできない)。 自分で新しい絵文字を作れるわけではないようだ。公式ブログには、「絵文字をタップすると、Googleのデザイナーが特別に手作りしたステッカーが(候補として)多数表示される」とある。 関連記事 「UnicodeEmoji 13.0」決定──タピオカドリンクも遅まきながら登場 Unicode

Ruby 2.7 アドベントカレンダーの19日目の記事です。 qiita.com Encoding::CESU_8 追加 Fiber#raise 追加 FrozenError#receiver 追加 Encoding::CESU_8 追加 自分は知らなかったのですが、Unicode の文字エンコーディングにUTF-8 の亜種で CESU-8 というのがあるらしく、2.7 でそれに対応しました。 通信用語の基礎知識 より:UTF-8の亜種の一つで、Oracleが使っている不届き千万な仕様の一つ。本来UTF-8(RFC 2279 [外部リンク] )では、サロゲートペアは適時解釈してから符号化せねばならない。 しかしこのCESU-8は、サロゲートの各ペアを機械的にUTF-8に変換するのみであり、supplementary characterは6バイトで表現される。これはUTF-8の仕様から
C++標準化委員会、ついに文字とは何かを理解する: char8_tという記事が話題だってので、つらつらと書いてみました。 「グリフ」について グリフ(glyph)という言葉の定義をめぐって でも触れられていますが、「グリフ」という言葉が「字体」を指すのか「字形」を指すのかってのは議論がありますね。文字コードの文脈では普通「字形」の意味だとして話を進めることが多いように思います。 CJK統合漢字についてWikipediaの記事にまとまっていますが、実際に推進していたのは中国みたいですね。うまくやればあんまり問題なかったんでしょうが、あんまりうまく行かなかったんですが、それでも国ごとにその国の過去にあった文字コードとの互換性は取れているので、実際の所CJK統合漢字ってあんまり問題にはなってないと思うんですよね。中国語フォントと日本語フォントを切り替えないといけないって問題はありますけど、それ
モンゴル文字は、主にモンゴル語表記のための文字*1である。縦書き専用の文字であり、日本語の場合とは反対に左から右へと行を進める。また、アラビア文字のように続け書きされ、文字が語のどの位置に来るかによって形が変わる。 モンゴル文字は現在も中国の内モンゴル自治区でモンゴル語の表記に現役で使用されている。他方モンゴル国ではソ連の影響下でモンゴル語の表記をキリル文字に切り替えたので、モンゴル文字は学校で習いはするものの一般にあまり使われない。 Unicode 3.0からモンゴル文字がシベ文字・トド文字・満州文字と統合されて収録されているため、コンピュータでこの文字を入力するにあたっては、独自の符号化方式を作成するのでなければUnicodeを利用しようとするのが当然に思える。しかし、現状のUnicodeモンゴル文字は致命的な欠陥を抱えている。 このエントリでは、2017年ころからUnicode Te

はじめに 外字について色々調べているうちに、自分自身がUnicodeや異体字について、ちっとも分かっていないということが分かりました。そこで、調べた内容をまとめてみました。 情報の密度よりも、文字コードやフォントに関わるときの最低限の知識として、またはCheatsheetとして読み返せる内容としてまとめたつもりです。 誤った内容があればご指摘頂けると幸いです。 JIS97 JIS漢字コードはJISが規定した文字集合。俗にJIS漢字コードというと以前はJIS97を指し、正確には「JIS X 0208:1997」という規格である。 6,879個の図形文字を規定。漢字は第一水準と第二水準を搭載。基本的には、区と点で表現し区点コードによって配置している。区点コードは全角文字(非漢字含む)の定義であり、半角文字は含まれていない。 区点コードのような文字集合の中での配置番号を「コードポイント」と言う。

リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く