Movatterモバイル変換

riocampos id:riocampos

Unicodeに関するriocamposのブックマーク (9)

Ruby にて文字と Unicode コードポイントの相互変換を行う - vivid memo
Unicode のコードポイントを指定して文字を得たり、逆にある文字のコードポイントを調べたり、ということをする機会は結構多いと思います。が、Ruby でそれをやる方法をぐぐってもあまり上位に情報が出てこないなー、と思ったので簡単にまとめておきます。 Unicode コードポイントとはそもそも Unicode コードポイントとは何か。 Unicode というのは世界中の文字が集められた文字集合であり、Unicode に収録されている文字には順番に番号が振られています。この番号のことをコードポイントといいます。あるコードポイントが指す文字を表現するときに "U+" という文字の後ろに 16 進数表記のコードポイントを書いて表すことがあります。例えば、コードポイント 0x3041 が指す文字 (ひらがなの「あ」) を U+3041 と書いて表します。各文字とコードポイントの関係は
riocampos2018/09/22
そうかpack/unpackじゃなくても\uで始まるunicodeリテラルで済ませると楽なんだな。んで波括弧を使えば、スペース挟んで複数文字分のコードも連続して書ける、と。
ruby
Unicode
文字
リンク
ダイアクリティカル付き文字辞典 - 世界の特殊文字ウィキ
世界の特殊文字ウィキラテン文字などの拡張補助文字や人工文字、ユニコード絵文字など特殊文字に関するウィキです。トップページページ一覧メンバー編集 × ダイアクリティカル付き文字辞典最終更新： qvarie 2011年02月02日(水) 14:16:11履歴 Tweet 補助記号であるダイアクリティカルマークを使用する拡張文字のデータベースです。そのダイアクリティカルマークが使用される言語を簡単にまとめます。公式ユニコード未登録のダイアクリティカルマーク合成字母の公式は、【字母, 合成可能ダイアクリティカルマーク】 0259 + 0300 → LATIN SMALL LETTER SCHWA WITH GRAVE ə + ◌̀ → ə̀ ＆＃601；＆＃768；(ライブドアウィキの場合全部半角にするとユニコード字形に変化するため、記号類は全角) の順です。 HPでユニコードの文字
riocampos2014/07/05
補助記号（ダイアクリティカルマーク）の種類別文字ページへのリンク。
文字
Unicode
リンク
拡張ラテン文字辞典 - 世界の特殊文字ウィキ
世界の特殊文字ウィキラテン文字などの拡張補助文字や人工文字、ユニコード絵文字など特殊文字に関するウィキです。トップページページ一覧メンバー編集 × 拡張ラテン文字辞典最終更新： qvarie 2019年02月09日(土) 21:57:18履歴 Tweet 【拡張文字辞典】カテゴリです。拡張ラテン文字を取り上げます。古今東西のラテン系拡張文字をまとめるのが目的ですが、フォントの都合上、字母表示がないものもあります。部首別にまとめてあります。パソコン上を字形を確認するには、ブラウザではFirefox、フォントではQuiviraかにしき的フォントが必要です。ダイアクリティカル付き字母の系統は【ダイアクリティカル付き文字辞典】を参照してください。文字見本の画像掲載はしばらくお待ち下さい。取り上げるものユニコードに収録されている字母。ユニコードに未収録のもので使用されたことの
riocampos2014/07/05
アルファベット別の拡張文字ページへのリンク。
文字
Unicode
リンク
文字（ラテン特殊文字） - CyberLibrarian
ダイアクリティカル・マーク主なダイアクリティカル・マーク（Diacritical Mark = 補助記号）をご紹介します。ダイアクリティカル・マークは、ラテン文字等において、発音を区別すべき文字に付される補助記号です。なお、ここで紹介しているダイアクリティカル・マーク付き文字は、主な言語で使用されるものを抜粋しています。索引: アキュート ( ́ ) 上ドット ( ˙ ) 上フック ( ̉ ) 上リング ( ̊ ) オゴネク ( ˛ ) キャロン ( ̌ ) グレーブ ( ̀ ) サーカムフレックス ( ̂ ) 下コンマ ( ̦ ) 下ドット ( ̣ ) ストローク ( / ) セディラ (̧) ダイエレシス ( ̈ ) ダブルアキュート ( ̋ ) チルド ( ̃ ) ブリーブ ( ̆ ) ホーン ( ̛ ) マクロン ( ̄ ) アキュートアクセント（Acute Accent）
riocampos2014/07/05
Unicodeのダイアクリティカル・マーク付き文字の紹介。代用の指針もあるのがありがたい。
文字
Unicode
リンク
アクセント付き文字の変換表(アクセント分解)
注：下の表の文字コードはUnicodeです。正しく表示されない場合はブラウザの「エンコード」を Unicodeにしてください。何これ？アクセント付き文字を和文中で表記するための実用的な手段です。もっと詳しくこれは「基本ラテン文字のみによる拡張ラテン文字Aの分解表記法」(SeNoLEBLO: Separative notation of Latin Extended-A characters by Basic Latin characters only)です。通称は「アクセント変換表」です。 ASCIIコード（とUnicode）の 128番以前は「基本ラテン文字」と呼ばれ、世界中のほとんどのコンピュータで表記できます。欧文や日本語ローマ字表記ではアクセント記号つきの文字があります。これはASCIIコード（とUnicode）の 128番以降の「拡張ラテン文字」ですが、日本語の文字コー
riocampos2014/07/05
『アクセント付き文字を、多言語をサポートしない、和文のプレーンテキスト中で表現するための表記方法（アクセント分解）の提案です。例えばフランス語のthéâtreを〔the'a^tre〕と表記できます。』
Unicode
文字
欧州
font
リンク
文字コードについて
2003-11-03 文字コードについてPCというものが世の中に登場して来たとき（8ビットCPUだった）には、半角文字しか扱うことができなく、日本製のPCは、この頃から厄介な半角カタカナというものもあった。当時のPCでは、ワープロのソフトもなく、ワープロ（という装置）は机の形をしていた機械だった。今では、意識することなくPCで日本語を扱うことができるようになったが、それでも、気をつけていないと、漢字が化けるなどの問題がある。メモ帳で色々な文字コードを保存Windows2000のメモ帳を使い下記の４種類の文字コードを試してみた。 ANSI Unicode Unicode big endianUTF-8 メモ帳でそれぞれの文字コードで保存してテキストファイルを作成する。ファイルの内容は「abcあいう」という文字列が書いてあり、そのファイルをHEXダンプした。 ANSIの
riocampos2014/06/26
UCS-2からUTF-8への変換表が載っている。
文字
資料
Unicode
リンク
Unicode spaces
This document lists the various space characters in Unicode. For a description, consult chapter 6 Writing Systems and Punctuation andblock description General Punctuation in the Unicode standard. This document also lists three characters that have no width and can thus be described as no-width spaces. The third column of the following table shows the appearance of the space character, in the sens
riocampos2014/06/04
スペースだけで、なぜこんなにたくさん種類があるのやら…。
資料
Unicode
リンク
hachi8833の記事一覧｜TechRacho by BPS株式会社
hachi8833 X: @hachi8833GitHub: @hachi8833 コボラー、IT コンサル、ローカライズ業界、Rails開発を経てTechRachoの編集・記事作成を担当。これまでにRuby onRails チュートリアル第2版のコンテンツ監修、Railsガイドのコンテンツ作成を担当。かと思うと、正規表現の粋を尽くした日本語エラーチェックサービス enno.jpを運営。 Claude Codeに夢中になりすぎないための方法を模索中。ブログ:note.com/hachi8833、Amazonウィッシュリスト: https://bit.ly/32aAmiI
riocampos2013/10/22
正規表現のUnicode文字プロパティを解説する連載記事。「正規表現」だけでもヘヴィーなのにさらに「Unicode」。詰んでる感じですねw
REGEX
文字
Unicode
リンク
新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能 | 日経 xTECH（クロステック）
普段使用する漢字の指針となる「常用漢字表」が、2010年度にも改正される。新たに追加される196文字の中に、文字コード「シフトJIS」にない漢字が含まれているため、情報システムに大きな影響を与えそうだ。最新のJIS規格「JIS X 0213:2004」の改正に委員としてかかわった京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、問題の核心を解説する。　　　　　（日経コンピュータ） 2009年11月10日、文部科学省の「文化審議会国語分科会」において、常用漢字表の改正案が承認された。現行の常用漢字表にある1945字から「銑」「錘」「勺」「匁」「脹」の5字を削除し、新たに196字を追加する改正案で、2010年度の内閣告示を目指している。新しい常用漢字表が告示されると、「シフトJIS」や「EUC-JP」といった従来からある文字コードを使用するシステムで大きな問題が生じ
riocampos2009/12/11
新常用漢字表に含まれる「𠮟」はUnicodeしかもUTF-8/16のみ。WinXPやOSX 10.4では扱えない。/『「許容字体」として「叱」を認めてほしい、と陳情』すべきでしょうね。
文字
漢字
資料
Unicode
リンク
1