2023.05.10 官報に使われる「官報文字」というものがあります。 そこには渡辺さんの「辺」の異体字が140文字も登録されています。 日本語の常用漢字には2136文字ありますが、そこには邉や邊などは入っていません。 そこでJISの第四水準までを含むJIS X 0213という標準を定め、スマホやパソコンではここまでを標準的に表示できるようにしています。 ところが我が国の戸籍で使ってもよいとされている文字はそれを遙かに超えていて、少なくとも55,270文字もあります。 全ての国民の氏名をコンピュータで扱えるようになることを目指して、戸籍統一文字や住基ネット用の統一文字を網羅した「文字情報基盤」を2011年に策定し、それにあわせたフォントを作成し、無償で提供しています。 この「文字情報基盤」(MJ)には、58,862文字が含まれています。 しかし、このMJを全庁的に採用している自治体は、川口

Table of Contents: What is Boost.Nowide Rationale The Problem The Solution Why Not Narrow and Wide? Further Reading Using The Library Standard Features CustomAPI Integration with Boost.FilesystemTechnical DetailsWindows vs POSIX Console I/O Q & A Standalone Version Sources and Downloads What is Boost.Nowide Boost.Nowide is a library implemented by Artyom Beilis that makes cross platform Unicode
この記事はブルータスお前もかの続きです。 きっかけは、ふっとしたところから 一晩たってMS932もUTF-8も、なぜか「ファイル構成」と出したつもりが、文字化けして、最初の字が「繝」になっている事に気づく。さて「繝」って何だろう?文字コードを調べてみる。 フ シフトJIS(0x8374)UTF-8(0xE38395) 繝 シフトJIS(0xE383)UTF-8(0xE7B99D) お気づきでしょう、「フ」のUTF-8の先頭2バイトをシフトJISで出すと、「繝」になるのです。そして「setlocale(LC_ALL, "")」は、今のコードページが何であれ、OSのコードページ(MS932)にセットさせるのです。また、setlocale()では、UTF-8をロケールに設定出来ません。 ここで疑問が、ではsetlocale()を取ってしまうと、何が起きるのだ?と。念のため、別の日本語行も追加
C++: 文字列の一部を取り出す (std::string)C++:MacOSX で std::wcout を使ってワイド文字を表示させようとするとクラッシュするC++ : wchar_t、char32_t、char16_t 型の文字列の長さを求めるC++: std::wstring、std::u32string、std::u16string を1文字ずつ表示するC++: std::wstring、std::u32string、std::u16string と c_str メソッドの戻り値についてC++: 文字列を連結するC++: 文字列イテレーターのインデックスを求めるC++:UTF-8 の文字列を1文字ずつ表示する (std::string)C++:UTF-8 の文字列の長さを求める (std::string)C++: コードポイントからUTF-8 の文字を生成する (std
UTF-8 の文字列を操作するための補助関数群を作ってみました.当初,find() などの特定の文字列を見つける部分の実装が面倒そうだなぁと思っていたのですが,UTF-8 の 2 バイト目以降には 1 バイト目に出現しうる値は出現しないのですね. ビットパターンは以下のようになっている。 0xxxxxxx (00-7f) 7bit 110yyyyx 10xxxxxx (c0-df)(80-bf) 11bit 1110yyyy 10yxxxxx 10xxxxxx (e0-ef)(80-bf)(80-bf) 16bit 11110yyy 10yyxxxx 10xxxxxx 10xxxxxx (f0-f7)(80-bf)(80-bf)(80-bf) 21bitUTF-8 -Wikipedia そんな訳で find() などは std::string の find() をそのまま使えば良さそう
Browse free open source Internationalization (I18N) software and projects below. Use the toggles on the left to filter open source Internationalization (I18N) software by OS, license, language,programming language, and project status. 無料プランが拡大! |Auth0 無料プランのMAUは25,000まで、さらに、Okta Connectionsが無制限になり、開発者のみなさんがアプリの開発に注力することができるようになりました。 無料・有料プランを拡張してほしい!そのような声を開発者の方々からいただき、プランが大幅に変更されました。プランの制約とセキュリ
2025-03-13: ICU 77 is now available — releases/tag/release-77-1 — Maven: com.ibm.icu / icu4j / version 77.1 ICU 77 updates to CLDR 47 locale data with new locales, and various additions and corrections. ICU 77 is mostly focused on bug fixes, segmentation conformance, and other refinements. Thetechnology preview implementations of the CLDR MessageFormat 2.0 specification have been updated to incor
As can be seen, UTF-16 takes about 50% more space thanUTF-8 on real data,it only saves 20% for dense Asiantext, and hardly competes with general purpose compression algorithms. The Chinese translation of this manifesto takes 58.8 KiB in UTF-16, and only 51.7 KiB inUTF-8.Text operations on encoded strings The populartext-based data formats (e.g.CSV, XML,HTML, JSON, RTF and source codes of c

個人的にC言語でUnicodeを扱う機会があったので調べた。体系的に説明している記事が見当たらないのでまとめておく。 Unicode とはWikipediaのUnicodeから引用する。 Unicode は世界で使われる全ての文字を共通の文字集合にて利用できるようにしようという考えで作られ、Unix、Windows、Mac OS X、Plan 9[2]、Javaなどで利用されている。 文字コードと文字集合と文字エンコーディング 「文字コード」と「文字集合」と「文字エンコーディング」は異なる概念である。混同していると検索の際に適切な情報に辿りつけない。逆に、この区別がわかっていればコードを書く際に悩むことはない。私は最初、自分で混同していたことにすら気付かなかった。 「文字集合」とは、その名の通り文字の集合だ。アルファベットやカタカナ、漢字などを含む。具体的には、各文字(図形)に対して番号

In today’s long post, I’mgoing to explain theguidelines we follow at Retibus Software in order to handle Unicodetext inWindows programs written in C andC++ withMicrosoft Visual Studio. Our approach is based on using the types char and std::string and imposing the rule thattext must always be encoded inUTF-8. Any other encodings or character types are only allowed astemporary variables to
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?40歳目前の中年エンジニアが独りよがりにUnicodeとの思い出を書き綴ってみる。 記憶をベースに細かいことを気にせずに大枠の雰囲気が伝わるように書いてみる。 なぜUnicode? 先日MySQLのバージョンアップを行ったが、その時にCharacter setをutf8からutf8mb4に変換した。MySQLを普段使わない人はutf8mb4なに?と思うかも知れません。そうです、これはMySQL固有のものです。 どうやらMySQLは永らくUTF8は1文字が1~3バイトであることが前提の実装になっていた。 で、4バイトな文字が登場して、「

こんにちは、hachi8833です。 少し前に、babaさんから「Rubyの内部文字コードはUTF-8じゃないよ」とツッコミがありました。 (追記: 上は会話の途中から切り取りましたのでご了承ください) いきなりの展開にくらくらきましたが、babaさんはさらにたたみかけます。 こうしたことはとっくにご存じの方も多いと思いますが、「Rubyといえば2.0以来UTF-8完全対応なんじゃないの」と勝手に思い込んでた私は脳に掌底を食らったような思いです。ああ、でもこういうことがあるから面白い。 ⚓ プログラミング言語と内部文字コードの関係 まず最初に押さえておきたい点です。プログラミング言語で文字コードに関連する部分は、「文字列」「正規表現」「入出力」「コード中の文字リテラル(""の中など)」「コード中の文字リテラル以外の要素(変数名など)」「ファイル名」などが中心になります。そして文字列に関連し

(2013年10月追記1)iOS 7の登場以来、このエントリへのアクセスが増えているので、情報を追加。iSO 7では、以前はauのiPhoneなどでしか発生しなかった「送信したcharset=CP932のメールが、Android端末で化ける」現象が、SoftBankiPhoneでも発生するようになった。詳しくは「iOS 7にしたら送信したメッセージが化けるようになった」を参照。 (2013年10月追記2)実際に確認できてはいないのだが、iOS 7の仕様変更により、iPhoneのメールアプリからSoftBankのケータイに絵文字を含むメールを送った場合、メッセージ全体が化けるのではないかと思われる(これに該当する経験をお持ちの方、コメント欄などで情報をいただけるとありがたいです)。 (2013年10月追記3)iOS 7がらみで(メッセージ全体が化けるのではなく)絵文字が表示されない問題につ

定義ファイルを読み込んでさくっとシミュレーション環境を構築するようなアプリをC++で書いてたのだけど、データ形式はXMLながらもあんまり大げさにもしたくなかったのでフルスクラッチでパーサーを書いたら10KB、500行ぐらいになった。無試験なのに半日作業。こんなにかかるとは思わなかった。素直にMSXmlでもつかっておけばよかったよ・・・。 なんかBoost使わなきゃならないとかいろいろあったのだけど、結局windows限定ならばfopen_sを使えばいいという結論に。 FILE *f;errno_terr = fopen_s(&f, "UTF8file.txt", "rt,ccs=UTF-8") ; if (err != 0) return false; wchar_t buf[BUF_SZ]; wstring str = L""; while(!feof(f)){ fgetws(buf

C++: 文字列の一部を取り出す (std::string)C++:MacOSX で std::wcout を使ってワイド文字を表示させようとするとクラッシュするC++ : wchar_t、char32_t、char16_t 型の文字列の長さを求めるC++: std::wstring、std::u32string、std::u16string を1文字ずつ表示するC++: std::wstring、std::u32string、std::u16string と c_str メソッドの戻り値についてC++: 文字列を連結するC++: 文字列イテレーターのインデックスを求めるC++:UTF-8 の文字列を1文字ずつ表示する (std::string)C++:UTF-8 の文字列の長さを求める (std::string)C++: コードポイントからUTF-8 の文字を生成する (std
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く