Movatterモバイル変換

fubar_foo id:fubar_foo

encodingに関するfubar_fooのブックマーク (37)

文字コード | 衆議院議員河野太郎公式サイト
2023.05.10 官報に使われる「官報文字」というものがあります。そこには渡辺さんの「辺」の異体字が１４０文字も登録されています。日本語の常用漢字には２１３６文字ありますが、そこには邉や邊などは入っていません。そこでＪＩＳの第四水準までを含むJIS X 0213という標準を定め、スマホやパソコンではここまでを標準的に表示できるようにしています。ところが我が国の戸籍で使ってもよいとされている文字はそれを遙かに超えていて、少なくとも５５，２７０文字もあります。全ての国民の氏名をコンピュータで扱えるようになることを目指して、戸籍統一文字や住基ネット用の統一文字を網羅した「文字情報基盤」を２０１１年に策定し、それにあわせたフォントを作成し、無償で提供しています。この「文字情報基盤」（ＭＪ）には、５８，８６２文字が含まれています。しかし、このＭＪを全庁的に採用している自治体は、川口
fubar_foo2023/05/11
encoding
unicode
リンク
[PDF]新元号名で使用する文字コードについて（周知）（平成３１年４月５日経済産業省事務連絡）
fubar_foo2019/04/16
encoding
リンク
How to print Unicode character in C++
fubar_foo2017/01/06
コードページについて。
unicode
encoding
リンク
Boost.Nowide: Boost.Nowide
Table of Contents: What is Boost.Nowide Rationale The Probl em The Solution Why Not Narrow and Wide? Further Reading Using The Library Standard Features CustomAPI Integration with Boost.Filesystem Technical DetailsWindows vs POSIX Console I/O Q & A Standalone Version Sources and Downloads What is Boost.Nowide Boost.Nowide is a library implemented by Artyom Beilis that makes cross platform Unicode
fubar_foo2017/01/06
便利そうかも。
unicode
encoding
リンク
UTF-8は２度、３度死ぬ(その１) - 闇鳥の人の好意を無視する道
この記事はブルータスお前もかの続きです。きっかけは、ふっとしたところから一晩たってMS932もUTF-8も、なぜか「ファイル構成」と出したつもりが、文字化けして、最初の字が「繝」になっている事に気づく。さて「繝」って何だろう？文字コードを調べてみる。フシフトJIS(0x8374)UTF-8(0xE38395) 繝シフトJIS(0xE383)UTF-8(0xE7B99D) お気づきでしょう、「フ」のUTF-8の先頭2バイトをシフトJISで出すと、「繝」になるのです。そして「setlocale(LC_ALL, "")」は、今のコードページが何であれ、OSのコードページ(MS932)にセットさせるのです。また、setlocale()では、UTF-8をロケールに設定出来ません。ここで疑問が、ではsetlocale()を取ってしまうと、何が起きるのだ？と。念のため、別の日本語行も追加
fubar_foo2017/01/06
unicode
encoding
リンク
C++: UTF-8 の文字列を1文字ずつ表示する (std::string)
C++: 文字列の一部を取り出す (std::string)C++:Mac OSX で std::wcout を使ってワイド文字を表示させようとするとクラッシュするC++ : wchar_t、char32_t、char16_t 型の文字列の長さを求めるC++: std::wstring、std::u32string、std::u16string を1文字ずつ表示するC++: std::wstring、std::u32string、std::u16string と c_str メソッドの戻り値についてC++: 文字列を連結するC++: 文字列イテレーターのインデックスを求めるC++:UTF-8 の文字列を1文字ずつ表示する (std::string)C++:UTF-8 の文字列の長さを求める (std::string)C++: コードポイントからUTF-8 の文字を生成する (std
fubar_foo2017/01/06
unicode
encoding
リンク
UTF-8 の文字列を操作するための補助関数群 - Cube Lilac
UTF-8 の文字列を操作するための補助関数群を作ってみました．当初，find() などの特定の文字列を見つける部分の実装が面倒そうだなぁと思っていたのですが，UTF-8 の 2 バイト目以降には 1 バイト目に出現しうる値は出現しないのですね．ビットパターンは以下のようになっている。 0xxxxxxx (00-7f) 7bit 110yyyyx 10xxxxxx (c0-df)(80-bf) 11bit 1110yyyy 10yxxxxx 10xxxxxx (e0-ef)(80-bf)(80-bf) 16bit 11110yyy 10yyxxxx 10xxxxxx 10xxxxxx (f0-f7)(80-bf)(80-bf)(80-bf) 21bit UTF-8 -Wikipedia そんな訳で find() などは std::string の find() をそのまま使えば良さそう
fubar_foo2017/01/06
unicode
encoding
リンク
Best Open Source Internationalization (I18N) Software 2025
Browse free open source Internationalization (I18N) software and projects below. Use the toggles on the left to filter open source Internationalization (I18N) software by OS, license, language,programming language, and project status. 無料プランが拡大！ |Auth0 無料プランのMAUは25,000まで、さらに、Okta Connectionsが無制限になり、開発者のみなさんがアプリの開発に注力することができるようになりました。無料・有料プランを拡張してほしい！そのような声を開発者の方々からいただき、プランが大幅に変更されました。プランの制約とセキュリ
fubar_foo2017/01/06
unicode
encoding
リンク
ICU - International Components for Unicode
2025-03-13: ICU 77 is now available — releases/tag/release-77-1 — Maven: com.ibm.icu / icu4j / version 77.1 ICU 77 updates to CLDR 47 locale data with new locales, and various additions and corrections. ICU 77 is mostly focused on bug fixes, segmentation conformance, and other refinements. Thetechno logy preview implementations of the CLDR MessageFormat 2.0 specification have been updated to incor
fubar_foo2017/01/06
unicode
encoding
リンク
UTF-8 Everywhere
As can be seen, UTF-16 takes about 50% more space thanUTF-8 on real data,it only saves 20% for dense Asiantext, and hardly competes with general purpose compression algorithms. The Chinese translation of this manifesto takes 58.8 KiB in UTF-16, and only 51.7 KiB inUTF-8.Text operations on encoded strings The populartext-based data formats (e.g.CSV, XML,HTML, JSON, RTF and source codes of c
fubar_foo2017/01/06
encoding
リンク
C言語 Unicode - Qiita
個人的にC言語でUnicodeを扱う機会があったので調べた。体系的に説明している記事が見当たらないのでまとめておく。 Unicode とはWikipediaのUnicodeから引用する。 Unicode は世界で使われる全ての文字を共通の文字集合にて利用できるようにしようという考えで作られ、Unix、Windows、Mac OS X、Plan 9[2]、Javaなどで利用されている。文字コードと文字集合と文字エンコーディング「文字コード」と「文字集合」と「文字エンコーディング」は異なる概念である。混同していると検索の際に適切な情報に辿りつけない。逆に、この区別がわかっていればコードを書く際に悩むことはない。私は最初、自分で混同していたことにすら気付かなかった。「文字集合」とは、その名の通り文字の集合だ。アルファベットやカタカナ、漢字などを含む。具体的には、各文字(図形)に対して番号
fubar_foo2017/01/06
encoding
リンク
http://www.nubaria.com/en/blog/?p=371
fubar_foo2017/01/05
encoding
リンク
Using UTF-8 as the internal representation for strings in C and C++ with Visual Studio | Nubaria Blog
In today’s long post, I’mgoing to explain theguidelines we follow at Retibus Software in order to handle Unicodetext inWindows programs written in C andC++ withMicrosoft Visual Studio. Our approach is based on using the types char and std::string and imposing the rule thattext must always be encoded inUTF-8. Any other encodings or character types are only allowed astemporary variables to
fubar_foo2017/01/05
WindowsでUnicodeを使う際の注意点。
encoding
リンク
Code Project
Code Project - For Those Who Code
fubar_foo2017/01/05
encoding
リンク
Unicodeの憂鬱 - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?40歳目前の中年エンジニアが独りよがりにUnicodeとの思い出を書き綴ってみる。記憶をベースに細かいことを気にせずに大枠の雰囲気が伝わるように書いてみる。なぜUnicode? 先日MySQLのバージョンアップを行ったが、その時にCharacter setをutf8からutf8mb4に変換した。MySQLを普段使わない人はutf8mb4なに？と思うかも知れません。そうです、これはMySQL固有のものです。どうやらMySQLは永らくUTF8は1文字が1～3バイトであることが前提の実装になっていた。で、4バイトな文字が登場して、「
fubar_foo2016/12/28
wcharはWindowsでutf-16LE（with サローゲートペア）, linuxではutf-32、freebsdはlocale依存 / 文書ではBOM有無も要注意 / とりあえずchar&utf-8を使っておくのが無難なのかな。
encoding
リンク
Rubyの内部文字コードはUTF-8ではない...だと...？！｜TechRacho by BPS株式会社
こんにちは、hachi8833です。少し前に、babaさんから「Rubyの内部文字コードはUTF-8じゃないよ」とツッコミがありました。（追記: 上は会話の途中から切り取りましたのでご了承ください）いきなりの展開にくらくらきましたが、babaさんはさらにたたみかけます。こうしたことはとっくにご存じの方も多いと思いますが、「Rubyといえば2.0以来UTF-8完全対応なんじゃないの」と勝手に思い込んでた私は脳に掌底を食らったような思いです。ああ、でもこういうことがあるから面白い。 ⚓ プログラミング言語と内部文字コードの関係まず最初に押さえておきたい点です。プログラミング言語で文字コードに関連する部分は、「文字列」「正規表現」「入出力」「コード中の文字リテラル（""の中など）」「コード中の文字リテラル以外の要素（変数名など）」「ファイル名」などが中心になります。そして文字列に関連し
fubar_foo2016/10/13
ruby
encoding
リンク
「iPhoneのMailから送ったメッセージ全体が文字化け」のまとめ - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
（2013年10月追記1）iOS 7の登場以来、このエントリへのアクセスが増えているので、情報を追加。iSO 7では、以前はauのiPhoneなどでしか発生しなかった「送信したcharset=CP932のメールが、Android端末で化ける」現象が、SoftBankiPhoneでも発生するようになった。詳しくは「iOS 7にしたら送信したメッセージが化けるようになった」を参照。（2013年10月追記2）実際に確認できてはいないのだが、iOS 7の仕様変更により、iPhoneのメールアプリからSoftBankのケータイに絵文字を含むメールを送った場合、メッセージ全体が化けるのではないかと思われる（これに該当する経験をお持ちの方、コメント欄などで情報をいただけるとありがたいです）。（2013年10月追記3）iOS 7がらみで（メッセージ全体が化けるのではなく）絵文字が表示されない問題につ
fubar_foo2015/03/12
iphone
encoding
リンク
文字コードの設定(CHCP)
CHCP コマンドを使用するとコマンドプロンプトで使用される文字コードを設定することができます。ここではコマンドプロンプトにおける CHCP コマンドの使い方について解説します。
fubar_foo2014/09/26
programming
nlp
windows
encoding
リンク
2010-07-02
定義ファイルを読み込んでさくっとシミュレーション環境を構築するようなアプリをC++で書いてたのだけど、データ形式はXMLながらもあんまり大げさにもしたくなかったのでフルスクラッチでパーサーを書いたら10KB、500行ぐらいになった。無試験なのに半日作業。こんなにかかるとは思わなかった。素直にMSXmlでもつかっておけばよかったよ・・・。なんかBoost使わなきゃならないとかいろいろあったのだけど、結局windows限定ならばfopen_sを使えばいいという結論に。 FILE *f;errno_terr = fopen_s(&f, "UTF8file.txt", "rt,ccs=UTF-8") ; if (err != 0) return false; wchar_t buf[BUF_SZ]; wstring str = L""; while(!feof(f)){ fgetws(buf
fubar_foo2014/02/25
UTF-8のファイルを読み込む．fopen_s()で簡単に開けてしまう．
encoding
リンク
C++: std::wstring、std::u32string、std::u16string を1文字ずつ表示する
C++: 文字列の一部を取り出す (std::string)C++:Mac OSX で std::wcout を使ってワイド文字を表示させようとするとクラッシュするC++ : wchar_t、char32_t、char16_t 型の文字列の長さを求めるC++: std::wstring、std::u32string、std::u16string を1文字ずつ表示するC++: std::wstring、std::u32string、std::u16string と c_str メソッドの戻り値についてC++: 文字列を連結するC++: 文字列イテレーターのインデックスを求めるC++:UTF-8 の文字列を1文字ずつ表示する (std::string)C++:UTF-8 の文字列の長さを求める (std::string)C++: コードポイントからUTF-8 の文字を生成する (std
fubar_foo2014/02/25
c|c++
encoding
リンク
12次のページ