Movatterモバイル変換

KoshianX id:KoshianX

charcodeに関するKoshianXのブックマーク (14)

MySQL と寿司ビール問題 - かみぽわーる
MySQL と Unicode Collation Algorithm (UCA) - かみぽわーるに関連するトピックで、MySQL には寿司ビール問題というのがある。寿司ビール問題どっかで詳しくお話を聞くべきだよなぁ。。。— RKajiyama (@RKajiyama) March 18, 2015 これはどういう問題かというと、MySQL の Unicode では binary collation にしてコードポイントで比較しないと🍣と🍺に限らず絵文字が同値判定されるという問題です。あれ？MySQL の utf8mb4 charset って、4バイト文字同士を比較すると同じ文字扱いされる？ SELECT '🍣'='🍺' → 1MySQL的には寿司とビールは同じ扱い。— とみたまさひろ (@tmtms) December 22, 2014MySQLで select
KoshianX2015/03/23
文字コード問題はどこまでも頭悩まされるな……
mysql
charcode
リンク
文字コード地獄秘話第2話：聖母マリアよ、二人を何故別々に？ | ALBERT Engineer Blog
はじめに二人を最初から一つにしておけば、何も問題など起こらなかったのだ。一つのものを二つに分けたその時から、長い物語が始まる。おや？また会いましたね。どうも、文字コードおじさんです。もう半年近くも前になりますが、前回の投稿はだいぶ反響があったようで驚いております。ありがとうございます。今回も文字コードネタですが、Unicodeにおける結合文字列を取り上げてみようと思います。高度に発達した文字コードは地獄と見分けがつかない次の画像はTwitterの投稿フォームですが、おかしな点があります。わかりますか？そうです。4文字しか入力していないはずなのに 5文字分とカウントされていますね。おかしいと思いませんか？あなた？改行とかスペース入れてるんじゃねーだろうな？とか言わないで下さいね？さらに次の画像を見てみてください。こちらは4文字とカウントされていますね。先のものとは一体
KoshianX2014/10/27
合字がないといろいろ困ることもあるから……(震え声)
charcode
リンク
Rubyで全角チルダ・波ダッシュフォント問題にハマる - なぜか数学者にはワイン好きが多い
なんか，全角チルダ「〜」が文字化けするという苦情が来ました．Linux上のRubyで文字処理をして，Windowsユーザに提供するプログラムを書いた時の話です．調べると，こんな感じに，確かに妙に文字が変化しました． // Shift_JISに変換したあとに，UTF-8に変換して表示してみる #ruby -e 'require "kconv"; a="〜"; print a.tosjis.toutf8,"\n";' 〜 // JISに変換したあとに，UTF-8に変換して表示してみる #ruby -e 'require "kconv"; a="〜"; print a.tojis.toutf8,"\n";' 〜 // EUCに変換したあとに，UTF-8に変換して表示してみる #ruby -e 'require "kconv"; a="〜"; print a.toeuc.toutf8,"
KoshianX2009/08/12
ruby
charcode
リンク
perl/Encode - 7bit-jis != iso-2022-jp : 404 Blog Not Found
2008年06月06日12:00 カテゴリLightweight Languagesperl/Encode - 7bit-jis != iso-2022-jp ちょちょまwww 半角カナ対応 - UnderDone（あんでるどん）の落書き IS2022JPの半角カナ対応 -perl-mongers.org WIDE系IRCで使われている、IS2022JPの(いわゆる)半角カナにはいろいろ種類がありますが、これをPerlでコード変換しようとした場合、Encodeモジュールではコード変換に失敗してしまいます。（2008年6月6日0:20追記：Encodeモジュールでは半角カナの認識に失敗するだけで他のコードは自動認識します）それは、文字コードそのものが微妙ながら決定的に違うのです。 Encodeのマニュアルにもちゃんとこのことは書いてあります。perldoc Encode::JP 7
KoshianX2008/06/07
半角カナ対応してないはずないよなあと思ったけどこういうことか。
perl
charcode
charset
リンク
http://sandy.at.infoseek.co.jp/200504.html
KoshianX2007/05/21
emacs
charcode
charset
リンク
yasuokaの日記: WAVE DASH問題縁起
Encode - 規格のバグまでは直せませんにコメントしながら思ったのだが、JIS X 0208の1区33点「波ダッシュ」をUnicodeに変換する際、U+FF5EのFULLWIDTH TILDEに変換するのは明らかに間違いだ。この件に関して、私が知る限りのことを、ここに記しておこうと思う。平成5年度のUCS調査研究委員会WG1において問題となったものの一つが、既存のJISの文字コードとISO/IEC 10646との対応をどうするかだった。JIS X 0208-1990の1区33点「波ダッシュ」に対しては、U+223C、U+223D、U+223E、U+223F、U+301Cが候補となったが、結局U+301Cと対応させることとなった。U+301Cの名前がWAVE DASHだったからである。ただし、ISO/IEC 10646-1:1993のU+301Cの例示字形は、JIS X 0208の「波
KoshianX2007/05/06
charcode
リンク
404 Blog Not Found:CPAN - HTTP::Response::Encoding Released!
2007年04月17日22:30 カテゴリLightweight Languages CPAN - HTTP::Response::Encoding Released! HTTP-Response-Encoding を Release したのでお知らせします。 on CPAN (coming soon) http://www.dan.co.jp/~dankogai/cpan/HTTP-Response-Encoding-0.03.tar.gz どういうものかというと、こういうものです。 use LWP::UserAgent; use HTTP::Response::Encoding; my $ua = LWP::UserAgent->new(); my $res = $ua->get("http://www.example.com/"); warn $res->encoding; prin
KoshianX2007/04/18
ぎゃあ、先月苦労してこれと同じ機能をadhocに書いちゃったよ!!! こんな簡単に書けんのかよ!!(TT
perl
charcode
リンク
hide-k.net#blog: Catalystでマルチバイトを取り扱うときのまとめ
#前に社内wikiに書いておいたのを公開してみるテスト。 Catalystでマルチバイトを扱う機会があるのは主にユーザーがフォームで入力する値 ($c->req->param()) データベースからの入出力 (DBIx::Class) それ以外の文字列の評価 View::TTによる出力の生成 FillInFormによるフォームの埋め込み HTTPレスポンスです。ここでは以下の条件でまとめてみました。文字コードはUTF8に統一データベースにはmysqlを使用下準備テンプレート、perlのコードは全てUTF8で書きます。mysqlの文字コードの指定は/etc/my.cnfに [mysqld] default-character-set = utf8 skip-character-set-client-handshake [mysql] default-character-set
KoshianX2007/03/27
catalyst
perl
charcode
リンク
sambaをUTF-8で使う
Sambaのunix charsetはLinuxでの生活を考えてEUC-JPにしていたのだが、ウチからLinuxなクライアントマシンが居なくなってしまったのと、イマドキのLinuxはフツーja_JP.UTF-8でしょ？　ってことでUTF-8にすることした。やることは二つ smb.confのunix charsetをUTF-8に書き換えるすでに保存されているファイル名をEUC-JPからUTF8に変換する。ファイル名の変換にはconvmvを使った。以下のようにして使うと、再帰的にディレクトリをもぐっていって、ファイル名を変換してくれる。ファイル名に変な記号が入っていても変換してくれたので、変換精度は割と良いのじゃなかろうか。 convmv --notest -f euc-jp -t utf8 -r * 余談だけど、PREタグを使うと、空行の開き具合が大きい気がするな。
KoshianX2007/01/30
こんなコマンドあったのか。
convmv
charcode
リンク
UCS-2とUTF-8
最終更新 2003-11-11 UCSとUTF ユニコードで文書を作るとき，文字コードの方式が２種類，あるいはそれ以上あることに気が付かれるかもしれません。例えば，一つはUnicodeとあるのに対し，もう一つはUnicode (UTF-8)と表記されているかもしれません。この２つは，また，その違いは何でしょうか（前者はUTF-16の一形態なのですが…）。 UCS-2とUCS-4 ユニコードが採択されることになった多言語用の文字コードセット，ISO-10846-1は，16ビット（16桁の二進数）でそれぞれの文字を表します。それをUCS-2 (Universal Character Set coded in 2 octets，「２つのオクテットでコードされたユニバーサル文字セット」)と称します。オクテットとは文字長の単位としての8ビット（8桁の二進数）のことです。ユニコードの特定の文字は，例
KoshianX2007/01/28
charcode
utf-8
unicode
リンク
404 Blog Not Found:perl - 半角スペースを自動で入れる
2007年01月15日05:00 カテゴリLightweight Languagesperl - 半角スペースを自動で入れる是非はさておき、入れるのであれば自動で入れたい。というわけでこちら。 portal shit! : 半角スペース入れてますか？半角スペース入れるべき、入れないべき？spacer.pl #!/usr/local/bin/perl use strict; use warnings; use Encode; my $east = qr/(?!\p{M})(?:\p{Han}|\p{Katakana}|\p{Hiragana})/; my $west = qr/(?!\p{M})(?:\p{Latin}|\p{Greek}|\p{Cyrillic})/; binmode STDOUT, ':utf8'; while(<>){ $_ = decode 'utf8', $_
KoshianX2007/01/15
charcode
perl
リンク
EncodeモジュールでのMIME Encode
[Perl] Encodeモジュールで文字コードの変換ができるが、MIMEエンコードをするには以下のようにすればよい。
KoshianX2006/12/31
これは便利
perl
charcode
mail
mime
リンク
Re:「字体が違う」のを「化ける」というのか (#1082600) | Windows Vistaの文字セット問題 | スラド
KoshianX2006/12/26
Vista
charcode
参考になる
リンク
Vistaの文字問題 | Okumura's Blog
とりあえずこんなお知らせ（？）を、学内ＭＬに流しました。適当に御利用下さい。 ---------------------------------------- マイクロソフトが提供する Internet Explorer の最新版 IE7 をインストールしたあと、ファイル名に全角文字（漢字）を含むファイルを、「Yahoo! ブリーフケース」「デジタルトランクサービス」「Internet Disk」などのアップローダーなどからダウンロードすると、ファイル名が化けることがあります。文字化けが発生する代表的な漢字は、以下のものです。噂浬欺圭構蚕十申曾箪貼能表暴予禄榎掛弓芸鋼旨楯酢掃竹倒培怖翻慾例えば、予算書.xls のようなファイルを、「Yahoo! ブリーフケース」でやりとりしようとすると、このような問題が起こります。
KoshianX2006/12/26
Vista
charcode
リンク
1