Movatterモバイル変換

peketamin id:peketamin

文字コードとutf-8に関するpeketaminのブックマーク (5)

PythonのUnicodeEncodeErrorを知る - HDEラボ
Pythonにはじめて触って、いつのまにか1年が過ぎたのですが、一番はまったのは、やっぱりunicodeの扱いだったと思います。特に、 UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-12: ordinal not in range(128) のようなエラーにはさんざん悩まされました。ここがたとえばrubyなど他の言語と比べてわかりにくいために、Pythonが取っつきにくい言語になっているのではないか、と個人的には思います。そこで、このエラーに関係するはまりどころとTipsをいくつか列挙してみました。これからPythonに触れられる方の参考になればと思います。なお、環境はUNIX上のPython 2.4, 2.5を想定しています。 u1はunicode型で、s1はstr型です。s1にどのよ
peketamin2014/04/09
python
文字コード
unicode
日本語
utf-8
リンク
UTF-8で変換できない機種依存文字を置換する
SummaryUTF-8 のページから (株) やローマ数字の I などの文字をメールで送信すると，文字化けする．文字化けしそうな文字を，ad hoc に機種依存しない文字に変換する．ローマ数字もカッコで括るか，スペースを挿入したほうが良いかも． Source function replaceText($str){ $arr = array( /* --- 0x2100 - 0x2138 (文字種記号) --- */ // 0x2100 - 0x210F '\xE2\x84\x80' => 'a/c', '\xE2\x84\x81' => 'a/s', '\xE2\x84\x82' => 'C', '\xE2\x84\x83' => '?', '\xE2\x84\x84' => '?', '\xE2\x84\x85' => 'c/o', '\xE2\x84\x86' => 'c/u
peketamin2013/10/31
PHP
機種依存文字
utf-8
文字化け
文字コード
リンク
いいから聞け！俺が文字コードについて教えてやるよその１（前提知識編） - 谷本心 in せろ部屋
ちょっと久々のJavaネタですが、前から書き溜めていた、文字コードやエンコードについてのノウハウを書きます。今回は、詳細な説明に入る前に、前提になる知識や用語について説明しておきます。文字コードとエンコードって違うの？新人くん「では、HTMLの文字コードはUTF-8でお願いします」先輩社員「文字コードじゃなくてエンコーディングでしょ？」新人くん「えっ。あぁ、はい、それで」文字コードとエンコード（エンコーディング）を混同して使ったりすると、ちょっと原理主義的な人に怒られたりするんですけど、大まかに言えば、「文字コード」は文字に割り当てられた「数字」のことで、「エンコード」は文字と数字をマッピングする「方式」のことだと捉えていれば、大きくは外れません。ただ、「文字コード」という言葉は、「数字」「方式」の両方で使われるほか、文字一覧を示す「Charset」という意味で使わ
peketamin2011/06/15
UTF-8
java
文字コード
charset
web制作
開発
プログラミング
リンク
第7回■文字エンコーディングが生み出すぜい弱性を知る
文字コードに関する問題は大別すると文字集合の問題と文字エンコーディングの問題に分類できる。前回は文字集合の取り扱いに起因するぜい弱性について説明したので、今回は文字エンコーディングに起因するぜい弱性について説明しよう。文字エンコーディングに依存する問題をさらに分類すると2種類ある。（1）文字エンコーディングとして不正なデータを用いると攻撃が成立してしまう点と，（2）文字エンコーディングの処理が不十分なためにぜい弱性が生じることがある点だ。不正な文字エンコーディング（1）――冗長なUTF-8符号化問題まず，（1）の不正な文字エンコーディングの代表として，冗長なUTF-8符号化問題から説明しよう。前々回に解説したUTF-8のビット・パターン（表1に再掲）を見ると，コード・ポイントの範囲ごとにビット・パターンが割り当てられているが，ビット・パターン上は，より多くのバイト数を使っても同じコー
peketamin2010/10/21
問題
UTF-8
security
文字コード
web
XSS
プログラミング
programming
セキュリティ
あとで読む
リンク
rssに非UTF8の不正な文字列がある場合の対処法
PHP5のSimpleXMLが、rss内に不正な文字列があるとパースエラーを起こしてしまうのだけど、ついに対処法を編み出した。というか朝思いつきでやったら動いたｗｗｗｗｗ $xmlStr = mb_convert_encoding($xmlStr, "SJIS", "UTF-8"); //一度sjisにする $xmlStr = mb_convert_encoding($xmlStr, "UTF-8", "SJIS"); //またutf8に戻す mb_convert_encodingスゴス。
peketamin2010/09/29
UTF-8
文字コード
php
tips
mb_convert_encoding
リンク
1