Movatterモバイル変換


[0]ホーム

URL:


はてラボはてな匿名ダイアリー
ようこそ ゲスト さんログインユーザー登録

「文字コード」を含む日記RSS

はてなキーワード:文字コードとは

次の25件>

2025-11-22

ChatGPT すごい

utf8の文字コード構成されたバイナリファイルがある。このファイルの改行の数を数えよ。改行はCRのみとする。このファイルにはCR が必ず含まれており、CRで分割すればマルチスレッドで処理できる。

質問したら、c++pythonコードが出てきた

size_t count_cr_in_file(conststd::string&path) {

std::ifstreamfs(path,std::ios::binary);

fs.seekg(0,std::ios::end);

size_t size =fs.tellg();

fs.seekg(0);

const size_tthread_count =std::thread::hardware_concurrency();

const size_t chunk_size = size /thread_count;

std::vector<std::future<size_t>> futures;

for (size_t t = 0; t <thread_count; t++) {

size_t start = t * chunk_size;

size_t end = (t ==thread_count - 1 ? size : (t + 1) * chunk_size);

futures.push_back(std::async(std::launch::async, [start, end, &path]() {

std::ifstreamfs(path,std::ios::binary);

fs.seekg(start);

size_t count = 0;

for (size_t i = start; i < end; i++) {

char c;

fs.read(&c, 1);

if (c == '\r') count++;

}

return count;

}));

}

size_ttotal = 0;

for (auto& f : futures)total += f.get();

returntotal;

}

def count_cr(path):

importmmap

withopen(path, "rb")as f:

mm =mmap.mmap(f.fileno(), 0,access=mmap.ACCESS_READ)

returnmm.count(b'\r')

c#で書けと指示したところ、

using System;

using System.IO;

using System.IO.MemoryMappedFiles;

using System.Threading.Tasks;

class CountCR

{

public static long CountCRInFile(stringpath)

{

using varmmf = MemoryMappedFile.CreateFromFile(path, FileMode.Open, null);

using varaccessor =mmf.CreateViewAccessor(0, 0, MemoryMappedFileAccess.Read);

long fileSize =accessor.Capacity;

int processorCount = Environment.ProcessorCount;

long chunkSize = fileSize / processorCount;

longtotal = 0;

object lockObj = newobject();

Parallel.For(0, processorCount, i =>

{

long start = i * chunkSize;

long end = (i == processorCount - 1) ? fileSize : (i + 1) * chunkSize;

long localCount = 0;

byte b;

for (longpos = start;pos < end;pos++)

{

accessor.Read(pos,out b);

if (b == 0x0D) //CR

localCount++;

}

lock (lockObj)

{

total += localCount;

}

});

returntotal;

}

staticvoidMain(string[] args)

{

stringpath = "yourfile.bin";

long count = CountCRInFile(path);

Console.WriteLine($"CR count = {count}");

}

}

というコードが出てきた。

実際はcrlf,lfもあり得るんだが、そこは考慮しなくてもよく、そう考えるとaiはすごいとしか言いようがない。

なお、utf8として成立する単位区切りつつ改行を数える場合、もう一工夫いる。

SJISもできるようにするともっと面倒なことになりそう…)

Permalink |記事への反応(2) | 09:50

このエントリーをはてなブックマークに追加ツイートシェア

2025-11-20

洋モノAI日本語に弱くて絶望したっ!

まぁ無課金で使える範囲しか見てねーけどw

ちかごろチョイチョイ来る雑なサギスパムで、差出人名(From:ヘッダの表示名)が「警察?」って書いてあって笑っちゃったんだけどさー

コレホントに「?」クェスチョンマークなのか、いわゆる文字化け存在しない文字コードからなのか気になったので、AIに聞いてみたのよ。

「=?iso-2022-jp?B?GyRCN1k7IRsoQj8=?= をデコードしたらどんな文字列になりますか?」

軒並みみんな違うこと言ってんじゃんクソッタレども。ちゃんと「警察?」って文字列までデコードできたヤツが居ないww

雑なバカスパムについてはこちanond:20251007203646

Permalink |記事への反応(0) | 13:06

このエントリーをはてなブックマークに追加ツイートシェア

2025-09-18

anond:20250918220310

えっと、そのレベルだったら文字コードなんて関係ないだろ?

パッキングされてただのバイト列として送信するんだから

Permalink |記事への反応(0) | 22:06

このエントリーをはてなブックマークに追加ツイートシェア

anond:20250918211517

数えねーよ

文字コードで揺らぎが発生するようになったから、文字数カウントする方が主流になった

Permalink |記事への反応(1) | 21:16

このエントリーをはてなブックマークに追加ツイートシェア

2025-08-31

anond:20250831091753

Permalink |記事への反応(0) | 09:26

このエントリーをはてなブックマークに追加ツイートシェア

2025-08-18

anond:20250818194220

昔はメインフレームメーカーごとに文字コードが違ってのぉ、データ連携するには変換するためのミドルウェア開発してさら対応させた変換テーブルもつくらねばならんかったんじゃ

開発にもユーザーにもかなりの工数必要になる大仕事だったんじゃよ

Windowsになってからも、どの文字がどのコードに入ってるかはそれぞれバラバラから、やっぱり文字コードを置き換えるツールと変換テーブル必要でな、統合するためにはドウテイ作業という途方もない手間が必要だったんじゃ

それを今回自治体システム標準化という国家事業でやり遂げようとしとるわけじゃ

Permalink |記事への反応(1) | 19:46

このエントリーをはてなブックマークに追加ツイートシェア

2025-08-06

今のテクノロジー漢字の発展を阻害してないか

今のコンピューターとかインターネットが扱う文字の体系って漢字文化破壊してない?

文化の発展や新しい概念の登場に従って絶えず新しい文字が生み出されてきた歴史があると思うんだが

文字コードを割り振って文字のセットに収録するっていう今のやり方だとそこに新しい字が入る余地なくない?

アルファベット場合使える文字は固定されてても言葉意味はその文字の並びで表すから事実上無限に語を生み出せるけど

漢字ってそういうやり方とものすごーーーく相性悪いよな。

事実上既存漢字の組み合わせで熟語合成語を作るということしか許されてないというか、言い換えれば「アルファベット的なやりかたで語を生み出す」ことのみ許されてる状態

そもそも文字コードに収録される文字自体が「文字コードを作った時点の文化」で使われてる文字なわけで、その時点で文化が固定されてる側面あるよな。

「まったく新しい一文字」を生み出す表現力が殺されてるというか。

今のような状況で新しい漢字を生み出しても、「今の文字コードの文字」がアルファベットのようなスタンダードになってしまってて新しい字を広める術が絶望的にない。

アルファベット場合はそれが可能なんだよ。そこの圧倒的な非対称性問題にしたい。

文字コードの仕組み自体アルファベットフレンドリーというかラテン文字ファーストな考え方なんだよな。

今のトレンド文字コードに絵文字が収録さていってるのが救いかな?って気もするけど、まああれは文字コードのコンソーシアム的なとこが認めた文字だけ載る感じでちょうど昔の王様漢字を決めてたみたいな雰囲気があって文化が生み出す漢字ってのとは微妙に違うきがする。

たとえば部首とつくりを組み合わせられるようにするとか、既存漢字部首やつくりみたいに配置できるとか、そういうことをするだけで全く違ってくると思うんだわ。

Permalink |記事への反応(0) | 16:03

このエントリーをはてなブックマークに追加ツイートシェア

2025-06-24

anond:20250624142427

文字コードで教えて https://moji.or.jp/mojikibansearch/basic

Permalink |記事への反応(0) | 14:32

このエントリーをはてなブックマークに追加ツイートシェア

2025-06-16

anond:20250616085352

一応負荷は気にして、一度チェックしたのは再チェックしないようにはしてるけど、コメント数分のfetchはしてる以上、一定以上の負荷はあるよなぁ。

一応、コメント数だけのAPIもあるにはあったのだけど、それはドメインが異なっていてクロスドメイン解決しないといけないので、結構面倒くさそう。

しかしたら、週末にでも挑戦してみるかも。

preタグは、調べてみたら、使えるは使えるけど「改行はbrタグにして、1行にする」必要があるっぽい。その上で、今は「大なり小なりの半角は書けない」っぽい?

一応はpreタグが使えるけれど、自分を完全に隠したいとかでなければ、正直ここまでして増田コードは貼り付けないかなぁ。(URL開けばいいだけなので)

preタグの右側から文章開始。大なり全角>半角>小なり全角<半角<文字コード><。ここでbrタグ
ここで改行→

ここで解除される。

anond:20250616092830

Permalink |記事への反応(2) | 23:01

このエントリーをはてなブックマークに追加ツイートシェア

2025-05-03

anond:20250502235356

門松🎍とかも意味不明だ。

公式資料には pine decoration と書いてあるがそこまで見ても何なのかよくわからんと思う。

煎餅🍘の絵文字ビルの向こうに見える月だと思っていた外国人の話も聞いたことがある。

UNICODE策定の基本ルールとして「既存文字コードにあるものは全部入れる」というものがある。

既存データUNICODE に変換可能なようにしないと移行が進まないから。

まり用途が無さそうなものが入ってるのは世界各国の文字コード歴史的事情も含めて統合しようとしているから。

まあ根本的に自然言語無茶苦茶なのだし、文字だってぐちゃぐちゃだし、どうまとめてもぐちゃぐちゃなのはしゃーない。

Permalink |記事への反応(1) | 19:44

このエントリーをはてなブックマークに追加ツイートシェア

2025-05-01

門構え変な漢字多すぎ問題

読み方はヒョウと読むらしい。それにしても意味が女遊び・女性に溺れるって

読み方は不明(じゃあそんな漢字載せとくな!)

意味は失うはともかく問題はもう一つの意味

この字は女性生殖器、すなわち

まんこ

を表してるらしい。なぜか機種依存文字だが、表示されない方が幸せなのカモ(´・ω・`)

https://kanji.jitenon.jp/kanjiy/28272

これに至っては表情すら出来ないが、なんだこの

ふざけた字は。門に工だと

小学生でもそんな発想しないぞ!

どうでもいいけどUnicodeはU+2B519

住基ネット統一文字コードはJ+BE57だそう

読み方はホウ、褒める称えるなどの意味らしい。

誰もが一度はやってみたい部首の間に部首入れたらどうなるんだ!をやってみた漢字

こうやって見ると先人って案外バカなのかもしれない…

でもやっぱりこれが一番すき

Permalink |記事への反応(0) | 10:28

このエントリーをはてなブックマークに追加ツイートシェア

2025-03-21

書評Rubyではじめるシステムトレード坂本タクマ (著)

Rubyではじめるシステムトレード (Modern Alchemists Series No. 121)単行本ソフトカバー) –2014/5/20

坂本タクマ (著)

出版社パンローリング

2014年出版のこの本に記載されているコードRuby1.9.3で動作確認されているがRuby3.2.2環境でも動作する。標準ライブラリーのみを使用しておりgemコマンド3rd partyライブラリインストール無しで動作するコードであることが幸いして、文字コードをutf8に変換してやればmacOSSequoiaでもほとんどのコード動作する。

macOS動作しないのは、PanActive Market Databaseを利用して株価データを取得するコードだ。ActiveX(COM)はWindowsでないと動作しないからだ。

本書の第3部で記述されている事柄は今でも輝きを失っていない。株式市場銘柄コード時系列データを格納したデータベースをメンテナンスできる人にとっては第3部は自分で売買シミュレーションコードを書く手間を省いてくれるのだ。

2025年現在、有料の金融データプロバイダーが出現しているので(e.g. J-QuantsAPI, CQG)頑張ればデータベースの作成、日々のメンテナンスができる状況が生まれている。前者の月額料金は1,650円だ。

Permalink |記事への反応(0) | 21:53

このエントリーをはてなブックマークに追加ツイートシェア

2025-03-20

anond:20250320163914

多分ワイの場合単語登録で「─」を登録してると思う。

わりと文字コードで探すのはダルいから力技や───。

追記

「けいせん」で出せたわァ──。

Permalink |記事への反応(1) | 16:41

このエントリーをはてなブックマークに追加ツイートシェア

2025-02-11

anond:20250211101652

文字コード順なら10.9の方が大きいな

Permalink |記事への反応(0) | 10:23

このエントリーをはてなブックマークに追加ツイートシェア

2025-02-07

UTF-8の思い出 あるいは社会人妥協について

昔、とあるプログラミング成果物ファイルを納品したとき、お客さんからUTF-8で納品していただく約束でしたが、Shift-JISでした。正しいファイルいただきたいです。」とクレームはいった。


ただ、そのファイルにはASCII文字しか入っていない。

ご存じの通り、UTF-8SHIFT-JISEUCASCII文字コードは同じ、互換性がある。

言ってみれば、ASCII文字しか使っていなければ、どの文字コードでエンコードしても一緒だし、この場合エディタはどの文字コードなのかを判別はできないので推測で文字コードを決めることになる。


から、こんな風に返事した

「本ファイルASCII文字のみを使用しているため、UTF-8Shift-JISのいずれの文字コードでも正しく認識されますASCII文字は、UTF-8Shift-JISのどちらにおいても共通であり、文字コードによる違いはございません。そのため、お客様エディタ上でShift-JISと表示された場合でも、UTF-8との互換性が保たれておりますので、ご安心ください。」


返事したんだが、帰ってきたのが

「うちのエディタではShift-JISと書かれております互換性はあるかもしれませんが、正しく認識されるように再度おくってください」と

まり互換性があるということで怠けないで、問題がないにしても当初の通りエディタUTF-8識別されるファイルを送れ』って言われた。

仕方ないので、無駄日本語コメントを書いてファイルを送った。

Permalink |記事への反応(2) | 15:29

このエントリーをはてなブックマークに追加ツイートシェア

2025-01-14

今季アニメ作品タイトル名とEPGがかつてなく修正必要だった

Übel Blattユーベルブラット~ → Ubel Blatt~ユーベルブラット

EPG文字コード本家家元CP932 (だと思われ)なのでウムラウト記号はやめろ!

原作タイトルドイツ語使うのやめろとはいわんがアニメにするときは無理せずタイトルを変えてください。

このEPG採用した担当者切腹

Sランクモンスターの《ベヒーモス》だけど、猫と間違われてエルフ娘の騎士として暮らします → ベヒ猫

これはひどい

他のアニメも4文字ひらがなかいはじめたらどうすんだよ

このEPG採用した担当者は打首!

全修。

文字はやめれ

DB頭文字 4文字検索してるから修正が入ったYO!

バンクシーンじゃない必殺技作画はいつまでつづくか刮目せよ!

このEPG採用した担当者は海より深く反省すること!

Permalink |記事への反応(0) | 12:26

このエントリーをはてなブックマークに追加ツイートシェア

2024-12-19

https://ja.wikipedia.org/wiki/%E6%97%A5%E6%9C%AC%E3%81%AE%E5%9C%B0%E5%9B%B3%E8%A8%98%E5%8F%B7%E3%81%AE%E4%B8%80%E8%A6%A7

文字コードになっていない地図記号はなんでだろう。

地図記号の文は文字コードがないんやな。

Permalink |記事への反応(0) | 17:54

このエントリーをはてなブックマークに追加ツイートシェア

2024-12-14

anond:20241214201945

文字コード対応していないことに気づきます

Permalink |記事への反応(0) | 20:22

このエントリーをはてなブックマークに追加ツイートシェア

2024-09-18

文字コード開発した連中◯ねええええええええええええええええええええええええええええ

UTF-16LFという文字コードの変換がうまくいかなくて上司相談したところ

そもそも変換予定のファイルおかしくて、改めてもらったやつはshift-jisで数分で終わったあああああああああああああああ

そもそもなんでこんなに文字コードあるんだよおおおおおおおおおおおおおおおお

統一しろとか言わないから数減らせえええええええええええええええええええええええええええええええええええええええええ

Permalink |記事への反応(1) | 13:30

このエントリーをはてなブックマークに追加ツイートシェア

anond:20240918091041

同じ容量の動画と本があったときに、比較的軽い容量で済む文字コードで埋まってるなら本の方が情報量は多い

Permalink |記事への反応(0) | 10:56

このエントリーをはてなブックマークに追加ツイートシェア

2024-08-28

anond:20240828001128

いや、オレもそこそこのジジイだが、オアシスといえば富士通日本語ワードプロセッサが筆頭で思い出されるw

当時某F社の駆け出しITエンジニアだったもんで、オアシスJIS標準外の特殊文字とか罫線記号とかモロモロを、メインフレーム(いわゆるホスト)の文書管理システムに送り込むため、文字コード変換テーブルをあーでもないこーでもない...つーて連日イジリ倒した苦い記憶が甦るっすよww

Permalink |記事への反応(0) | 10:20

このエントリーをはてなブックマークに追加ツイートシェア

2024-08-06

anond:20240806212957

Cって文字なのに数字のように「以下」を使うのっておかしいよな

以下、文字コード禁止

Permalink |記事への反応(0) | 21:33

このエントリーをはてなブックマークに追加ツイートシェア

2024-07-01

anond:20240701154605

やっぱり文字コードが原因なんじゃないんか?英語だと、アルファベットアスキーベース進化してきてるので、大概はハッシュ関数に突っ込んでも問題にならないかもだけど、Shift-JIS なりUnicode が来たときにその差を考慮して設計するの無理だからじゃないか?あと、C言語だと日本語のような多バイト文字文字列の配列の長さでやべえことになるので、怖くて日本語パスワードに使えないよ。

Permalink |記事への反応(0) | 18:04

このエントリーをはてなブックマークに追加ツイートシェア

2024-05-22

anond:20240522184005

文字コードから

フォントが違えば異なる表示になるのはひらがなアルファベットも同じ

Permalink |記事への反応(1) | 23:23

このエントリーをはてなブックマークに追加ツイートシェア

2024-05-14

anond:20240513135622

本来は過渡期の間に合わせ技術のはずが、文字コード仕様策定健全性に大きな悪影響を与えたのが絵文字

Permalink |記事への反応(1) | 12:47

このエントリーをはてなブックマークに追加ツイートシェア

次の25件>
ログインユーザー登録
ようこそ ゲスト さん
Copyright (C) 2001-2025 hatena. All Rights Reserved.

[8]ページ先頭

©2009-2025 Movatter.jp