Movatterモバイル変換


[0]ホーム

URL:


はてなブックマークアプリ

サクサク読めて、
アプリ限定の機能も多数!

アプリで開く

はてなブックマーク

  • はてなブックマーク
  • テクノロジー
  • 1000万件オーバーのレコードのデータをカジュアルに扱うための心構え - joker1007’s diary
  • Twitterでシェア
  • Facebookでシェア

気に入った記事をブックマーク

  • 気に入った記事を保存できます
    保存した記事の一覧は、はてなブックマークで確認・編集ができます
  • 記事を読んだ感想やメモを書き残せます
  • 非公開でブックマークすることもできます
適切な情報に変更

エントリーの編集

loading...

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。

タイトルガイドライン

このページのオーナーなので以下のアクションを実行できます

タイトル、本文などの情報を
再取得することができます
コメントを非表示にできますコメント表示の設定

ブックマークしました

ここにツイート内容が記載されますhttps://b.hatena.ne.jp/URLはspanで囲んでください

Twitterで共有

ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します

1281usersがブックマークコメント94

    ガイドラインをご確認の上、良識あるコメントにご協力ください

    0/0
    入力したタグを追加

    現在プライベートモードです設定を変更する

    おすすめタグタグについて

      よく使うタグ

        1000万件オーバーのレコードのデータをカジュアルに扱うための心構え - joker1007’s diary

        ガイドラインをご確認の上、良識あるコメントにご協力ください

        0/0
        入力したタグを追加

        現在プライベートモードです設定を変更する

        おすすめタグタグについて

          よく使うタグ

            はてなブックマーク

            はてなブックマークで
            関心をシェアしよう

            みんなの興味と感想が集まることで
            新しい発見や、深堀りがもっと楽しく

            ユーザー登録

            アカウントをお持ちの方はログインページ

            記事へのコメント94

            • 注目コメント
            • 新着コメント
            turanukimaru
            何よりもまず、手元のマシンで簡単なCRUDでもいいから一千万件試してみる事だね。だんだん遅くなって2時間後にはほぼ停止したりJavaがパーマネント領域使い切って死んだりする。そんな仕事から半年前に逃げ出しました!

              その他
              magnoliak
              案外、この辺ってきちんと古代のバッチおじさん達の知見が上手く現代にマッチさせる形で整理されて継承されていない領域なのかなーってふと思った

                その他
                yuzutas0
                Q. BigQueryを使えば? → A. BigQueryにデータを入れる箇所でこの設計が必要になります…。

                  その他
                  kuzumimizuku
                  「カジュアルに扱う方法!?あるの!?」と思って見たけど、全然カジュアルじゃなかった(;´Д`)やっぱり丁寧かつ入念な準備とトラブルに対応できる経験が必要ということですね……。

                    その他
                    robo_pitcher
                    1000万件の処理で990万件でエラーで止まるケース、想像してゾッとした。特に情報系じゃなく基幹系だったら

                      その他
                      programmablekinoko
                      めちゃくちゃ示唆に富む / 昔のバッチは汎用機の閉じた環境(COBOL+JCL)で固定長レコードを扱う処理が主だったから流用できるのかな...

                        その他
                        nmcli
                        AWSならではのコスト意識とも捉えられるし、AWS依存ゆえのバッドノウハウとも感じるし

                        その他
                        t_motooka
                        昔は失敗することくらいでしか学ぶことの出来なかった事柄たちが、こんなにまとまっていて感激

                          その他
                          mohno
                          「これらはそもそもRDBの話ではありません」「数億件の中から1000万件を取得して数分以内に処理を終わらせるとかそういう処理を頻繁に(カジュアルに)実装しなければならない弊社の話」←おっ、おぅ……

                          その他
                          sds-page
                          誰が書いたコードでも一年以上安定稼働してないと信用できない派。月一のバッチが2,3回連続で成功してても油断はできない

                          その他
                          el-condor
                          途中からリトライ可能にするのは案外難しい。でも0.1Mレコードまでなら全部リトライすりゃええやんが最適だけど10Mレコードとなるとそういうわけにもいかないからね。

                          その他
                          rochefort
                          大変そう

                          その他
                          tri-star
                          大量データを扱う処理で気を付けたいことが色々まとまっている

                          その他
                          NetPenguin
                          「カジュアルに扱うための心構え」 カジュアルな手段では無く、カジュアルに扱えるように研鑽しとけって話か……

                          その他
                          irof
                          わかる人は思いっきりうなづいて読みそうな一言一言。現場で読み合わせ/認識合わせとかすると良さそう。現場でね。コンテキスト合ってないと多分すれ違う。

                            その他
                            impreza98
                            Redshiftは良いぞ

                            その他
                            teckl
                            リトライ機構、冪等性の維持、工程ごとのログなど他の分野でもめっちゃ同意できる知見だ… 古のバッチの知恵が現代にも生きているなぁ…

                              その他
                              issyurn
                              “1000万オーバーの件数から数件取るとかそういう話ではなく数億件の中から1000万件を取得して数分以内に処理を終わらせるとかそういう処理を頻繁に(カジュアルに)実装しなければならない弊社の話でした。”

                                その他
                                sucelie
                                これでカジュアルなんだから胃腸がやられそうだ

                                  その他
                                  snowcrush
                                  "手癖で書くな" は重要やね。問題を変形せずに頭の中のワークフローをそのまま書き下してしまうと大体きつくなってくる

                                    その他
                                    rawwell
                                    "at least onceはexactly onceより圧倒的に処理負荷が軽い、羃等であるならat least onceで安全に処理できる "

                                      その他
                                      y_maeyama
                                      "手癖で書かない"がピンとこないなぁ。経験しないとわからないことなのかしら。

                                        その他
                                        natu3kan
                                        通信の過信と通信がオーバーヘッドになるのあるある。ってのと工程ごとにログを吐いてくれないと躓きが見えないから辛いのある。

                                        その他
                                        akahigeg
                                        “ちょっとでも関係しそうなサービスを見かけたらとりあえずドキュメントを読む癖を付けておかないと、いざという時に思い付かなくなる。” つらみ

                                        その他
                                        iga_k
                                        大量レコードじゃなくても使える知見だ!

                                        その他
                                        t-wada
                                        joker さんの知見が詰まっていてすばらしいエントリ。「手癖で書くな」はよくわかる……

                                          その他
                                          innocencecrash
                                          カジュアルに扱うためには正統な手続きが色々必要ってわけですね。

                                            その他
                                            azmin
                                            バッチ処理やってると案件固有で潰しがきかないアイデアなんじゃないかと思うことばっかりだけどこれだけエッセンスを抽出できているのは尊敬する

                                              その他
                                              kappaseijin
                                              バッドノウハウな知見集。AWS、TD、その他のサービスも落とし穴沢山なので入口より出口を知るの重要

                                                その他
                                                kotaponx
                                                ミッションクリティカルでなくて、割とどうでもいいrerun OKなログ系のデータしか扱ってないけど、それでもそれなりに工夫はいるという感覚はある。

                                                  その他
                                                  okami-no-sacchan
                                                  レコードの話かと思ったのに

                                                    その他
                                                    teto2645
                                                    後で読ませる。

                                                      その他
                                                      cloverstudioceo
                                                      インデックスを貼れとかそういうレベルの話じゃなかった。。。

                                                        その他
                                                        rjge
                                                        “適宜ログを吐かないと、どこまで進んでいるか分からない” “一方で一件単位で詳細なログを吐くとログのデータサイズやログ出力の負荷が馬鹿にならない” 悩ましい。手癖は耳が痛い…

                                                          その他
                                                          shikiarai
                                                          多分必要ないノウハウ(願望

                                                            その他
                                                            kagehiens
                                                            これは有り難い知見だ。社内環境で完結しているのはきょうび恵まれている内に入るのだなぁ。

                                                              その他
                                                              masalib
                                                              「既存のコードを信用するな」・・・痛いほど分かります

                                                                その他
                                                                pitti2210
                                                                なんとなく一瞬かわんごのブログかと思ったら違った

                                                                  その他
                                                                  rryu
                                                                  大量データのバッチ処理の話だった。この辺はいつでも変わりなく、処理時間を含むリソース消費量、エラーハンドリング、リトライの設計をちゃんとしないと死ぬぞという話になる。

                                                                  その他
                                                                  kako-jun
                                                                  1000万パワーすごい。人口の多いアジアならではの知見ですね。1つ心構えを足すとすれば、自室に同じ規模のDBを構築して日々夜間バッチの実験をすることで経験値の取得ペースが倍になります

                                                                  その他

                                                                  注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

                                                                  リンクを埋め込む

                                                                  以下のコードをコピーしてサイトに埋め込むことができます

                                                                  プレビュー
                                                                  アプリのスクリーンショット
                                                                  いまの話題をアプリでチェック!
                                                                  • バナー広告なし
                                                                  • ミュート機能あり
                                                                  • ダークモード搭載
                                                                  アプリをダウンロード

                                                                  関連記事

                                                                    usersに達しました!

                                                                    さんが1番目にブックマークした記事「1000万件オーバー...」が注目されています。

                                                                    気持ちをシェアしよう

                                                                    ツイートする

                                                                    1000万件オーバーのレコードのデータをカジュアルに扱うための心構え - joker1007’s diary

                                                                    自分が所属している会社のメンバーの教育用資料として、それなりの規模のデータを扱う時に前提として意...自分が所属している会社のメンバーの教育用資料として、それなりの規模のデータを扱う時に前提として意識しておかなければいけないことをざっくりまとめたので、弊社特有の話は除外して公開用に整理してみました。 大規模データ処理、分散処理に慣れている人にとっては今更改めて言うことじゃないだろ、みたいな話ばかりだと思いますが、急激にデータスケールが増大してしまったりすると環境に開発者の意識が追い付かないこともあるかと思います。 そういったケースで参考にできるかもしれません。 弊社は基的にAWSによって運用されているので、AWSを前提にした様なキーワードやサービス名が出てきます。後、句読点があったり無かったりしますが、ご容赦ください。 追記: 社内用の資料の編集なのでかなりハイコンテキストな内容だから誤解するかもしれませんが、これらはそもそもRDBの話ではありません。(関係無くは無いけど) 1000万オ

                                                                    ブックマークしたユーザー

                                                                    • ttsurumi2025/08/08ttsurumi
                                                                    • rCjmRYbLtJ3byU5H2025/08/01rCjmRYbLtJ3byU5H
                                                                    • smishima2025/07/07smishima
                                                                    • accelerk2025/06/24accelerk
                                                                    • rudo1082024/11/13rudo108
                                                                    • gonhainu2024/10/10gonhainu
                                                                    • chopwave2024/06/23chopwave
                                                                    • eeeichan2024/05/13eeeichan
                                                                    • febc_yamamoto2024/03/24febc_yamamoto
                                                                    • kokoichi2062024/02/18kokoichi206
                                                                    • uesima2024/02/11uesima
                                                                    • s-takaya10272024/01/10s-takaya1027
                                                                    • fhduyshshehe2024/01/03fhduyshshehe
                                                                    • dot96gal2023/12/28dot96gal
                                                                    • kazutanaka2023/11/01kazutanaka
                                                                    • celeron1ghz2023/06/24celeron1ghz
                                                                    • techtech05212023/05/06techtech0521
                                                                    • knj29182023/01/21knj2918
                                                                    すべてのユーザーの
                                                                    詳細を表示します

                                                                    ブックマークしたすべてのユーザー

                                                                    同じサイトの新着

                                                                    同じサイトの新着をもっと読む

                                                                    いま人気の記事

                                                                    いま人気の記事をもっと読む

                                                                    いま人気の記事 - テクノロジー

                                                                    いま人気の記事 - テクノロジーをもっと読む

                                                                    新着記事 - テクノロジー

                                                                    新着記事 - テクノロジーをもっと読む

                                                                    同時期にブックマークされた記事

                                                                    いま人気の記事 - 企業メディア

                                                                    企業メディアをもっと読む

                                                                    はてなブックマーク

                                                                    公式Twitter

                                                                    はてなのサービス

                                                                    • App Storeからダウンロード
                                                                    • Google Playで手に入れよう
                                                                    Copyright © 2005-2025Hatena. All Rights Reserved.
                                                                    設定を変更しましたx

                                                                    [8]ページ先頭

                                                                    ©2009-2025 Movatter.jp