Movatterモバイル変換

t2y-1979 id:t2y-1979

bigdataに関するt2y-1979のブックマーク (40)

Reproで実感したスケーラブルな世界の入口 - Repro Tech Blog
こんにちは。新規事業部門でエンジニアをやっている重本です。2025年5月にReproへ入社し、この記事を書いている今でちょうど3ヶ月が経ちました。わずか3ヶ月ながらも、プロダクトの一部を担う責任や、技術的に解くべき課題の難しさ、そしてそれらを支える人や文化に、日々驚きと学びの連続でした。入社を検討している方や、同じような課題意識を持つ方の参考になればと思い、この記事を書くことにしました。入社経緯私はこれまでSESを中心に、複数の会社・案件で開発を経験してきました。ある程度のアプリケーションは作れるようになってきた反面、「この先、エンジニアとして何を積み上げていけば良いのか？」という漠然とした悩みもありました。そんな中、Reproの面談で率直にその悩みを話してみたところ、「じゃあウチで修行してみる？」という一言で話が進みました。「修行」と聞くと少しストイックな印象もありますが、私に
t2y-19792025/07/31
bigdata
performance
リンク
Evolving API Pagination at Slack
AtSlack, the size and scope of the data we expose via ourAPIs has changed dramatically since the product first launched. Endpoints that were designed around the expectation that they would, in the most extreme cases, return several hundred records, are now returning hundreds of thousands of records. To handle this rapid growth, we’ve had to rethink how we paginate data — from no pagination, to o
t2y-19792024/05/24
database
restful
api
design
bigdata
リンク
データに付加価値を与える技術
はじめに株式会社ナウキャストでデータエンジニアをしている沼尻です。この記事では、私が担当している「マッピング」という業務についてご紹介したいと思います。マッピングと言われてもピンと来ないと思いますが、あまり語られることのない（それがゆえに何と呼称したらよいかさえ定かではない）データエンジニアリングの重要な一領域だと思っていて、他社さんにも類似する業務が存在するのではないかと思っています。この記事をきっかけにして、他社さんと情報交換や技術交流などができたら嬉しいですし、ひいては、将来的なマッピング（ないしその類似業務）に関する知識の体系化につながれば幸いです。マネージャーやエンジニアの募集もしていますので、ご興味を持っていただけたら、この記事の最後に掲載している求人をご確認いただければと思います。マッピングとは何かナウキャストでは、パートナーから様々なオルタナティブデータ（POSデータ
t2y-19792024/04/11
data science
bigdata
リンク
日経BOOKプラス｜日本経済新聞出版社
日経BOOKプラスに掲載されている記事、本、著者を任意のキーワードで検索することができます。 ※ISBNも検索にご利用いただけます。ISBNとは出版物固有の13桁の番号で、裏表紙に記載されています。本サイトでISBNを使って書籍を検索する際は、ハイフン（-）を省略し、13桁の数字のみを半角文字で入力してください。
t2y-19792022/02/06
bigdata
data science
book
リンク
【感想】『データ指向アプリケーションデザイン』：深遠なる分散データの新大陸への旅 - Rのつく財団入り口
読破した分厚いオライリー本の感想記事です。本書ではCPUの速度がボトルネックになるようなものは演算指向アプリケーションと区別し、データの量や複雑さ、変化の速度が主題となるシステムを「データ指向」と位置づけて、特定技術に幅を狭めずに包括的に解説した本となっています。著者はイギリス、ケンブリッジ大学の分散システムの研究者 Martin Kleppmann氏。監訳者が斉藤太郎氏、訳者は玉川竜司氏。タイトルの『データ指向アプリケーションデザイン』の原題は Designing Data-Intensive Applications。よく使われる「オブジェクト指向」の原語は Object-Oriented ですが、本書の「指向」は Intensive で若干ニュアンスが違います。たまに見るデータ駆動、データドリブンなどともちょっと違いますね。 Intensive単体の意味は強い、激しい、徹底的、集
t2y-19792021/10/12
book
distributed system
bigdata
リンク
データ指向アプリケーションデザイン - たけぞう瀕死ブログ
監訳者の@taroleoさん経由で発売前に頂いたのですが、分量が多く（約600ページ）内容もぎっしりで読むのに時間がかかってしまいました。紙媒体のものを希望してお送り頂いたのですが、あまりの厚さに持ち運びが困難なので電子版にすればよかったと若干後悔しました…。データ指向アプリケーションデザイン ―信頼性、拡張性、保守性の高い分散システム設計の原理作者: Martin Kleppmann,斉藤太郎,玉川竜司出版社/メーカー: オライリージャパン発売日: 2019/07/18メディア: 単行本（ソフトカバー）この商品を含むブログを見る近年クラウドの発展に伴い、小規模なアプリケーションといえども分散データシステムに関する知識が不可欠になってきました。AWSなどのクラウドプラットフォームでは手軽に分散ストレージや分散データベースを利用することができますし、WebアプリケーションとRDBを使う
t2y-19792021/10/12
book
distributed system
bigdata
リンク
『データ指向アプリケーションデザイン』を読んだ - hydrakecat’s blog
『データ指向アプリケーションデザイン』を読んだ。たいへんおもしろかった。技術書でこんなにわくわくしながら一気に読んだのは『Androidを支える技術』以来かもしれない。データ指向アプリケーションデザイン ―信頼性、拡張性、保守性の高い分散システム設計の原理作者: Martin Kleppmann,斉藤太郎,玉川竜司出版社/メーカー: オライリージャパン発売日: 2019/07/18メディア: 単行本（ソフトカバー）この商品を含むブログを見る本書はソフトウェアシステムの設計について「データ」という観点からまとめたものだ。もちろんデータベースは登場するが、それだけでなくJSONなどのデータ形式、RPC、メッセージキュー、全文検索インデクス、バッチ処理やオンライン処理も等しく「データ」という観点から扱っている。特筆すべき点は、理論だけでなく実際のミドルウェア製品を引き合いに出しつつ具体例を
t2y-19792021/10/12
book
distributed system
bigdata
リンク
分散システム構築の良書「データ指向アプリケーションデザイン」を動画で解説する · Goldstine研究所
あけましておめでとうございます（いまさらｗ）。もーすけです。最近は呪術廻戦にハマっています。ぜひまだ見てない方見てみてください！さて本題ですが、新年はじめの投稿はデータ指向アプリケーションデザインという書籍についてです。最近読んだ中で一番良かった本ではないかと思っています。実は、勤めている会社内でこの書籍の輪読会を行っていて、自分が12章（最終章）を担当しました。 12章はこの本の一番言いたいことが書いてある章でもあったので、本の魅力を理解してもらうのにもしかして役立つのでは！？と思い、この書籍の紹介しつつ、輪読会で発表した内容を動画で解説していきたいと思います。どんな本なのか？もしかしたら本のタイトルから「データエンジニアとかデータサイエンスの人とかよむ本かな？」と思ってしまうかもしれません（自分は最初ちょっとそうおもってましたｗ）。しかし、この本は「信頼性があり、スケーラ
t2y-19792021/10/12
book
distributed system
bigdata
リンク
fisproject.jp
Thisdomain may be for sale!
t2y-19792021/10/12
book
distributed system
bigdata
リンク
Data at scale - Learn how Predicate Pushdown will save you money
t2y-19792021/02/11
bigdata
performance
development
リンク
1000万件オーバーのレコードのデータをカジュアルに扱うための心構え - joker1007’s diary
自分が所属している会社のメンバーの教育用資料として、それなりの規模のデータを扱う時に前提として意識しておかなければいけないことをざっくりまとめたので、弊社特有の話は除外して公開用に整理してみました。大規模データ処理、分散処理に慣れている人にとっては今更改めて言うことじゃないだろ、みたいな話ばかりだと思いますが、急激にデータスケールが増大してしまったりすると環境に開発者の意識が追い付かないこともあるかと思います。そういったケースで参考にできるかもしれません。弊社は基本的にAWSによって運用されているので、AWSを前提にした様なキーワードやサービス名が出てきます。後、句読点があったり無かったりしますが、ご容赦ください。追記: 社内用の資料の編集なのでかなりハイコンテキストな内容だから誤解するかもしれませんが、これらはそもそもRDBの話ではありません。(関係無くは無いけど) 1000万オ
t2y-19792020/11/05
distributed system
bigdata
architecture
リンク
カラムナフォーマットのきほん〜データウェアハウスを支える技術〜 - Retty Tech Blog
こんにちは、Retty.Inc ソフトウェアエンジニア兼データサイエンティストのchie（@chie8842）です。好きなたべものは焼肉とみかんです。現在Rettyでは、次世代分析基盤を構築しています。Rettyでは、サービス拡大に伴いログの急増や分析需要の拡大が見込まれるため、高いスループットとコストパフォーマンスを両立する、スケールするアーキテクチャ設計が求められています。今回は、こうしたスケールするアーキテクチャ設計の実現のために理解しておくべきDWHのコア技術の一つである、カラムナフォーマットに焦点を当てて紹介します。はじめに - カラムナフォーマットとはカラムナフォーマットとは、データベースの分析用途に利用されるファイルフォーマットの種類の一つです。大量のデータを扱う際に効率的に圧縮してストレージコストを下げたり、計算時に必要なデータだけを取り出して計算コストを小さくで
t2y-19792020/07/21
bigdata
format
conversion
リンク
新型コロナ感染症と「タバコ」：ヤフーの「ビッグデータ」は何を示したか（石田雅彦） - エキスパート - Yahoo!ニュース
新型コロナ感染症の感染拡大防止については、医療・疫学的なデータと同時に人流データなどのビッグデータを利用した解析も行われてきた。そうしたビッグデータ解析の一種に検索キーワードを使ったものがあるが、新型コロナ感染症とタバコ関係のキーワードはどのような関係になっていたのだろうか。パンデミックの影響はどうか　筆者は、Yahoo! JAPANの「ヤフー・データソリューション」からYahoo!ニュース個人オーサー向けの統計データ提供を受け、4月と5月にわたっていくつかの検索キーワードについて調べてもらった。この企画は、新型コロナ感染症が大きな社会問題になっている状況下で、それぞれのオーサーがこのパンデミックに関する記事を書く際、ビッグデータをどう活用できるのかというテストケースだったと思う。この企画でいただけるデータは、例えば一定期間にどんなキーワードが検索され、検索データの属性（年代、性別）は
t2y-19792020/06/30
yahoo! japan
bigdata
analysis
リンク
大規模データ活用向けストレージレイヤソフトのこれまでとこれから（NTTデータテクノロジーカンファレンス 2019 講演資料、2019/09/05）
大規模データ活用向けストレージレイヤソフトのこれまでとこれから（NTTデータテクノロジーカンファレンス 2019 講演資料、2019/09/05）大規模データ活用向けストレージレイヤソフトのこれまでとこれから（NTTデータテクノロジーカンファレンス 2019 講演資料、2019/09/05）NTTデータシステム技術本部 OSSプロフェッショナルサービス吉田耕陽, 福久琢也
t2y-19792020/06/10
data pipeline
bigdata
analysis
storage
リンク
近年のデータ分析基盤構築における失敗はBigQueryを採用しなかったことに全て起因している - データエンジニアの酩酊日記
久しぶりにペラペラな思いつきを書き捨てて、寝ます。 2、3年前ぐらいにSIerやコンサルでTreasure Dataとか使ってマネージドDWH作ろうぜっていう風潮が流行って、今は運用フェーズに入ってどこも結構苦しんでるってのが僕のすごく狭い観測範囲での印象。AWSのReadshiftしかり。なぜ苦しんでるかっていうと、言うほどスケールしないからであり、言うほどマネージドじゃないから。 Treasure Dataは基本的に割当メモリが固定でオートスケールしないので、ピーク時に合わせて必要なメモリを確保しておかないといけない。そうなるとメモリ使用量とか負荷とかをモニタリングしないといけないわけだけど、Saasだから内部のアーキテクチャが隠蔽されていていちいちサポートに問い合わせないといけなかったりする。 Redshiftの場合はそもそも自前でクラスタ管理しなくちゃいけないのでそれが大変って
t2y-19792020/02/28
bigdata
google
data pipeline
リンク
データデータデータデータデータデータって聞き飽きたのでなんとかしたい｜松本健太郎
数ヶ月ほど前、東京都内某所で開催された飲み会での出来事です。横に座ったオッサンに職業を問われたので「データサイエンスを少し」と答えたら、大げさに「凄いねぇ！」と返され、羨ましそうに言われました。「データサイエンティストなら、色んなデータ集めて、タピオカの次に何が流行るか分かるでしょ！　いーねぇ、楽できて！　稼ぎ放題だ！」冗談で言ったつもりかもしれません。それでも、オッサンの頭皮に、桃屋のラー油を染み込ませてやろうかと思うほどのイラつきを覚えました。辛そうで辛くないけど少し辛いらしいし。「ハッハッハッ、冗談が過ぎます。データに幻想を持ち過ぎですよ！」なんて言い返せれば良かったのですが、まだまだ人間ができていませんね。押し黙ってしまいました。そして睨んでしまった。それにしても、なぜこんな発言が出るのでしょうか。オッサンはそれなりのキャリアを持つ人で、日経新聞も読み、社会情勢には詳し
t2y-19792019/12/09
data science
business
bigdata
concept
リンク
Repro（リプロ）｜アプリとWebの売上最大化ソリューション・ツール
ツールとヒトの力でアプリとWebの売上を最大化 Reproは、マーケティングツールと運用支援をワンストップで提供しお客様の成果創出まで伴走します。
t2y-19792019/11/28
analysis
bigdata
リンク
データ指向アプリケーションデザイン
AmazonでMartin Kleppmann, 斉藤太郎, 玉川竜司のデータ指向アプリケーションデザイン ―信頼性、拡張性、保守性の高い分散システム設計の原理。アマゾンならポイント還元本が多数。Martin Kleppmann… 手軽に扱えるデータの量や種類が増える一方、CPUの性能はムーアの法則通りには成長しなくなり、大規模データ処理では、多数のマシンを活用する分散処理が欠かせなくなってきました。クラウドの普及とともに多数のマシンを自ら調達せずとも分散システムを構築できるようにもなっています。しかし驚くべきことに、今までこの分野に入門するための定番の書籍がありませんでした。分散処理にデータ処理が加わる融合分野である上、オープンソースプロジェクトの進化も速く、専門家同士でも共通の理解を構築するのが非常に難しかった分野です。この本を上手に使うと、既存のOSSプロジェクトの位置付けや、
t2y-19792019/07/18
distributed system
bigdata
design
architecture
book
リンク
ヤフー“第二の創業”に挑む川邊社長--PayPayやデータドリヴンは次の柱になるか
ネットに閉じたビジネスは“やり尽くした” ――2012年から2018年までの宮坂体制に代わり、川邊体制がスタートしました。どういった大きな変化がありましたか。宮坂体制の6年間における大きな変化は2つあります。1つはスマートフォンシフト、もう1つは「ヤフオク!」や「Yahoo!ショッピング」といったECの強化です。前者は完璧ではないものの、PCからスマートフォンに主流が代わり、PCで強かったサービスがシェアを落とした時もありましたが、ユーザー数拡大など回復し、一定の結果を残しています。後者も取扱高の成長率は顕著で、我々の中では競合他社を猛追しています。その上で、新体制下で重視したのが「元気な未来を築いていくヤフー」を目指すことです。未来と言っても、ネットに閉じた世界で20年以上ビジネスをしてきたので、やり尽くしたといっても過言ではありません。世界的な潮流でもありますが、インターネット技術
t2y-19792019/01/03
yahoo! japan
business
bigdata
リンク
ビッグデータの仕様統一　政府、異業種間の共有基盤　　:日本経済新聞
政府は企業や行政機関が持つビッグデータを集め、誰もが利用できるデータベースの基盤をつくる。持ち主によってバラバラになっているデータの書式や読み込みの方法などを統一。天気と買い物のデータをまとめて売れ行きを予測するなど、異分野の情報やデータをかけあわせてサービス開発に使えるようにする。欧米に比べ出遅れたデータ利用の基盤を整える。内閣府と経済産業省が主導し、「分野間データ連携基盤」と呼ぶ仕組みを2
t2y-19792018/11/26
bigdata
format
リンク
12次のページ