■著者 ●Tomer Shiran(トマー・シーラーン) Dremio の創業者兼最高製品責任者(Chief Product Officer)。Dremioはオープンなデータレイクハウスを提供し、企業がデータウェアハウスのコストや複雑さをロックインされることなく、クラウドで分析を実行できるようにする。Dremioの創業CEOとして、Tomerは4億ドル以上を調達し、世界の最大手企業、特にフォーチュン5の3社を含む数百の企業にサービスを提供する世界クラスの組織を築き上げた。Dremioの前には、ビッグデータ分析の先駆者であるMapRの4番目の社員であり、製品の最高責任者を務めた。また、MicrosoftやIBM Researchで多数のプロダクトマネジメントおよびエンジニアリングの役職を歴任し、数百万人のユーザーと数十万人の課金顧客を対象としたウェブサイトを創設。広範な業界トピックに関する成
この記事は毎週必ず記事がでるテックブログLoglassTechBlog Sprint の79週目の記事です! 2年間連続達成まで残り27週となりました! 昨今、データエンジニアリングの重要性が高まるなか、データレイクハウスという言葉を聞く機会が増えてきました。一方で、BI、DWH、データレイクといった分野は、色のついた商用製品であったり大規模な技術スタックになったりと気軽に触りにくい印象があったりもして個人的に最近はあまり触れてこなかった分野でした(15年程前はだいぶBI製品にお世話になりましたが)。 でも、実はかじってみると美味しい、単なる食わず嫌いだったかもしれません。この記事では前半にデータレイクハウスを概観しつつ後半に軽くハンズオンしてみたいと思います。チョイスは、最も使われるフォーマットである Apache Parquet 、S3 Tables の元となっている Apach

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?本記事は JapanAWS Ambassadors Advent Calendar 2024 12 日目の記事です。 はじめに 先日開催されたAWS re:Invent 2024 でAmazon SageMaker Lakehouse が発表されました。Amazon SageMaker Lakehouse によりAmazon S3 のデータレイクと、Amazon Redshift のデータウェアハウスを統合し、Apache Iceberg のAPI を使用してデータソースに横断的にアクセスできるようになります。本記事では
Reproでチーフアーキテクトを担当しているjoker1007です。 今回、社内のデータストレージの将来的な選択肢の一つとしてApache Hudiというテーブルデータフォーマットについて調査と実データでの検証を実施しました。 この記事では2回に分けて、そもそもhudiってどんなフォーマットなのか、どういうデータで検証してどんな結果が得られたのかについて紹介します。 ということで第1回は、hudiそのものについての紹介をしていきます。 この記事はhudi-0.14.1を利用して検証した時のものです。また社内向けに書いた資料の手直しであるため丁寧語でないことに御留意ください。 Hudiとは何か、その目的 hudiは更新可能なデータレイクを構築するためのテーブルフォーマットである。 ストリーミングによるデータインサートや、upsert, deleteをサポートする。 通常、データ分析に向いたデ
はじめに本記事では、AWSにおいてデータレイクを構築してデータ分析に活用するためのサービスを紹介します。AWSにおいては基本的にS3がデータレイクにおける基盤となるため、以下の記事も併せて参照ください データレイクとは データレイクとは構造化、非構造化を問わず様々な形式のデータを大量に保管するための仕組みで、主にビッグデータ分析に用いられます。 ビッグデータ分析用のデータ保管方法には、他にもデータウェアハウス(DWH)が挙げられますが、DWHは構造化されたデータベース形式でデータを保持するのに対し、データレイクはCSVやテキストファイル、画像のような非構造化データも保存できる事が特徴です。 ビッグデータ分析の特徴として、数千万行(レコード)以上の大容量データを分析対象として扱う事が挙げられます。このような大容量データを扱うことで、以下のようなメリットとデメリットが生じます。 データレイク

最近読んだ書籍の中で非常に良質な内容でしたので紹介したいと思います。少しでも多くの方に興味を持ってもらえることを期待しています。 O’Reilly Japan はじめに私自身がデータ管理(データマネジメント)という観点でここ数年様々な検討を行ってきていますので前提としてその背景について簡単にまとめてみます。 かつてオンプレミスで運用を行っていた時は企業内のデータは完全に管理されていました。データウェアハウスを導入してデータの集約・加工は行われていましたが、専門チームがデータ仕様確認やデータ提供までもすべての責任を担っていました。品質は高いのですが利用者からの要望(新しいデータの提供、仕様の変更)の対応についてはスピード大きな制約がありました。また大規模なデータを扱うためには多大なコストが必要という制約もあります。 クラウド技術による「スモールスタートを可能とするインフラ」「大規模なデータを

データウェアハウスやログ分析、機械学習といった進化する分析環境に柔軟に対応する 「データレイク」は今やデータ活用に欠かせないものとなりました。 一方で、現場では以下のような疑問や課題も多く出てきているのではないでしょうか? 「データレイク向けの関連サービスとか多くてなんかよくわからない」 「最初からデー…

印刷する メールで送る テキストHTML電子書籍PDF ダウンロード テキスト電子書籍PDF クリップした記事をMyページから読むことができます 新型コロナウイルス感染症が人工知能/機械学習(AI/ML)の導入にどのような影響を与えることになるのか、結論はまだ出ていません。しかし、これまでの兆候を見る限り、企業は変化した世界で事業を継続するためにAI/MLへの依存度を高めており、導入は増加の一途をたどることになりそうです。AIへの投資を実のあるものにするためには、データレイクによるデータの集約、生データを分析可能な形にする自動変換、データの信頼性を高めるためのガバナンスという、データ管理の3つの課題を考慮すべきです。 IDCの調査にあるように、パンデミック以前、AI/ML市場は力強い成長を続け、2023年には世界の支出額が1000億ドル近くにまでなると見られていました。この予測

Data Engineering Study #1 の発表資料です。 https://forkwell.connpass.com/event/179786/ 当日の動画はYoutubeで閲覧可能です。 https://www.youtube.com/watch?v=hFYNuuAaiTg …

Amazon Web Services ブログ 「AWSではじめるデータレイク」出版記念データレイク解説セミナーの資料公開 去年よりAWSのメンバー4名(志村、上原、関山、下佐粉)でデータレイクの基礎からアーキテクチャ、構築、運用管理までをカバーした書籍「AWSではじめるデータレイク」を執筆してきたのですが、7月出版の目処がたったことを記念して、5月末から毎週木曜にデータレイクに関するWebセミナーを開催してきました。 幸いにも大変多くの方にご参加いただくことができました。ご参加いただいた方にはあらためてお礼申し上げます。 一方で、以前の回に出られなかったので資料だけでも公開して欲しい、というご要望をたくさん頂いていました。そこで今回第1回から第3回の資料を公開させていただく事になりました。 ※ 2020/06/25更新:第4回の資料を追加公開しました 以下よりご覧いただけます。(PDFフ

リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く