Amazon S3 転送 BigQuery Data Transfer Service forAmazon S3 コネクタを使用すると、Amazon S3 から BigQuery への定期的な読み込みジョブを自動的にスケジュールし、管理できます。 始める前にAmazon S3 データ転送を作成する前に: BigQuery Data Transfer Service を有効にするために必要なすべての操作が完了していることを確認します。 データを保存する BigQuery データセットを作成します。 データ転送用に宛先テーブルを作成し、スキーマ定義を指定します。宛先テーブルは、テーブルの命名規則に従う必要があります。宛先テーブル名でもパラメータがサポートされています。Amazon S3 の URI、アクセスキー ID、シークレット アクセスキーを取得します。アクセスキーの管理については、
Google Cloudが買収し話題になったDataformを使ってみる。 https://cloud.google.com/blog/ja/products/data-analytics/welcoming-dataform-to-bigquery BigQueryにデータ持ってきてる前提で、BigQuery内部のテーブル、データ項目、クエリの依存関係等を管理できるようだ。 ファイルの記述は基本的にSQLXという形式で記述する(JSONとSQLを混ぜたような感じ) 前提 すでにGCPプロジェクトはある。 始めてみる 事前準備 Dataform用にBigQuery Adminロールのサービスアカウントを作り、JSONキーを発行する。 方法は割愛。 Dataformのアカウントを作る dataformにアクセスして、START NOWをクリック。グーグルアカウントで始められる。 Datafo
|目次 1. はじめに 2. 要約 3. Dataform とは 4. 背景 5. 前提 6. 機能面の細かい話 6.1 git リポジトリ連携とアクセストークン 6.2 複数環境と production ブランチ 6.3 config.type = "incremental" なSQLX クエリの考え方と backfill 6.4 BigQuery のパーティションがプルーニングされないケースと解決策 6.5 スケジューラの実行が不安定 7. さいごに:実際に運用してみて |はじめに こちらは CAM advent calendar 2021の15日目の記事です。 こんにちは。CAM の DataManagement チームに所属してます DN といいます。 弊社で展開しているサービス fensi (platform) と連携して運用しているデータ基盤に対して、半年ほど前から Data
Send feedback Stay organized with collections Save and categorize content based on your preferences. Introduction to BigQuery Omni With BigQuery Omni, you can run BigQuery analytics on data stored inAmazonSimple Storage Service (Amazon S3) or AzureBlob Storage using BigLake tables. Many organizations store data in multiple public clouds. Often, this data ends up being siloed, becauseit's hard
データアナリティクス事業本部、池田です。花粉症です。Google CloudのBigQuery Omniを使ってみたかったので、他の連携方法と比較してみました。 切りが無さそうだったので、ソースはS3に限定し、Google Cloudのサービスや機能でできる(作り込みが要らない)方法として3つを試しました。 また、AWS側は再利用できるように CloudFormation でテンプレートにしました。 先にまとめ 各ガイドや触ってみた結果を基に、 個人的に選定時のポイントになりそうと思ったところをまとめてみました。 ※制約や挙動などは執筆時点(2022/04/14)のものです。 定額料金のみ リージョンが限られている インタラクティブ クエリの結果の最大サイズは2MB 標準テーブルを作成できない(→CTASやINSERT…SELECT…などでS3のデータをBigQueryへ持ち出せなかっ
G-genの杉村です。Google Cloud(旧称GCP)のフルマネージドのデータウェアハウスである BigQuery には、パフォーマンスの向上に当たり パーティション と クラスタリング という重要な概念があります。それぞれの仕組みや使い分けを解説していきます。 パーティション パーティションとは パーティションフィルタ要件 (Partition filter requirements) メリット パーティションの分割基準 時間の列 取り込み時間 整数範囲の列 パーティションの管理 クラスタリング クラスタリングとは クラスタ化に指定する列 自動再クラスタリング パーティション VS クラスタリング パーティションとクラスタリングの違い パーティションとクラスタリングの使い分け パーティション・クラスターのレコメンデーション その他 注意点 参考情報 パーティション パーティション
こんにちは、みかみです。 やりたいこと Cloud Data Loss Prevention(DLP)とはどんなものか、実際に触って確認してみたい BigQuery に格納済みの個人情報を Cloud DLP で検出してみたい DLP(Data Loss Prevention)とは? DLP(Data Loss Prevention)とは、セキュリティを強化するためのシステムの一つであり、機密情報や重要データの紛失、外部への漏えいを防ぐシステムのことを指します。 抜粋:DLPとは?従来の情報漏洩対策との違いから、機能、活用事例まで紹介 |IT トレンド 近年特に重要視される個人情報などの機密情報を保護するための仕組みです。Google Cloud の DLP(Data Loss Prevention)サービスである Cloud DLP では、 GCS や BigQuery、Datast
IAM を使用してリソースへのアクセスを制御 このドキュメントでは、リソースの現在のアクセス ポリシーを表示する方法、リソースにアクセス権を付与する方法、そしてリソースへのアクセス権を取り消す方法について説明します。 このドキュメントは、Google Cloudの Identity and Access Management(IAM)システムに関する知識があることを前提としています。 必要なロール リソースの IAM ポリシーを変更するために必要な権限を取得するには、プロジェクトに対する BigQuery データオーナー(roles/bigquery.dataOwner)IAM ロールを付与するよう管理者に依頼してください。ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。 この事前定義ロールには、リソースの IAM ポリシーを変更するために必要な権
はじめに 先日、AWS Summit San Francisco2022にて、Amazon AthenaのFederated Queryを経由してデータにアクセスできる10種類のデータソースコネクタをサポートが新たに追加されました。ザックリ言うと、Athenaから以下のデータソースにアクセスできるようになったということです!本日は、中でも注目度の高いBigQueryへのクエリについて試してみます。 SAP HANA (Express Edition) Teradata Cloudera Hortonworks SnowflakeMicrosoftSQL ServerOracle Azure Data Lake Storage (ADLS) Gen2 Azure SynapseGoogle BigQueryAmazon Athenaのデータソースコネクタが動作するVPC/Sub
今回は、FirebaseAnalyticsからBigQueryにエクスポートしたデータをQuickSight上で、表形式で閲覧したいという要件を実現するための過程を記事にしました。 以前書いたこの記事の続きみたいな感じです。 なぜ、BigQueryのデータをわざわざQuickSightで見ようとするかというと、BigQuery上のデータとRDSのDBデータをガッチャンこして見たいという要件があり、少し回りくどく見えるような構成になっています。 要件を実現するための構成はこれ以外にも案はあると思いますが、考えた結果、これが最適と考えた末なので、何かいい案をお持ちの方がいれば優しく教えて欲しいです。(ここには出てこない隠れた要件も色々あるので最適な構成を考えるのはかなり難しかったです。) BigQuery・Glue・S3の連携について それぞれのツールについての概要の公式記事は以下です。 Bi
はじめに データ戦略室データエンジニアリンググループの江口です。Google BigQueryに蓄積しているデータをAmazonQuickSightで利用しようとする場合、クラウドベンダーを跨いだデータ連携が必要となります。Amazon Web Services ブログではこのようなユースケースに、AWS Glueカスタムコネクタを用いたデータ連携が紹介されています。一方で、Google BigQueryから変換や加工が伴わずにデータを出力する場合は、Google Cloud Storageを経由したよりシンプルな実装をすることができます。 この記事ではGoogle BigQueryのデータを、Google Cloud StorageとAmazon S3を経由してQuickSightへインポートする方法を、Pythonのサンプルコードを交えてご紹介します。 処理の概要Google B
Transcript GA4+BigQuery ハンドブック Ver 1.0.0α しんゆう @data_analyst_本資料について • GA4+BigQueryはまだオフィシャルサイトにも情報が少 なく手探り状態 • そこでいろいろな情報を1つにまとめておくことは有用だ と考えた • まだまだ取り組み始めたばかりなので間違いや効率の悪い 方法を見つけたら教えていただけると幸いです本資料について About本資料について • 2021/10/13 α版公開 更新履歴 About 名前:しんゆう @data_analyst_ ブログ:データ分析とインテリジェンス https://analytics-and-intelligence.net 最近の活動:データを使いやすくする人 (データアーキテクトまたはデータ整備人) スライドが表示されているページの下段にある説明欄からも リンクが
BigQueryで特定のデータセットのみ共有したかったが、IAMユーザーの追加と、データセットの権限の両方を適切に設定しなければならず、分かりずらかったのでメモ。 実現したかったこと BigQueryの特定のデータセットをクエリが発行できる状態で外部の人と共有したい 同じプロジェクトにある他のデータセットは見えないようにしたい IAMユーザーの追加Google Cloud のコンソール画面の「IAMと管理」→「IAM」から、データを共有したいユーザーを「BigQuery ジョブユーザー」として追加します。 データセットの共有 BigQuery の ウェブUI で、共有したいデータセットを開いて、下記の赤枠で囲ったアイコンをクリックします。 追加したいユーザーを「BigQuery 閲覧者」として追加します。 参考情報 BigQuery / アクセス制御 Cloud Identity an
アクセス権の設定 以下の単位できめ細やかにアクセス権を設定することができます。 データセット テーブル 列 行(AuthorizedView) 制御しながらデータを見せる アクセス権とは違い、クエリの結果しか見せない、暗号化してしまうということもできます。 AuthorizedView 暗号化関数 監査ログ 誰がいつ、どこで、何をしたかの監査ログを取ることができます。 CloudLogging(今回はこちらに関して触れませんが、とても大事なことです) データのアクセス権とジョブ(クエリ)の設定について アクセス権の設定の前に、この件を先に触れます。 BigQueryでは、データにアクセスする権限と、ジョブ(クエリ)を発行する権限が明確に分かれています。前者はBigQueryでデータセットやテーブルに対して付与します。後者はIAMでプロジェクトに対して付与します。 最初のうちは、この点を理
このシンプルなソリューションを使えば、GCP 上に BI ダッシュボードを簡単に作れます。 ビジネス インテリジェンス(BI)が登場したときから、可視化ツールは、データからすばやく知見を獲得したいアナリストや意思決定権者のために重要な役割を果たしてきました。 ビッグデータ アナリティクスの時代になった今も、その前提は変わりません。Google Cloud Platform(GCP)は、ビッグデータの上に BI ダッシュボードを構築するための統合プラットフォームとして、ペタバイト規模のデータを高速に分析できるクラウド ネイティブなデータ ウェアハウス Google BigQuery と、美しいレポートをすばやく作れる無料の Google Data Studio を提供しています(Google のパートナー企業である Looker やTableau、Zoomdata なども BigQuery
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く