こんにちは、初心者です。 適当なニュース記事があったとして、ニュースのカテゴリを推測するみたいな、よくあるやつをやってみました。Python3.3を使いました。 何をやるの? データセットはlivedoorニュースコーパスを使いました。 http://www.rondhuit.com/download.html#ldcc クリエイティブ・コモンズライセンスが適用されるニュース記事だけを集めてるそうです。 トピックニュース、Sports Watch、ITライフハック、家電チャンネル 、MOVIE ENTER、独女通信、エスマックス、livedoor HOMME、Peachy というクラスがあります。 データは、1記事1テキストファイルの形式で、クラス別のディレクトリにいっぱい入っています。 これを学習して、未知の文章に対して、お前は独女通信っぽい、お前は家電チャンネルっぽい、みたいに、分類が

こんにちは!技術部データ基盤チームのmisatonです。本記事では、先日開催した開発合宿にて検証した、BigQuery のデータマートと Cursor Agent を使った信頼性の高いdbt model の生成を紹介します。 開発の背景 データ活用現場の課題 目指すゴールと開発合宿で行ったこと 開発合宿での成果 Cursor の Agent を用いてdbt model を自動生成する仕組みの作成 自動生成が可能かどうか検証するためのデータマートの作成 開発合宿での成果詳細(機能デモのキャプチャあり) 分析デモ技術的な詳細 処理の流れ技術スタック 今後の展開 まとめ 開発の背景 データ活用現場の課題 ペパボには多数の部門・サービスのデータが蓄積されています。各部門やチームでそれぞれデータが活用される一方で、データの集計・分析をより効率的に行うための課題もあります。 たとえば「この商

クラウドエースの小坂です。 データウェアハウス構築、最近は特に BigQuery/Looker を活用した分析環境構築プロジェクトのプロジェクトマネージャーをよくやっています。 今回は膨大なデータの中からある項目のユニーク数(例えば DAU/MAU など)を集計する際に近似集計を使って集計処理を高速化する方法について紹介します。 検証に利用するデータ 今回は BigQuery 上で無償で提供されている bigquery-public-data のデータセットのデータを利用します。 テーブルは bigquery-public-data.wikipedia.pageviews_2021 を利用します。 テーブルの情報は下記の通りです。 Table info 項目 値

事業会社においてBIやレポート用の分析を担当しているが以下のような状況に該当する人に向けたデータパイプライン構築の入門のための資料です 🧑🏻🦱「BigQuery等のView機能を活用しているが、データの流れを追うのが困難な状態になってしまっている、クエリの実行に時間がかかりBIツールが使いづらい」 👩🏻「専任のデータエンジニアがおらず、前処理をpython等で処理したりするのがリソース調整的に大変」 👱🏻♂️「ロードされたデータに重複があったり、過不足があったりしてデータの品質が担保できていない」 🧑🏻🦰「Digdagやluigiといったデータ変換ツールの独自の仕様を理解しきれておらず使いこなせていない」 ※現時点ではBigQueryを中心に記事を構成してあります、SnowflakeやAmazon Redshift等の様々な分析基盤でもdbtは対応可能です

G-gen のタナです。Google Cloud (旧称GCP) で、BigQuery へエクスポートしたGoogle Analytics 4 (GA4) のデータを Looker Studio レポートのデータソースとして使用した際に、BigQuery の料金がスパイク (想定以上に膨らむこと) してしまいました。同じ問題に直面した方のために、私の経験と解決策を共有します。 やりたかったこと 事象 原因 1. BigQuery のキャッシュが効かなかった 症状 仕様 原因 2. Looker Studio のキャッシュが効かなかった 症状 仕様 原因 (推測) 解決方法 シャーディング分割テーブルをパーティション分割テーブルへ統合 データマートテーブルを利用 その他の工夫 クエリ課金の原因となっているレポートの調査 オンデマンド課金に上限を設ける その他のコスト削減手法 やりたかった

1リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く