Movatterモバイル変換

todays_mitsui id:todays_mitsui

データ分析に関するtodays_mitsuiのブックマーク (5)

scikit-learnとgensimでニュース記事を分類する - Qiita
こんにちは、初心者です。適当なニュース記事があったとして、ニュースのカテゴリを推測するみたいな、よくあるやつをやってみました。Python3.3を使いました。何をやるの？データセットはlivedoorニュースコーパスを使いました。 http://www.rondhuit.com/download.html#ldcc クリエイティブ・コモンズライセンスが適用されるニュース記事だけを集めてるそうです。トピックニュース、Sports Watch、ITライフハック、家電チャンネル、MOVIE ENTER、独女通信、エスマックス、livedoor HOMME、Peachy というクラスがあります。データは、1記事1テキストファイルの形式で、クラス別のディレクトリにいっぱい入っています。これを学習して、未知の文章に対して、お前は独女通信っぽい、お前は家電チャンネルっぽい、みたいに、分類が
todays_mitsui2025/10/31
プログラミング
Python
機械学習
自然言語処理
データ分析
リンク
Cursorと喋るだけで、テスト付きのクエリをゲットできるようにした話 - Pepabo Tech Portal
こんにちは！技術部データ基盤チームのmisatonです。本記事では、先日開催した開発合宿にて検証した、BigQuery のデータマートと Cursor Agent を使った信頼性の高いdbt model の生成を紹介します。開発の背景データ活用現場の課題目指すゴールと開発合宿で行ったこと開発合宿での成果 Cursor の Agent を用いてdbt model を自動生成する仕組みの作成自動生成が可能かどうか検証するためのデータマートの作成開発合宿での成果詳細（機能デモのキャプチャあり）分析デモ技術的な詳細処理の流れ技術スタック今後の展開まとめ開発の背景データ活用現場の課題ペパボには多数の部門・サービスのデータが蓄積されています。各部門やチームでそれぞれデータが活用される一方で、データの集計・分析をより効率的に行うための課題もあります。たとえば「この商
todays_mitsui2025/06/26
データ基盤
BigQuery
dbt
AI
データ分析
リンク
BigQuery の COUNT DISTINCT を近似集計で高速化する
クラウドエースの小坂です。データウェアハウス構築、最近は特に BigQuery/Looker を活用した分析環境構築プロジェクトのプロジェクトマネージャーをよくやっています。今回は膨大なデータの中からある項目のユニーク数(例えば DAU/MAU など)を集計する際に近似集計を使って集計処理を高速化する方法について紹介します。検証に利用するデータ今回は BigQuery 上で無償で提供されている bigquery-public-data のデータセットのデータを利用します。テーブルは bigquery-public-data.wikipedia.pageviews_2021 を利用します。テーブルの情報は下記の通りです。 Table info 項目値
todays_mitsui2025/06/25
ビッグデータ
データ分析
Google Cloud
BigQuery
データベース
リンク
dbtで始めるデータパイプライン構築〜入門から実践〜
事業会社においてBIやレポート用の分析を担当しているが以下のような状況に該当する人に向けたデータパイプライン構築の入門のための資料です 🧑🏻‍🦱「BigQuery等のView機能を活用しているが、データの流れを追うのが困難な状態になってしまっている、クエリの実行に時間がかかりBIツールが使いづらい」 👩🏻「専任のデータエンジニアがおらず、前処理をpython等で処理したりするのがリソース調整的に大変」 👱🏻‍♂️「ロードされたデータに重複があったり、過不足があったりしてデータの品質が担保できていない」 🧑🏻‍🦰「Digdagやluigiといったデータ変換ツールの独自の仕様を理解しきれておらず使いこなせていない」 ※現時点ではBigQueryを中心に記事を構成してあります、SnowflakeやAmazon Redshift等の様々な分析基盤でもdbtは対応可能です
todays_mitsui2025/05/10
ツール
dbt
データ分析
統計
BigQuery
リンク
Looker StudioでGA4データを可視化したらBigQuery課金がスパイクした件 - G-gen Tech Blog
G-gen のタナです。Google Cloud (旧称GCP) で、BigQuery へエクスポートしたGoogle Analytics 4 (GA4) のデータを Looker Studio レポートのデータソースとして使用した際に、BigQuery の料金がスパイク (想定以上に膨らむこと) してしまいました。同じ問題に直面した方のために、私の経験と解決策を共有します。やりたかったこと事象原因 1. BigQuery のキャッシュが効かなかった症状仕様原因 2. Looker Studio のキャッシュが効かなかった症状仕様原因 (推測) 解決方法シャーディング分割テーブルをパーティション分割テーブルへ統合データマートテーブルを利用その他の工夫クエリ課金の原因となっているレポートの調査オンデマンド課金に上限を設けるその他のコスト削減手法やりたかった
todays_mitsui2025/05/08
Google Cloud
BigQuery
Looker Studio
データ分析
コスト最適化
リンク
1