251007追記:なんとnoteの「今日の注目記事」に選ばれました。 会議中、同じデータを見ているはずなのに「このデータって、こういうこと言えませんか」「ここが問題じゃないですかね」と瞬時に示唆を出せる人がいます。 こういった分析上手な人は、センスが優れているとかではなく、分析のお作法とか型とか思考手順をちゃんと徹底しています。 裏を返すと、ちゃんとそういったテクニックさえ知っておけば、誰だって分析上手になれるということ。 しかし、いざ分析上手になろうと思って、Amazonで「データ分析」と検索しても、3000以上もの本がヒットします。 しかも、どの本も、編集者が練りに練ったタイトルだけあって、魅力的に移ります。 いったいどの本を読めばいいやら、さっぱりわからない。 ・・・という悩みを解決できるnoteを書いてみました。 なぜ、僕がその悩みの解決をお手伝いできるかというと 僕自身、毎年30

罵詈言雑 @barigonzou本当にあった怖い話 特にこれからiPhone17買う人には絶対覚えといて欲しい とある現場で 新しいiPhone買った客にデータ移行金かかりますって言ったら自分でやるって言うから データ移行のガイドブック?みたいなやつ (在庫無かったから)白黒コピーで印刷して渡したらしいんだけど そこまではいいとして 次の日その客ブチ切れて乗り込んで来て 「白黒コピーで分かりにくかったから "新端末"と"旧端末"が分からなくて元のiPhoneのデータ全部消えた!」 って言って全部店の責任だとか言ってきたらしい どこからどう考えても自分で消してんだから自分のせいなのにナチュラルに責任転嫁してくんのキモ過ぎ でも本当にこーゆーやついるんだからiPhone17のeSIM吹き飛ばすやつなんか死ぬほど出てくると思う 乗り換えでも機種変でもまず手続き終わったらeSIMでデータ書き込

ホーム資料Japan Dashboard(経済・財政・人口と暮らしに関するダッシュボード)とデータカタログ Japan Dashboard(経済・財政・人口と暮らしに関するダッシュボード)とデータカタログ 内閣府は、関係府省庁の連携体制のもと、経済・財政・人口と暮らしに関係する指標を収集しています。2016年より、整備した各種データを見える化し、さらに詳細な分析・検証等に活用できるようにするため、データをダウンロードできる「経済・財政と暮らしの指標「見える化」ポータルサイト(内閣府) 」を運営しています。 データに基づく政策立案をさらに推進するため、内閣府とデジタル庁は協力し、新しく「Japan Dashboard (経済・財政・人口と暮らしに関するダッシュボード)とデータカタログ」を整備しました。見える化ポータルサイトの利用者の要望に基づき、リニューアル方針を定め、操作性・検索性の向上、
こんにちは、株式会社FP16で結構コードを書いている二宮です。 最近Webスクレイピングのコードを色々な方法で書いているので、そこで得た知見をここに残しておこうと思います。 ほぼ毎日なにかのWebスクレイピングコードを書いています。 Webスクレイピング手段 Webスクレイピングには色々な方法があります。 私が最近主に使っているのはこの5つの手段です。 cheerioでHTMLを解析Playwrightなどで要素指定でデータを取得するAPIを見つけて叩く(バックエンドとの通信を再現してデータを取得) LLMでサイト構造を解析してデータを取得するNext.jsからのレスポンスに含まれているデータを解析して取得する これが令和のWebスクレイピングのベストプラクティスだと思っています。 これらの方法を、目標に合わせて使い分けています。 使い分け方 CheerioでHTML解析JavaS

Geolonia がオープンソースで公開している住所正規化エンジン normalize-japanese-addresses のバージョン 3 を公開しました。 住所マスターの更新 これまでのバージョンでは、国土数値情報や郵便局データを使った住所マスターをベースに動作していました。今回のバージョンでは、住所マスター自体も更新しております。具体的には、デジタル庁が公開しているアドレス・ベース・レジストリ(ABR)を元に作り直しました。 これにより、正規化できる住所の網羅性、精度の向上、更新頻度の安定化が期待されます。 デモサイトのご案内 新バージョンを早速お試しいただけるデモサイトをご用意しました。ぜひご利用ください。 デモサイトはこちら 出力形式の変更点 v3 へのアップグレードの際には、出力形式が変更されているためご注意ください。 v2 はそのまま利用いただく場合は出力形式が変わりません
先日のことですが、こんなことを放言したら思いの外伸びてしまいました。 データ可視化は一時期物凄く流行った割に今はパッとしない印象があるんだけど、それは結局のところデータ可視化が「見る人に『考えさせる』仕組み」だからだと思う。現実の世の中では、大半の人々は自分の頭で考えたくなんかなくて、確実に当たる託宣が欲しいだけ。機械学習やAIが流行るのもそれが理由— TJO (@TJO_datasci) 2024年8月28日 これはデータサイエンス実務に長年関わる身としてはごくごく当たり前の事情を述べたに過ぎなかったつもりだったのですが、意外性をもって受け止めた人も多ければ、一方で「あるある」として受け止めた人も多かったようです。 基本的に、社会においてある技術が流行って定着するかどうかは「ユーザーから見て好ましいかどうか・便利であるかどうか」に依存すると思われます。その意味でいうと、データ分析技術にと

国交省推進する「都市計画情報のデジタル化・オープン化」 都市計画とは、都市計画法に基づいて自治体が策定する街づくりのプランのことだ。土地利用(用途地域、地区計画など)や都市施設(道路、公園など)、市街地開発事業(土地区画整理など)に関する計画を総合的に定め、住民が住みやすく、働きやすい都市を目指す。 街づくりは行政のトップダウンですべてがうまくいくような簡単なものではなく、実現には民間事業者の理解と協力が欠かせない。そこで、自治体が都市計画を対外公表することで、事業者側がそこにビジネス機会を見いだし、街ごとのエコシステムが形成されていくことが期待される。 ただ、これまで都市計画のフォーマットは自治体によってバラツキがあり、事業者側にとって街ごとの特性や強みを比較しにくい状況があった。 都市計画のデータ化は以前から少しずつ進められてきた。国交省はすでに2005年には「都市計画GIS導入ガイダ

株式会社HAPPY ANALYTICSの小川卓(id:ryuka01)です。Google Analytlcs 4 (以下、「GA4」)に関するセミナーや勉強会などを行っていると、様々な質問を受けます。今までに1,000件以上の質問に回答してきました。 その中で、よく聞かれる質問と回答をピックアップいたしましたので、紹介いたします。ぜひ目を通していただき、GA4を正しく理解出来ているか確認してみましょう。 Q:GA4ではユーザーをどのように特定していますか? Q:GA4のレポートで「しきい値」が発生するとデータの精度が下がるらしいですが、どのような仕様なのでしょうか? Q:GA4のレポートで「サンプリング」が発生するとデータの精度が下がるらしいですが、どのような仕様なのでしょうか? Q:GA4とサーチコンソールを連携すると、どのキーワードでコンバージョンしたのかわかりますか? Q:流入元ご

はじめに マケデコというMarketAPIを活用した投資を話しあうコミュニティでExcelを用いてファンダメンタル分析のために日本株全銘柄を無料でデータ取得する方法をマケデコがSBIネオトレード証券のスポンサーで開発し、セミナーで発表しました。 ダウンロード、使い方など細かい情報は上のページを参照してください。J-QuantsAPIのアカウント(無料からあります)を必要としますので、そこだけ注意が必要です。ネオトレAPI forExcelとも連携します。 使い方のセミナー動画はこちらですが、長いので今後10分程度にまとめようとおもいます。 各種機能のちら見せ 銘柄リストをダウンロードするとこんな感じ 主要な指数は全部自動で計算されて全銘柄の比較可能な主要なフファンダメンタルが並びます こんな感じで分布の分位を確認しながらスクリーニングができます(Excel 2019では動かないようで

理解に近道はない.だからこそ,初学者目線を忘れないペース配分と励ましで伴走する入門書.可能な限り図に語らせ,道具としての統計手法を,しっかり数学として(一部は割り切って)学ぶ.独習・学び直しに最適本書の使い方 統計学を学ぶ心がけ/予備知識/本書の学び方/のんびり取り組む/本書の難所/練習問題を解く/数学が得意なら/ご協力ください 序章 はじめに 1.統計学の必要性 2.散らばり(バラツキ) 3.基本的な用語と概念 ①観測値と標本 ②母集団 ③統計学の目的 ④統計学の理論を支える土台 ⑤単純無作為標本 4.本書の2本柱 ①平均の比較 ②2変数の関係 5.検定統計量 第Ⅰ部 統計的仮説検定の論理 1章 検定の論理(二項検定を教材として) 1.例題1:B薬はA薬より有効か? ①例題1.1:18人に効果がある場合 ②例題1.2:14人に効果がある場合 ③例題の解答 2.二項分布 ①二項係数 nC

気候変動に取り組むうえでの大きな困難の一つは、世の中に悪い情報源が蔓延していて、悪質な情報もばらまかれていることだ。左派の気候変動活動家たち(気候変動問題について何かしようと自身の時間と労力を費やす傾向が最も強い人たち)は、「100社の企業が世界の排出量の70%を引き起こしている」とか「10%の富裕層が排出量の半分を占めている」といった馬鹿げた主張をする疑似左派的な情報を入手してしまいがちだ。それから右派。彼らは、以前だと気候変動を否定することにやっきだったけど、最近になってグリーンエネルギーへの巨大な不信感(金融関係者を除けば、グリーンエネルギーは「恐怖、不確実性、疑わしい」)を煽り立てている。こうしたとりまく事象から、クタクタになってしまうんだ。結果、多くの人たちが、気候変動への議論を避けがちになってるんだと思う。 こうした状況には、本当にイライラしてしまう。世の中には、本当にたくさん

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? この記事は DeNA 24 新卒 Advent Calendar2023 の 23 日目の記事です。 TL;DRDBMSの基本的な仕組みを知るのに有益だったリソース CMUのDBMS講義 先人の素晴らしい自作DBMSの解説記事&ソースコードリーディング 小さな小さな自作DBMSの設計と実装 最小限SELECTやINSERTなど基本的なSQLが動く この記事のゴール データベースの内部構成を超ざっくり理解するために有用なリソースを知り、そして(全開発者のロマンである)自作DBMS に一歩踏み出すきっかけになればうれしいです。 モチベ

2023年3月30日付で、国立国会図書館サーチが「メタデータ流通ガイドライン」<研究データ編>を公開しています。 同ガイドラインは、デジタルアーカイブ、蔵書目録等のデータベースのメタデータ設計の関係者が、各機関の特性に応じた適切なメタデータの作成、流通経路の選択ができるように作成されました。2022年3月にドラフト版として<共通編>を公開していました。 国立情報学研究所(NII)・科学技術振興機構(JST)・国立国会図書館(NDL)連絡会議の「メタデータの相互運用性に関する検討ワーキンググループ」において、NII、JST、NDL、オープンアクセスリポジトリ推進協会(JPCOAR)、これからの学術情報システム構築検討委員会が共同で作成しました。<研究データ編>では、主に研究データのメタデータで採用される項目について説明しています。 今後も、メタデータ項目を随時追加・更新する予定であるとしてい

今朝方GPT-4が発表されて、みなさん死ぬほど盛り上がってますねー。 GPT-4を使えば一発でできそうなネタではありますが、GPT-4APIのお値段は3.5よりもお高めの設定なので、これからはどのように上手くGPTのバージョンを使い分けていくかが問われていくと思います。 というわけで今日は非構造化データを構造化データに変換する話です。 問題の背景行政が定期的に公開している統計資料をご覧になったことはありますでしょうか。ディスる訳ではないですが、以下に示すのは私が住んでいる富士吉田市の統計資料です。 統計ふじよしだ令和元年度版 - 商業 このように分かりやすい表で情報を提供してくれるのはありがたいのですが、数値データにはなっていないので分析に活用することができません。 GPTのパワーを使って、このような非構造化データを構造化データに変換できないか?というのが本日のお題になります。 コードP


リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く