Movatterモバイル変換

misshiki id:misshiki

scikit-learnに関するmisshikiのブックマーク (53)

「ロジスティック回帰」による分類をPythonで学ぼう
「知識ゼロから学べる」をモットーにした機械学習入門連載の第5回。いよいよ今回から、「Yes／No」や「スパムかどうか」といった“分類”予測を扱います。これを実現する代表的な手法が「ロジスティック回帰」です。図を使って仕組みや考え方をやさしく学び、Pythonとscikit-learnでの実装も体験します。初めての人でも安心して取り組める内容です。連載目次「この商品は売れるか／どうか？」「この顧客はサービスを解約しそうか／どうか？」―― こうしたYes／Noの判断（＝分類）をデータから予測したい場面は、ビジネスや日常でたくさんありますよね？　今回は、このような際に役立つ、機械学習の代表的な手法であるロジスティック回帰による“分類”について学んでいきましょう。具体的には、ロジスティック回帰の概要から、その仕組み、そしてPythonプログラミングによるモデルの実装と評価まで取り組み、“分類
misshiki2025/06/18
“入力データと出力結果の関係を「S字型の曲線」（＝ロジスティック関数）でモデル化する手法。一方、線形回帰モデルでは、「曲線」ではなく「直線」で関係を表現していた。この違いが特に重要なポイント。”
人工知能
Python
機械学習
scikit-learn
リンク
Prophet を scikit-learn パイプラインの中へ組み込む簡単な方法
要するに、単なるコード整理を超えて、機械学習ワークフロー全体を Prophet に適用できる点が最大の利点です。データ準備ここでは 3 年分のサンプルデータを生成します。ds 列に日付、reg が外生変数、y が目的変数です。以下、コードです。 # 必要なライブラリをインポート import numpy as np import pandas as pd # 乱数のシードを固定して再現性を確保 np.random.seed(0) # データのサンプル数を設定 N = 365 * 3 # 日付データを生成（2022年1月1日からN日間のデータ） dates = pd.date_range('2022-01-01', periods=N, freq='D') # 外生変数を生成（線形データにランダムなノイズを加える） reg = np.linspace(0, 10, N) + np.ra
misshiki2025/06/02
“Prophet を scikit-learn の Pipeline に組み込み、前処理→学習→予測→可視化を一気通貫で回す方法をステップごとに解説”
時系列分析
scikit-learn
Python
リンク
［pandas超入門］Diabetesデータセットを使って回帰分析してみよう（単回帰分析編）
［pandas超入門］Diabetesデータセットを使って回帰分析してみよう（単回帰分析編）：Pythonデータ処理入門 Diabetesデータセットから特徴量としてBMIを選択して、単回帰分析を行ってみます。単回帰分析でうまくターゲットを予測できるのかどうかを見ていきましょう。
misshiki2025/03/07
“Diabetesデータセットから特徴量としてBMIを選択して、単回帰分析を行ってみます。単回帰分析でうまくターゲットを予測できるのかどうかを見ていきましょう。”
Python
scikit-learn
データ分析
リンク
「正則化」手法（ラッソ回帰、リッジ回帰）をPythonで学ぼう
「知識ゼロから学べる」をモットーにした機械学習入門連載の第4回。過学習を抑えて予測精度を向上させるための「正則化」手法として、ラッソ回帰とリッジ回帰に注目。その概要と仕組みを図解で学び、Pythonとscikit-learnライブラリを使った実装と正則化の効果も体験します。初心者でも安心！　易しい内容です。連載目次前回（第3回）では、売上予測など「データの傾向を把握して、数値を予測する」際に役立つ、機械学習の代表的な手法である線形回帰について学びました。この予測精度を「もっと高めたい」とは思いませんか？モデルを評価した結果、予測精度、つまり機械学習モデルの性能があまり良くなかったとします。原因として、過剰適合（過学習）の可能性が考えられる場合、過剰適合を減らすための手法である正則化（Regularization）を試してみる価値があります。そこで今回は、ラッソ回帰とリッジ回帰という正
misshiki2024/12/05
“過学習を抑えて予測精度を向上させるための「正則化」手法として、ラッソ回帰とリッジ回帰に注目。その概要と仕組みを図解で学び、Pythonとscikit-learnライブラリを使った実装と正則化の効果も体験します。”
Python
機械学習
scikit-learn
データサイエンス
リンク
Scikit-learnが実験的にGPU対応していたので調査してみた！ - Qiita
はじめにみずほリサーチ＆テクノロジーズ株式会社の@fujineです。いきなりですがAI エンジニアの皆さん、scikit-learnが実験的にGPUに対応していたこと、ご存知でしょうか？ scikit-learnは機械学習分野における古参パッケージの1つです。多様な機能を提供する一方、FAQにて「GPUに対応する予定はない（キリッ）」と公式宣言しており、scikit-learnが好きな自分としては「勿体無いなぁ」と常々感じていました。そんな中、何気なくRelease Highlights for 1.2を読んでいたら以下文面を発見！しかも約半年前の2022年12月にリリースされてる… Experimental ArrayAPI support inLinearDiscriminantAnalysis Experimental support for the ArrayAPI sp
misshiki2024/04/30
“いきなりですがAIエンジニアの皆さん、scikit-learnが実験的にGPUに対応していたこと、ご存知でしょうか？”
Python
scikit-learn
リンク
Scikit-learnを用いた階層的クラスタリング (Hierarchical clustering)の解説 – S-Analysis
目次1. 階層的クラスタリングの概要＿＿1.1階層的クラスタリング (hierarchical clustering)とは＿＿1.2所と短所＿＿1.3 凝集クラスタリングの作成手順＿＿1.4 sklearn のAgglomerativeClustering ＿＿1.5 距離メトリック　(Affinity) ＿＿1.6 距離の計算（linkage） 2. 実験・コード＿＿2.1 環境の準備＿＿2.2 データロード＿＿2.3 Euclidean距離のモデル学習・可視化＿＿2.4 Manhattan距離のモデル学習・可視化＿＿2.5 Cosine距離のモデル学習・可視化 1.1 階層的クラスタリング (hierarchical clustering)とは階層的クラスタリングとは、個体からクラスターへ階層構造で分類する分析方法の一つです。樹形図（デンドログラム）ができます。デンド
misshiki2024/04/09
機械学習
scikit-learn
リンク
Scikit-learnのall_estimators()関数の活用：全モデルでの精度を一括比較する - Qiita
Scikit-learnは多機能で広く使われているPythonの機械学習ライブラリですが、提供されている多数のモデルをどれが一番性能が良いのか比較するのは一苦労です。そこで役立つのがall_estimators()関数です。 all_estimators()とは？ all_estimators()はScikit-learnが提供する全ての推定器（モデル）のリストを返す関数です。特に引数type_filterを指定することで特定の種類（'classifier'、'regressor'等）のモデルだけを取得することが可能です。実際に使ってみる以下のコードでは、カリフォルニア住宅価格データセットを用いてall_estimators()で取得した全ての回帰モデルを一度に評価し、その中で最も良いモデルを見つける例を示します。今回はall_estimators()の使用例にのみフォーカスするため
misshiki2023/08/04
“Scikit-learnは多機能で広く使われているPythonの機械学習ライブラリですが、提供されている多数のモデルをどれが一番性能が良いのか比較するのは一苦労です。そこで役立つのがall_estimators()関数です。”
scikit-learn
機械学習
リンク
ナイーブベイズの実装確認 - Qiita
今回調べたことナイーブベイズを実装しようとした際に、最終的な予測の出力で迷った部分があったので、sklearnの実装を参考。その際に実装の中身を追ったので、内容を記録。ソースコード参考コード今回はBernoulliNBの実装を参考に中身を確認。 import numpy as np from sklearn.naive_bayes import BernoulliNB rng = np.random.RandomState(1) X = rng.randint(5, size=(6, 100)) Y = np.array([1, 2, 3, 4, 4, 5]) clf = BernoulliNB(force_alpha=True) clf.fit(X, Y) print(clf.predict(X[2:3]))
misshiki2023/07/24
“ライブラリの中身を確認する記事”
scikit-learn
統計
リンク
scikit-learnのLatent Dirichlet Allocation (LDA) のcoherenceを求める - Qiita
はじめにちゃお…† まいおり…† LDA (Latent Dirichlet Allocation)、わたしの好きなモデルです。しかし、現時点のscikit-learn (1.2.2) にはLDAモデルのcoherence (コヒーレンス) を求める関数はありません。そこで強引に？LDAモデルのcoherenceを求める方法を記します。コヒーレンスとは記述や事実の集合は、それらが互いに支持し合っている場合、首尾一貫している (coherent) と言われます。したがって、首尾一貫した事実の集合は、事実のすべてまたは大部分をカバーする文脈で解釈することができます。トピックのコヒーレンスを測るとは、トピック内の高得点単語間の意味的類似性の程度を測定することで、単一のトピックをスコアリングすることです。これらの測定は、意味的に解釈可能なトピックと、統計的推論の成果物であるトピックを区
misshiki2023/07/18
“現時点のscikit-learn (1.2.2) にはLDAモデルのcoherence (コヒーレンス) を求める関数はありません。そこで強引に？LDAモデルのcoherenceを求める方法を記します。”
scikit-learn
リンク
【scikit-learn】Random forest回帰、デフォルトだとrandom forestじゃないよって話 - Qiita
はじめに初めまして、いわです。今回は、scikit-learnのRandom forest regressorをデフォルトのパラメータで使用するとRandom forestとしては機能していないという話をします。 Random forestとは？ Random forestは決定木ベースのアルゴリズムである、くらいの理解はある前提で話を進めます。まず、random forestの定義について説明します。以下のqiita記事とRandom forestの論文を参考にしました。定義学習データから重複を許してランダムに複数組のサンプル集合を抽出(Bootstrap Aggregating: バギング) 各ノードを分割するために特徴量をランダムに選択する(ここ重要)と、Adaboostと比較して良好な結果が得られるジニ係数を計算し、決定木を作成予測時は各決定木の結果でアンサンブルに
misshiki2023/06/08
“scikit-learnのRandom forest regressorをデフォルトのパラメータで使用するとRandom forestとしては機能していない...デフォルトだと入力した特徴全てを利用するような設定になっています。” 議論ではその方が性能がいいと。
scikit-learn
機械学習
リンク
GitHub - BeastByteAI/scikit-llm: Seamlessly integrate LLMs into scikit-learn.
You signed in with another tab or window. Reload to refresh yoursession. You signed out in another tab or window. Reload to refresh yoursession. Youswitched accounts on another tab or window. Reload to refresh yoursession. Dismiss alert
misshiki2023/06/01
Scikit-LLMの公式リポジトリ。テキスト分類、ベクトル化（埋め込み）、要約、翻訳のコード例がある。
scikit-learn
自然言語処理
リンク
Scikit-LLM: Sklearn Meets Large Language Models
Scikit-LLM is a game-changer intext analysis.It combines powerful language models likeChatGPT with scikit-learn, offering an unmatched toolkit for understanding and analyzingtext. With scikit-LLM, you can uncover hidden patterns, sentiment, and context in various types oftextual data, such as customer feedback, social media posts, and news articles.It brings together the strengths of languag
misshiki2023/05/30
ChatGPTなどの言語モデルとscikit-learnを組み合わせてテキストの理解／分析するのためのツールキット「scikit-LLM」。テキストデータに隠されたパターン、感情、コンテキストを明らかにできるとのこと。使い方を簡単に紹介。
scikit-learn
自然言語処理
リンク
Pythonで統計・データ分析！～基本統計量の活用と機械学習の基本
Pythonで統計・データ分析！～基本統計量の活用と機械学習の基本：数学×Pythonプログラミング入門（1/5 ページ）データ分析において最もよく使われる表形式のデータを取り扱う方法を見ていく。まず、pandasデータフレームの基本的な取り扱い方法を確認し、次に、各種の基本統計量を求める。また、基本統計量の可視化を行い、データの「見方」についても触れる。最後に、scikit-learnを使った回帰と分類の簡単な例を紹介する。
misshiki2023/01/23
“pandasデータフレームの基本的な取り扱い方法を確認し、次に、各種の基本統計量を求める。また、基本統計量の可視化を行い、データの「見方」についても触れる。最後に、scikit-learnを使った回帰と分類の簡単な例を紹介
Python
統計
scikit-learn
リンク
実際にscikit-learnで出力されるPrecisionやRecallを事例に、適合率と再現率の意味を説明しようと思う - Qiita
分類モデルの評価指標として、適合率や再現率などがあります。Web上で多くの解説記事がありますが、scikit-learnのclassification_reportに表示される各指標を読み解くためには、プラスアルファの理解が必要です。この記事では、実際にscikit-learnで出力される内容を例にして、適合率と再現率の意味を解説します。 Webとかでよくある説明機械学習で分類モデルを評価するとき、正解率(Accuracy)、適合率(Precision)、再現率(Recall)、F1-scoreなどの評価指標をよく利用します。これらの解説として、以下のような2値分類の説明が多くあります。正解率(Accuracy) 正解率(Accuracy) は、全体の中で正解した割合正解率 = (20 + 1) ÷ (20 + 2 + 3 + 1) ≒ 0.81 適合率(Precision) 適合率
misshiki2023/01/10
scikit-learn
機械学習
リンク
https://twitter.com/rasbt/status/1607441916534329344
misshiki2022/12/28
“scikit-learn 1.2 がリリース”
scikit-learn
リンク
Python機械学習プログラミング PyTorch＆scikit-learn編 - インプレスブックス
4,620円（本体 4,200円＋税10%）品種名書籍発売日2022/12/15 ページ数712 サイズB5変形判著者 Sebastian Raschka　著/Yuxi (Hayden) Liu　著/Vahid Mirjalili　著/株式会社クイープ　訳/福島真太朗　監修 ISBN 9784295015581 第3版まで続くロングセラーのPyTorch版！機械学習の基本から、PyTorchによる先進的手法まで本格解説―本書の前半は、定番の機械学習ライブラリscikit-learnによる手法を解説。基本的なモデルから単層ニューラルネットまで実装するほか、データ前処理、次元削減、ハイパーパラメーター、アンサンブル学習、回帰分析などを取り上げます。後半はPyTorchの仕組みを説明し、CNN／RNN／Transf ormerなどの実装を解説。GAN、グラフニューラルネットワーク、強化学習
misshiki2022/12/14
“2022/12/15”
PyTorch
scikit-learn
リンク
機械学習入門：動かして学ぶ、機械学習のキソ(AutoML AutoSklearn編) - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? ※本記事はOracleの下記Meetup「Oracle Big Data JamSession」で実施予定の内容です。 ※本ハンズオンの内容は事前に下記セットアップが完了していることを前提にしていますのでご参加いただける方々は必ず下記ガイドの手順を実行ください。 ※本記事の内容は以下の動画でも説明しておりますのでよろしければご参照ください。本記事の対象者これから機械学習を利用した開発をしていきたい方機械学習のトレンド技術を知りたい方なるべく初歩的な内容から学習したい方はじめに前回のハンズオンでは、分類問題と回帰問題を通して
misshiki2022/12/01
“scikit-learn系列のAutoMLライブラリAutoSklearnをベースに、その自動化のしくみを理解し、体験”
AutoML
scikit-learn
リンク
https://twitter.com/scikit_learn/status/1589918323873046528
misshiki2022/11/09
「pip install sklearn」と誤記されたときに「pip install scikit-learn」してねという案内を出すためにsklearnパッケージを公開したみたい。
scikit-learn
リンク
GitHub - skops-dev/skops: skops is a Python library helping you share your scikit-learn based models and put them in production
misshiki2022/10/24
“skopsは、 scikit-learnベースのモデルを共有して本番環境に置くのに役立つ Python ライブラリです。”Hugging Face Hub で scikit-learn モデルをプッシュする機能があるらしい。
scikit-learn
リンク
scikit-learn and Hugging Face join forces
Hugging Face is happy to announce that we’re partnering with scikit-learn to further our support of themachine learning tools and ecosystem. At Hugging Face, we’ve been putting a lot of effort into supporting deep learning, but we believe thatmachine learning as a whole can benefit from the tools we release. With statisticalmachine learning being essential in this field and scikit-learn dominat
misshiki2022/10/24
“Hugging Faceは、機械学習ツールとエコシステムのサポートを強化するために、scikit-learnと提携”統計的機械学習で独占的なscikit-learnをサポートするなど。
scikit-learn
機械学習
リンク
123次のページ