機械学習 (きかいがくしゅう、英 :machine learning )とは、経験からの学習により自動で改善するコンピュータ アルゴリズム もしくはその研究領域で[ 1] [ 2] 、人工知能 の一種であるとみなされている。
典型的には「訓練データ」もしくは「学習データ」と呼ばれるデータを使って学習し、学習結果を使って何らかのタスクをこなすものとされる。例えば過去のスパムメール を訓練データとして用いて学習し、スパムフィルタリングというタスクをこなす、といったものである。
論者により定義が異なるものの、トム・M・ミッチェルによる下記の簡潔な定義は広く引用されている:
A computer program is said to
learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E
[ 3] 。コンピュータプログラムがタスクのクラスTと性能指標Pに関し経験Eから
学習 するとは、T内のタスクのPで測った性能が経験Eにより改善される事を言う。
— トム・M・ミッチェル (英語版 ) ここでタスク とは、プログラムが解くべき課題を指し、例えば売上予測タスクであれば「明日の売上を予測せよ」といったタスクである。
経験 はなんらかのデータとしてプログラムに与えられる。このデータを訓練データ もしくは学習データ といい、売上予測タスクであれば例えば「過去の経験」である今日までの売上が訓練データとして与えられる。訓練データを使ってプログラムの性能を改善する過程を、「プログラムを訓練 する」もしくは「プログラムを学習 させる」という。またプログラムの訓練に用いられるデータ全体の集合を(訓練もしくは学習)データセット (データ集合 とも)という。
最後に性能指標 は、プログラムがタスクをどの程度の性能で達成したかを測る指標で、前述の売上予測タスクであれば、例えば実際の売上との誤差を性能指標として用いる事ができる。
機械学習は以下の分野と密接に関係する:
機械学習という名前は1959年にアーサー・サミュエル によって造語された[ 6] 。
機械学習アルゴリズムとその性能についての分析は、理論計算機科学 の一分野であり、計算論的学習理論 (英語版 ) と呼ばれている。訓練例は有限であるのに対して、未来は不確かであるため、学習理論は一般にアルゴリズムの性能を保証できない。その代わりに、性能の確率的範囲を与える。Wassily Hoeffding (英語版 ) によるヘフディングの不等式 (英語版 ) など統計的学習理論という表現もある[ 7] 。
それに加えて、学習の時間複雑性 と実現可能性についても研究している。計算論的学習理論では、多項式時間 で終了する計算を実現可能とみなす。
機械学習と統計学 は、多くの点で似ているが、使用する用語は異なる。
x ∽ p ( x | θ ^ ) {\displaystyle x\backsim p(x|{\widehat {\theta }})}
統計的機械学習とは、機械学習のうちデータの確率的な生成規則 を学習するもの[ 8] を指す。
統計学 は母集団 と標本、そこに存在する確率分布 に着目した方法論である。統計的機械学習ではデータが母集団から確率的に得られると考え、データの生成過程を確率分布を用いてモデル化し、実際のデータに基づいてモデルの学習(あるいはモデル選択自体の学習)をおこなう。母集団からデータが得られる、母集団からのサンプリングによってデータが生成されると解釈できるため、統計的機械学習のモデルは生成モデル・統計モデルとも呼ばれる[ 9] 。
標本に基づいた母集団(パラメータ)の推定・選択は統計学において長く研究され、多くの理論が存在する。統計的機械学習における学習はまさに母集団の推定・選択であるため、統計学の理論が機械学習に適用できる。学習の収束や汎化性能など様々な機械学習の課題が統計学の知識体系を用いて研究されている。
統計的機械学習の例としては、ニューラルネットワーク における生成モデル、例えば自己回帰型生成ネット、変分オートエンコーダー (VAE)、敵対的生成ネットワーク (GAN)などが挙げられる。これらのモデル(=母集団)から実際にサンプリングすれば画像や音声といったデータが生成できるため、特にニューラルネットワークの分野では2010年代後半に非常によく研究され大きな成果をあげている(WaveNet、VQ-VAE-2、BigGANなど)。
多くの機械学習手法はデータに対するモデル出力の誤差を定義し、誤差を最小化するようにパラメータの更新(学習)をおこなう。誤差を計算する関数、すなわち損失関数を最小化する学問体系は応用数学において数理最適化 (解かれる問題は最適化問題 )と呼ばれる。
例えばニューラルネットワーク では損失関数に対して微分をおこなう勾配法 (確率的勾配降下法 など)で学習がしばしばおこなわれる。勾配法による最適化が最適解に収束するか否かは数理最適化の理論によって研究される。また用いられる最適化法によってニューラルネットワークに課される制約も異なり、勾配法を用いるには連続する関数適用がすべて微分可能である(バックプロパゲーション が可能である)ことが求められる(生成モデルのサンプリングに強く制約を与える)。
機械学習とデータマイニング は交差する部分が大きく、技法も同じなので混同されることが多いが、次のように定義できる。
機械学習の目的は、訓練データから学んだ「既知」の特徴に基づく予測である。 データマイニングの目的は、それまで「未知」だったデータの特徴を発見 することである。 この2つは、さまざまな面でオーバーラップしている。データマイニングは、機械学習の技法を使うが、その目的は若干異なることが多い。一方、機械学習もデータマイニングの技法を「教師なし学習」として、あるいは学習者の正確性を向上させる前処理として用いる。2つの研究領域は、ECML PKDD という例外はあるが、基本的に学会も学術誌も別々である。それらの間の混同の最大の原因は、それらの基本的前提に由来する。機械学習では、既知の知識を再生成できるかどうかで性能を評価するが、データマイニングではそれまで「未知」だった知識を発見することが重視される。したがって、既知の知識によって評価するなら「教師なしの技法」よりも「教師ありの技法」の方が容易に優れた結果を示すことができる。しかし、典型的なデータマイニングでは、訓練データが用意できないので、「教師ありの技法」を採用することができない。
機械学習では、データx が連続量であるとき、x を量的変数 (quantitative variable ) といい、「イヌ」、「ネコ」といった分類カテゴリのように物の種類を表す変数を質的変数 (qualitative variable ) という。質的変数はカテゴリ型変数 (categorical variable )、因子 (factor ) とも呼ばれる。
量的変数、質的変数以外にも「大」「中」「小」のように順序づけられた離散値を取る順序付きカテゴリ型変数 (ordered categorical variable ) もある。また自然言語 のように質的変数とは違い連続量ではなく、カテゴリ型変数と違い有限個のカテゴリに値を取るわけではないものも機械学習では取り扱う。
機械学習は、以下の代表的な3種類のカテゴリーに分けられる。ただしこれらの3つで機械学習で扱う全てをカバーしているわけではないし、複数のカテゴリーに属するものや、どのカテゴリーに属するのか曖昧な技法もある。
教師あり学習 入力とそれに対応すべき出力[ 注 2] を写像する関数を生成する。例えば、分類 問題では入力ベクトルと出力に対応する分類で示される例を与えられ、それらを写像する関数を近似的に求める。 ラベルのインフォメーションが不足の場合は半教師あり学習である。 教師なし学習 入力のみ(ラベルなしの例)からモデルを構築する。データマイニング や自己符号化器 なども参照。 強化学習 周囲の環境を観測することでどう行動すべきかを学習する。行動によって必ず環境に影響を及ぼし、環境から報酬という形でフィードバックを得ることで学習アルゴリズムのガイドとする。例えばQ学習 がある 上記3大カテゴリーの他に以下のようなカテゴリーがある。
半教師あり学習 ラベルありの例とラベルなしの例をどちらも扱えるようにしたもので、それによって近似関数または分類器を生成する。 トランスダクション (英語版 ) (トランスダクティブ推論)観測された具体的な(訓練)例から具体的かつ固定の(テスト)例の新たな出力を予測しようとする。 マルチタスク学習 (英語版 ) 関連する複数の問題について同時に学習させ、主要な問題の予測精度を向上させる。 能動学習 学習アルゴリズムがそのユーザや他の情報源に対話的に問い合わせることで、学習に有用なデータを優先して選択・生成し、ラベル付けを行うものである。能動学習の詳細な問題設定は多岐に渡り、プールベース能動学習 などがある。 サポートベクターマシン は、データを線形境界で区切られた領域に分割する教師付き学習モデルである。ここでは、線形境界が黒丸と白丸を分けている。機械学習では、タスクや問題設定によって様々な学習モデルがある。
決定木 学習決定木を予測モデル (英語版 ) として使用した学習であり、アイテムについての観測をそのアイテムの目標値についての結論とマッピングする。具体例としてID3 やRandom forest がある。 相関ルール学習 (英語版 ) 大規模データベースにおける変数間の興味深い関係を発見するための技法。 ニューラルネットワーク 階層的な非線形 変換からなるネットワーク。一般に誤差逆伝播法 で学習される。非線形性による高い表現能力をもち、分類・回帰・生成など様々なタスクに用いられる。 遺伝的プログラミング (GP)生物の進化 を模倣した進化的アルゴリズム に基づく技法であり、ユーザーが定義したタスクを実行するプログラム を探索する。遺伝的アルゴリズム を拡張・特化させたものである。所定のタスクを実行する能力によって適応度地形 を決定し、それによってコンピュータプログラムを最適化させていく機械学習技法である。 帰納論理プログラミング (英語版 ) (ILP)例、背景知識、仮説を一様な表現とし、論理プログラミング を使って学習を規則化する技法である。既知の背景知識と例の集合をコード化して事実の論理データベースとし、全てのポジティブな例を含み 、ネガティブな例を全く含まない仮説的論理プログラムを生成する。 サポートベクターマシン (SVM)分類 や回帰 に使われる一連の教師あり学習 技法である。訓練例のラベルは二値分類 (2つに分類される)であり、訓練アルゴリズムによってモデルを構築し、新たな例がどちらに分類されるかを予測する。クラスタリング クラスタリングは、観測された例をクラスタと呼ばれる部分集合に振り分けるもので、振り分けは事前に指示された基準に従って行う。クラスタリングはデータの構造についての仮説(基準)の立て方によって結果が異なる。仮説は「類似尺度」で定義され、「内部コンパクト性」(同一クラスタ内のメンバー間の類似性)や異なるクラスタ間の距離によって評価される。「推定密度」や「グラフ接続性」に基づく技法もある。クラスタリングは教師なし学習 技法であり、統計 的データ解析でよく使われる。 ベイジアンネットワーク 確率変数 群とそれらの条件付き独立性 を有向非巡回グラフ (DAG) で表した確率論的グラフィカルモデル である。例えば、病気と症状の関係を確率的に表すことができる。そのネットワークに症状を入力すれば、考えられる病気の一覧を確率付きで出力できる。これを使って推論 と学習を行う効率的アルゴリズムが存在する。表現学習 (英語版 ) 教師なし学習 アルゴリズムの一部は、訓練中に提供された入力のよりよい表現を発見しようとする。古典的な例として主成分分析 やクラスタ分析 がある。入力の持つ情報は保持したまま、分類や予測の前に入力をより便利な表現に変換するアルゴリズムもある。その際に入力データが従っている未知の確率分布から入力を再建できるようにするが、その確率分布においては信じがたい例も忠実に再現する必要はない。例えば多様体学習 (英語版 ) アルゴリズムは、何らかの制約下で入力の次元を低く変換して表現する。スパースコーディング (英語版 ) アルゴリズムでは、入力が疎ら(ゼロが多い)という制約下で同様の表現の変換を行う。ニューラルネットワークの深層学習 は複数レベルの表現または特徴の階層を発見するもので、低いレベルで抽出した特徴から高いレベルの抽象化した特徴までを求める。知的機械は、観測されたデータを説明する偏差の潜在的要因を解きほぐす表現を学習するものだという主張もある[ 10] 。エクストリーム・ラーニング・マシン (ELM)1層もしくは複数の隠れ層を有する順伝播型ニューラルネットワークであり,分類や回帰,クラスタリングへ適用できる。 モデルおよび学習規則に加え、様々なデータ前処理 技法が採用される。
人間の直観 によるデータ解析の必要性を排除しようとしているが、人間と機械の協調的相互作用を取り入れた機械学習モデルもある。しかし、そもそもモデルのデータ表現方法やデータの特徴を探る機構は、人間が設計したものであり、人間の直観を完全に排除することはできない。
機械学習には以下のような応用分野がある。
2006年、オンラインDVDレンタル会社ネットフリックス は、同社のレコメンダシステム より10%以上高性能な(ユーザーの好みをより正確に予測する)プログラムを捜す競技会Netflix Prize を開催した。この競技会は数年かけて行われ、AT&T Labs のチームが「プラグマティック・ケイオス」[ 13] という機械学習プログラムで2009年に優勝し100万ドルを獲得した[ 14] 。
機械学習モデルの訓練に使用されるデータセットには、著作物が含まれる場合があり、その利用が著作権法やデータ倫理の観点から議論の対象となっている。特に、大規模データを用いる生成AI モデルの普及に伴い、出版社やクリエイターなどの権利者から、無許諾利用に関する懸念や批判が示される事例が増えている[ 26] 。
これらの懸念は、学術研究や非商用利用と商用サービスでの利用の区別、フェアユースや各国の権利制限規定の適用範囲など、国や地域ごとの法制度の違いとも関連している[ 27] 。
また、権利者が学習利用を制限するための技術的手段も研究されている。例えば、画像に対しては知覚上ほぼ影響がないノイズを加え、モデルの学習精度を意図的に低下させる「Nightshade」などの手法が提案されている[ 28] 。
欧州では、DSM著作権指令4条3項により、学術研究目的以外の著作物の機械学習行為は著作者が明示的に学習利用を拒否(オプトアウト)している場合には利用が制限される[ 29] [ 27] 。
2021年、欧州連合 においてAIシステム構築時に使用する著作物についての情報の表示を義務づける規制案が提案されたが[ 30] [ 31] 、2023年12月9日にEU理事会・欧州議会 で修正された規制案が合意された。規制案では、AIのリスクに応じて規制をし、容認できないリスクはAI利用を禁止、高リスクのAIシステムに関しては一定の義務付け、リスクが限定的なAIシステムはAI生成コンテンツであるラベル付けなどの透明性に関する義務のみ課した。他方で、軍事・防衛専用システム、研究・技術革新目的の場合は規制案の適用範囲外とした[ 32] [ 33] 。ディープフェイクなどの問題に対処する法律は、2026年までに適用される[ 34] 。
データセットの著作権侵害が問われた「クネシュケ対LAION事件 」は2024年9月、世界に先駆けて初の判決が下された。ドイツ国内法だけでなく、欧州連合の著作権法であるDSM著作権指令 やAIを直接規制するAI法 の解釈にも踏み込んだことから、世界的に注目を集めている。本件ではデータセット提供者のLAION によるスクレイピング行為は適法と判断され、原告の写真家の訴えは棄却された[ 35] [ 36] [ 37] 。
2023年 1月 、ゲッティイメージズ はStability AIに対して著作権侵害を申し立てていた。しかし2025年6月 、ゲッティイメージズは訴訟を取り下げた[ 38] 。
アメリカ ではデータ利用に関してフェアユース に該当する場合は著作権の侵害にならないとする権利制限規定を設けている。フェアユースに認定されるかはケースバイケースで一定の基準はなく、潜在的市場への影響や商用利用なども含めた総合判断となる。2024年1月現在、機械学習による著作物の利用に関しては直接取り上げた判例はない[ 27] 。
作家 のアンドレア・バーツ、チャールズ・グレーバー、カーク・ジョンソンはLibGen やBooks3 などの海賊版サイトのデータや物理書籍のスキャンデータを用いClaude を訓練することは著作権侵害であると主張し開発会社のAnthropic を提訴した。Anthropicは海賊版サイトを使用したこと、数百万冊の書籍を購入しデジタル化したデータでトレーニングしたことを認めつつフェアユースに当たると主張した。カリフォルニア州 北部地区連邦地方裁判所 は物理書籍のスキャンデータによる訓練は、全く新しい文章を生成するための統計的関係を学ぶためだとし、AIの生成物が元の本のコピーや盗作をユーザーに提供しているわけではないとしフェアユースを認めた。他方で、海賊版データでデータセットを作成したことは有料コピーの代替であって変容的ではないとしフェアユースを認めなかった[ 39] [ 40] [ 41] 。
機械学習に対するフェアユースの適用に対しては以下のような否定的な主張がなされている。
機械学習は著作物についての事実の統計分析ではなく、その表現方法から特徴量を抽出する点で、従来の情報分析とは異なる。仮にフェアユース が適用されるにしても、機械学習により、無限に新たな著作物を安価に創出でき、人の創作による著作物を駆逐することとなり、人による創作を推奨するという著作権法 の趣旨に反する[ 42] [ 43] 。 従来では巨大な著作権者(放送局、出版社、新聞社、映画会社)と弱い公衆との二項対立で公益 性を認める形でフェアユースが主張されてきたが、AI分野ではフェアユースを利用できるのはGoogle などの巨大プラットフォーマー であり、弱い著作権者に対して大きなプラットフォーマーが無償で著作物を利用できるのは望ましくない[ 43] 。 人工知能の開発では、その学習の過程で、データの複製、次元削減などの改変が多段階で実行される。入力データと出力データないしは中間生成物が類似する可能性が大きく、「変容的利用目的でない」ことと、「入力データや著作者の市場を代替する可能性が大きい」という理由で、理論的にフェアユースに当たるかについても疑問視されている[ 42] [ 44] 。 コロンビア大学 のジェーン・ギンズバーグ教授は著作物のコピーの有無が問題になるとしている[ 45] 。単にプロンプトに対応するコンテンツを生成する方法を学習しているに過ぎないのか、既存の著作物の復元なのか問題になっている。AI生成物がスタイルが共通する場合は適法だが、不完全なコピーや別の構図であっても本物の作品に近すぎる生成物は侵害とされる可能性があるとしている[ 45] 。この場合、ウォーターマークや画家のサインが出るような生成物は、アウトプットが非侵害であればインプットは適法としたGoogle Books裁判 の判例より、モデルの訓練の適法性が疑わしくなるとしている[ 45] 。一方でフェアユースの適用に対して以下のような肯定的な主張がなされている[ 46] 。
Adobe は、セガ対アコレイド事件 (英語版 ) やソニー対コネクティクス事件 (英語版 ) などの先例では、アイデアであるアルゴリズムを抽出するためにプログラムの表現を複製などするリバースエンジニアリングに関することは、変容力のある利用であって、フェアユースであると認めている。これを援用し、大規模言語モデル における機械学習は、学習対象著作物中の単語間の関係やそのパターンなどのアイデアを抽出するためのものであるから、機械学習の過程での学習対象著作物の複製などは、変容力のある利用であって、フェアユースに当たると主張した[ 47] 。Google は、グーグル対オラクル事件 (英語版 ) などではプログラム開発のために他プログラムを実現するプログラムの一部を複製したことをフェアユースに当たると判断しており、ソニー対コネクティクス事件などでは市場での競合を著作権者は訴えたが、裁判においては変容力のある利用の結果生じる市場での競合は著作権法上は問題のない競合でありフェアユースを否定しないと判断されたと主張する[ 48] 。また、機械学習に用いられるデータの著作権や生成物の著作権上の扱いに関して以下のような動きがある
アメリカサンフランシスコ 在住のアーティストらが画像生成AI「Stable Diffusion 」の運営会社を相手取り、著作権侵害で集団訴訟 を起こした[ 49] 。2023年10月30日、カリフォルニア州連邦地方裁判所は原告側の訴えを棄却する裁定を下したが[ 50] 、11月には原告らは訴状を修正した上でStability AIに対する訴訟を再度提起した[ 51] 。 2023年3月に米国著作権局より公表されたガイダンスでは著作物にAI生成物が含まれる場合に、AI使用の明示と人間の著作者の寄与の説明を求めている[ 52] 。 2023年3月8日、米著作権局は生成AI「Midjourney 」も用いて作成された漫画作品「Zarya of the Dawn」について、コマ割りやセリフといった人間によって創作された箇所に限定して登録を認め、絵の部分に関しては「人間が制作したものではない」という理由で著作権保護対象外とする通達した[ 53] [ 52] 。 2023年6月、Adobeは、Fireflyを使って生成された画像の使用が著作権を侵害した場合、Adobeが罰金などを支払うこと、そもそも生成AI「Firefly」によって生成された画像自体が著作権を侵害する懸念はないことを約束した[ 54] 。 2023年9月、マイクロソフトは有料版Copliotで生成されたものが著作権を侵害した場合、その罰則もユーザーではなくマイクロソフトのみが負うと約束している[ 54] 。 2023年10月、ユニバーサルミュージック (UMG)は生成AI企業のAnthropicを相手取って所属アーティストの著作権を巡り訴訟を起こしている[ 55] 。 2023年10月30日、アメリカはAIの開発に関する大統領令を出したが[ 56] 、DeepLearning.AIは、生成AIに関して基礎となる基盤モデルの規制が開発を妨げており、そのアプリだけを規制すべきだと抗議した[ 57] 。 2023年11月、OpenAIはまた、有料版のChatGPT Enterpriseとその開発者プラットフォームが著作権を侵害した場合、OpenAIのみが罰金を支払うと発表した[ 58] 。 2023年12月、アメリカの大手紙NYタイムズ は記事を違法に利用しているとして、OpenAI とマイクロソフト を相手取り、著作権侵害の訴訟 を起こした[ 26] 。 2024年2月、ユニバーサルミュージック (UMG)は生成AIの推進姿勢を理由にTikTok との楽曲利用ライセンス契約を「AIによるアーティストの置き換えを支援するのと同義だ」として打ち切った[ 55] 。 2018年、著作権法 の改正で著作権の権利制限の規定として第30条の4が制定された[ 59]
第三十条の四[ 60] 著作物は、次に掲げる場合その他の当該著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合には、その必要と認められる限度において、いずれの方法によるかを問わず、利用することができる。ただし、当該著作物の種類及び用途並びに当該利用の態様に照らし著作権者の利益を不当に害することとなる場合は、この限りでない。
2019年、文化庁 は第30条の4における「享受」を目的としない行為として、以下を挙げた[ 61] 。
美術品の複製に適したカメラ やプリンター を開発するために美術品を試験的に複製する行為や複製に適した和紙を開発するために美術品を試験的に複製する行為 書籍や資料などの全文をキーワード検索して、キーワードが用いられている書籍や資料のタイトルや著者名・作成者名などの検索結果を表示するために書籍や資料などを複製する行為 日本語の表記の在り方に関する研究の過程においてある単語の送り仮名等の表記の方法の変遷を調査するために、特定の単語の表記の仕方に着目した研究の素材として著作物を複製する行為 人工知能の開発に関し人工知能が学習するためのデータの収集行為、人工知能の開発を行う第三者への学習用データの提供行為 プログラムの著作物のリバース・エンジニアリング 特定の場所を撮影した写真などの著作物から当該場所の3DCG映像を作成するために著作物を複製する行為 一方で、「享受」の目的が存在する適法とならない例として以下が挙げている[ 61] 。
写真などの著作物の表現上の本質的特徴を感得することができる態様でCG映像が作成される際の写真などの著作物のCG映像への複製行為 人を感動させるような映像表現の技術の開発を目的とすると言って、多くの一般人を招待して映画の試験上映会を行う行為 書籍や資料のタイトルや著者名・作成者名などの検索結果とともに、キーワードを含む本文の一部分(著作物)を併せて提供する行為で軽微性等の要件を満たさない場合 文化庁は、「AI開発・学習段階」と「生成・利用段階」では著作物の利用方法、関係する著作権法の条文が異なるとしている。「AI開発・学習段階」に関しては「享受」を目的としない情報解析は原則として著作権者の許諾なく行うことが可能としている[ 62] 。
文化庁は著作権法30条の4の「著作権者の利益を不当に害することとなる場合」について、著作権者の著作物の利用市場と衝突するか、あるいは将来における著作物の潜在的販路を阻害するかという観点があるが、最終的には司法の場で個別具体的に判断されるとしている[ 62] 。
文化庁は著作権の権利制限は国際条約 上の義務である「著作者の正当な利益を不当に害しないことを条件とする」 に適合するものであるとしている。また、著作権法30条の4に統合された著作権法旧第47条の7の関係について、30条の4では改正前に権利制限の対象として想定していた行為は、改正後においても、引き続き許諾なく行えるものとしている。旧法に但書を置いていなかったことについて、研究開発での著作物を利用および情報解析を想定しており、制定当時には著作者の正当な利益を不当に害することが想定されなかったとしている[ 61] 。
2024年3月現在、様々な政府合議体において生成AIに関する論点整理および施策検討がおこなわれている。以下は合議体と報告書の一覧である(括弧内が報告書):
法学者等は以下のような主張をしている。
知的財産法 を専門とする早稲田大学大学院法学研究科 の上野達弘 教授は著作権法30条の4に関して、機械学習など情報解析を目的とするのであれば、著作権のあるコンテンツを営利・商業目的であったとしても自由に利用できるとしている。また、違法に入手した著作物等であっても、情報解析に必要な限度といえれば、あらゆる利用行為が許容され得るのであるとしている。そのため,この規定は機械学習や人工知能開発のために極めて有用な規定であるとして世界に類を見ない「機械学習パラダイス」とも評している[ 63] 。
知的財産法を専門とする京都大学大学院法学研究科 の愛知靖之教授は著作権法30条の4について、潜在的に競合する用途で、著作物をデータとして機械学習による解析をすることは、将来における著作物の潜在的販路を阻害すると認められ、侵害が肯定される可能性があるとしている。30条の4が解釈によっては、改正によって統合された「データベース著作物を記録・翻案する行為」のみを権利制限の対象外としていた著作権法旧47条の7と比較して著作権侵害が認められやすくなる可能性があるとしている。例として、ディズニー 風の新しい映画を作るAIを開発するために、ディズニー映画を訓練データにして機械学習させる行為は、将来において、ディズニー映画と潜在的に競合する映画を作成するという用途で、著作物をデータとして入力していることになり、将来における著作物の潜在的販路を阻害すると認められ、侵害となる可能性があるとしている[ 64] 。
知的財産法を専門とする筑波大学 の潮海久雄 教授は情報解析目的でのデータ利用について、米国のフェアユース と比較して、ベルヌ条約のスリーステップテスト を前提とした場合、著作権法 第30条4の権利制限の適用範囲が極めて狭いとして、以下のように主張している[ 42] 。
利用目的について: 企業は音声認識 などの事業の目的のために開発済みの人工知能ソフトでデータを利用するか、事業目的に応じてAIを開発する。学習済モデルや学習処理を工夫してAIそのものを開発する事例は限定的である。学術分野以外では純粋にAIそのものを開発する目的は考えにくいとしている[ 42] [ 65] 。
ベルヌ条約と著作権法第30条の4の関係: 著作権法第30条の4はベルヌ条約のスリーステップテストの枠組みの個別制限規定であり、公益 が考慮されないため、享受目的以外の他の目的が主目的であっても享受目的が少しでもあるようなグレーの部分は侵害となる[ 42] 。
著作権者の利益を不当に害することとなる場合: 著作権法第30条の4に関して、立法趣旨では、データベースからデータを利用する場合は、著作権者の通常の市場と衝突するとされており、権利制限の例外となる「著作権者の利益を不当に害することとなる場合」にあたるとされているが、現状[いつ? ] としてデータが取引の対象となっていることからも、ビッグデータを人工知能プログラムで利用することはデータの本来的な用途とみなすことができ、これは著作者の通常の市場と衝突し、著作権者の通常の市場と衝突し、侵害となりうるとしている[ 42] 。
人間の教育と機械学習: 教育 利用に関する規定の著作権法35条ではスリーステップテストへの合致を検証して廃棄処分を必要とするなどの様々な利用の限定をしており、人間の学習については原則侵害としている。これにより、著作権法35条では機械に学習させる目的でのデータ利用を非侵害とすることは困難であるとしている。人間の学習と比べてもより強く著作権者の通常の市場と衝突するようなデータ利用には公益性などのより強い正当化事由が必要とだが、第30条の4の立法趣旨によれば、単なる私益の衝突であるとして公益や産業振興等を考慮していないことを明言している[誰が? ] [ 42] 。
著作権法第30条の4における「享受」: 以下のような、大規模データセット、事実著作物、芸術著作物、機能著作物の実行・複製・改変について一貫した説明ができず、権利制限の例外となる「享受」でない場合が不明であるとしている[ 42] 。
画像など芸術著作物について、人間が見ても見えただけでは享受にあたらないとして、電子計算機 も享受しないとしている。一方で、機能著作物であるプログラムの実行は電子計算機が機能を享受するので侵害としている。また、HTML のようにデータとプログラムの区別が不明確な場合もあり、これをプログラムとデータのどちらとして扱うのかは不明であるとしている[ 42] 。
地図 やデータベース などの事実著作物は、情報を正確に伝達することが目的である。学習データもプログラムを機能させることが本来の目的であり「享受」であると解釈できるとしている。機械学習モデルが機能するために学習データによってパラメータが変更されるため、機械学習の情報解析においても同様に「享受」があると考えられるとしている[ 42] 。
著作権法第30条の4では、データベース を利用する場合には侵害としており、「構造化されていないビッグデータ の利用」はデータベースの利用と同じく享受目的利用としている[ 42] 。
将来利用用途の不特定性: 著作物などの情報は、学習利用でも将来時点での通常利用となりうるため、本来的用途として特定できない。また、スリーステップテストの枠組みでは、情報の汎用利用はすべて侵害となる。現に[いつの時点? ] 、目的を限定しないアーカイブでの保存も、将来の享受目的があるとして30条の4が適用されないとしている[誰によって? ] [ 42] 。
各種機械学習アルゴリズムを備えたソフトウェアスイート として、SAS ・RapidMiner ・LIONsolver ・KNIME ・Weka ・ODM ・Shogun toolbox ・Orange ・Apache Mahout ・scikit-learn ・mlpy ・MCMLL ・OpenCV ・XGBoost ・Jubatus などがある。
データロボット社[ 注 3] による複数の手法を並列計算させて比較する方法がある[ 66] 。
「すべてのモデルは間違っている、だが中には役に立つものもある」(All models are wrong, but some are useful )というジョージ・E・P・ボックス による格言は、機械学習モデルの欠点を認識しつつ、その実用性を強調する際にもしばしば引用される[ 67] 。
^ Machine learning and pattern recognition "can be viewed as two facets of the same field."[ 4] :vii ^ 人間の専門家が訓練例にラベル付けすることで提供されることが多いのでラベル とも呼ばれる。 ^ 英 :DataRobot ^ “Machine Learning textbook ”. www.cs.cmu.edu . 2020年5月28日閲覧。 ^ Harnad, Stevan (2008), “The Annotation Game: On Turing (1950) on Computing, Machinery, and Intelligence” , in Epstein, Robert; Peters, Grace, The Turing Test Sourcebook: Philosophical and Methodological Issues in the Quest for the Thinking Computer , Kluwer, pp. 23–66, ISBN 9781402067082 , http://eprints.ecs.soton.ac.uk/12954/ ^ Mitchell, T. (1997). Machine Learning . McGraw Hill. pp. 2. ISBN 978-0-07-042807-2 ^ #bishop2006 ^ Friedman, Jerome H. (1998). “Data Mining and Statistics: What's the connection?”. Computing Science and Statistics 29 (1): 3–9. ^ Samuel, Arthur (1959). “Some Studies in Machine Learning Using the Game of Checkers”. IBM Journal of Research and Development 3 (3): 210–229. doi :10.1147/rd.33.0210 . ^ 金森敬文『統計的学習理論』講談社〈機械学習プロフェッショナルシリーズ〉、2015年。ISBN 9784061529052 。 ^ "統計的機械学習理論と ボルツマン機械学習" 安田 宗樹. 山形大学^ 上田. "統計的機械学習入門" NII.https://www.youtube.com/watch?v=wqb3k22toFY&t=478 ^ Yoshua Bengio (2009). Learning Deep Architectures for AI . Now Publishers Inc.. p. 1–3. ISBN 978-1-60198-294-0 . https://books.google.co.jp/books?id=cq5ewg7FniMC&pg=PA3&redir_esc=y&hl=ja ^ “Machine Learning Tool from Everlaw Finds Legal Evidence ” (英語). Machine Learning Tool from Everlaw Finds Legal Evidence (2022年7月6日). 2023年12月9日閲覧。 ^ Mattu, Jeff Larson,Julia Angwin,Lauren Kirchner,Surya. “How We Analyzed the COMPAS Recidivism Algorithm ” (英語). ProPublica . 2023年12月9日閲覧。 ^ 英 :Pragmatic Chaos ^ "BelKor Home Page" research.att.com^a b c 本橋 2018 , 1.3章「人工知能の利用用途」「人工知能の3つの役割」の冒頭付近。. ^a b c d e 本橋 2018 , 1.4章「認識の具体例」図1-4「画像認識の具体例」. ^a b c 本橋 2018 , 1.4章「認識の具体例」図1-5「音声入力の具体例」. ^a b c 本橋 2018 , 1.4章「認識の具体例」図1-6「文章解析・文章認識の具体例」. ^a b c 本橋 2018 , 1.4章「認識の具体例」図1-7「異常検知の具体例」. ^ 本橋 2018 , 1.5章 「分析とは?」冒頭.^a b c d e 本橋 2018 , 1.5章「分析の具体例」図1-8「数値の予測の具体例」. ^a b c d 本橋 2018 , 1.5章「分析の具体例」図1-9「イベントの発生の予測の具体例」. ^a b c d e 本橋 2018 , 1.6章「対処の具体例」図1-10「行動の最適化の具体例」. ^a b c 本橋 2018 , 1.6章「対処の具体例」図1-12「作業の具体化の具体例」. ^a b c 本橋 2018 , 1.6章「対処の具体例」図1-13「表現の生成の具体例」. ^a b NYT v. Microsoft, OpenAI (1:23-cv-11195 , 12/27/23) ^a b c “生成AIに関する各国の対応について ”. 文化庁. 2024年1月10日閲覧。 ^ Samantha Sonnet (2023).Nightshade: A Defensive Tool For Artists Against AI Art Generators (Report) (英語). AMT Lab, Carnegie Mellon University.^ “Directive (EU) 2019/790 of the European Parliament and of the Council of 17 April 2019 on copyright and related rights in the Digital Single Market and amending Directives 96/9/EC and 2001/29/EC (Text with EEA relevance.)”.Act of 17 April 2019 . The European Parliament & Council of the European Union. 条文の邦訳は公益社団法人著作権情報センターHPを参照。https://www.cric.or.jp/db/world/EU/EU_02a.html ^ “Proposal for a Regulation laying down harmonised rules on artificial intelligence ”. EU. 2024年1月10日閲覧。 ^ “「人工知能に関する調和の取れたルールを定める規則の提案」 (欧州委員会(2021年4月21日)) 本文・付属書(仮訳) ”. 総務省. 2023年1月10日閲覧。 ^ “Amendments adopted by the European Parliament on 14 June 2023 on the proposal for a regulation of the European Parliament and of the Council on laying down harmonised rules on artificial intelligence (Artificial Intelligence Act) and amending certain Union legislative acts (COM(2021)0206 – C9-0146/2021 – 2021/0106(COD))(1) ”. 2024年1月10日閲覧。 ^ 「EU、AIを包括的に規制する法案で政治合意、生成型AIも規制対象に 」『日本貿易振興機構(JETRO)』2023年12月13日。 ^ “Europe within reach of landmark AI rules after nod from EU countries ”. 2024年2月16日閲覧。 ^ Ehle, Kristina (弁護士事務所パートナー); Tüzün, Yeşim (弁護士事務所アソシエート).“To Scrape or Not to Scrape? First Court Decision on the EU Copyright Exception for Text and Data Mining in Germany” [データ収集すべきか否か? ドイツでテキストおよびデータマイニング (TDM) に関するEU著作権例外規定の初判決] (英語). Morrison & Foerster LLP. (法律事務所). 2024年11月9日閲覧 . ^ 野口ケルビン (米国特許弁護士) (2024年11月1日). “AIトレーニングデータは著作権保護対象外?:ドイツにおける初の判決が示唆するポストAIの世界とアメリカとの違い ”. Open Legal Community (知財メディアサイト) . 2024年11月9日閲覧。 ^ “2024 WIPO IP Judges Forum Informal Case Summary – Hamburg Regional Court, Germany [2024 : Robert Kneschke v. LAION e.V., Case No. 310 O 227/23]” [2024年 WIPO 知的財産法フォーラム用非公式判例要約 - 2024年ドイツ・ハンブルク地裁: ロベルト・クネシュケ対LAION (事件番号: 310 O 227/23)] (英語). WIPO . 2024年11月9日閲覧。 ^ 「Getty drops copyright allegations in UK lawsuit against Stability AI 」『AP通信』2025年6月25日。 ^ “Authors v Anthropic ruling | DocumentCloud ” (2025年6月23日). 2025年6月25日閲覧。 ^ Emma Roth「Anthropic wins a major fair use victory for AI — but it’s still in trouble for stealing booksJudge William Alsup determined that Anthropic training its AI models on purchased copies of books is fair use. 」『The Verge』2025年6月25日。 ^ Ashley Belanger「Key fair use ruling clarifies when books can be used for AI training 」『Ars Technica』2025年6月25日。 ^a b c d e f g h i j k l 潮海 2019 , pp. 679–722. ^a b Sobel 2017 , pp. 45–97. ^ Sobel 2017 , pp. 47–78.^a b c ジェーン・ギンズバーグ 2023 . ^ 「AI companies have all kinds of arguments against paying for copyrighted content 」『THE VERGE』2023年11月5日。 ^ 『e Adobe Inc. Comments on the U.S. Copyright Office Notice of Inquiry and Request for Comments on Artificial Intelligence and Copyright 』Adobe、2023年10月30日。https://www.documentcloud.org/documents/24117931-adobe 。 ^ 『Artificial Intelligence and Copyright 』Google、2023年10月30日。https://www.documentcloud.org/documents/24117935-google 。2023年10月30日閲覧 。 ^ 朝日新聞デジタル『アーティストの作品でAI訓練 「無断で複製された」米国で集団提訴』 ^ “第9回 ミッドジャーニーなど画像生成AIを巡る著作権訴訟でクリエーターらの訴えが概ね棄却される | 研究員コラム | KDDI research atelier | KDDI総合研究所 ” (2023年11月30日). 2023年12月15日閲覧。 ^ Andersen et al. v. Stability AI Ltd. (3:23-cv-00201 Amendament:11/30/23) ^a b シラ・パールムッター 2023 . ^ “U.S. Will Not Recognize Copyrights for AI-Generated Images ” (英語). U.S. Will Not Recognize Copyrights for AI-Generated Images (2023年3月8日). 2023年12月1日閲覧。 ^a b “Microsoft Commits to Cover Copyright Violation Costs for GenAI Services ” (英語). Microsoft Commits to Cover Copyright Violation Costs for GenAI Services (2023年9月13日). 2023年12月25日閲覧。 ^a b https://wired.jp/article/tiktok-universal-music-group-umg-remove-songs/ ^ House, The White (2023年10月30日). “Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence ” (英語). The White House . 2023年12月1日閲覧。 ^ “Problematic White House AI Policy, Parked Cruise Robotaxis, and more ” (英語). Problematic White House AI Policy, Parked Cruise Robotaxis, and more (2023年11月1日). 2023年12月1日閲覧。 ^ “OpenAIが著作権侵害で法的請求が発生した場合にユーザーを守り発生費用を全額支払う「著作権シールド」を発表 - GIGAZINE ”. gigazine.net (2023年11月7日). 2024年2月16日閲覧。 ^ 文化庁著作権課 2019 .^ “著作権法 | e-Gov法令検索 ”. elaws.e-gov.go.jp . 2024年1月14日閲覧。 ^a b c “デジタル化・ネットワーク化の進展に対応した 柔軟な権利制限規定に関する基本的な考え方 ”. 2023年12月18日閲覧。 ^a b “令和5年度 著作権セミナー AIと著作権 ”. 2023年12月19日閲覧。 ^ 上野達弘「情報解析と著作権──「機械学習パラダイス」としての日本」『人工知能』第36巻第6号、人工知能学会、2021年、745-74頁、doi :10.11517/jjsai.36.6_745 。 ^ 愛知靖之「AI生成物・機械学習と著作権法 」『パテント』第73巻第8号、日本弁理士会、2020年、131-146頁。 ^ 中島 & 潮海 2019 , p. 10.^ DataRobot:https://www.datarobot.com ^ Momin M. Malik (2020年). “A Hierarchy of Limitations in Machine Learning ”. 2025年8月11日閲覧。 Christopher M. Bishop (2006). Pattern Recognition And Machine Learning . Springer-Verlag. ISBN 978-0387310732 (中上級の教科書) →サポートページ (ここから、第8章 "Graphical Models" をpdf形式で入手可能)(Microsoftのサイトからは、本全体をpdfで入手可能) 後藤正幸、小林学『入門 パターン認識と機械学習』コロナ社、2014年。ISBN 978-4-339-02479-1 。 本橋洋介『人工知能システムのプロジェクトがわかる本 企画・開発から運用・保守まで (AI & TECHNOLOGY)』翔泳社、2018年2月15日。ASIN B078JMLVR2 。ISBN 978-4798154053 。 Ian Goodfellow, Yoshua Bengio, Aaron Courville 翻訳:黒滝紘生, 河野慎, 味曽野雅史, 保住純, 野中尚輝, 冨山翔司, 角田貴大, 監訳:岩澤有祐, 鈴木雅大, 中山浩太郎, 松尾豊訳 (2018/8/27). 深層学習(kindle版) . ドワンゴ. ASIN B07GQV1X76 Hastie, Trevor、Tibshirani, Robert、Friedman, Jerome『統計的学習の基礎 データマイニング・推論・予測』杉山将、井手剛、神嶌敏弘、栗田多喜夫、前田英作、井尻善久、岩田具治、金森敬文、兼村厚範、烏山昌幸、河原吉伸、木村昭悟、小西嘉典、酒井智弥、鈴木大慈、竹内一郎、玉木徹、出口大輔、冨岡亮太、波部斉、前田新一、持橋大地、山田誠 翻訳、共立出版、2014年6月25日。ISBN 978-4-320-12362-5 。 瀧雅人『これならわかる深層学習入門』講談社 〈KS情報科学専門書 機械学習スタートアップシリーズ〉、2017年10月21日。ISBN 978-4-06153828-3 。 金森敬文『統計的学習理論』講談社〈KS情報科学専門書 機械学習スタートアップシリーズ〉、2015年8月8日。ISBN 978-4-06-152905-2 。 有賀康顕、中山心太、西林孝『仕事ではじめる機械学習』オライリー・ジャパン 、2018年1月15日。ISBN 978-4-87311-825-3 。 持橋大地、大羽成征:「ガウス過程と機械学習」、講談社サイエンティフィク、ISBN 978-4-06-152926-7 (2019年3月7日). 鈴木顕『機械学習アルゴリズム』共立出版、2021年6月9日。ISBN 978-4-320-12517-9 。 岡留剛『機械学習』 1(入門的基礎/パラメトリックモデル)、共立出版、2022年8月26日。ISBN 978-4-320-12488-2 。 岡留剛『機械学習』 2(ノンパラメトリックモデル/潜在モデル)、共立出版、2022年8月26日。ISBN 978-4-320-12489-9 。 AIと著作権についての文献
Thomas Mitchell "Machine Learning" McGraw-Hill (1997)ISBN 978-0071154673 (入門用の教科書) →サポートページ Trevor Hastie, Robert Tibshirani, and Jerome H. Friedman "The Elements of Statistical Learning: Data Mining, Inference, and Prediction" Springer-Verlag (2001)ISBN 978-0387952840 (高度な内容も含む.数理・統計系の手法が中心) →サポートページ (ここから、全章をpdf形式で入手可能) David MacKay "Information Theory, Inference, and Learning Algorithms" (2003) (ベイズ推論を中心に、情報理論と機械学習を包括的にカバーした教科書) →著者ページ (ここから全文をPDF形式で入手可能) Sergios Theodoridis, Konstantinos Koutroumbas (2009) "Pattern Recognition", 4th Edition, Academic Press,ISBN 978-1-59749-272-0 . Ethem Alpaydın (2004)Introduction to Machine Learning (Adaptive Computation and Machine Learning) , MIT Press,ISBN 0-262-01211-1 Bing Liu (2007),Web Data Mining: Exploring Hyperlinks, Contents and Usage Data . Springer,ISBN 3-540-37881-2 Toby Segaran (2007),Programming Collective Intelligence , O'Reilly,ISBN 0-596-52932-5 Ray Solomonoff , "An Inductive Inference Machine " A privately circulated report from the 1956Dartmouth Summer Research Conference on AI .Ray Solomonoff,An Inductive Inference Machine , IRE Convention Record, Section on Information Theory, Part 2, pp., 56-62, 1957. Ryszard S. Michalski, Jaime G. Carbonell, Tom M. Mitchell (1983),Machine Learning: An Artificial Intelligence Approach , Tioga Publishing Company,ISBN 0-935382-05-4 . Ryszard S. Michalski, Jaime G. Carbonell, Tom M. Mitchell (1986),Machine Learning: An Artificial Intelligence Approach, Volume II , Morgan Kaufmann,ISBN 0-934613-00-1 . Yves Kodratoff, Ryszard S. Michalski (1990),Machine Learning: An Artificial Intelligence Approach, Volume III , Morgan Kaufmann,ISBN 1-55860-119-8 . Ryszard S. Michalski, George Tecuci (1994),Machine Learning: A Multistrategy Approach , Volume IV, Morgan Kaufmann,ISBN 1-55860-251-8 . Bishop, C.M. (1995).Neural Networks for Pattern Recognition , Oxford University Press.ISBN 0-19-853864-2 . Richard O. Duda, Peter E. Hart, David G. Stork (2001)Pattern classification (2nd edition), Wiley, New York,ISBN 0-471-05669-3 . Huang T.-M., Kecman V., Kopriva I. (2006),Kernel Based Algorithms for Mining Huge Data Sets, Supervised, Semi-supervised, and Unsupervised Learning , Springer-Verlag, Berlin, Heidelberg, 260 pp. 96 illus., Hardcover,ISBN 3-540-31681-7 . KECMAN Vojislav (2001),Learning and Soft Computing, Support Vector Machines, Neural Networks and Fuzzy Logic Models , The MIT Press, Cambridge, MA, 608 pp., 268 illus.,ISBN 0-262-11255-8 . Ian H. Witten and Eibe Frank (2011).Data Mining: Practical machine learning tools and techniques Morgan Kaufmann, 664pp.,ISBN 978-0123748560 . Sholom Weiss and Casimir Kulikowski (1991).Computer Systems That Learn , Morgan Kaufmann.ISBN 1-55860-065-5 . Mierswa, Ingo and Wurst, Michael and Klinkenberg, Ralf and Scholz, Martin and Euler, Timm:YALE: Rapid Prototyping for Complex Data Mining Tasks , in Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD-06), 2006. Vladimir Vapnik (1998).Statistical Learning Theory . Wiley-Interscience,ISBN 0-471-03003-1 . Nils J. Nilsson,Introduction to Machine Learning . Trevor Hastie ,Robert Tibshirani andJerome H. Friedman (2001).The Elements of Statistical Learning , Springer.ISBN 0-387-95284-5 .Pedro Domingos (September 2015),The Master Algorithm , Basic Books,ISBN 978-0-465-06570-7 Ian H. Witten and Eibe Frank (2011).Data Mining: Practical machine learning tools and techniques Morgan Kaufmann, 664pp.,ISBN 978-0-12-374856-0 . Ethem Alpaydin (2004).Introduction to Machine Learning , MIT Press,ISBN 978-0-262-01243-0 . David J. C. MacKay .Information Theory, Inference, and Learning Algorithms Cambridge: Cambridge University Press, 2003.ISBN 0-521-64298-1 Richard O. Duda ,Peter E. Hart , David G. Stork (2001)Pattern classification (2nd edition), Wiley, New York,ISBN 0-471-05669-3 .Christopher Bishop (1995).Neural Networks for Pattern Recognition , Oxford University Press.ISBN 0-19-853864-2 .Stuart Russell & Peter Norvig, (2009).Artificial Intelligence – A Modern Approach . Pearson,ISBN 9789332543515 . Ray Solomonoff ,An Inductive Inference Machine , IRE Convention Record, Section on Information Theory, Part 2, pp., 56–62, 1957.Ray Solomonoff ,An Inductive Inference Machine A privately circulated report from the 1956Dartmouth Summer Research Conference on AI .Kevin Patrick Murphy (2022),Probabilistic Machine Learning: An Introduction , MIT Press. #和訳書あり。Kevin Patrick Murphy (2023),Probabilistic Machine Learning: Advanced Topics , MIT Press. #和訳書あり。和書
ウィキメディア・コモンズには、
機械学習 に関連するカテゴリがあります。