
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されますhttps://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

「Attention」とは、深層学習モデルが学習を行う際に、入力されたデータのどの単語に注目するかを決める...「Attention」とは、深層学習モデルが学習を行う際に、入力されたデータのどの単語に注目するかを決めるための仕組みです。Transformerの「Multi-head Attention」は「Attention」が発展したもので、同時に複数の箇所に注目できます。 デコーダには、「Multi-Head Attention」と同様の機能を持つ「Masked Multi-Head Attention」という層があります。 「Masked Multi-Head Attention」は、情報の一部をマスクした状態で機能する点が特徴です。具体的には、Transformerが自身で出力した情報を隠した状態でデータを処理します。 Transformerが出力した情報を自己参照しながら学習を行ってしまうと、学習モデルが不正確になるリスクがあります。学習モデルが実際に使用される場面では、入力された情報以外

