関連技術において、画像において、自然言語に最もマッチングした画像領域を位置決めすることができるが、各局所領域間の空間的関係が考慮されておらず、且つ局所領域間のセマンティック情報が無視されたため、ターゲット画像領域の位置決めが不正確になることを招き、画像に対する理解能力を低下させる。
  本願の実施例は、画像領域位置決め方法、モデル訓練方法及び関連装置を提供する。グラフ畳み込みネットワークによって、画像候補領域間の表現を効果的に拡張し、且つ、各画像候補領域間の空間的関係を考慮したため、画像領域位置決めの正確性の向上に寄与し、更に、画像に対する理解能力を向上させる。
  本願の明細書、特許請求の範囲及び上記図面に言及された「第1」、「第2」、「第3」、「第4」等の用語(存在すれば)は、類似した対象を区別するためのものであり、特定の順番又は前後順序を説明するためのものではない。ここで説明した本願の実施例をここで示した又は説明した順番以外の順番で実施可能なものにするために、このように使用されたデータは適した場合であれば互いに取り替え可能なことは、理解されるべきである。なお、「備える」と「有する」という用語及びそれらの変形は、非排他的な包含を網羅することを意図している。例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は機器は、明記されたステップ又はユニットに限定されず、明記されていないか又はこれらのプロセス、方法、製品又は機器固有の他のステップ又はユニットを含んでもよい。
  本願で提供される画像領域位置決め方法は、画像処理及びモード認識などの分野に適用され、画像において、関心のあるターゲットを位置決めし、更に、ターゲットの具体的なカテゴリを判定し、該ターゲットの境界枠を特定することができる。画像領域位置決め方法は、顔認識、医用画像、インテリジェントビデオモニタリング、ロボットナビゲーション、コンテンツに基づく画像検索、画像に基づく描画技術、画像編集及び拡張現実などの分野に広く適用されている。例えば、コンテンツに基づく画像検索シーンにおいて、画像Aが存在し、画像Aから複数の候補領域を抽出し、ユーザにより入力されたセンテンスが「a  boy  hold  an  apple(一人の男の子は1つのリンゴを持っている)」であると仮定すれば、センテンスと各候補領域をマッチングし、マッチング結果に基づいて、複数の候補領域からターゲット候補領域を選択する。本願は、主に、グラフ畳み込みネットワークを用いて自然文の画像位置決めを完了する。自然文は、単語、フレーズ又はセンテンスであってもよい。自然文に対応する画像のターゲット候補領域を見付け、該ターゲット候補領域を1つの矩形枠と定義することができる。
  実際の適用において、画像領域の位置決めは、3つのレベルに分けられてもよい。第1レベルは、画像レベルであり、つまり、画像に関連ターゲット対象が存在するかどうかを決定する。画像分類又は画像アノテーション技術において、例えば、単語「apple」(リンゴ)について言えば、画像において、リンゴという対象を丸で囲むことができる。
  第2レベルは、領域レベルであり、つまり、画像における1つの領域に1つのカテゴリのターゲットが含まれることを決定する。画像ターゲットカテゴリ検出において、例えば、センテンス「a  boy  hold  an  apple(男の子は1つのリンゴを持っている)」について言えば、画像において、1つの領域を枠によって選択することができる。該領域は、一人の男の子及び1つのリンゴを含む。
  第3レベルは、領域レベルであり、つまり、画像における各画素がどのようなターゲット対象に属するかを決定する。画素レベルのセグメンテーションもカテゴリレベルのターゲットセグメンテーション及びセマンティックセグメンテーションという2種類に分けられる。カテゴリレベルのターゲットセグメンテーションとセマンティックセグメンテーションとの主な相違点は、セマンティックセグメンテーションにおいて画像における背景を含む全てのターゲットをセグメンテーションしてそのカテゴリを決定することが求められているが、ターゲットセグメンテーションにおいて、関心のあるターゲットをセグメンテーションして分類することのみが求められていることである。
  理解しやすくするために、本願は、画像領域位置決め方法を提供する。該方法は、図1に示す画像領域位置決めシステムに適用される。図1を参照すると、図1は、本願の実施例による画像領域位置決めシステムのアーキテクチャを示す概略図である。図面に示すように、本願で提供される画像領域位置決め方法は、サーバに適用可能であり、クライアントにも適用可能である。サーバに適用される場合、サーバは、位置決め結果を決定した後、位置決め結果をクライアントに送信し、クライアントにより、対応するターゲット画像候補領域を展示することができる。クライアントに適用される場合、クライアントは、位置決め結果を決定した後、対応するターゲット画像候補領域を直接的に展示することができる。具体的には、1つの画像に対して、まず、画像検出方法で、複数の画像候補領域(即ち、画像の局所領域)を得る。複数の画像候補領域に対して、それらの空間的関係により、グラフ(graph)を更に構築する。続いて、画像候補領域に対して、畳み込みニューラルネットワークを用いて、対応するセマンティック特徴を抽出することができる。得られたセマンティック特徴及び構築したグラフに基づいて、グラフ畳み込みネットワーク(graph  convolutional  network:GCNと略称)を用いて、画像候補領域の表示を更に学習する。GCNにより得られた画像候補領域表示に基づいて、セマンティックマッチングの方式で、これらの画像候補領域と所定の自然文とのセマンティック相関性を評価し、相関性が最も高い画像候補領域を自然文画像位置決めの最終的結果として選択し、つまり、ターゲット画像候補領域を得る。
  クライアントは、端末機器に配置される。ここで、端末機器は、タブレット、ノートパソコン、パーソナルテジタルアシスタント、携帯電話、音声対話端末及びパーソナルコンピュータ(personal  computer:PCと略称)を含むが、これに限定されないことに留意されたい。ここで、音声対話端末は、スマートスピーカ及びスマート家電を含むが、これに限定されない。
  本願で提供される画像領域位置決め方法は、自然文画像位置決めサービスを提供することができる。該サービスは、サーバ側に配置されて実行されてもよく、端末機器側に配置されて実行されてもよい。サービス側で該画像領域位置決め方法を適用すると、画像に対するより深い理解を実現させ、更に、画像に対してより詳しい細粒度アノテーションを行うことができ、これにおり、ユーザが検索及びマッチングを迅速かつ正確に行うことを補助し、画像文字情報のパーソナライズされた推奨にも適用可能であることは、理解されるべきである。該画像領域位置決め方法は、携帯電話側又はロボットなどのような端末機器に適用されてもよい。ロボットのカメラにより、対応する画像信号を取得し、ユーザは、自然言語により、対応するロボットと対話する。例えば、ユーザは、音声又はキーボード入力により対応する自然言語テキストを得て、更に、画像領域位置決めネットワークモデルによって、対応する自然言語テキストに対して画像の局所領域を位置決めする。このような方式で、端末機器に、ユーザとより好適にインタラクションさせることができる。
  一例示的なシーンにおいて、ユーザは、高精度検索を容易に行うことができる。ユーザは、音声又はキーボードにより、端末機器に自然言語テキストを入力する。端末機器は、本願の実施例の画像領域位置決め方法で、位置決め対象の画像において、自然言語テキストとのマッチング度が最も高い領域を決定し、画像に対する高精度検索を実現させる。これは、犯罪捜査分野、教育分野において、高い実用的意義を有する。例えば、犯罪捜査分野において、監視映像画像において、1つの特徴を有する容疑者を位置決めすることができる。又は、教育分野において、授業映像画像において、いずれか1名の学生を位置決めすることができる。煩わしい手動スクリーニングを必要とせず、ユーザは自然言語テキストを入力すればよい。
  一例示的なシーンにおいて、サーバ側は、ユーザに対応する端末機器に対してパーソナライズされた推奨を容易に行うことができる。サーバ側は、ユーザから入力された、十分に認可された自然言語テキストを収集する。サーバ側は、本願の実施例の画像領域位置決め方法で、位置決め対象の画像において、自然言語テキストとのマッチング度が最も高い領域を決定する。これにより、選択された領域に対して、類似した画像リソース、ビデオリソース、ウェブページリソースなどをプッシュすることができ、正確度がより高いパーソナライズされた推奨を実現させることができ、リソース推奨プロセスの正確度を向上させることができる。
  理解しやすくするために、図2を参照する。図2は、本願の実施例による画像領域位置決めの全体的なフレームワークを示す概略図である。図面に示すように、1つの自然画像に対して、オブジェクト提案(object  proposal)方法で、対応する画像候補領域を得る。対応する画像候補領域を抽出した後、我々は、対応する畳み込みニューラルネットワークを用いて、対応する画像候補領域のセマンティック表現を抽出し、各候補領域を1つの特徴ベクトルで表す。更に、対応する候補領域に対応するセマンティック表現{I1,I2,I3,I4,...,In}を得る。ここで、nは、画像における抽出された画像候補領域の総数を表す。後続で、GCNを用いて、抽出した画像候補領域セマンティックに対して拡張を行い、拡張した画像候補領域セマンティック表現{V1,V2,V3,V4,...,Vn}を得る。グラフ畳み込みネットワークを構築する過程において、画像候補領域間のセマンティック類似度を考慮する必要がある。これにより、対応するグラフを構築し、更に、対応する接続エッジ情報を定義し、接続エッジ情報により、対応する画像候補領域のセマンティックに対して拡張を行う。
  入力された自然文(例えば、「左側で野球している白い洋服を着た人」)に対して、我々は、リカレントニューラルネットワークを用いて自然文に対して符号化を行い、それに対応するセマンティック表現を得る。自然文のセマンティック表現及び対応する拡張した画像候補領域セマンティック表現に対して、マッチング学習方法で、自然文と対応する画像候補領域とのセマンティック関係を学習する。最後に、両者間のセマンティック類似度により、セマンティック相関性が最も高い画像候補領域をターゲット画像候補領域として選択する。
  上記説明を参照しながら、以下、本願における画像領域位置決め方法を説明する。図3を参照すると、画像領域位置決め装置への適用を例として説明する。画像領域位置決め装置は、サーバに配置されてもよく、端末機器に配置されてもよい。本願の実施例における画像領域位置決め方法の一実施例は、以下を含む。
  ステップ101において、画像領域位置決め装置は、位置決め対象の画像における画像候補領域集合を取得し、画像候補領域集合に、N個の画像候補領域が含まれ、Nは、1より大きいか等しい整数である。
  本実施例において、画像領域位置決め装置は、まず、位置決め対象の画像を取得する。ここで、位置決め対象の画像は、サーバのバックエンドに記憶された画像であってもよく、クライアントによりアップロードされた画像であってもよく、クライアントのローカル画像であってもよい。画像領域位置決め装置は、サーバに配置されてもよく、端末機器に配置されてもよく、ここで限定しないことが理解されるべきである。
  画像領域位置決め装置は、位置決め対象の画像を取得した後、物品候補提案の方法で、位置決め対象の画像における画像候補領域集合を抽出することができる。ここで、該画像候補領域集合に、N個の画像候補領域が含まれ、Nは、1より大きいか等しい整数である。Nは1である場合、位置決め対象の画像に1つのみの画像候補領域が存在し、該画像候補領域を直接的にターゲット画像候補領域とすればよいことを表す。
  オブジェクト提案方法により、画像における画像候補領域を抽出することができる。具体的には、画像候補領域は、予め見付けた、画像における、ターゲットが出現し得る位置である。画像におけるテクスチャ、縁及び色などの情報を利用して、少ないウィンドウの選択を確保する上で、高い重なり度合い(Intersection-over-Union:IoU)を保持することができる。ここで、オブジェクト提案方法は、領域に基づく畳み込みニューラルネットワーク(Region-based  Convolutional  Neural  Networks:R-CNN)、高速領域に基づく畳み込みニューラルネットワーク(Fast  Region-based  Convolutional  Neural  Networks:Fast  R-CNN)及びより高速な領域に基づく畳み込みニューラルネットワーク(Faster  Region-based  Convolutional  Neural  Networks:Faster  R-CNN)等を含むが、これらに限定されず、ここで、限定しない。
  ステップ102において、画像領域位置決め装置は、画像候補領域集合に基づいて、領域セマンティック情報集合を生成し、領域セマンティック情報集合にN個の領域セマンティック情報が含まれ、各領域セマンティック情報は、1つの画像候補領域に対応する。
  本実施例において、画像領域位置決め装置は、画像候補領域集合を取得した後、ニューラルネットワークによって、対応する画像候補領域セマンティック表現を生成し、つまり、領域セマンティック情報集合を得る。ここで、領域セマンティック情報集合は、N個の領域セマンティック情報を含み、各領域セマンティック情報は、1つの画像候補領域に対応する。
  該ニューラルネットワークは、具体的には、畳み込みニューラルネットワーク(Convolutional  Neural  Network:CNN)であってもよく、実際の適用において、他のタイプのニューラルネットワークであってもよく、ここで、一例だけであり、本願を限定するものと理解されるべきではないことに留意されたい。
  上記プロセスにおいて、つまり、画像領域位置決め装置は、位置決め対象の画像における画像候補領域集合に基づいて、領域セマンティック情報集合を生成する。ここで、該領域セマンティック情報集合における各領域セマンティック情報は、該画像候補領域集合における1つの画像候補領域に対応する。
  ステップ103において、画像領域位置決め装置は、グラフ畳み込みネットワークによって、領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得し、拡張セマンティック情報集合に、N個の拡張セマンティック情報が含まれ、各拡張セマンティック情報は、1つの領域セマンティック情報に対応し、グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられる。
  つまり、拡張セマンティック情報集合における各拡張セマンティック情報は、領域セマンティック情報集合における1つの領域セマンティック情報に対応する。
  本実施例において、画像領域位置決め装置は、GCNにより、領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得する。つまり、GCNを利用して、画像候補領域のセマンティック表現を拡張することができる。ここで、拡張セマンティック情報集合に、N個の拡張セマンティック情報が含まれる。つまり、各画像候補領域は、1つの領域セマンティック情報に対応し、且つ、各画像候補領域は、1つの領域セマンティック拡張セマンティック情報に対応する。GCNは、ノード間の関連関係を構築することができる。本願において、各領域セマンティック情報間の関連関係を構築することができる。
  GCNは、畳み込み可能なネットワークモデルである。GNCについて言えば、その目的は、グラフG=(V,E)における信号又は特徴の1つのマッピングを学習することである。グラフ構築プロセスは、画像候補領域を得た後に実行されたものである。グラフは、画像候補領域間の空間的情報に基づいて構築されたものであり、データ及びデータ間の関係に含まれる情報を利用して、画像候補領域に対するセマンティック表現を増加し、拡張セマンティック情報を得る。
  ステップ104において、画像領域位置決め装置は、位置決め対象のテキストに対応するテキスト特徴集合を取得し、位置決め対象のテキストは、T個の単語を含み、テキスト特徴集合は、T個の単語特徴を含み、各単語は、1つの単語特徴に対応し、Tは、1より大きいか等しい整数である。
  本実施例において、画像領域位置決め装置は、位置決め対象のテキストを取得する。ステップ104は、ステップ101の前に実行されてもよく、ステップ103の後に実行されてもよく、ステップ101と同時に実行されてもよく、ここで、ステップ104の実行順番を限定しないことが理解されるべきである。位置決め対象のテキストは具体的には、ユーザにより入力されたテキストであってもよく、ユーザにより入力された音声に対して認識を行った後に得られたテキストであってもよい。位置決め対象のテキストは単語、フレーズ、センテンス又は段落などの形態で表され、また、位置決め対象のテキストは、中国語、英語、日本語、フランス語、ドイツ語又はロシア語などであってもよく、ここで限定しない。
  位置決め対象のテキストを取得した後、位置決め対象のテキストにおける各単語に対して特徴抽出及び符号化処理を行い、最後に、テキスト特徴集合を得る。例えば、位置決め対象のテキスト「boy  hold  an  apple」に4つの単語が含まれ、該4つの単語は、それぞれ「boy」、「hold」、「an」及び「apple」である。該4つの単語の特徴を抽出した後に符号化処理を行い、更にテキスト特徴集合を得る。ここで、位置決め対象のテキストは、T個の単語を含み、テキスト特徴集合は、T個の単語特徴を含み、各単語は、1つの単語特徴に対応し、Tは、1より大きいか等しい整数である。
  位置決め対象のテキスト「boy  hold  an  apple」は、具現化した記述である。従って、位置決め対象の画像において、「boy」を含むだけでなく、「apple」も含む画像候補領域を得ることができる。
  ステップ105において、画像領域位置決め装置は、画像領域位置決めネットワークモデルによって、テキスト特徴集合と各拡張セマンティック情報とのマッチング度を取得し、画像領域位置決めネットワークモデルは、画像候補領域と位置決め対象のテキストとのマッチング関係を決定するために用いられる。
  本実施例において、画像領域位置決め装置は、各拡張セマンティック情報とテキスト特徴集合をそれぞれ画像領域位置決めネットワークモデルに入力し、画像領域位置決めネットワークモデルによって、対応するマッチング度を出力する。ここで、画像領域位置決めネットワークモデルは、画像候補領域と位置決め対象のテキストとのマッチング関係を決定するために用いられる。つまり、マッチング度は高いほど、マッチング関係が強くなる。
  マッチング度は、マッチングスコア又はマッチング識別子で表されてもよく、他のタイプのマッチング関係で表されてもよい。
  上記プロセスにおいて、つまり、画像領域位置決め装置は、画像領域位置決めネットワークモデルによって、位置決め対象のテキストに対応するテキスト特徴集合と各拡張セマンティック情報とのマッチング度を取得する。ここで、該位置決め対象のテキストにおける各単語は、該テキスト特徴集合における1つの単語特徴に対応する。
  ステップ106において、画像領域位置決め装置は、テキスト特徴集合と各拡張セマンティック情報とのマッチング度に基づいて、画像候補領域集合から、ターゲット画像候補領域を決定する。
  本実施例において、画像領域位置決め装置は、テキスト特徴集合と各拡張セマンティック情報とのマッチング度に基づいて、画像候補領域集合から、マッチング度が最も高い画像候補領域をターゲット画像候補領域として選択することができる。説明しやすくするために、表1を参照する。表1は、テキスト特徴集合と拡張セマンティック情報とのマッチング度を示す。
  上記表1から分かるように、「テキスト特徴集合+拡張セマンティック情報D」について言えば、それに対応するマッチング度は最も高いため、画像領域位置決め装置は、画像候補領域Dをターゲット画像候補領域とする。
  本願の実施例において、画像領域位置決め方法を提供する。まず、位置決め対象の画像における画像候補領域集合を取得し、画像候補領域集合に、N個の画像候補領域が含まれる。続いて、画像候補領域集合に基づいて、領域セマンティック情報集合を生成し、各領域セマンティック情報は、1つの画像候補領域に対応する。更に、グラフ畳み込みネットワークによって、領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得し、各拡張セマンティック情報は、1つの領域セマンティック情報に対応し、グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられる。また、位置決め対象のテキストに対応するテキスト特徴集合を取得する。続いて、画像領域位置決めネットワークモデルによって、テキスト特徴集合と各拡張セマンティック情報とのマッチング度を取得する。最後に、テキスト特徴集合と各拡張セマンティック情報とのマッチング度に基づいて、画像候補領域集合から、ターゲット画像候補領域を決定する。上記方式で、グラフ畳み込みネットワークを用いて、画像候補領域間のセマンティック表現を効果的に拡張することができ、且つ、各画像候補領域間の空間的関係を考慮したため、画像領域位置決めの正確性の向上に寄与し、更に、画像に対する理解能力を向上させる。
  任意選択的に、上記図3に対応する実施例を基に、本願の実施例で提供される画像領域位置決め方法の第1選択可能な実施例において、画像領域位置決め装置が画像候補領域集合に基づいて領域セマンティック情報集合を生成するステップは、
  画像領域位置決め装置が畳み込みニューラルネットワークによって、各画像候補領域に対応する領域セマンティック情報を取得するステップであって、画像候補領域は、領域情報を含み、領域情報は、位置決め対象の画像における、画像候補領域の位置情報と、画像候補領域の寸法情報と、を含む、ステップと、
  N個の画像候補領域に対応する領域セマンティック情報を取得した場合、画像領域位置決め装置がN個の領域セマンティック情報に基づいて、領域セマンティック情報集合を生成するステップと、を含んでもよい。
  本実施例において、画像領域位置決め装置は、画像候補領域集合を取得した後、CNNにより、各画像候補領域の領域セマンティック情報を生成することができる。ここで、領域セマンティック情報は、画像候補領域に対するセマンティック表現である。具体的には、画像候補領域集合を{b1,b2,b3,b4,...,bn}と定義すると仮定する。ここで、各画像候補領域は、領域情報bi={x1,y1,w1,h1}を含み、画像候補領域biは、画像候補領域集合における1つの画像候補領域を表し、x1及びy1は、位置決め対象の画像における、画像候補領域の位置情報を表す。具体的には、x1は、位置決め対象の画像における、画像候補領域の最頂点の横座標位置情報を表し、y1は、位置決め対象の画像における、画像候補領域の最頂点の縦座標位置情報を表し、w1及びh1は、画像候補領域の寸法情報を表し、該寸法情報は、位置決め対象の画像に対する画像候補領域の比例寸法であり、w1は、位置決め対象の画像における、画像候補領域の幅情報を表し、h1は、位置決め対象の画像における、画像候補領域の高さ情報を表す。
  画像候補領域biをCNNに入力した後、以下を得る。
  これにより、対応する領域セマンティック情報Iiを得る。上記方式で、画像候補領域集合{b1,b2,b3,b4,...,bn}に対応する領域セマンティック情報集合{I1,I2,I3,I4,...,In}を得る。nは、1以上であってN以下である整数である。
  理解しやすくするために、CNNは一般的には、下記数層を含む。
  畳み込み層(Convolutional  layer):畳み込みニューラルネットワークにおける各畳み込み層は、若干の畳み込みユニットからなる。各畳み込みユニットのパラメータはいずれも、逆伝搬アルゴリズムで最適化されたものである。畳み込み演算の目的は、入力した様々な特徴を抽出することである。各畳み込み層は、縁、線及び隅角などの低レベルの特徴のみを抽出できる。より多くの層を有するネットワークは、低レベルの特徴から、より複雑な特徴を反復抽出することができる。
  整流線形ユニット層(Rectified  Linear  Units  layer:ReLU  layerと略称):該層のニューラル活性化関数(Activation  function)として整流線形ユニット(Rectified  Linear  Units:  ReLUと略称)を用いる。
  プーリング層(Pooling  layer):一般的には、畳み込み層の後に、次元が大きい特徴を得る。特徴を複数の領域に分割し、その最大値又は平均値を取り、次元が小さい新たな特徴を得る。
  全結合層(Fully-Connected  layer):全ての局所的特徴を結合して全体的特徴を得て、各カテゴリの最終的スコアを算出する。
  次に、本願の実施例において、領域セマンティック情報集合の生成方式を提供する。まず、畳み込みニューラルネットワークによって、画像候補領域に対応する領域セマンティック情報を取得し、画像候補領域は、領域情報を含み、領域情報は、位置決め対象の画像における、画像候補領域の位置情報と、画像候補領域の寸法情報と、を含む。N個の画像候補領域に対応する領域セマンティック情報を取得した場合、N個の領域セマンティック情報に基づいて、領域セマンティック情報集合を生成する。上記方式により、CNNを利用して、各画像候補領域の領域セマンティック情報を抽出することができる。CNNは、フィードフォワードニューラルネットワークであり、その人工ニューロンは、一部のカバレッジ内の周辺ユニットに応答することができる。従って、大型画像処理に対して優れた性能を示し、情報抽出の正確性を向上させる。
  任意選択的に、上記図3に対応する実施例を基に、本願の実施例で提供される画像領域位置決め方法の第2選択可能な実施例において、画像領域位置決め装置がグラフ畳み込みネットワークによって領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得するステップは、
  画像領域位置決め装置が領域セマンティック情報集合から、第1領域セマンティック情報及び第2領域セマンティック情報を取得するステップであって、第1領域セマンティック情報は、領域セマンティック情報集合のうちのいずれか1つの領域セマンティック情報であり、第2領域セマンティック情報は、領域セマンティック情報集合のうちのいずれか1つの領域セマンティック情報である、ステップと、
  画像領域位置決め装置が第1領域セマンティック情報と第2領域セマンティック情報との間の接続エッジ強度を取得するステップと、
  画像領域位置決め装置が第1領域セマンティック情報と第2領域セマンティック情報との間の接続エッジ強度に対して正規化処理を行って、正規化強度を得るステップと、
  画像領域位置決め装置が領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、ターゲット接続行列を決定するステップと、
  画像領域位置決め装置がグラフ畳み込みネットワークによって、ターゲット接続行列に対応する拡張セマンティック情報集合を決定するステップと、を含んでもよい。
  本実施例において、画像領域位置決め装置は、1つのGCNを用いて、画像候補領域のセマンティック表現を拡張する。まず、我々は、1つのグラフを構築する必要がある。該グラフにおける各ノードは、画像候補領域の領域セマンティック情報に対応する。各ノード間にいずれも対応する接続エッジが存在する。その接続情報の強度は、1つのディープネットワークによって予測される。
  ここで、nikは、第1領域セマンティック情報を表し、njkは、第2領域セマンティック情報を表し、fedge(  )は、1つのディープネットワークを表し、具体的には、多層パーセプトロン(multi-layer  perceptron)、ベクトル内積又はコサイン類似度により実現してもよい。eijは、第1領域セマンティック情報と第2領域セマンティック情報との間の接続エッジ強度を表す。続いて、eijに対して正規化処理を行い、正規化強化を得る。続いて、領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、ターゲット接続行列を決定する。最後に、GCNを用いて、ターゲット接続行列に対応する拡張セマンティック情報集合を生成する。
  グラフは、1つのデータフォーマットであり、ソーシャルネットワーク、通信ネットワーク及びタンパク質分子ネットワーク等を表すために用いられる。グラフにおけるノードは、ネットワークにおける個体を表し、接続エッジは、個体間の接続関係を表す。多数の機械学習タスクは、グラフ構造データを用いる必要がある。従って、GCNの出現は、これらの問題の解決のために、新たな発想を提供する。3つのステップで、畳み込みスライスを構築することができる。ステップ1において、グラフから、1つの固定長のノードシーケンスを選択する。ステップ2において、シーケンスにおける各ノードに対して、固定サイズの近隣領域集合を収集する。ステップ3において、現在ノード及びそれに対応する近隣領域からなるサブグラフを正規化して畳み込み構造の入力とする。上記3つのステップにより、全ての畳み込みスライスを構築した後、畳み込み構造を利用して各スライスに対して操作を行う。
  次に、本願の実施例において、GCNにより拡張セマンティック情報集合を取得する方式を提供する。まず、領域セマンティック情報集合から、第1領域セマンティック情報及び第2領域セマンティック情報を取得する。次に、第1領域セマンティック情報と第2領域セマンティック情報との間の接続エッジ強度を取得する。続いて、第1領域セマンティック情報と第2領域セマンティック情報との間の接続エッジ強度に対して正規化処理を行い、正規化強度を得て、領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、ターゲット接続行列を決定する。最後に、グラフ畳み込みネットワークによって、ターゲット接続行列に対応する拡張セマンティック情報集合を決定する。上記方式により、GCNを用いて、画像候補領域間のセマンティック関係を構築する。これにより、空間情報及びセマンティック関係を十分に考慮して、画像に基づく位置決め性能を向上させる。
  任意選択的に、上記図3に対応する第2実施例を基に、本願の実施例で提供される画像領域位置決め方法の第3選択可能な実施例において、画像領域位置決め装置が領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、ターゲット接続行列を決定するステップは、
  画像領域位置決め装置が領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、接続行列を生成するステップと、
  画像領域位置決め装置が接続行列及び単位行列に基づいて、ターゲット接続行列を生成するステップと、を含んでもよい。
  本実施例において、画像領域位置決め装置は、まず、第1領域セマンティック情報と第2領域セマンティック情報との間の接続エッジ強度に対して正規化処理を行って、正規化強度を得ることができる。ここで、上記実施例によれば、第1領域セマンティック情報と第2領域セマンティック情報との間の接続エッジ強度は、具体的には、
で表され、
  ここで、n
ikは、第1領域セマンティック情報を表し、n
jkは、第2領域セマンティック情報を表し、b
1、b
2、w
1及びw
2はいずれもGCNのモデルパラメータであり、e
ijは、第1領域セマンティック情報と第2領域セマンティック情報との間の接続エッジ強度を表す。
  対応する辺情報に対して更に正規化処理を行って、正規化強度を得ることができる。
  ここで、
は、第1領域セマンティック情報と第2領域セマンティック情報との間の正規化強度を表す。各領域セマンティック情報に対してトラバースを行うことで、対応する領域セマンティック情報の接続情報を得て、完全な接続行列を更に構築することができる。
  自体の情報を更に拡張するために、対応する完全な接続行列に1つの単位行列を更に追加し、ターゲット接続行列を得る。
  また、本願の実施例において、領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、ターゲット接続行列を決定する方式を提供する。つまり、まず、領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、接続行列を生成する。続いて、接続行列及び単位行列に基づいて、ターゲット接続行列を生成する。上記方式により、正規化処理を用いて、物理系数値の絶対値を相対値関係に変換し、演算を簡素化し、数値を小さくすることができる。なお、自体の情報を更に拡張するために、対応する接続行列に1つの単位行列を更に追加し、ターゲット接続行列を形成する。
  任意選択的に、上記図3に対応する第2又は第3実施例を基に、本願の実施例で提供される画像領域位置決め方法の第4選択可能な実施例において、画像領域位置決め装置がグラフ畳み込みネットワークによって、ターゲット接続行列に対応する拡張セマンティック情報集合を決定するステップは、
  画像領域位置決め装置が式
を用いて、拡張セマンティック情報集合を算出するステップを含んでもよく、
  ここで、n
ikは、第k層のグラフ畳み込みネットワークに対応するi番目の拡張セマンティック情報を表し、n
jk-1は、第(k-1)層のグラフ畳み込みネットワークに対応するj番目の拡張セマンティック情報を表し、w
jkは、第k層のグラフ畳み込みネットワークの第1ネットワークパラメータを表し、b
jkは、第k層のグラフ畳み込みネットワークの第2ネットワークパラメータを表し、j∈neighboring(i)は、j番目のノードがi番目のノードの近隣ノードに属することを表し、E
ijは、ターゲット接続行列における要素を表す。
  本実施例において、画像領域位置決め装置は、ターゲット接続行列に基づいて、GCNを用いて、画像候補領域のセマンティック表現を拡張することは、下記式に示すとおりであってもよい。
  ここで、wjkは、第k層のGCNの第1ネットワークパラメータを表し、bjkは、第k層のGCNの第2ネットワークパラメータを表す。GCNのネットワークパラメータは、グラフ畳み込み層間で共有されないが、1つの固定の畳み込み層において、そのネットワークパラメータは共有されてもよく、共有されなくてもよいことが理解されるべきである。Jノードとして、ノードiに対応する近隣ノードが選択される。ノードのセマンティック類似度により、ノード間の類似度を評価できるため、全結合グラフ構造を構築した。これに対応して、各ノードはいずれも他のノードに接続される。最後に、構築されたターゲット接続行列に基づいて、対応する各ノードのセマンティック表現を更新する。
  GCNにおいて、多層グラフ畳み込み処理を行うことができる。上記式に対して複数回実行することができる。式におけるパラメータとして、同一のネットワークパラメータを共有してもよく、ネットワークパラメータを共有しなくてもよい。
  更に、本願の実施例において、GCNにより、ターゲット接続行列に対応する拡張セマンティック情報集合を決定する具体的な方式を提供する。上記方式によれば、GCNに基づく演算のために具体的な演算方式を提供し、解決手段の実行可能性及び操作可能性を向上させる。
  任意選択的に、上記図3に対応する実施例を基に、本願の実施例で提供される画像領域位置決め方法の第5選択可能な実施例において、画像領域位置決め装置が位置決め対象のテキストに対応するテキスト特徴集合を取得するステップは、
  画像領域位置決め装置が位置決め対象のテキストを取得するステップと、
  画像領域位置決め装置が位置決め対象のテキストに基づいて、テキストベクトルシーケンスを取得するステップであって、テキストベクトルシーケンスは、T個の単語ベクトルを含み、各単語ベクトルは、1つの単語に対応する、ステップと、
  画像領域位置決め装置がテキストベクトルシーケンスにおける各単語ベクトルに対して符号化処理を行って、テキスト特徴を得るステップと、
  T個の単語ベクトルに対応するテキスト特徴を取得した場合、画像領域位置決め装置がT個のテキスト特徴に基づいて、テキスト特徴集合を生成するステップと、を含んでもよい。
  本実施例において、画像領域位置決め装置は、まず、位置決め対象のテキストを取得する。位置決め対象のテキストは、ユーザにより入力されたテキストであってもよく、ユーザにより入力された音声であってもよい。該音声は、テキストに変換される。バックエンドにより抽出されたテキストであってもよい。位置決め対象のテキストを取得した後、該位置決め対象のテキストにおける各単語を抽出し、続いて、各単語に対して単語ベクトルを構築する。位置決め対象のテキストにT個の単語が含まれると仮定すれば、T個の単語ベクトルを得ることができる。該T個の単語ベクトルは、テキストベクトルシーケンスを構成する。画像領域位置決め装置は、長短期記憶ネットワーク(Long  Short-Term  Memory:LSTM)構造を用いて、テキストベクトルシーケンスを符号化する。具体的には、LSTM構造を用いて、各単語ベクトルに対して符号化処理を行い、T个個のテキスト特徴を得て、テキスト特徴集合を生成する。
  自然言語処理タスクにおいて、まず、コンピュータにおいて単語を如何に表現するかを考慮する必要がある。一般的には、離散型表現(one-hot  representation)及び分散型表現(distribution  representation)という2つの表現方式がある。one-hot  representationは、各単語を1つの長ベクトルで表現する。ベクトルにおいて、1つのみの次元の値は、1であり、他の次元は、0である。該次元は、現在の単語を代表する。本願における単語ベクトル次元は、300次元であってもよい。単語埋め込み(word  embedding)は、単語を分散型表現に変換することであり、単語ベクトルとも呼ばれる。単語ベクトルを生成する方法は多い。これらの方法は、いずれも同一の構想に従うものである。いずれか1つの単語の意味は、その周辺単語で表されてもよい。単語ベクトルを生成する方法は、統計に基づく方法と言語モデルに基づく方法に分けられてもよい。
  次に、本願の実施例において、テキスト特徴集合の取得方法を提供する。つまり、まず、位置決め対象のテキストを取得し、続いて、位置決め対象のテキストに基づいて、テキストベクトルシーケンスを取得する。ここで、テキストベクトルシーケンスは、T個の単語ベクトルを含み、各単語ベクトルは、1つの単語に対応する。続いて、テキストベクトルシーケンスにおける各単語ベクトルに対して符号化処理を行って、テキスト特徴を得る。T個の単語ベクトルに対応するテキスト特徴を取得した場合、T個のテキスト特徴に基づいて、テキスト特徴集合を生成する。上記方式により、位置決め対象のテキストを特徴形態で表すことができる。更に、後続のモデル予測の実行に寄与し、解決手段の実行可能性及び操作可能性を向上させる。
  任意選択的に、上記図3に対応する第5実施例を基に、本願の実施例で提供される画像領域位置決め方法の第6選択可能な実施例において、画像領域位置決め装置がテキストベクトルシーケンスにおける各単語ベクトルに対して符号化処理を行って、テキスト特徴を得るステップは、
  画像領域位置決め装置が式
を用いて、テキスト特徴を取得するステップを含んでもよく、
  ここで、h
tは、テキスト特徴集合におけるt番目のテキスト特徴を表し、LSTM(  )は、長短期記憶(LSTM)ネットワークを用いて符号化を行うことを表し、w
tは、テキストベクトルシーケンスにおけるt番目の単語ベクトルを表し、h
t-1は、テキスト特徴集合における(t-1)番目のテキスト特徴を表す。
  本実施例において、画像領域位置決め装置は、LSTM構造により、各単語ベクトルに対して符号化処理を行って、テキスト特徴を得ることができる。入力された位置決め対象のテキストE={e1,e2,...,eT}について、ここで、Tは、位置決め対象のテキストにおいてT個の単語があることを表し、etは、位置決め対象のテキストにおけるt番目の単語を表す。まず、各単語の単語ベクトル表現により、位置決め対象のテキストの単語ベクトル表現を得ることができる。つまり、テキストベクトルシーケンス{w1,w2,...,wT}を得る。ここで、各単語ベクトルの次元は、300であってもよい。位置決め対象のテキストについて、LSTM構造のリカレントニューラルネットワークを用いて符号化を行う。
  LSTMにおける隠れ状態の次元は、512としてもよい。処理により、位置決め対象のテキストの特徴表現を得る。つまり、テキスト特徴集合h={h1,h2,...,hT}を得る。ここで、LSTM処理の具体的な方式は、以下のとおりである。
  ここで、w
tは、テキストベクトルシーケンスにおけるt番目の単語ベクトルを表し、h
t-1は、テキスト特徴集合における(t-1)番目のテキスト特徴を表し、i
tは、入力ゲートを表し、f
tは、忘却ゲートを表し、o
tは、出力ゲートを表し、h
tは、隠れ状態を表し、σは、sigmoid関数であり、tanh(  )は、双曲線関数を表し、g
tは、記憶情報を表し、c
tは、LSTMパラメータを表し、
は、点乗算を表し、Tは、変換マッピング行列を表す。
  LSTMは、入力を長期間にわたって保存することである。記憶細胞と呼ばれる特殊ユニットは、累算器及びゲーティングニューロンと類似する。これは、次のタイムステップで、1つの重み値を持って自己に連結し、自己の状態の真実値及び累積した外部信号をコピーする。このような自己連結は、もう1つのユニットにより学習され、記憶内容を何時クリアするかを決定する乗算ゲートにより制御される。
  また、本願の実施例において、テキスト特徴の取得方式を提供する。つまり、LSTM構造のリカレントニューラルネットワークを用いて単語ベクトルに対して符号化を行う。上記方式によれば、LSTM構造のネットワークを用いて、勾配逆転プロセスにおける段階的な縮小による勾配消失の問題を解決することができる。具体的に、言語処理タスクにおいて、LSTMは、例えば、機械翻訳、対話生成、符号化及び復号化などのような、タイムシーケンスとの相関性が高い問題に適用される。
  上記説明を参照しながら、以下、本願におけるモデル訓練方法を説明する。図4を参照すると、モデル訓練装置への適用を例として説明する。ここで、モデル訓練装置は、サーバに配置されてもよい。本願の実施例におけるモデル訓練方法の一実施例は以下を含む。
  ステップ201において、モデル訓練装置は、訓練対象のテキスト集合及び訓練対象の画像候補領域集合を取得し、訓練対象のテキスト集合は、第1訓練対象のテキスト及び第2訓練対象のテキストを含み、訓練対象の画像候補領域集合は、第1訓練対象の画像候補領域及び第2訓練対象の画像候補領域を含み、第1訓練対象のテキストと第1訓練対象の画像候補領域とは、マッチング関係を有し、且つ、第1訓練対象のテキストと第2訓練対象の画像候補領域とは、マッチング関係を有せず、第2訓練対象のテキストと第2訓練対象の画像候補領域とは、マッチング関係を有し、且つ、第2訓練対象のテキストと第1訓練対象の画像候補領域とは、マッチング関係を有しない。
  本実施例において、モデル訓練装置は、まず、訓練対象のテキスト集合及び訓練対象の画像候補領域集合を取得し、訓練対象のテキスト集合は、第1訓練対象のテキスト及び第2訓練対象のテキストを含み、訓練対象の画像候補領域集合は、第1訓練対象の画像候補領域及び第2訓練対象の画像候補領域を含む。この場合、マッチング関係を有する第1訓練対象のテキストと第1訓練対象の画像候補領域をポジティプサンプルとし、マッチング関係を有する第2訓練対象のテキストと第2訓練対象の画像候補領域をポジティプサンプルとし、マッチング関係を有しない第1訓練対象のテキストと第2訓練対象の画像候補領域をネガティブサンプルとし、マッチング関係を有しない第2訓練対象のテキストと第1訓練対象の画像候補領域をネガティブサンプルとする。
  モデル訓練装置は、サーバに配置されることが理解されるべきである。
  ステップ202において、モデル訓練装置は、第1訓練対象のテキスト、第2訓練対象のテキスト、第1訓練対象の画像候補領域及び第2訓練対象の画像候補領域に基づいて、ターゲット損失関数を決定する。
  本実施例において、モデル訓練装置は、ポジティプサンプル及びネガティブサンプルに基づいて、自然文と画像候補領域とのマッチング関係を学習し、ターゲット損失関数を構築する。ターゲット損失関数は主に、候補画像領域と自然文との類似度を評価するために用いられる。
  ステップ203において、モデル訓練装置は、ターゲット損失関数を用いて、訓練対象の画像領域位置決めネットワークモデルに対して訓練を行い、画像領域位置決めネットワークモデルを得て、画像領域位置決めネットワークモデルは、テキスト特徴集合及び拡張セマンティック情報に基づいて、画像候補領域と位置決め対象のテキストとのマッチング関係を決定するために用いられ、拡張セマンティック情報と画像候補領域とは、対応関係を有し、テキスト特徴集合と位置決め対象のテキストとは、対応関係を有する。
  本実施例において、モデル訓練装置は、構築されたターゲット損失関数を用いて、訓練対象の画像領域位置決めネットワークモデルに対して訓練を行い、更に、画像領域位置決めネットワークモデルを得る。画像領域位置決めネットワークモデルを用いて、画像候補領域と位置決め対象のテキストとのマッチング度を予測することができる。マッチング度が高いほど、関連程度が高くなる。
  本願の実施例において、モデル訓練方法を提供する。まず、訓練対象のテキスト集合及び訓練対象の画像候補領域集合を取得し、訓練対象のテキスト集合は、第1訓練対象のテキスト及び第2訓練対象のテキストを含み、訓練対象の画像候補領域集合は、第1訓練対象の画像候補領域及び第2訓練対象の画像候補領域を含む。続いて、第1訓練対象のテキスト、第2訓練対象のテキスト、第1訓練対象の画像候補領域及び第2訓練対象の画像候補領域に基づいて、ターゲット損失関数を決定する。最後に、ターゲット損失関数を用いて、訓練対象の画像領域位置決めネットワークモデルに対して訓練を行って、画像領域位置決めネットワークモデルを得る。上記方式によれば、画像候補領域とテキストとのマッチング関係を決定するための画像領域位置決めネットワークモデルを訓練により得ることができる。また、用いられるターゲット関数は、画像候補領域とテキストに対して類似度評価を行い、テキストと画像候補領域とのマッチング関係を学習することができる。これにより、解決手段の実行可能性及び操作可能性を向上させる。
  任意選択的に、上記図4に対応する実施例を基に、本願の実施例で提供されるモデル訓練方法の第1選択可能な実施例において、モデル訓練装置が第1訓練対象のテキスト、第2訓練対象のテキスト、第1訓練対象の画像候補領域及び第2訓練対象の画像候補領域に基づいて、ターゲット損失関数を決定するステップは、
  モデル訓練装置が、式
を用いて、ターゲット損失関数を決定するステップを含んでもよく、
  ここで、Lは、ターゲット損失関数を表し、n
i+は、第1訓練対象の画像候補領域を表し、h
i+は、第1訓練対象のテキストを表し、n
j-は、第2訓練対象の画像候補領域を表し、h
k-は、第2訓練対象のテキストを表し、d(  )は、訓練対象のデータペアを表し、max(  )は、最大値を取ることを表し、λ
1は、第1パラメータ制御重みを表し、λ
2は、第2パラメータ制御重みを表し、u
1は、第1プリセット閾値を表し、u
2は、第2プリセット閾値を表す。
  本実施例において、モデル訓練装置により構築されたターゲット損失関数を説明する。ポジティプサンプル及びネガティブサンプルに基づいて、構築されたターゲット損失関数は、
で表され、
  ここで、(n
i+,h
i+)は、ポジティプサンプルを表し、つまり、セマンティック関係を有する画像候補領域と自然言語ペアを表し、(n
i+,h
k-)及び(n
j-,h
i+)は、ネガティブサンプルを表し、つまり、相関していない画像候補領域と自然言語ペアを表す。(n
i+,h
i+)は、ポジティプサンプルであり、n
i+に対して、1つの対応するネガティブサンプル(n
i+,h
k-)を取る。該マッチング関数の学習により、ポジティプサンプルのマッチング関係をネガティブサンプルのマッチング関係よりも高くする。(n
i+,h
i+)は、ポジティプサンプルであり、h
i+に対して、1つの対応するネガティブサンプル(n
j-,h
i+)を取る。該マッチング関数の学習により、ポジティプサンプルのマッチング関係をネガティブサンプルのマッチング関係よりも高くする。
  次に、本願の実施例において、第1訓練対象のテキスト、第2訓練対象のテキスト、第1訓練対象の画像候補領域及び第2訓練対象の画像候補領域に基づいて、ターゲット損失関数を決定する方式を提供する。上記方式によれば、定義されたターゲット関数は、2つの異なる方向で、画像と自然言語とのマッチング関係を記述する。ここで、1つの方向は、画像候補領域を自然言語と関連づけることである。もう1つの方向は、自然言語を画像候補領域と関連付けることである。該ターゲット損失関数の設計の主な目的は、セマンティック関連した画像候補領域と自然言語ペアとの類似度を、セマンティック関連していない画像候補領域と自然言語ペアとの類似度よりも高くすることである。これにより、モデル訓練の正確度を向上させる。
  以下、本願における画像領域位置決め装置を詳しく説明する。図5を参照すると、図5は、本願の実施例による画像領域位置決め装置の一実施例を示す概略図である。画像領域位置決め装置30は、取得モジュール301と、生成モジュール302と、決定モジュール303と、を備え、
  取得モジュール301は、位置決め対象の画像における画像候補領域集合を取得するように構成され、前記画像候補領域集合に、N個の画像候補領域が含まれ、前記Nは、1より大きいか等しい整数であり、
  生成モジュール302は、前記取得モジュール301が取得した前記画像候補領域集合(即ち、位置決め対象の画像における画像候補領域集合)に基づいて、領域セマンティック情報集合を生成するように構成され、前記領域セマンティック情報集合にN個の領域セマンティック情報が含まれ、各領域セマンティック情報は、1つの画像候補領域に対応し(つまり、領域セマンティック情報集合における各領域セマンティック情報は、画像候補領域集合における1つの画像候補領域に対応する)、
  前記取得モジュール301は更に、グラフ畳み込みネットワークによって、前記生成モジュール302が生成した前記領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得するように構成され、前記拡張セマンティック情報集合に、N個の拡張セマンティック情報が含まれ、各拡張セマンティック情報は、1つの領域セマンティック情報に対応し(つまり、拡張セマンティック情報集合における各拡張セマンティック情報は、領域セマンティック情報集合における1つの領域セマンティック情報に対応する)、前記グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられ、
  前記取得モジュール301は更に、位置決め対象のテキストに対応するテキスト特徴集合を取得するように構成され、前記位置決め対象のテキストは、T個の単語を含み、前記テキスト特徴集合は、T個の単語特徴を含み、各単語は、1つの単語特徴に対応し、前記Tは、1より大きいか等しい整数であり(つまり、位置決め対象のテキストにおける各単語は、テキスト特徴集合における1つの単語特徴に対応する)、
  前記取得モジュール301は更に、画像領域位置決めネットワークモデルによって、前記テキスト特徴集合(即ち、位置決め対象のテキストに対応するテキスト特徴集合)と前記各拡張セマンティック情報とのマッチング度を取得するように構成され、前記画像領域位置決めネットワークモデルは、前記画像候補領域と前記位置決め対象のテキストとのマッチング関係を決定するために用いられ、
  決定モジュール303は、前記取得モジュール301が取得した、前記テキスト特徴集合と前記各拡張セマンティック情報とのマッチング度に基づいて、前記画像候補領域集合から、ターゲット画像候補領域を決定するように構成される。
  本実施例において、取得モジュール301は、位置決め対象の画像における画像候補領域集合を取得し、前記画像候補領域集合に、N個の画像候補領域が含まれる。前記Nは、1より大きいか等しい整数である。生成モジュール302は、前記取得モジュール301が取得した前記画像候補領域集合に基づいて、領域セマンティック情報集合を生成し、前記領域セマンティック情報集合に、N個の領域セマンティック情報が含まれ、各領域セマンティック情報は、1つの画像候補領域に対応する。前記取得モジュール301は、グラフ畳み込みネットワークによって、前記生成モジュール302が生成した領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得し、前記拡張セマンティック情報集合に、N個の拡張セマンティック情報が含まれ、各拡張セマンティック情報は、1つの領域セマンティック情報に対応し、前記グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられる。前記取得モジュール301は、位置決め対象のテキストに対応するテキスト特徴集合を取得する。前記位置決め対象のテキストは、T個の単語を含み、前記テキスト特徴集合は、T個の単語特徴を含み、各単語は、1つの単語特徴に対応し、前記Tは、1より大きいか等しい整数である。前記取得モジュール301は、画像領域位置決めネットワークモデルによって、前記テキスト特徴集合と前記各拡張セマンティック情報とのマッチング度を取得し、前記画像領域位置決めネットワークモデルは、前記画像候補領域と前記位置決め対象のテキストとのマッチング関係を決定するために用いられる。決定モジュール303は、前記取得モジュール301が取得した、前記テキスト特徴集合と前記各拡張セマンティック情報とのマッチング度に基づいて、前記画像候補領域集合から、ターゲット画像候補領域を決定する。
  本願の実施例において、画像領域位置決め装置を提供する。まず、位置決め対象の画像における画像候補領域集合を取得し、画像候補領域集合に、N個の画像候補領域が含まれる。続いて、画像候補領域集合に基づいて、領域セマンティック情報集合を生成し、各領域セマンティック情報は、1つの画像候補領域に対応する。更に、グラフ畳み込みネットワークによって、領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得し、各拡張セマンティック情報は、1つの領域セマンティック情報に対応し、グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられる。また、位置決め対象のテキストに対応するテキスト特徴集合を取得する。続いて、画像領域位置決めネットワークモデルによって、テキスト特徴集合と各拡張セマンティック情報とのマッチング度を取得する。最後に、テキスト特徴集合と各拡張セマンティック情報とのマッチング度に基づいて、画像候補領域集合から、ターゲット画像候補領域を決定する。上記方式で、グラフ畳み込みネットワークを用いて、画像候補領域間のセマンティック表現を効果的に拡張することができ、且つ、各画像候補領域間の空間的関係を考慮したため、画像領域位置決めの正確性の向上に寄与し、更に、画像に対する理解能力を向上させる。
  任意選択的に、上記図5に対応する実施例を基に、本願の実施例で提供される画像領域位置決め装置30のもう1つの実施例において、
  前記生成モジュール302は具体的には、畳み込みニューラルネットワークによって、各画像候補領域に対応する領域セマンティック情報を取得するように構成され、前記画像候補領域は、領域情報を含み、前記領域情報は、前記位置決め対象の画像における、前記画像候補領域の位置情報と、前記画像候補領域の寸法情報と、を含み、
  前記生成モジュール302は具体的には、N個の画像候補領域に対応する領域セマンティック情報を取得した場合、前記N個の領域セマンティック情報に基づいて、前記領域セマンティック情報集合を生成するように構成される。
  次に、本願の実施例において、領域セマンティック情報集合の生成方式を提供する。まず、畳み込みニューラルネットワークによって、画像候補領域に対応する領域セマンティック情報を取得し、画像候補領域は、領域情報を含み、領域情報は、位置決め対象の画像における、画像候補領域の位置情報と、画像候補領域の寸法情報と、を含む。N個の画像候補領域に対応する領域セマンティック情報を取得した場合、N個の領域セマンティック情報に基づいて、領域セマンティック情報集合を生成する。上記方式により、CNNを利用して、各画像候補領域の領域セマンティック情報を抽出することができる。CNNは、フィードフォワードニューラルネットワークであり、その人工ニューロンは、一部のカバレッジ内の周辺ユニットに応答することができる。従って、大型画像処理に対して優れた性能を示し、情報抽出の正確性を向上させる。
  任意選択的に、上記図5に対応する実施例を基に、本願の実施例で提供される画像領域位置決め装置30のもう1つの実施例において、
  前記取得モジュール301は具体的には、前記領域セマンティック情報集合から、第1領域セマンティック情報及び第2領域セマンティック情報を取得するように構成され、前記第1領域セマンティック情報は、前記領域セマンティック情報集合のうちのいずれか1つの領域セマンティック情報であり、前記第2領域セマンティック情報は、前記領域セマンティック情報集合のうちのいずれか1つの領域セマンティック情報であり、
  前記取得モジュール301は具体的には、前記第1領域セマンティック情報と前記第2領域セマンティック情報との間の接続エッジ強度を取得し、
  前記第1領域セマンティック情報と前記第2領域セマンティック情報との間の接続エッジ強度に対して正規化処理を行い、正規化強度を得て、
  前記領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、ターゲット接続行列を決定し、
  前記グラフ畳み込みネットワークによって、前記ターゲット接続行列に対応する前記拡張セマンティック情報集合を決定するように構成される。
  次に、本願の実施例において、GCNにより拡張セマンティック情報集合を取得する方式を提供する。まず、領域セマンティック情報集合から、第1領域セマンティック情報及び第2領域セマンティック情報を取得する。次に、第1領域セマンティック情報と第2領域セマンティック情報との間の接続エッジ強度を取得する。続いて、第1領域セマンティック情報と第2領域セマンティック情報との間の接続エッジ強度に対して正規化処理を行い、正規化強度を得て、領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、ターゲット接続行列を決定する。最後に、グラフ畳み込みネットワークによって、ターゲット接続行列に対応する拡張セマンティック情報集合を決定する。上記方式により、GCNを用いて、画像候補領域間のセマンティック関係を構築する。これにより、空間情報及びセマンティック関係を十分に考慮して、画像に基づく位置決め性能を向上させる。
  任意選択的に、上記図5に対応する実施例を基に、本願の実施例で提供される画像領域位置決め装置30のもう1つの実施例において、
  前記取得モジュール301は具体的には、前記領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、接続行列を生成し、
  前記接続行列及び単位行列に基づいて、前記ターゲット接続行列を生成するように構成される。
  また、本願の実施例において、領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、ターゲット接続行列を決定する方式を提供する。つまり、まず、領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、接続行列を生成する。続いて、接続行列及び単位行列に基づいて、ターゲット接続行列を生成する。上記方式により、正規化処理を用いて、物理系数値の絶対値を相対値関係に変換し、演算を簡素化し、数値を小さくすることができる。なお、自体の情報を更に拡張するために、対応する接続行列に1つの単位行列を更に追加し、ターゲット接続行列を形成する。
  任意選択的に、上記図5に対応する実施例を基に、本願の実施例で提供される画像領域位置決め装置30のもう1つの実施例において、
  前記取得モジュール301は具体的には、
  式
を用いて、前記拡張セマンティック情報集合を算出するように構成され、
  ここで、前記n
ikは、第k層のグラフ畳み込みネットワークに対応するi番目の拡張セマンティック情報を表し、前記n
jk-1は、第(k-1)層のグラフ畳み込みネットワークに対応するj番目の拡張セマンティック情報を表し、前記w
jkは、前記第k層のグラフ畳み込みネットワークの第1ネットワークパラメータを表し、前記b
jkは、前記第k層のグラフ畳み込みネットワークの第2ネットワークパラメータを表し、前記j∈neighboring(i)は、j番目のノードがi番目のノードの近隣ノードに属することを表し、前記E
ijは、ターゲット接続行列における要素を表す
  更に、本願の実施例において、GCNにより、ターゲット接続行列に対応する拡張セマンティック情報集合を決定する具体的な方式を提供する。上記方式によれば、GCNに基づく演算のために具体的な演算方式を提供し、解決手段の実行可能性及び操作可能性を向上させる。
  任意選択的に、上記図5に対応する実施例を基に、本願の実施例で提供される画像領域位置決め装置30のもう1つの実施例において、
  前記取得モジュール301は具体的には、前記位置決め対象のテキストを取得し、
  前記位置決め対象のテキストに基づいて、テキストベクトルシーケンスを取得するように構成され、前記テキストベクトルシーケンスは、T個の単語ベクトルを含み、各単語ベクトルは、1つの単語に対応し、前記Tは、1より大きいか等しい正数であり、
  前記取得モジュール301は具体的には、前記テキストベクトルシーケンスにおける各単語ベクトルに対して符号化処理を行い、テキスト特徴を得て、
  T個の単語ベクトルに対応するテキスト特徴を取得した場合、前記T個のテキスト特徴に基づいて、前記テキスト特徴集合を生成するように構成される。
  次に、本願の実施例において、テキスト特徴集合の取得方法を提供する。つまり、まず、位置決め対象のテキストを取得し、続いて、位置決め対象のテキストに基づいて、テキストベクトルシーケンスを取得する。ここで、テキストベクトルシーケンスは、T個の単語ベクトルを含み、各単語ベクトルは、1つの単語に対応する。続いて、テキストベクトルシーケンスにおける各単語ベクトルに対して符号化処理を行って、テキスト特徴を得る。T個の単語ベクトルに対応するテキスト特徴を取得した場合、T個のテキスト特徴に基づいて、テキスト特徴集合を生成する。上記方式により、位置決め対象のテキストを特徴形態で表すことができる。更に、後続のモデル予測の実行に寄与し、解決手段の実行可能性及び操作可能性を向上させる。
  任意選択的に、上記図5に対応する実施例を基に、本願の実施例で提供される画像領域位置決め装置30のもう1つの実施例において、
  前記取得モジュール301は具体的には、
  式
を用いて、前記テキスト特徴を取得するように構成され、
  ここで、前記h
tは、前記テキスト特徴集合におけるt番目のテキスト特徴を表し、前記LSTM(  )は、長短期記憶(LSTM)ネットワークを用いて符号化を行うことを表し、前記w
tは、前記テキストベクトルシーケンスにおけるt番目の単語ベクトルを表し、前記h
t-1は、前記テキスト特徴集合における(t-1)番目のテキスト特徴を表す。
  また、本願の実施例において、テキスト特徴の取得方式を提供する。つまり、LSTM構造のリカレントニューラルネットワークを用いて単語ベクトルに対して符号化を行う。上記方式によれば、LSTM構造のネットワークを用いて、勾配逆転プロセスにおける段階的な縮小による勾配消失の問題を解決することができる。具体的に、言語処理タスクにおいて、LSTMは、例えば、機械翻訳、対話生成、符号化及び復号化などのような、タイムシーケンスとの相関性が高い問題に適用される。
  以下、本願におけるモデル訓練装置を詳しく説明する。図6を参照すると、図6は、本願の実施例によるモデル訓練装置の一実施例を示す概略図である。モデル訓練装置40は、
  訓練対象のテキスト集合及び訓練対象の画像候補領域集合を取得するように構成される取得モジュールであって、前記訓練対象のテキスト集合は、第1訓練対象のテキスト及び第2訓練対象のテキストを含み、前記訓練対象の画像候補領域集合は、第1訓練対象の画像候補領域及び第2訓練対象の画像候補領域を含み、前記第1訓練対象のテキストと前記第1訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第1訓練対象のテキストと前記第2訓練対象の画像候補領域とは、マッチング関係を有せず、前記第2訓練対象のテキストと前記第2訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第2訓練対象のテキストと前記第1訓練対象の画像候補領域とは、マッチング関係を有しない、取得モジュール401と、
  前記取得モジュール401が取得した前記第1訓練対象のテキスト、前記第2訓練対象のテキスト、前記第1訓練対象の画像候補領域及び前記第2訓練対象の画像候補領域に基づいて、ターゲット損失関数を決定するように構成される決定モジュール402と、
  前記決定モジュール402が決定した前記ターゲット損失関数を用いて、訓練対象の画像領域位置決めネットワークモデルに対して訓練を行って、画像領域位置決めネットワークモデルを得るように構成される訓練モジュールであって、前記画像領域位置決めネットワークモデルは、テキスト特徴集合及び拡張セマンティック情報に基づいて、画像候補領域と位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記拡張セマンティック情報と前記画像候補領域とは、対応関係を有し、前記テキスト特徴集合と前記位置決め対象のテキストとは、対応関係を有する、訓練モジュール403と、を備える。
  本実施例において、取得モジュール401は、訓練対象のテキスト集合及び訓練対象の画像候補領域集合を取得し、前記訓練対象のテキスト集合は、第1訓練対象のテキスト及び第2訓練対象のテキストを含み、前記訓練対象の画像候補領域集合は、第1訓練対象の画像候補領域及び第2訓練対象の画像候補領域を含み、前記第1訓練対象のテキストと前記第1訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第1訓練対象のテキストと前記第2訓練対象の画像候補領域とは、マッチング関係を有せず、前記第2訓練対象のテキストと前記第2訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第2訓練対象のテキストと前記第1訓練対象の画像候補領域とは、マッチング関係を有しない。決定モジュール402は、前記取得モジュール401が取得した前記第1訓練対象のテキスト、前記第2訓練対象のテキスト、前記第1訓練対象の画像候補領域及び前記第2訓練対象の画像候補領域に基づいて、ターゲット損失関数を決定する。訓練モジュール403は、前記決定モジュール402が決定した前記ターゲット損失関数を用いて、訓練対象の画像領域位置決めネットワークモデルに対して訓練を行い、画像領域位置決めネットワークモデルを得て、前記画像領域位置決めネットワークモデルは、テキスト特徴集合及び拡張セマンティック情報に基づいて、画像候補領域と位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記拡張セマンティック情報と前記画像候補領域とは、対応関係を有し、前記テキスト特徴集合と前記位置決め対象のテキストとは、対応関係を有する。
  本願の実施例において、モデル訓練装置を提供する。まず、該モデル訓練装置は、訓練対象のテキスト集合及び訓練対象の画像候補領域集合を取得し、訓練対象のテキスト集合は、第1訓練対象のテキスト及び第2訓練対象のテキストを含み、訓練対象の画像候補領域集合は、第1訓練対象の画像候補領域及び第2訓練対象の画像候補領域を含む。続いて、第1訓練対象のテキスト、第2訓練対象のテキスト、第1訓練対象の画像候補領域及び第2訓練対象の画像候補領域に基づいて、ターゲット損失関数を決定する。最後に、ターゲット損失関数を用いて、訓練対象の画像領域位置決めネットワークモデルに対して訓練を行って、画像領域位置決めネットワークモデルを得る。上記方式によれば、画像候補領域とテキストとのマッチング関係を決定するための画像領域位置決めネットワークモデルを訓練により得ることができる。また、用いられるターゲット関数は、画像候補領域とテキストに対して類似度評価を行い、テキストと画像候補領域とのマッチング関係を学習することができる。これにより、解決手段の実行可能性及び操作可能性を向上させる。
  任意選択的に、上記図6に対応する実施例を基に、本願の実施例で提供されるモデル訓練装置40のもう1つの実施例において、
  前記決定モジュール402は具体的には、
  式
を用いて、前記ターゲット損失関数を決定するように構成され、
  ここで、前記Lは、前記ターゲット損失関数を表し、前記n
i+は、第1訓練対象の画像候補領域を表し、前記h
i+は、前記第1訓練対象のテキストを表し、前記n
j-は、前記第2訓練対象の画像候補領域を表し、前記h
k-は、前記第2訓練対象のテキストを表し、前記d(  )は、訓練対象のデータペアを表し、前記max(  )は、最大値を取ることを表し、前記λ
1は、第1パラメータ制御重みを表し、前記λ
2は、第2パラメータ制御重みを表し、前記u
1は、第1プリセット閾値を表し、前記u
2は、第2プリセット閾値を表す。
  次に、本願の実施例において、第1訓練対象のテキスト、第2訓練対象のテキスト、第1訓練対象の画像候補領域及び第2訓練対象の画像候補領域に基づいて、ターゲット損失関数を決定する方式を提供する。上記方式によれば、定義されたターゲット関数は、2つの異なる方向で、画像と自然言語とのマッチング関係を記述する。ここで、1つの方向は、画像候補領域を自然言語と関連づけることである。もう1つの方向は、自然言語を画像候補領域と関連付けることである。該ターゲット損失関数の設計の主な目的は、セマンティック関連した画像候補領域と自然言語ペアとの類似度を、セマンティック関連していない画像候補領域と自然言語ペアとの類似度よりも高くすることである。これにより、モデル訓練の正確度を向上させる。
  本願の実施例は、もう1つの画像領域位置決め装置を更に提供する。図7に示すように、説明しやすくするために、本願の実施例に係わる部分のみを示す。開示されていない具体的な技術的細部は、本願の実施例の方法を参照されたい。該端末機器は、携帯電話、タブレット、パーソナルデジタルアシスタント(personal  digital  assistant:PDAと略称)、ポイントオブセールス機器(point  of  sales:POSと略称)、車載コンピュータなどの任意の端末機器であってもよい。端末機器が携帯電話であることを例とする。
  図7は、本願の実施例による端末機器に関わる携帯電話の一部の構造を示すブロック図である。図7を参照すると、携帯電話は、無線周波数(radio  frequency:RFと略称)回路510と、メモリ520、入力ユニット530、表示ユニット540、センサ550、オーディオ回路560、ワイヤレスフィデリティ(wireless  fidelity:WiFiと略称)モジュール570、プロセッサ580、電源590などの部材を備える。図7に示す携帯電話構造は、携帯電話を限定するものではなく、図示されているものよりも多いまたは少ない部材を備えてもよく、又は、幾つかの部材を組み合わせてもよく、又は、異なる部材配置を行ってもよいことは、当業者であれば、理解すべきである。
  以下、図7を参照しながら、携帯電話の各構成部材を具体的に説明する。
  RF回路510は、情報送受信又は通話過程で信号を送受信するように構成される。特に、基地局の下り情報を受信した後に、プロセッサ580に送信し、なお、設計された上りデータを基地局に送信するように構成される。一般的には、RF回路510は、アンテナ、少なくとも1つの増幅器、トランシーバ、結合機、低雑音増幅器(Low  Noise  Amplifier:LNAと略称)、デュプレクサなどを含んでもよく、これらに限定されない。なお、RF回路510は更に、無線通信を介してネットワーク及び他の機器と通信できる。上記無線通信は、いずれか1つの通信規格又はプロトコルを用いることができる。通信規格又はプロトコルは、グローバルモバイル通信システム(Global  System  of  Mobile  communication:GSMと略称)、汎用パケット無線サービス(General  Packet  Radio  Service:GPRSと略称)、符号分割多重アクセス(Code  Division  Multiple  Access:CDMAと略称)、広帯域符号分割多重アクセス(Wideband  Code  Division  Multiple  Access:WCDMA(登録商標)と略称)、長期的進化(Long  Term  Evolution:LTEと略称)、電子メール、ショートメッセージサービス(Short  Messaging  Service:SMSと略称)等を含むが、これらに限定されない。
  メモリ520は、ソフトウェアプログラム及びモジュールを記憶するように構成され、プロセッサ580は、メモリ520に記憶されたソフトウェアプログラム及びモジュールを実行することで、携帯電話の種々の機能適用及びデータ処理を実行する。メモリ520は、プログラム記憶エリア及びデータ記憶エリアを含んでもよく、プログラム記憶エリアは、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラム(例えば、音声再生機能、画像再生機能など)などを記憶することができる。データ記憶エリアは、携帯電話の使用に作成されたデータ(例えば、オーディオデータ、電話帳など)などを記憶することができる。なお、メモリ520は、高速ランダムアクセスメモリを含んでもよく、不揮発性メモリを含んでもよい。例えば、少なくとも磁気ディスクメモリデバイス、フラッシュメモリデバイス又は他の揮発性ソリッドステートメモリデバイスを含む。
  入力ユニット530は、入力された数字又は文字情報を受信し、携帯電話のユーザ設定及び機能制御に関わるキー信号入力を生成するように構成される。具体的には、入力ユニット530は、タッチパネル531及び他の入力機器532を備えてもよい。タッチパネル531は、タッチスクリーンとも呼ばれ、その上又はその近傍でのユーザのタッチ操作(例えば、ユーザが指、スタイラスなどの如何なる適切な物体又はアセンブリを用いてタッチパネル531又はタッチパネル531の近傍で行う操作)を収集し、事前設定されたプログラムに基づいて、対応する接続装置に駆動するために用いられる。任意選択的に、タッチパネル531は、タッチ検出装置及びタッチコントローラという2つの部分を含んでもよい。ここで、タッチ検出装置は、ユーザのタッチ方位を検出し、タッチ操作による信号を検出し、信号をタッチコントローラに伝送する。タッチコントローラは、タッチ検出装置からタッチ情報を受信し、タッチポイント座標に変換し、プロセッサ580に伝送し、プロセッサ580からの命令を受信して実行することができる。なお、抵抗式、容量式、赤外線、及び弾性表面波等の多種のタイプを用いて、タッチパネル531を実現してもよい。タッチパネル531に加えて、入力ユニット530は、他の入力装置532を備えてもよい。具体的には、他の入力装置532は、物理的キーボード、機能キー(例えば、音量制御キー、スイッチキーなど)、トラックボール、マウス、操作レバーなどのうちの1つ又は複数を含んでもよいが、これらに限定されない。
  表示ユニット540は、ユーザから入力された情報又はユーザに提供された情報及び携帯電話の種々のメニューを表示するように構成される。表示ユニット540は、表示パネル541を備えてもよい。任意選択的に、液晶ディスプレイ(liquid  crystal  display:LCD)、有機発光ダイオード(Organic  Light-Emitting  Diode:OLED)等の形態で表示パネル541を構成することができる。更に、タッチパネル531は、表示パネル541を被覆してもよい。タッチパネル531は、その上又はその近傍でのタッチ操作を検出した後、プロセッサ580に伝送してタッチイベントのタイプを決定する。続いて、プロセッサ580は、タッチイベントのタイプに基づいて、表示パネル541において、対応するビジョン出力を提供する。図7において、タッチパネル531と表示パネル541は、2つの独立した部材として携帯電話の入力及び出力機能を実現するが、幾つかの実施例において、タッチパネル531と表示パネル541を集積することで、携帯電話の入力及び出力機能を実現させることができる。
  携帯電話は、例えば、光センサ、動きセンサ及び他のセンサのような、少なくとも1つのセンサ550を更に備えてもよい。具体的には、光センサは、環境光センサ及び近接センサを含んでもよい。環境光センサは、環境光の明暗に基づいて表示パネル541の輝度を調整することができる。近接センサは、携帯電話が耳の傍に移された場合、表示パネル541及び/又はバックライトを閉じることができる。動きセンサの1つとして、加速度センサは、各方向での(一般的には、3軸)加速度の大きさを検出することができる。静止時に、重力の大きさ及び方向を検出でき、携帯電話の姿勢の適用(例えば、横縦表示の切り替え、関連ゲーム、磁力計の姿勢の補正)、振動認識に関わる機能(例えば、歩数計、タッピング)などに用いられる。携帯電話に、ジャイロスコープ、気圧計、湿度計、温度計、赤外センサなどの他のセンサを配置してもよく、ここで、詳細な説明を省略する。
  オーディオ回路560、スピーカー561、マイクロホン562は、ユーザと携帯電話とのオーディオインタフェースを提供することができる。オーディオ回路560は、受信したオーディオデータを変換することで得られた電気信号をスピーカー561に伝送し、マイクロホン562により音声信号に変換して出力することができる。一方で、マイクロホン562は、収集した音声信号を電気信号に変換し、オーディオ回路560により受信した後に、オーディオデータに変換し、更にオーディオデータをプロセッサ580に出力して処理した後、RF回路510を介して、もう1つの携帯電話に送信するか又はオーディオデータをメモリ520に出力して更に処理する。
  WiFiは、近距離無線伝送技術に属する。携帯電話は、WiFiモジュール570により、ユーザが電子メールを送受信して、ウェブページを閲覧して、ストリームメディアなどにアクセスすることを補助することができる。これは、ユーザに、無線のブロードバンドインターネットアクセスを提供する。図7は、WiFiモジュール570を示すが、これが携帯電話の不可欠な構造ではなく、本発明の本質を変更することなくこれを省略されてもよいことは、理解されるべきである。
  プロセッサ580は、携帯電話の制御センターである。これは、種々のインタフェース及び回路を利用して携帯電話全体の各部分を接続する。メモリ520に記憶されたソフトウェアプログラム及び/又はモジュールを行うか又は実行し、メモリ520に記憶されたデータを呼び出すことで、携帯電話の種々の機能を実行してデータを処理し、携帯電話全体に対してモニタリングする。任意選択的に、プロセッサ580は、1つ又は複数の処理ユニットを含んでもよい。任意選択的に、プロセッサ580は、プロセッサとモデムプロセッサを集積したものであってもよい。ここで、アプリケーションプロセッサは、オペレーティングシステム、ユーザインタフェース及びアプリケーションプログラムを処理することができる。モデムプロセッサは、無線通信を処理することができる。上記モデムプロセッサは、プロセッサ580に集積されなくてもよいことが理解されるべきである。
  携帯電話は、各部材に給電する電源590(例えば、バッテリ)を更に備える。任意選択的に、電源は、電源管理システムを介してプロセッサ580に論理的に接続されて、電源管理システムにより、充電及び放電の管理、エネルギー消費管理などの機能を実現させることができる。
  図示されていないが、携帯電話は、カメラ、ブルートゥース(登録商標)モジュールなどを更に備えてもよく、ここで、詳細な説明を省略する。
  本発明の実施例において、該端末機器に含まれるプロセッサ580は、
  位置決め対象の画像における画像候補領域集合を取得するステップであって、前記画像候補領域集合に、N個の画像候補領域が含まれ、前記Nは、1より大きいか等しい整数である、ステップと、
  前記画像候補領域集合(即ち、位置決め対象の画像における画像候補領域集合)に基づいて、領域セマンティック情報集合を生成するステップであって、前記領域セマンティック情報集合にN個の領域セマンティック情報が含まれ、各領域セマンティック情報は、1つの画像候補領域に対応する(つまり、領域セマンティック情報集合における各領域セマンティック情報は、画像候補領域集合における1つの画像候補領域に対応する)、ステップと、
  グラフ畳み込みネットワークによって、前記領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得するステップであって、前記拡張セマンティック情報集合に、N個の拡張セマンティック情報が含まれ、各拡張セマンティック情報は、1つの領域セマンティック情報に対応し(つまり、拡張セマンティック情報集合における各拡張セマンティック情報は、領域セマンティック情報集合における1つの領域セマンティック情報に対応する)、前記グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられる、ステップと、
  位置決め対象のテキストに対応するテキスト特徴集合を取得するステップであって、前記位置決め対象のテキストは、T個の単語を含み、前記テキスト特徴集合は、T個の単語特徴を含み、各単語は、1つの単語特徴に対応し、前記Tは、1より大きいか等しい整数である(つまり、位置決め対象のテキストにおける各単語は、テキスト特徴集合における1つの単語特徴に対応する)、ステップと、
  画像領域位置決めネットワークモデルによって、前記テキスト特徴集合(即ち、位置決め対象のテキストに対応するテキスト特徴集合)と前記各拡張セマンティック情報とのマッチング度を取得するステップであって、前記画像領域位置決めネットワークモデルは、前記画像候補領域と前記位置決め対象のテキストとのマッチング関係を決定するために用いられる、ステップと、
  前記テキスト特徴集合と前記各拡張セマンティック情報とのマッチング度に基づいて、前記画像候補領域集合から、ターゲット画像候補領域を決定するステップと、を含む機能を更に有する。
  任意選択的に、プロセッサ580は具体的には、
  畳み込みニューラルネットワークによって、各画像候補領域に対応する領域セマンティック情報を取得するステップであって、前記画像候補領域は、領域情報を含み、前記領域情報は、前記位置決め対象の画像における、前記画像候補領域の位置情報と、前記画像候補領域の寸法情報と、を含む、ステップと、
  N個の画像候補領域に対応する領域セマンティック情報を取得した場合、前記N個の領域セマンティック情報に基づいて、前記領域セマンティック情報集合を生成するステップであって、前記Nは、1より大きいか等しい整数である、ステップと、を実行するように構成される。
  任意選択的に、プロセッサ580は具体的には、
  前記領域セマンティック情報集合から、第1領域セマンティック情報及び第2領域セマンティック情報を取得するステップであって、前記第1領域セマンティック情報は、前記領域セマンティック情報集合のうちのいずれか1つの領域セマンティック情報であり、前記第2領域セマンティック情報は、前記領域セマンティック情報集合のうちのいずれか1つの領域セマンティック情報である、ステップと、
  前記第1領域セマンティック情報と前記第2領域セマンティック情報との間の接続エッジ強度を取得するステップと、
  前記第1領域セマンティック情報と前記第2領域セマンティック情報との間の接続エッジ強度に対して正規化処理を行って、正規化強度を得るステップと、
  前記領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、ターゲット接続行列を決定するステップと、
  前記グラフ畳み込みネットワークによって、前記ターゲット接続行列に対応する前記拡張セマンティック情報集合を決定するステップと、を実行するように構成される。
  任意選択的に、プロセッサ580は具体的には、
  前記領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、接続行列を生成するステップと、
  前記接続行列及び単位行列に基づいて、ターゲット接続行列を生成するステップと、を実行するように構成される。
  任意選択的に、プロセッサ580は具体的には、
  式
を用いて、前記拡張セマンティック情報集合を算出するステップを実行するように構成され、
  ここで、前記n
ikは、第k層のグラフ畳み込みネットワークに対応するi番目の拡張セマンティック情報を表し、前記n
jk-1は、第(k-1)層のグラフ畳み込みネットワークに対応するj番目の拡張セマンティック情報を表し、前記w
jkは、前記第k層のグラフ畳み込みネットワークの第1ネットワークパラメータを表し、前記b
jkは、前記第k層のグラフ畳み込みネットワークの第2ネットワークパラメータを表し、前記j∈neighboring(i)は、j番目のノードがi番目のノードの近隣ノードに属することを表し、前記E
ijは、ターゲット接続行列における要素を表す。
  任意選択的に、プロセッサ580は具体的には、
  前記位置決め対象のテキストを取得するステップと、
  前記位置決め対象のテキストに基づいて、テキストベクトルシーケンスを取得するステップであって、前記テキストベクトルシーケンスは、T個の単語ベクトルを含み、各単語ベクトルは、1つの単語に対応し、前記Tは、1より大きいか等しい正数である、ステップと、
  前記テキストベクトルシーケンスにおける各単語ベクトルに対して符号化処理を行って、テキスト特徴を得るステップと、
  T個の単語ベクトルに対応するテキスト特徴を取得した場合、前記T個のテキスト特徴に基づいて、前記テキスト特徴集合を生成するステップと、を実行するように構成される。
  任意選択的に、プロセッサ580は具体的には、
  式
を用いて、前記テキスト特徴を取得するように構成され、
  ここで、前記h
tは、前記テキスト特徴集合におけるt番目のテキスト特徴を表し、前記LSTM(  )は、長短期記憶(LSTM)ネットワークを用いて符号化を行うことを表し、前記w
tは、前記テキストベクトルシーケンスにおけるt番目の単語ベクトルを表し、前記h
t-1は、前記テキスト特徴集合における(t-1)番目のテキスト特徴を表す。
  図8は、本願の実施例によるサーバ構造を示す概略図である。該サーバ600は、構成又は性能によって大きく異なることがあり、1つ又は1つ以上の中央演算処理装置(central  processing  units:CPU)622(例えば、1つ又は1つ以上のプロセッサ)と、メモリ632と、アプリケーションプログラム642又はデータ644を記憶するための記憶媒体630(例えば1つ又は1つ以上の大容量記憶媒体)と、を備えてもよい。ここで、メモリ632及び記憶媒体630は一時的媒体又は永久的記憶媒体であってもよい。記憶媒体630に記憶されたプログラムは、1つ又は1つ以上のモジュール(図示されず)を含んでもよい。各モジュールは、サーバにおける一連の指令操作を含んでもよい。更に、中央演算処理装置622は、記憶媒体630と通信して、サーバ600で記憶媒体530における一連の命令操作を実行するように設定されてもよい。
  サーバ600は、1つ又は1つ以上の電源626、1つ又は1つ以上の有線又は無線ネットワークインタフェース650、1つ又は1つ以上の入力出力インタフェース558、及び/又は、Windows  ServerTM、Mac  OS  XTM、UnixTM,  Linux(登録商標)、FreeBSDTM等のような1つ又は1つ以上のオペレーティングシステム641を更に含んでもよい。
  上記実施例におけるサーバにより実行されたステップは、該図8に示すサーバ構造に基づいたものであってもよい。
  本発明の実施例において、該サーバに含まれるCPU622は、
  位置決め対象の画像における画像候補領域集合を取得するステップであって、前記画像候補領域集合に、N個の画像候補領域が含まれ、前記Nは、1より大きいか等しい整数である、ステップと、
  前記画像候補領域集合(即ち、位置決め対象の画像における画像候補領域集合)に基づいて、領域セマンティック情報集合を生成するステップであって、前記領域セマンティック情報集合にN個の領域セマンティック情報が含まれ、各領域セマンティック情報は、1つの画像候補領域に対応する(つまり、領域セマンティック情報集合における各領域セマンティック情報は、画像候補領域集合における1つの画像候補領域に対応する)、ステップと、
  グラフ畳み込みネットワークによって、前記領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得するステップであって、前記拡張セマンティック情報集合に、N個の拡張セマンティック情報が含まれ、各拡張セマンティック情報は、1つの領域セマンティック情報に対応し(つまり、拡張セマンティック情報集合における各拡張セマンティック情報は、領域セマンティック情報集合における1つの領域セマンティック情報に対応する)、前記グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられる、ステップと、
  位置決め対象のテキストに対応するテキスト特徴集合を取得するステップであって、前記位置決め対象のテキストは、T個の単語を含み、前記テキスト特徴集合は、T個の単語特徴を含み、各単語は、1つの単語特徴に対応し、前記Tは、1より大きいか等しい整数である(つまり、位置決め対象のテキストにおける各単語は、テキスト特徴集合における1つの単語特徴に対応する)、ステップと、
  画像領域位置決めネットワークモデルによって、前記テキスト特徴集合(即ち、位置決め対象のテキストに対応するテキスト特徴集合)と前記各拡張セマンティック情報とのマッチング度を取得するステップであって、前記画像領域位置決めネットワークモデルは、前記画像候補領域と前記位置決め対象のテキストとのマッチング関係を決定するために用いられる、ステップと、
  前記テキスト特徴集合と前記各拡張セマンティック情報とのマッチング度に基づいて、前記画像候補領域集合から、ターゲット画像候補領域を決定するステップと、を含む機能を更に有する。
  任意選択的に、CPU622は具体的には、
  畳み込みニューラルネットワークによって、各画像候補領域に対応する領域セマンティック情報を取得するステップであって、前記画像候補領域は、領域情報を含み、前記領域情報は、前記位置決め対象の画像における、前記画像候補領域の位置情報と、前記画像候補領域の寸法情報と、を含む、ステップと、
  N個の画像候補領域に対応する領域セマンティック情報を取得した場合、前記N個の領域セマンティック情報に基づいて、前記領域セマンティック情報集合を生成するステップであって、前記Nは、1より大きいか等しい整数である、ステップと、を実行するように構成される。
  任意選択的に、CPU622は具体的には、
  前記領域セマンティック情報集合から、第1領域セマンティック情報及び第2領域セマンティック情報を取得するステップであって、前記第1領域セマンティック情報は、前記領域セマンティック情報集合のうちのいずれか1つの領域セマンティック情報であり、前記第2領域セマンティック情報は、前記領域セマンティック情報集合のうちのいずれか1つの領域セマンティック情報である、ステップと、
  前記第1領域セマンティック情報と前記第2領域セマンティック情報との間の接続エッジ強度を取得するステップと、
  前記第1領域セマンティック情報と前記第2領域セマンティック情報との間の接続エッジ強度に対して正規化処理を行って、正規化強度を得るステップと、
  前記領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、ターゲット接続行列を決定するステップと、
  前記グラフ畳み込みネットワークによって、前記ターゲット接続行列に対応する前記拡張セマンティック情報集合を決定するステップと、を実行するように構成される。
  任意選択的に、CPU622は具体的には、
  前記領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、接続行列を生成するステップと、
  前記接続行列及び単位行列に基づいて、前記ターゲット接続行列を生成するステップと、を実行するように構成される。
  任意選択的に、CPU622は具体的には、
  式
を用いて、前記拡張セマンティック情報集合を算出するステップを実行するように構成され、
  ここで、前記n
ikは、第k層のグラフ畳み込みネットワークに対応するi番目の拡張セマンティック情報を表し、前記n
jk-1は、第(k-1)層のグラフ畳み込みネットワークに対応するj番目の拡張セマンティック情報を表し、前記w
jkは、前記第k層のグラフ畳み込みネットワークの第1ネットワークパラメータを表し、前記b
jkは、前記第k層のグラフ畳み込みネットワークの第2ネットワークパラメータを表し、前記j∈neighboring(i)は、j番目のノードがi番目のノードの近隣ノードに属することを表し、前記E
ijは、ターゲット接続行列における要素を表す。
  任意選択的に、CPU622は具体的には、
  前記位置決め対象のテキストを取得するステップと、
  前記位置決め対象のテキストに基づいて、テキストベクトルシーケンスを取得するステップであって、前記テキストベクトルシーケンスは、T個の単語ベクトルを含み、各単語ベクトルは、1つの単語に対応し、前記Tは、1より大きいか等しい正数である、ステップと、
  前記テキストベクトルシーケンスにおける各単語ベクトルに対して符号化処理を行って、テキスト特徴を得るステップと、
  T個の単語ベクトルに対応するテキスト特徴を取得した場合、前記T個のテキスト特徴に基づいて、前記テキスト特徴集合を生成するステップと、を実行するように構成される。
  任意選択的に、CPU622は具体的には、
  式
を用いて、前記テキスト特徴を取得するように構成され、
  ここで、前記h
tは、前記テキスト特徴集合におけるt番目のテキスト特徴を表し、前記LSTM(  )は、長短期記憶(LSTM)ネットワークを用いて符号化を行うことを表し、前記w
tは、前記テキストベクトルシーケンスにおけるt番目の単語ベクトルを表し、前記h
t-1は、前記テキスト特徴集合における(t-1)番目のテキスト特徴を表す。
  本発明の実施例において、該サーバに備えられるCPU622は、
  訓練対象のテキスト集合及び訓練対象の画像候補領域集合を取得するステップであって、前記訓練対象のテキスト集合は、第1訓練対象のテキスト及び第2訓練対象のテキストを含み、前記訓練対象の画像候補領域集合は、第1訓練対象の画像候補領域及び第2訓練対象の画像候補領域を含み、前記第1訓練対象のテキストと前記第1訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第1訓練対象のテキストと前記第2訓練対象の画像候補領域とは、マッチング関係を有せず、前記第2訓練対象のテキストと前記第2訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第2訓練対象のテキストと前記第1訓練対象の画像候補領域とは、マッチング関係を有しない、ステップと、
  前記第1訓練対象のテキスト、前記第2訓練対象のテキスト、前記第1訓練対象の画像候補領域及び前記第2訓練対象の画像候補領域に基づいて、ターゲット損失関数を決定するステップと、
  前記ターゲット損失関数を用いて、訓練対象の画像領域位置決めネットワークモデルに対して訓練を行って、画像領域位置決めネットワークモデルを得るステップであって、前記画像領域位置決めネットワークモデルは、テキスト特徴集合及び拡張セマンティック情報に基づいて、画像候補領域と位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記拡張セマンティック情報と前記画像候補領域とは、対応関係を有し、前記テキスト特徴集合と前記位置決め対象のテキストとは、対応関係を有する、ステップと、を含む機能を更に有する。
  任意選択的に、CPU622は具体的には、
  式
を用いて、前記ターゲット損失関数を決定するステップを実行するように構成され、
  ここで、前記Lは、前記ターゲット損失関数を表し、前記n
i+は、第1訓練対象の画像候補領域を表し、前記h
i+は、前記第1訓練対象のテキストを表し、前記n
j-は、前記第2訓練対象の画像候補領域を表し、前記h
k-は、前記第2訓練対象のテキストを表し、前記d(  )は、訓練対象のデータペアを表し、前記max(  )は、最大値を取ることを表し、前記λ
1は、第1パラメータ制御重みを表し、前記λ
2は、第2パラメータ制御重みを表し、前記u
1は、第1プリセット閾値を表し、前記u
2は、第2プリセット閾値を表す。
  説明上の便宜及び簡素化を図るために、上記説明されたシステム、装置及びユニットの具体的な作動過程は、前記方法の実施例における対応した過程を参照することができるから、ここで詳しく説明しないようにすることは、当業者にはっきり理解されるべきである。
  本願で提供する幾つかの実施例で開示したシステム、装置及び方法は、他の方式によって実現できることを理解すべきである。例えば、以上に記載した装置の実施例はただ例示的なもので、例えば、前記ユニットの分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。例えば、複数のユニット又は組立体を組み合わせてもよいし、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよいし、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかのインタフェース、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的または他の形態であってもよい。
  分離部材として説明した前記ユニットは、物理的に別個のものであってもよいし、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよいし、そうでなくてもよい。即ち、同一の位置に位置してもよいし、複数のネットワークに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットにより本実施例の方策の目的を実現することができる。
  また、本願の各実施例における各機能ユニットは一つの処理ユニットに集積されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、2つ以上のユニットが一つのユニットに集積されてもよい。上記集積したユニットは、ハードウェアの形態で実現してもよく、ソフトウェア機能ユニットの形態で実現してもよい。
  前記集積したユニットはソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用されるとき、コンピュータにより読み取り可能な記憶媒体内に記憶されてもよい。このような理解のもと、本発明の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体に記憶しても良く、また、コンピュータ設備(パソコン、サーバ、又はネットワーク装置など)に、本発明の各実施例に記載の方法の全部又は一部のステップを実行させるための若干の命令を含む。前記の記憶媒体は、USBメモリ、リムーバブルハードディスク、読み出し専用メモリ(Read-only  Memory:ROMと略称)、ランダムアクセスメモリ(Random  Access  Memory:RAMと略称)、磁気ディスク、又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。
  本願の実施例は、コンピュータ可読記憶媒体を更に提供する。該コンピュータ可読記憶媒体に、命令が記憶されており、該命令は、コンピュータで実行される時、コンピュータに、前記各実施例で提供される画像領域位置決め方法のいずれか1つの可能な実現形態を実行させる。
  任意選択的に、該コンピュータ可読記憶媒体に記憶された命令は、
  位置決め対象の画像における画像候補領域集合に基づいて、領域セマンティック情報集合を生成するステップであって、前記領域セマンティック情報集合における各領域セマンティック情報は、前記画像候補領域集合における1つの画像候補領域に対応する、ステップと、
  グラフ畳み込みネットワークによって、前記領域セマンティック情報集合に対応する強化セマンティック情報集合を取得するステップであって、前記強化セマンティック情報集合における各強化セマンティック情報は、前記領域セマンティック情報集合における1つの領域セマンティック情報に対応し、前記グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられる、ステップと、
  画像領域位置決めネットワークモデルによって、位置決め対象のテキストに対応するテキスト特徴集合と前記各強化セマンティック情報とのマッチング度を取得するステップであって、前記画像領域位置決めネットワークモデルは、前記画像候補領域と前記位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記位置決め対象のテキストにおける各単語は、前記テキスト特徴集合における1つの単語特徴に対応する、ステップと、
  前記テキスト特徴集合と前記各強化セマンティック情報とのマッチング度に基づいて、前記画像候補領域集合から、ターゲット画像候補領域を決定するステップと、を実行するように構成される。
  任意選択的に、該コンピュータ可読記憶媒体に記憶された命令は、
  畳み込みニューラルネットワークによって、各画像候補領域に対応する領域セマンティック情報を取得するステップであって、前記画像候補領域は、領域情報を含み、前記領域情報は、前記位置決め対象の画像における、前記画像候補領域の位置情報と、前記画像候補領域の寸法情報と、を含む、ステップと、
  N個の画像候補領域に対応する領域セマンティック情報を取得した場合、前記N個の領域セマンティック情報に基づいて、前記領域セマンティック情報集合を生成するステップであって、前記Nは、1より大きいか等しい整数である、ステップと、を実行するように構成される。
  任意選択的に、該コンピュータ可読記憶媒体に記憶された命令は、
  前記領域セマンティック情報集合から、第1領域セマンティック情報及び第2領域セマンティック情報を取得するステップであって、前記第1領域セマンティック情報は、前記領域セマンティック情報集合のうちのいずれか1つの領域セマンティック情報であり、前記第2領域セマンティック情報は、前記領域セマンティック情報集合のうちのいずれか1つの領域セマンティック情報である、ステップと、
  前記第1領域セマンティック情報と前記第2領域セマンティック情報との間の接続エッジ強度を取得するステップと、
  前記第1領域セマンティック情報と前記第2領域セマンティック情報との間の接続エッジ強度に対して正規化処理を行って、正規化強度を得るステップと、
  前記領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、ターゲット接続行列を決定するステップと、
  前記グラフ畳み込みネットワークによって、前記ターゲット接続行列に対応する前記拡張セマンティック情報集合を決定するステップと、を実行するように構成される。
  任意選択的に、該コンピュータ可読記憶媒体に記憶された命令は、
  前記領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、接続行列を生成するステップと、
  前記接続行列及び単位行列に基づいて、前記ターゲット接続行列を生成するステップと、を実行するように構成される。
  任意選択的に、該コンピュータ可読記憶媒体に記憶された命令は、
  式
を用いて、前記拡張セマンティック情報集合を算出するステップを実行するように構成され、
  ここで、前記n
ikは、第k層のグラフ畳み込みネットワークに対応するi番目の拡張セマンティック情報を表し、前記n
jk-1は、第(k-1)層のグラフ畳み込みネットワークに対応するj番目の拡張セマンティック情報を表し、前記w
jkは、前記第k層のグラフ畳み込みネットワークの第1ネットワークパラメータを表し、前記b
jkは、前記第k層のグラフ畳み込みネットワークの第2ネットワークパラメータを表し、前記j∈neighboring(i)は、j番目のノードがi番目のノードの近隣ノードに属することを表し、前記E
ijは、ターゲット接続行列における要素を表す。
  任意選択的に、該コンピュータ可読記憶媒体に記憶された命令は、
  前記位置決め対象のテキストを取得するステップと、
  前記位置決め対象のテキストに基づいて、テキストベクトルシーケンスを取得するステップであって、前記テキストベクトルシーケンスは、T個の単語ベクトルを含み、各単語ベクトルは、1つの単語に対応し、前記Tは、1より大きいか等しい正数である、ステップと、
  前記テキストベクトルシーケンスにおける各単語ベクトルに対して符号化処理を行って、テキスト特徴を得るステップと、
  T個の単語ベクトルに対応するテキスト特徴を取得した場合、前記T個のテキスト特徴に基づいて、前記テキスト特徴集合を生成するステップと、を実行するように構成される。
  任意選択的に、該コンピュータ可読記憶媒体に記憶された命令は、
  式
を用いて、前記テキスト特徴を取得するように構成され、
  ここで、前記h
tは、前記テキスト特徴集合におけるt番目のテキスト特徴を表し、前記LSTM(  )は、長短期記憶(LSTM)ネットワークを用いて符号化を行うことを表し、前記w
tは、前記テキストベクトルシーケンスにおけるt番目の単語ベクトルを表し、前記h
t-1は、前記テキスト特徴集合における(t-1)番目のテキスト特徴を表す。
  本願の実施例は、コンピュータ可読記憶媒体を更に提供する。該コンピュータ可読記憶媒体に、命令が記憶されており、該命令は、コンピュータで実行される時、コンピュータに、前記各実施例で提供されるモデル訓練方法のいずれか1つの可能な実現形態を実行させる。
  任意選択的に、該コンピュータ可読記憶媒体に記憶された命令は、
  訓練対象のテキスト集合及び訓練対象の画像候補領域集合を取得するステップであって、前記訓練対象のテキスト集合は、第1訓練対象のテキスト及び第2訓練対象のテキストを含み、前記訓練対象の画像候補領域集合は、第1訓練対象の画像候補領域及び第2訓練対象の画像候補領域を含み、前記第1訓練対象のテキストと前記第1訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第1訓練対象のテキストと前記第2訓練対象の画像候補領域とは、マッチング関係を有せず、前記第2訓練対象のテキストと前記第2訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第2訓練対象のテキストと前記第1訓練対象の画像候補領域とは、マッチング関係を有しない、ステップと、
  前記第1訓練対象のテキスト、前記第2訓練対象のテキスト、前記第1訓練対象の画像候補領域及び前記第2訓練対象の画像候補領域に基づいて、ターゲット損失関数を決定するステップと、
  前記ターゲット損失関数を用いて、訓練対象の画像領域位置決めネットワークモデルに対して訓練を行って、画像領域位置決めネットワークモデルを得るステップであって、前記画像領域位置決めネットワークモデルは、テキスト特徴集合及び拡張セマンティック情報に基づいて、画像候補領域と位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記拡張セマンティック情報と前記画像候補領域とは、対応関係を有し、前記テキスト特徴集合と前記位置決め対象のテキストとは、対応関係を有する、ステップと、を実行するように構成される。
  任意選択的に、該コンピュータ可読記憶媒体に記憶された命令は、
  式
を用いて、前記ターゲット損失関数を決定するステップを実行するように構成され、
  ここで、前記Lは、前記ターゲット損失関数を表し、前記n
i+は、第1訓練対象の画像候補領域を表し、前記h
i+は、前記第1訓練対象のテキストを表し、前記n
j-は、前記第2訓練対象の画像候補領域を表し、前記h
k-は、前記第2訓練対象のテキストを表し、前記d(  )は、訓練対象のデータペアを表し、前記max(  )は、最大値を取ることを表し、前記λ
1は、第1パラメータ制御重みを表し、前記λ
2は、第2パラメータ制御重みを表し、前記u
1は、第1プリセット閾値を表し、前記u
2は、第2プリセット閾値を表す。
  本願の実施例は、命令を含むコンピュータプログラム製品を更に提供する。該コンピュータプログラム製品は、コンピュータで実行される時、コンピュータに、前記各実施例で提供される画像領域位置決め方法のいずれか1つの可能な実現形態を実行させるか、又は、前記実施例で提供されるモデル訓練方法のいずれか1つの可能な実現形態を実行させる。
  なお、上記実施例は本願の技術的解決手段を説明するためのものだけであり、これを限定するものではない。前記実施例を参照しながら、本願を詳細に説明したが、本技術分野を周知するいかなる当業者であれば、前記実施例に記載の技術的解決手段に対して修正を行うことができ、又は一部の技術的特徴に対して均等物による置換を行うこともでき、これらの修正又は置換は、対応する技術的解決手段の本質を本願の実施例の技術的解決手段の精神及び範囲を離脱させるものではないことは、理解すべきである。