













本発明は、情報処理技術に関する。The present invention relates to information processing technology.
ある対象にアノテーションやタグ付けなどを行うことで分類することは一般に広く行われている。最近では、アノテーション付与やタグ付けを整理のための分類に用いるだけではなく、機械学習の教師データとして利用するということも増えている。Classifying objects by annotating or tagging them is a common practice. Recently, annotations and tags are not only used for classification purposes, but are increasingly being used as training data for machine learning.
特に機械学習の教師データとして分類を行う場合、付与対象は大量になるため、アノテーションやタグの基準を共有した上で、複数の作業者で作業を実施する場合がある。In particular, when classifying data as training data for machine learning, the number of objects to be tagged can be large, so annotation and tagging standards may be shared and the work may be carried out by multiple workers.
  複数の作業者でアノテーションを付与する技術として、特許文献1に示すような方法がある。この方法は、複数人が付与したアノテーションの結果から、各作業者の信頼性を判断し、信頼性に基づいて、作業者に割り振る付与対象を決定している。One technique for annotation by multiple workers is the method shown in
複数の作業者でアノテーションを付与する場合、付与基準が作業者間でぶれていると、同じ対象に対して異なるアノテーションが付与されてしまう恐れが生じる。同じ対象に異なるアノテーションが付与されると、これらを教師データとして機械学習に用いた場合に、精度が高い学習済モデルを生成できない可能性がある。When multiple workers annotate, if the annotation standards vary between workers, there is a risk that different annotations will be given to the same object. If different annotations are given to the same object, when these are used as training data for machine learning, it may not be possible to generate a highly accurate trained model.
  特許文献1に記載された方法は、複数の作業者間でアノテーションに対する基準にぶれ・ずれが生じていることは検出できない。The method described in
本発明は上述した問題を解決するためになされたものであり、アノテーションの付与作業における複数の作業者間の付与基準のずれを検出し、付与基準のずれに対する警告を可能とすることを目的とする。The present invention has been made to solve the above-mentioned problems, and aims to detect discrepancies in annotation standards between multiple workers in annotation work and to enable warnings regarding discrepancies in annotation standards.
上記目的を達成するための一手段として、本発明の情報処理装置は以下の構成を備える。As one means for achieving the above object, the information processing device of the present invention has the following configuration.
  すなわち、
  同一の付与対象への複数の作業者からの入力に基づく複数のアノテーションを取得する取得手段と、
  前記取得手段により取得された前記複数のアノテーションを比較する比較手段と、
  前記比較手段による比較に基づいて、前記複数の作業者間にアノテーションの付与基準のずれがあるかを判定する判定手段と、
  前記複数の作業者間に前記付与基準のずれが前記判定手段により判定された場合、警告を行う警告手段と、を有し、前記判定手段は、前記比較手段による比較結果が前記複数のアノテーションのエントロピーが所定値以上であるとの結果である場合、前記複数の作業者間に前記付与基準のずれがあると判定することを特徴とする。
  That is,
 An acquisition means for acquiring a plurality of annotations based on inputs from a plurality of workers to a same annotation target;
 A comparison means for comparing the plurality of annotations acquired by the acquisition means;
 a determination means for determining whether there is a discrepancy in annotation standards between the plurality of workers based on the comparison by the comparison means;
The method further comprises a warning means for issuing a warning when the judgment means judges that there is a discrepancy in the assignment criteria between the multiple workers, and the judgment means judges that there is a discrepancy in the assignment criteria between the multiple workers when the comparison result by the comparison means indicates that the entropy of the multiple annotations is equal to or greater than a predetermined value .
本発明によれば、アノテーションの付与作業における複数の作業者間の付与基準のずれを検出し、付与基準のずれに対する警告が可能となる。The present invention makes it possible to detect discrepancies in annotation standards between multiple workers in annotation work and to issue warnings regarding discrepancies in annotation standards.
以下、添付の図面を参照して、本発明をその好適な実施形態に基づいて詳細に説明する。なお、以下の実施形態において示す構成は一例に過ぎず、本発明は図示された構成に限定されるものではない。The present invention will now be described in detail based on preferred embodiments thereof with reference to the accompanying drawings. Note that the configurations shown in the following embodiments are merely examples, and the present invention is not limited to the configurations shown in the drawings.
  <実施形態1>
  図1は、本実施形態における情報処理装置100のハードウェア構成を示す図である。以下の実施形態で説明される情報処理装置100は、図1に示すブロック図の構成を持つコンピュータ装置である。また、以降では、情報処理装置100を単一の装置として説明を行うが、これに限らない。すなわち、各実施形態における方法はそれぞれ単一のコンピュータ装置で実現してもよいし、必要に応じた複数のコンピュータ装置に各機能を分散して実現するようにしてもよい。複数のコンピュータ装置で構成される場合は、互いに通信可能なようにLocal  Area  Network(LAN)などで接続されている。  <
 FIG. 1 is a diagram showing a hardware configuration of an
  図1において、101は情報処理装置100全体を制御するCentral  Processing  Unit(CPU)である。102は変更を必要としないプログラムやパラメータを格納するRead  Only  Memory(ROM)である。103は外部装置などから供給されるプログラムやデータを一時記憶するRandom  Access  Memory(RAM)である。In FIG. 1, 101 is a Central Processing Unit (CPU) that controls the entire
  104は情報処理装置100に設置されたハードディスクやメモリカードなどの外部記憶装置である。ただし、固定あるいは着脱可能な状態でも構わない。例えば、フレキシブルディスク(FD)やCompact  Disk(CD)等の光ディスク、磁気や光カード、ICカード、メモリカードなども含む。105はユーザーの操作を受け、データを入力するポインティングデバイスやキーボード109などの入力デバイスとのインタフェースである。106は情報処理装置100の保持するデータや供給されたデータを表示するためのモニタ110とのディスプレイインターフェイスである。107はインターネット111などのネットワーク回線に接続するためのネットワークインタフェイスである。108は101~107の各ユニットを通信可能に接続するシステムバスである。104 is an external storage device such as a hard disk or memory card installed in the
  本実施形態の情報処理装置100は、付与対象(例えば、画像や文章などのコンテンツ)に対してそれに含まれるオブジェクトの名称や意味合いなどのアノテーションを付与する装置である。また、情報処理装置100は、アノテーションの付与作業を実施する複数の作業者間の付与基準のぶれ・ずれを検出し、付与基準のぶれ・ずれを検出した場合、警告・注意喚起を行う。The
  本実施形態の情報処理装置100の機能構成について図2を用いて説明する。以降に示す機能構成は、CPU101がROM102や外部記憶装置104に記憶されるプログラムを読み込み実行することにより情報の演算および加工、各ハードウェアの制御を行うことで実現される。なお、各機能構成をASICやFPGAなどのハードウェアにより実現してもよい。The functional configuration of the
  本実施形態における情報処理装置100は、作業者に対して提示する付与対象を扱う手段として、付与対象管理部201と付与対象提示部202を持つ。また、情報処理装置100は、作業者が付与対象に対して情報を付与する作業および作業結果を処理する手段として、付与データ入力部203と作業結果保管部204と基準不整合判断部205を持つ。加えて、情報処理装置100は、作業者間で付与基準がぶれていることを警告する手段として、警告表示部206を持つ。In this embodiment, the
  付与対象管理部201は、作業者が情報を付与する対象となる付与対象を管理する。なお付与対象は、具体的には画像、動画、文などの自然言語を構成する文字列、ファイルなどが挙げられる。以降では付与対象として画像を例に説明する。The
  付与対象提示部202は、付与対象管理部201が管理している付与対象を作業者に提示する。The grant
  付与データ入力部203は、付与対象提示部202で提示した付与対象に対して付与する付与データの入力を受け付ける。図3(a)に作業員に提示するユーザーインタフェースの例を示す。付与対象提示ウィンドウ300は、付与対象表示領域310、付与対象変更ボタン320、付与データ入力領域330を持つ。なお、付与対象提示部202は、付与対象表示領域310と付与対象変更ボタン320が該当し、付与データ入力部203は付与データ入力領域330が該当する。The attachment
  作業者が1つの付与対象について付与データを付与する付与作業は、付与対象表示領域310に表示された付与対象を確認し、その付与対象に付与するべきアノテーション情報を付与データ入力領域330に入力するものである。なお、入力が完了した場合は、付与対象変更ボタン320を使い、付与対象表示領域310に表示される付与対象を変更し、後述する作業キューに付与対象がなくなるまで繰り返す。The task of assigning data to one target involves the worker checking the target displayed in the
  また、複数の作業者に対してユーザーインタフェースを提示する例を図3(b)に示す。図3(b)の例では、6人の作業者が付与作業をしている例となっている。各作業者はクライアント351、クライアント352、クライアント353、クライアント354、クライアント355、クライアント356をそれぞれ利用して、上述の付与対象提示ウィンドウ300を操作する。6つクライアントはサーバー340に接続され、サーバー340から付与対象を受信して表示する。なお、クライアント351~354およびサーバー340は、情報処理装置100と同様の構成を有する。Figure 3(b) shows an example of presenting a user interface to multiple workers. In the example of Figure 3(b), six workers are performing the assignment work. Each worker uses
  作業結果保管部204は、付与対象提示部202で提示した付与対象と付与データ入力部203で入力された付与データを関連付けて保管する。The work
  基準不整合判断部205は、複数人が付与した付与データのばらつきを判断して、作業者間で基準に不整合が生じているかどうかを判断する。The criteria
  警告表示部206は、基準不整合判断部205によって作業者間で基準に不整合があると判断された場合に、作業者や作業者の付与結果を確認する検収者、作業者を監督する監督者などに対して警告を表示する。When the standard
次に、実施形態1の全体の流れについて図4を用いて説明する。図4には図4(a)と図4(b)の2つのフローチャートがある。図4(a)はS401からS404までで、作業者に対して付与対象を提示し、その結果を受け取る処理を示したものである。また、図4(b)はS411からS415までで、作業者が入力した付与データを受け付けた際に、イベント駆動する基準不整合判断の処理を示したものである。Next, the overall flow of the first embodiment will be explained with reference to FIG. 4. FIG. 4 has two flow charts, FIG. 4(a) and FIG. 4(b). FIG. 4(a) shows steps S401 to S404, which show the process of presenting the target to be assigned to the worker and receiving the result. FIG. 4(b) shows steps S411 to S415, which show the event-driven process of determining whether or not there is a criterion mismatch when the assignment data entered by the worker is accepted.
  なお、図4および以降で示すフローチャートにおける各ステップの処理は、CPU101がROM102や外部記憶装置104に記憶されるプログラムを読み込み実行することにより情報の演算や加工および各ハードウェアの制御を行うことで実現される。なお、図4および以降に示すフローチャートにおける各ステップの処理の一部ないし全部を一つまたは複数のASICやFPGAなどのハードウェアにより実現する構成としてもよい。The processing of each step in the flowcharts shown in FIG. 4 and the following is realized by
  最初に図4(a)に示す処理について詳細を説明する。なお、以降の説明において、情報処理装置100を図3(b)に示したサーバー340として説明を行う。First, the process shown in FIG. 4(a) will be described in detail. In the following description, the
  S401において、情報処理装置100は、付与対象管理部201が管理している付与対象を作業者ごとに作業キューを作成する。付与対象管理部201が管理している付与対象は図5に示すように、付与対象格納テーブル500で管理されている。付与対象格納テーブル500は、2つの列で構成されている。また1つの付与対象は付与対象格納テーブル500の1行で表される。列501では付与対象を識別するIDを、列502では付与対象が基準確認用に利用できるかどうかを表す基準確認用フラグを、それぞれ格納している。列502で管理されている基準確認用フラグは、ランダムに決定してもいいし、検収者などのユーザーにより指定を受付け、当該指定により特定された付与対象を決定してもよい。In S401, the
  図6に作業者が6人の場合の作業キューの例を示す。キュー611は作業者A用の、キュー612は作業者B用の、キュー613は作業者C用の、キュー614は作業者D用の、キュー615は作業者E用の、キュー616は作業者F用を表す。611から616までの6つのキューは上から順番に利用されていくものとする。図5で示した付与対象格納テーブル500の情報を使って、それぞれのキューに付与対象を割り当てていく。付与対象IDが001から006までの付与対象は基準確認用フラグがFalseのため、それぞれ作業者のキューに別々にセットされる。次に付与対象IDが007の付与対象は基準確認用フラグがTrueのため、すべての作業者のキューにセットされる。その後、付与対象IDが008から013までの付与対象も基準確認用フラグがFalseのため、それぞれ作業者のキューに別々にセットされる。このようなことを繰り返し、作業キューに付与対象を割り振っていく。Figure 6 shows an example of a work queue when there are six workers.
  S402において、情報処理装置100は、S401で生成した各作業キューがすべて空なのかどうかを付与対象管理部201が確認する。すべてが空であった場合は、処理を終了する。作業キューのうち少なくとも1つにまだ付与対象が存在している場合は、S403へ処理を進める。In S402, the
  S403において、情報処理装置100は、S401で生成した各作業キューから付与対象を取得し、図3(b)で示したように作業者それぞれの付与対象提示部202に、付与対象を表示させる。すなわち、サーバー340は、クライアント351~356に付与対象を表示させる。In S403, the
  S404において、情報処理装置100は、S403で提示した付与対象に対して、ユーザーが入力した付与データを、付与データ入力部203が受信する。受信した後、付与データ入力部203が、作業結果保管部204に受信した付与データを保管する。図3(b)に示す例では、サーバー230は、クライアント351~356において付与された付与データを各クライアントから受信する。なお、付与データは、付与対象に含まれるオブジェクトの名称や意味合いを示すアノテーション情報を含むデータである。その後、付与データ入力部203が付与データ受信イベントを開始する。In S404, the
次に図4(b)に示す処理について詳細を説明する。Next, the process shown in Figure 4(b) will be explained in detail.
  S411において、情報処理装置100は、S404で開始した付与データ受信イベントを受けて、基準不整合判断部205が、付与データが付与された当該付与対象の基準確認用フラグがTrueかどうかを判定する。Trueの場合はS412へ処理を進め、Falseの場合は処理を終了する。例えば、付与対象管理部201が管理している付与対象が図5に示す例の場合、IDが007の付与対象は基準確認用フラグがTrueとなっていることが確認できる。In S411, in response to the attachment data reception event started in S404, the
  S412において、情報処理装置100は、基準不整合判断部205が、基準確認用フラグがTrueとなっている付与対象に対して付与された付与データを作業結果保管部204からすべて取得する。すなわち、情報処理装置100は、複数の作業者が同一の付与対象に付与したアノテーションをそれぞれ取得する。In S412, the
  ここで、作業結果保管部204が管理している付与データの例を図7に示す。付与データは付与データ格納テーブル700で管理されている。付与データ格納テーブル700は、4つの列で構成されている。また1つの付与データは付与データ格納テーブル700の1行で表される。列701は付与データを識別するIDを格納している。列702は作業者が入力した付与データを格納している。列703は付与データが付与された付与対象のIDを格納している。なお、図7の例では付与対象を画像としているため、イメージIDとなっているが、画像に限定されるものではなく、動画、文などの自然言語を構成する文字列、ファイルなどでもよい。列704は付与データを入力した作業者のIDが格納されている。Here, an example of the attached data managed by the work
  図6に示した作業キューにおいて、各作業者が作業している途中までの結果が図7に示されている。例えばS411で説明した基準確認用フラグがTrueである付与対象のIDが007とすると、図7に示す付与データ格納テーブル700を使って、列703が007の付与データをS412において取得することになる。具体的には、S412において、情報処理装置100は、列701に格納された付与データのIDが007、009、010、011、014、015の6つの付与データを取得することとなる。In the work queue shown in FIG. 6, the results up to the point where each worker is working are shown in FIG. 7. For example, if the ID of the assignment target for which the reference confirmation flag described in S411 is True is 007, then in S412, the assignment data storage table 700 shown in FIG. 7 is used to obtain the assignment data with 007 in
  S413において、情報処理装置100は、基準不整合判断部205がS412で取得した付与データの数と、作業者の数が等しいかを判断する。等しい場合は、S414へ処理を進め、等しくない場合は処理を終了する。In S413, the
  S414において、情報処理装置100は、基準不整合判断部205がS412で取得した複数の付与データのばらつきを確認する。基準が正しく共有されているならば、付与データは一致するはずなので、複数の付与データに複数種類の付与データが存在していればばらついていると判断する。即ち、情報処理装置100は、同一の付与対象への複数の作業者からのアノテーションの比較結果が複数の作業者間で統一されないとの結果である場合、複数の作業者間に付与基準のずれがあると判定する。なお、ばらつきを判断する方法はこれに限定されるものではなく、複数の付与データのエントロピーを算出してエントロピーが所定値以上であれればばらついていると判断してもよい。ばらついていると判断した場合はS415へ処理を進め、ばらついていない場合は処理を終了する。In S414, the
  S415において、情報処理装置100は、警告表示部206が作業者、検収者または/および監督者に警告を表示する。情報処理装置100は、モニタ110にメッセージにより、注意喚起や警告を表示してもよいし、音を出力することで注意喚起や警告を行ってもよい。また、情報処理装置100は、作業者、検収者または/および監督者に対応する装置に警告を出力させるための情報を送信してもよい。また、情報処理装置100は、作業者、検収者または/および監督者に対応する装置に警告を表示させてもよい。In S415, the
  情報処理装置100は、注意喚起や警告として、複数の作業者間で付与基準にぶれやばらつきが生じている可能性があることを示す情報を作業者、検収者または/および監督者に提示してもよい。また、情報処理装置100は、注意喚起や警告として、付与基準を統一させるための施策を促す情報を作業者、検収者または/および監督者に提示してもよい。この場合、情報処理装置100は、電子メールなどで警告を示す情報を対応するアドレスに送信する構成としてもよい。The
  また、情報処理装置100は、一部の作業者のみが他の作業者と異なる内容のアノテーションを付与している場合、この一部の作業者のみに警告を提示してもよい。この場合、情報処理装置100は、付与基準を確認することを促す情報、他の作業者と異なる内容のアノテーションを付与していることを示す情報または/および他の作業者が付与した正解と思われるアノテーションを示す情報を提示することで警告を行ってもよい。また、情報処理装置100は、システムを構成するすべての装置に警告を発する構成としてもよい。また、情報処理装置100は、例示した上記の注意喚起や警告を複数組み合わせて行ってもよい。In addition, when only some workers have added annotations that are different from those of other workers, the
  また、図3において、情報処理装置100がサーバー340として動作する場合、情報処理装置100は、警告対象とする作業者、検収者または/および監督者に対応するクライアント351~356に警告を出力させるための情報を送信させてもよい。また、情報処理装置100がサーバー340として動作する場合、情報処理装置100は、内蔵または接続するモニタ110に警告を出力させてもよい。また、情報処理装置100がクライアント351~356として動作する場合、情報処理装置100は、サーバー340からの警告を出力せるための情報の受信に応じて、警告を出力する構成としてもよい。また、情報処理装置100がクライアント351~356として動作する場合、情報処理装置100は自装置に対応する作業者の付与基準が他の作業者と異なっているかを判定する構成としてもよい。この場合、サーバー340または他のクライアントからの他の作業者が付与したアノテーションを受信する。そして、情報処理装置100は自装置に対応する作業者の付与基準が他の作業者と異なっているかを判定し、自装置に対応する作業者の付与基準が他の作業者と異なっている警告を出力する構成としてもよい。3, when the
これにより、警告を確認した作業者、検収者または監督者は、作業者間でアノテーションに対する基準がぶれていることを確認することができる。基準がぶれていることが確認できた場合、作業者は自身の認識を再確認したり、検収者や監督者は基準を誤解して誤ったアノテーションを付与した作業者に対して直接指導したりすることが可能となる。確認や指導の結果、基準に対する認識が改められ、作業場全体でアノテーション付与の精度を高めることが可能となる。This allows the worker, inspector, or supervisor who sees the warning to confirm that there is a deviation in the annotation standards between workers. If it is confirmed that the standards are deviating, the worker can reconfirm his or her understanding, and the inspector or supervisor can provide direct guidance to the worker who misunderstood the standards and made the incorrect annotation. As a result of the confirmation and guidance, perception of the standards will change, making it possible to improve the accuracy of annotation throughout the entire workplace.
  <実施形態2>
  他の実施形態として、作業者間の付与基準のずれを判定し、警告を行う実施形態2について以下に説明する。実施形態2における情報処理装置100のハードウェア構成は、実施形態1と同様である。また、実施形態2における情報処理装置100の機能構成は、図2に示した実施形態1の構成と同じであるが、基準不整合判断部205が判断する処理が実施形態1と異なるため、その点のみを説明する。  <
 As another embodiment, a second embodiment in which a discrepancy in the assignment criteria between workers is determined and a warning is issued will be described below. The hardware configuration of the
実施形態2では複数の付与データをグループ化することでばらつきを判定する。実施形態2におけるばらつきの判定処理について、図8に示すフローチャートを用いて説明する。In the second embodiment, the variation is determined by grouping multiple pieces of attached data. The variation determination process in the second embodiment is described with reference to the flowchart shown in FIG.
  S801において、情報処理装置100は、基準不整合判断部205が複数の付与データをグループ分けする。例として、実施形態1でも説明した付与対象のIDが007の場合で説明する。図7に示す例では、IDが007の付与対象に対して、6人の作業者が付与データを付与している。具体的には、具体的には、付与データのIDが007、009、010、011、014、015の6つになる。この6つのデータの列702を確認すると、007、009、011の3つは付与データが「SUV」、010、014、015の3つは付与データが「ピックアップトラック」になっている。この場合は、SUVグループとピックアップトラックグループの2つのグループに分けることとなる。このように、本実施形態におけるグループ分けは、アノテーションの内容ごとに区別することをいう。In S801, the
  S802において、情報処理装置100は、基準不整合判断部205が、S801でグループ分けした結果としてグループが複数できたかどうかを判定する。判定の結果、複数のグループができていた場合はS803へ、複数のグループができていないかった場合はS805へ処理を進める。上述の例ではSUVグループとピックアップトラックグループの2つのグループができているため、S803へ処理を進める。In S802, the
  S803において、情報処理装置100は、基準不整合判断部205が、グループ内の付与データの数は2以上のグループが複数存在しているかどうかを判定する。これはグループを構成する付与データが2未満、つまり1つの場合は、作業者が単に間違えただけである可能性を考慮するためである。判定の結果、存在していた場合はS804へ、存在していなかった場合はS805へ処理を進める。上述の例では、SUVグループもピックアップトラックグループもそれぞれ3つの付与データが存在しているため、S804へ処理を進める。なお、本実施形態ではグループ内に存在している付与データの数が2以上で判定を行っていたが、2に限定されるものではない。作業者が単に間違えただけだと判断する数を大きくしたければ、2以上の値を設定すればよい。In S803, the
  S804において、情報処理装置100は、基準不整合判断部205が付与データはばらついていると判断する。In S804, the
  S805において、情報処理装置100は、基準不整合判断部205が付与データはばらついていないと判断する。In S805, the
これにより、作業者が単にミスしただけの可能性を排除できるようになることから、基準がぶれていることをより確度高く検出することが可能になる。This makes it possible to eliminate the possibility that the operator simply made a mistake, and therefore makes it possible to more accurately detect deviations from the standard.
  <実施形態3>
  他の実施形態として、作業者間の付与基準のずれを判定し、警告を行う実施形態3について以下に説明する。実施形態3における情報処理装置100のハードウェア構成は、実施形態1と同様である。また、実施形態3における情報処理装置100の機能構成を図9に示す。なお、図2に示した実施形態1の構成と同じものについては図2で使用していたものと同じ番号が記載し、その説明は省略する。  <
 As another embodiment, a third embodiment in which a discrepancy in the assignment criteria between workers is determined and a warning is issued will be described below. The hardware configuration of the
  付与データ推定部901は、付与対象管理部201で管理している付与対象に付与すべき付与データを事前に推定する。推定をするために、付与対象管理部201で管理している付与対象と同種類の付与対象と、その同種類の付与対象に付与するべき付与データの関係を機械学習することで、事前学習モデルを生成する。そして、その事前学習モデルを用いて、付与対象管理部201で管理されているそれぞれの付与対象に対して、付与するべき付与データを推定する。推定された付与データは推定付与データとして、付与対象と関連付けて作業結果保管部204に保管する。The attachment
  付与データ推定部901が用いる事前学習モデルは、情報処理装置100が機械学習を実行してもよいし、機械学習された学習済モデルを外部から取得してもよい。情報処理装置100が機械学習を実行する場合、情報処理装置100は、GPU(Graphical  Processing  Unit)をさらに有し、CPU101に加え、GPUを用いて機械学習を行ってもよい。GPUは、データをより多く並列処理することで効率的な演算を行うことができるので、ディープラーニングのよう複数回に渡り学習を行う場合に有効である。The pre-learning model used by the attachment
機械学習の具体的なアルゴリズムとしては、最近傍法、ナイーブベイズ法、決定木、サポートベクターマシンなどが挙げられる。また、ニューラルネットワークを利用して、学習するための特徴量、結合重み付け係数を自ら生成する深層学習(ディープラーニング)も挙げられる。適宜、上記アルゴリズムのうち利用できるものを用いて本実施形態に適用することができる。Specific examples of machine learning algorithms include nearest neighbor methods, naive Bayes methods, decision trees, and support vector machines. In addition, deep learning, which uses a neural network to generate features and connection weighting coefficients for learning, can also be used. Any of the above algorithms that can be used can be used as appropriate and applied to this embodiment.
学習済モデルを作成する場合、入力データと出力データとの組合せを学習データ(教師データ)として複数個準備する。それらから機械学習によって知識を獲得し、獲得した知識に基づいて入力データに対する出力データを結果として出力する学習済みモデルを生成する。なお、学習済みモデルは、必要に応じて一定の処理後に更新しても良い。When creating a trained model, multiple combinations of input data and output data are prepared as training data (teacher data). Knowledge is acquired from these through machine learning, and a trained model is generated that outputs output data for the input data based on the acquired knowledge. Note that the trained model may be updated after certain processing as necessary.
  なお、同種類の付与対象とは、例えば、作業者が画像中に写る車を見てその車の種類を付与データとして付与する場合は、付与対象管理部201で管理されている画像とは別の画像でかつ車が写る画像となる。また、推定付与データについては、事前学習モデルを使って推定した結果と、その確率によって構成される。推定付与データの例について図10を用いて説明する。なお図10に示す例では付与対象を画像としている。Note that, for example, when an operator sees a car in an image and assigns the type of car as the assignment data, the same type of assignment target is an image that is different from the images managed by the assignment
  図10(a)に示した推定付与データ格納テーブル1000は、5つの列から構成される。また1つの推定付与データは推定付与データ格納テーブル1000の1行で表される。列1001は推定結果である推定付与データを識別するIDを格納する列である。列1002は推定結果を格納する列である。列1003は推定結果の確度情報を格納する列である。列1004は推定した対象である画像のIDを格納する列である。列1005は推定した対象である画像内に含まれる領域のIDを格納する列である。なお領域は後述する領域テーブル1010で管理されている。なお、付与対象に対して複数の付与データが付与される場合もあるため、領域の情報を保持している。例えば、画像中にある車の種別をアノテーションとして付ける場合、画像中に複数の車があった場合は、画像内の領域を指定して、その領域に対してアノテーションを付与することになる。図10(a)に示した例では、IDが008と009の2つの推定付与データはどちらも列1004のイメージIDが008の付与対象に対して付与されたものであることを示している。The estimated attachment data storage table 1000 shown in FIG. 10(a) is composed of five columns. One piece of estimated attachment data is represented by one row in the estimated attachment data storage table 1000.
  図10(b)に示した領域テーブル1010は、5つの列から構成される。また付与対象内の1つの領域は領域テーブル1010の1行で表される。列1011は領域を識別するIDを格納する列である。列1012は領域の左上の点を起点とし、その起点のX座標の値を格納する列である。列1013は領域の左上の点を起点とし、その起点のY座標の値を格納する列である。列1014は領域の幅の値を格納する列である。列1015は領域の高さの値を格納する列である。The region table 1010 shown in FIG. 10(b) is composed of five columns. Furthermore, one region within the assignment target is represented by one row in the region table 1010.
  基準確認用付与対象判定部902は、基準がぶれているかを判定するのに適した基準確認用付与対象を判定する。基準確認用付与対象を判定する処理の流れについて図11のフローチャートを用いて説明する。The reference confirmation
  S1101において、情報処理装置100は、基準確認用付与対象判定部902が、付与対象管理部201から付与対象を1つ取得する。In S1101, the
  S1102において、情報処理装置100は、基準確認用付与対象判定部902が、作業結果保管部204から、S1101で取得した付与対象に対して推定された推定付与データをすべて取得する。In S1102, the
  S1103において、情報処理装置100は、S1102で取得した1または複数の推定付与データから、付与対象を作業するときの難易度を判断する。本実施例では1または複数の推定付与データに含まれる確率が1つでも60%以下になっているかどうかを判定する。判定の結果、推定付与データに含まれる確率が60%以下となる推定付与データが存在する場合はS1104へ進み、推定付与データに含まれる確率がすべて60%より大きい場合は処理を終了する。なお、60%は例であってこれに限定されるものではなく、に任意の所定の閾値を設定する構成としてもよい。In S1103, the
  また、推定付与データの確度を用いる場合は、ユーザーが事前に設定した異なる値を扱ってもいいし、作業結果保管部204で管理する推定付与データ群の確率の傾向をつかってもよい。確率の傾向とは、例えば、確率の平均を用いるなどがある。なお、推定付与データの確度情報を用いずに他の情報を用いても構わない。例えば、1つの付与対象の中に含まれる推定付与データの数を用いてもよいし、図10で示したように推定付与データが領域を持つような場合は、領域が重なっている面積などを用いてもよい。When using the accuracy of the estimated attachment data, different values preset by the user may be used, or the trend in the probability of the group of estimated attachment data managed by the work
  S1104において、情報処理装置100は、基準確認用付与対象判定部902が、該当する付与対象に対して、集中力判定用フラグを設定する。なお集中力判定用フラグは、付与対象管理部201で管理しているデータベースの列として設定しもよいし、付与対象がファイルであった場合はファイルのメタデータとして付与してもよい。図12に付与対象管理部201で管理されている付与対象の例を示す。In S1104, the
  図12に示す付与対象格納テーブル1200は3つの列から構成される。また1つの付与対象は付与対象格納テーブル1200の1行で表される。列1201は付与対象を識別するIDを格納する列である。列1202は付与対象が基準確認用付与対象として適しているかどうかを示す情報を格納する列である。列1203は付与対象が基準確認用付与対象であった場合、付与対象を提示する作業者の人数を格納する列である。なお、列1203の値は列1202の値がFalseの場合は1となり、列1202の値がTrueの場合は1以外の値を格納する。列1203の値が1よりも大きい場合はその人数の作業者に対して付与対象を提示することを意味し、負の値の場合は作業者全員に提示することを意味する。The grant target storage table 1200 shown in FIG. 12 is composed of three columns. One grant target is represented by one row in the grant target storage table 1200.
  S1105において、情報処理装置100は、基準確認用付与対象判定部902が、基準確認用付与対象を何人の作業者に対して提示するのかを決定する。この処理は図13を用いて後述する。なお、S1105の処理を実施せず、基準確認用付与対象は常に作業者全員に提示するとしてもよい。In S1105, the
  S1101からS1105の処理は付与対象1つに対して行う処理であり、基準確認用付与対象判定部902では、付与対象管理部201で管理されている付与対象すべてについて、この処理を実施する。The processes from S1101 to S1105 are performed for one grant target, and the criteria confirmation grant
基準確認用付与対象を提示する作業者の人数を決定する処理の流れについて図13を用いて説明する。The process flow for determining the number of workers to whom the criteria confirmation assignment targets are to be presented is explained using Figure 13.
  S1301において、情報処理装置100は、基準確認用付与対象判定部902が、処理対象の付与対象に対する推定付与データのうち、最も確率低い推定付与データの確率が、60%未満かつ50%以上かどうかを判定する。判定の結果、条件を満たす場合はS1302へ、満たさない場合はS1303へ処理を進める。In S1301, the
  S1302において、情報処理装置100は、基準確認用付与対象判定部902が、基準確認用付与対象を提示する作業者数を3人に決定し、付与対象管理部201に設定する。具体的には図12に示す付与対象格納テーブル1200の列1203に3を設定する。In S1302, the
  S1303において、情報処理装置100は、基準確認用付与対象判定部902が、ある付与対象に対する推定付与データのうち、最も確率低い推定付与データの確率が、50%未満かつ40%以上かどうかを判定する。判定の結果、条件を満たす場合はS1304へ、満たさない場合はS1305へ処理を進める。In S1303, the
  S1304において、情報処理装置100は、基準確認用付与対象判定部902が、基準確認用付与対象を提示する作業者数を5人に決定し、付与対象管理部201に設定する。具体的には図12に示す付与対象格納テーブル1200の列1203に5を設定する。In S1304, the
  S1305において、情報処理装置100は、基準確認用付与対象判定部902が、基準確認用付与対象を提示する作業者数を全員に決定し、付与対象管理部201に設定する。具体的には図12に示す付与対象格納テーブル1200の列1203に-1を設定する。In S1305, the
なお、図13に示した処理において指定した確率および判断の分岐数はこれに限定されるものではない。本実施形態では60%未満かつ50%以上、50%未満かつ40%以上、40%未満の3つに分岐させているが、これを60%から40%までを5%刻みを4つの範囲、加えて40%未満で合計5つに分割してもよい。もしくは60%未満かつ40%以上、40%未満の2つに分割してもよい。また、S1103での説明と同様に、推定付与データの確度情報を用いずに他の情報を用いても構わない。例えば、1つの付与対象の中に含まれる推定付与データの数の範囲を用いてもよいし、図10で示したように推定付与データが領域を持つような場合は、領域が重なっている面積の大きさの範囲や数の範囲などを用いてもよい。加えて、付与対象を提示する作業者数を管理する際にデータベースを使う方法は一例であり、これに限定されるものではない。例えば、付与対象がファイルの場合はファイルのメタデータとして設定しても構わない。The probability and the number of branching judgments specified in the process shown in FIG. 13 are not limited to the above. In this embodiment, the probability is divided into three: less than 60% and 50% or more, less than 50% and 40% or more, and less than 40%. However, this may be divided into four ranges of 5% increments from 60% to 40%, and a total of five ranges of less than 40%. Or it may be divided into two ranges: less than 60% and 40% or more, and less than 40%. Also, as in the explanation of S1103, other information may be used instead of using the accuracy information of the estimated assignment data. For example, the range of the number of estimated assignment data included in one assignment target may be used, or, in the case where the estimated assignment data has an area as shown in FIG. 10, the range of the size of the area where the areas overlap or the range of the number may be used. In addition, the method of using a database when managing the number of workers who present the assignment target is one example, and is not limited to this. For example, if the assignment target is a file, it may be set as metadata of the file.
また、付与基準の確認対象とする作業者の数を付与対象のアノテーションの推定確度に応じて変化させる構成としたが、これに限らず、推定確度に関わらず、一定(例えば、全員)としてもよい。In addition, the number of workers to be checked for the annotation criteria is changed depending on the estimated accuracy of the annotation to be added, but this is not limited to the above, and the number may be fixed (for example, everyone) regardless of the estimated accuracy.
  次に、推定付与データを利用して基準判定用付与対象を特定し、またその基準判定用付与対象を提示する作業者数を決定した場合に、付与対象管理部201で作業者ごとの作業キューを設定した例を図14に示す。Next, FIG. 14 shows an example in which the estimated assignment data is used to identify the assignment targets for reference judgment, and the number of workers to whom the assignment targets for reference judgment are to be presented is determined, and a work queue for each worker is set in the assignment
  図14で示す例は、図6で示したものと同様に、作業者が6人の場合の作業キューの例となっている。キュー1401は作業者A用の、キュー1402は作業者B用の、キュー1403は作業者C用の、キュー1404は作業者D用の、キュー1405は作業者E用の、キュー1406は作業者F用を表す。今1401から1406までの6つのキューは上から順番に利用されていくものとする。The example shown in Figure 14 is an example of a work queue for six workers, similar to that shown in Figure 6.
  付与対象管理部201では、図12の付与対象格納テーブル1200の列1202に格納された基準確認用フラグと列1203に格納された作業者人数を基に、キューへ付与対象を設定している。The assignment
  図12に例示した付与対象を、付与対象管理部201がどのように各キューに振り分けるのかを説明する。ここでは列1201のIDが小さい順に説明する。IDが001の付与対象は、基準確認用フラグがFalseのため、1人の作業者に振り分ける。具体的にはキュー1401にIDが001の付与対象を振り分ける。続いてIDが002の付与対象も同様に、キュー1402に振り分ける。IDが003の付与対象は基準確認用フラグがTrueであり、かつ提示する作業者数は3人なので、キュー1403、キュー1404、キュー1405に振り分ける。IDが004から007までの4つの付与対象は基準確認用フラグがFalseであるため、それぞれ順にキュー1406、キュー1401、キュー1402、キュー1403に振り分ける。続いて、IDが008の付与対象は、付与対象は基準確認用フラグがTrueであり、かつ提示する作業者数は5人なので、キュー1404、キュー1405、キュー1406、キュー1401、キュー1402に振り分ける。IDが009から012までの4つの付与対象は基準確認用フラグがFalseであるため、それぞれ順にキュー1403、キュー1404、キュー1405、キュー1406に振り分ける。途中省略し、IDがNの付与対象は基準確認用フラグがTrueであり、かつ作業者数が-1であるため、作業者全員に振り分ける。具体的にはキュー1401、キュー1402、キュー1403、キュー1404、キュー1405、キュー1406のすべてに振り分ける。The following describes how the grant
これにより、基準がぶれやすいと思われる付与対象に限定して基準がぶれているかどうかの判定が可能となる。その結果、より効果的に基準がぶれているかどうかを検出することが可能となり、効率的に作業場全体でアノテーション付与の精度を高めることが可能となる。This makes it possible to determine whether the criteria are inconsistent by limiting annotation targets to those that are likely to be inconsistent. As a result, it becomes possible to more effectively detect whether the criteria are inconsistent, and efficiently improve the accuracy of annotation across the entire workplace.
以上の構成からなる本実施形態によれば、複数人でアノテーションを付与した結果のばらつきから警告を出すことが可能となる。これにより警告を確認した作業者、監督者もしくは付与結果を検証する検証者は、どのような付与対象のときに基準がぶれやすくなるのか、どの作業者の認識がずれているのかが即座に判別可能になる。その結果、付与基準の認識がずれている作業者に対して、是正措置を取ることが可能となり、全体のアノテーション付与の精度を向上することが可能となる。According to this embodiment configured as described above, it is possible to issue a warning based on the variation in the results of annotations made by multiple people. This allows the worker, supervisor, or verifier verifying the annotation results who confirms the warning to immediately determine what annotation targets are likely to cause deviations in the criteria and which worker's understanding is off. As a result, it becomes possible to take corrective measures against workers whose understanding of the annotation criteria is off, making it possible to improve the overall accuracy of annotation.
  <その他の実施形態>
  上述の複数の実施形態を適宜組み合わせてもよい。例えば、付与基準の判定処理を判定する処理を所定回数ごとに各実施形態の方法を切り替える構成としてもよい。または、ランダムに各実施形態の方法に切り替えてもよい。  <Other embodiments>
 The above-described embodiments may be appropriately combined. For example, the method of each embodiment may be switched every predetermined number of times to determine the determination process of the grant criteria. Alternatively, the method of each embodiment may be switched randomly.
本発明は、上述の実施例の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。The present invention can also be realized by supplying a program that realizes one or more of the functions of the above-mentioned embodiments to a system or device via a network or storage medium, and having one or more processors in the computer of the system or device read and execute the program. It can also be realized by a circuit (e.g., an ASIC) that realizes one or more functions.
  300  付与対象提示ウィンドウ
  310  付与対象表示領域
  320  付与対象変更ボタン
  330  付与データ入力領域
  340  複数人によるアノテーション付与作業を管理するサーバー
  351~356  作業者がアノテーション付与作業で利用するクライアント  300 Annotation
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| JP2020103339AJP7608076B2 (en) | 2020-06-15 | 2020-06-15 | Information processing device, control method, and program | 
| US17/343,547US12118297B2 (en) | 2020-06-15 | 2021-06-09 | Information processing apparatus | 
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| JP2020103339AJP7608076B2 (en) | 2020-06-15 | 2020-06-15 | Information processing device, control method, and program | 
| Publication Number | Publication Date | 
|---|---|
| JP2021196905A JP2021196905A (en) | 2021-12-27 | 
| JP7608076B2true JP7608076B2 (en) | 2025-01-06 | 
| Application Number | Title | Priority Date | Filing Date | 
|---|---|---|---|
| JP2020103339AActiveJP7608076B2 (en) | 2020-06-15 | 2020-06-15 | Information processing device, control method, and program | 
| Country | Link | 
|---|---|
| JP (1) | JP7608076B2 (en) | 
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| JP7225458B1 (en) | 2022-05-10 | 2023-02-20 | 株式会社エクサウィザーズ | Information processing method, computer program and information processing device | 
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| JP2015166975A (en) | 2014-03-04 | 2015-09-24 | 富士ゼロックス株式会社 | Annotation information adding program and information processing apparatus | 
| JP2018106662A (en) | 2016-12-22 | 2018-07-05 | キヤノン株式会社 | Information processor, information processing method, and program | 
| US10140421B1 (en) | 2017-05-25 | 2018-11-27 | Enlitic, Inc. | Medical scan annotator system | 
| JP2019096319A (en) | 2017-11-21 | 2019-06-20 | クラウドワークス インコーポレイテッドCrowdWorks, Inc. | Data labeling operation inspection method and program | 
| JP2020030692A (en) | 2018-08-23 | 2020-02-27 | ファナック株式会社 | Discrimination device and machine learning method | 
| CN111160034A (en) | 2019-12-31 | 2020-05-15 | 东软集团股份有限公司 | Method and device for labeling entity words, storage medium and equipment | 
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| JP2015166975A (en) | 2014-03-04 | 2015-09-24 | 富士ゼロックス株式会社 | Annotation information adding program and information processing apparatus | 
| JP2018106662A (en) | 2016-12-22 | 2018-07-05 | キヤノン株式会社 | Information processor, information processing method, and program | 
| US10140421B1 (en) | 2017-05-25 | 2018-11-27 | Enlitic, Inc. | Medical scan annotator system | 
| JP2019096319A (en) | 2017-11-21 | 2019-06-20 | クラウドワークス インコーポレイテッドCrowdWorks, Inc. | Data labeling operation inspection method and program | 
| JP2020030692A (en) | 2018-08-23 | 2020-02-27 | ファナック株式会社 | Discrimination device and machine learning method | 
| CN111160034A (en) | 2019-12-31 | 2020-05-15 | 东软集团股份有限公司 | Method and device for labeling entity words, storage medium and equipment | 
| Publication number | Publication date | 
|---|---|
| JP2021196905A (en) | 2021-12-27 | 
| Publication | Publication Date | Title | 
|---|---|---|
| US9691183B2 (en) | System and method for dynamically generating contextual and personalized digital content | |
| US20180046935A1 (en) | Interactive performance visualization of multi-class classifier | |
| JP2018106662A (en) | Information processor, information processing method, and program | |
| US20230259852A1 (en) | Systems and methods for workflow processing | |
| US10719580B2 (en) | Medical image manager with automated synthetic image generator | |
| CN112214588B (en) | Multi-intention recognition method, device, electronic equipment and storage medium | |
| JP2018206361A (en) | System and method for user-oriented topic selection and browsing, and method, program, and computing device for displaying multiple content items | |
| EP3475860B1 (en) | System and architecture for seamless workflow integration and orchestration of clinical intelligence | |
| US20230207087A1 (en) | Prescription order distribution method, system, device and storage medium | |
| JP7608076B2 (en) | Information processing device, control method, and program | |
| JP7705375B2 (en) | Information processing device, information processing method, and information processing program | |
| CN112990625A (en) | Method and device for allocating annotation tasks and server | |
| JP2022136068A (en) | Information display device, information display system, information display program, learning method and data structure | |
| CN113313196A (en) | Annotation data processing method, related device and computer program product | |
| KR101781174B1 (en) | Method and apparatus for determining constitution based on administration of computerized adaptive tests | |
| US20210390250A1 (en) | Information processing apparatus | |
| JP2020160686A (en) | Information processing apparatus and program | |
| US20160240225A1 (en) | Computer-aided video production triggered by media availability | |
| JP6808599B2 (en) | Classification support device, classification support method and program | |
| JP7534149B2 (en) | Learning support system, information processing device, information processing method and program | |
| JP6751955B1 (en) | Learning method, evaluation device, and evaluation system | |
| CN113990419A (en) | Physical examination display method and device, storage medium and virtual reality wearable equipment | |
| CN114783594A (en) | Recommended information determination method, apparatus, device, storage medium, and program product | |
| JP7580947B2 (en) | Information processing device, control method, and program | |
| KR102517328B1 (en) | Method and program for performing work on cell type identification in image based work tool | 
| Date | Code | Title | Description | 
|---|---|---|---|
| RD01 | Notification of change of attorney | Free format text:JAPANESE INTERMEDIATE CODE: A7421 Effective date:20200713 | |
| A621 | Written request for application examination | Free format text:JAPANESE INTERMEDIATE CODE: A621 Effective date:20230601 | |
| RD01 | Notification of change of attorney | Free format text:JAPANESE INTERMEDIATE CODE: A7421 Effective date:20231213 | |
| A977 | Report on retrieval | Free format text:JAPANESE INTERMEDIATE CODE: A971007 Effective date:20240522 | |
| A131 | Notification of reasons for refusal | Free format text:JAPANESE INTERMEDIATE CODE: A131 Effective date:20240528 | |
| A521 | Request for written amendment filed | Free format text:JAPANESE INTERMEDIATE CODE: A523 Effective date:20240723 | |
| A131 | Notification of reasons for refusal | Free format text:JAPANESE INTERMEDIATE CODE: A131 Effective date:20240910 | |
| A521 | Request for written amendment filed | Free format text:JAPANESE INTERMEDIATE CODE: A523 Effective date:20241107 | |
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) | Free format text:JAPANESE INTERMEDIATE CODE: A01 Effective date:20241119 | |
| A61 | First payment of annual fees (during grant procedure) | Free format text:JAPANESE INTERMEDIATE CODE: A61 Effective date:20241218 | |
| R150 | Certificate of patent or registration of utility model | Ref document number:7608076 Country of ref document:JP Free format text:JAPANESE INTERMEDIATE CODE: R150 |