
















本発明は、組織内における文書管理を介して、組織員の不適切な行動を未然に防止し、不適切な行動の再発防止に寄与する技術に関する。 The present invention relates to a technique for preventing inappropriate behavior of an organization member through document management in an organization and contributing to preventing recurrence of inappropriate behavior.
  情報処理技術の進展に伴って、法人でも個人でも、保有作成する書類に関してはペーパーレス化が進展し、書類が電子化されて保存され管理されるようになり、特に、組織内での情報検索や情報共有において、効率的な管理運営に寄与している。
  さて、企業や組織に対しては、法令遵守やコンプライアンスのための活動が、以前に増して求められている。With the progress of information processing technology, both corporations and individuals have become paperless with respect to documents that they create and create, and the documents are digitized, stored and managed, especially for information retrieval within organizations. Contributes to efficient management in information sharing.
 Now, companies and organizations are increasingly required to conduct legal compliance and compliance activities.
  また、米国の訴訟制度において、訴訟の被告となった場合に必要な証拠文書を相手方に提示しなければならない「ディスカバリー」と呼ばれる制度が注目されている。
  ディスカバリー制度は、知的財産関連の訴訟、金融関係の訴訟、税金関係の訴訟において用いられる制度である。
  その一方、組織が大きくなると、経営部門や管理部門にて必要と認識しているコンプライアンス活動において、営業部門などの現場レベルまで管理を徹底するのは容易ではなくなる。In addition, in the US litigation system, a system called “Discovery” has been attracting attention, in which it is necessary to present to the other party the necessary evidence when it becomes a defendant in a lawsuit.
 The discovery system is used in intellectual property-related lawsuits, financial lawsuits, and tax-related lawsuits.
 On the other hand, as the organization grows larger, it is not easy to thoroughly manage the sales department and other on-site levels in compliance activities that the management and management departments recognize as necessary.
  近年のディスカバリー制度では、書類の電子化の進展に伴い、電子化された文書が保存された記録媒体の提出が命じられることとなる。旧来の「ディスカバリー制度」と区別するために「イー・ディスカバリー(e-Discovery)」と呼ばれることもある。
  電子化された書類は、タイムスタンプといった認証技術を併用しない限り、作成日時や改訂日時を変更することは容易であるものの、作成日時や改訂日時を改ざん等したことが発覚したとすれば、裁判において不利な状況に追い込まれる可能性がある。  したがって、イー・ディスカバリーを意識した適切な書類管理が、多くの企業で求められる。In the recent discovery system, with the progress of computerization of documents, submission of a recording medium storing the digitized document is ordered. It is sometimes called “e-Discovery” to distinguish it from the traditional “Discovery System”.
 Although it is easy to change the date and time of revision of the electronic document without using authentication technology such as a time stamp, if it is discovered that the date of creation or date of revision has been altered, There is a possibility that it will be driven into a disadvantageous situation. Therefore, many companies require appropriate document management with eDiscovery in mind.
  また、たとえばメーカなどにおいては、製品の使用条件が不明確な危険性についての記録が設計書や特許明細書などに残っていれば、PL法(いわゆる製造物責任法)において免責されない可能性が出てくる。
  また更に、公的入札の直前に競合他社との打ち合わせや懇談会の記録が残っていれば、談合が疑われる。独占禁止法に違反した場合、その罰則の重さもさることながら、違反後の所定期間に入札資格を喪失するなどにより、企業経営上のダメージが大きい。In addition, for example, a manufacturer may not be exempted under the PL Act (so-called Product Liability Act) if there is a record of the danger of unclear product usage conditions in the design document or patent specification. Come out.
 Furthermore, collusion is suspected if there is a record of a meeting or roundtable with a competitor just before the public bid. In violation of the Antimonopoly Act, the penalties are heavy, and the damage to corporate management is significant due to the loss of eligibility for tendering for a predetermined period after the violation.
  さて、企業における情報管理システムは、オーダーメイドされることも少なくないが、コストや納期の面で導入が容易な情報管理システムも望まれている。
  たとえば、特許文献1に開示された技術では、各企業における機密文書を、それら企業と契約を締結した外部の事業者が管理するサーバ装置を用いることによって一括して保管するシステムが提案されている。
  また、特許文献1に開示された技術に内在する問題点を見いだし、企業における一般的なセキュリティポリシーに反している等の点を解決した技術として、特許文献2に開示された情報管理システムも提案されている。Information management systems in companies are often made to order, but information management systems that are easy to introduce in terms of cost and delivery are also desired.
 For example, in the technology disclosed in
 Also, an information management system disclosed in
  独占禁止法、PL法、労働関係の法律については、法律の条文が抽象的であったり、比較的新しい法律の場合には判例が少なかったりする。  そのような場合、該当する法律を管轄する行政機関が審査基準や指針を公開するものの、組織や業界に特有な個別具体的な事案までは明確になっていないことが多い。
  したがって、杓子定規に現場を管理しようとしても、現場の行動や判断を束縛しすぎてしまいかねない。  特に営業部門は、ビジネスの相手の行動や判断によってどのように事態が進展するのか不明確であり、不明確な段階での管理は不必要あるいは無駄であることも多い。
  その組織にとって不都合が生じるおそれのある事態を予め適切な段階で抽出し、しかるべき人間が判断した上で管理することが望ましい、ということになる。Regarding antitrust laws, PL laws, and labor laws, the text of the laws is abstract, or there are few precedents for relatively new laws. In such cases, administrative agencies that have jurisdiction over applicable laws disclose examination standards and guidelines, but individual specific cases specific to organizations and industries are often unclear.
 Therefore, even if you try to manage the site with the Choshi ruler, you may over-constrain the behavior and judgment of the site. Especially in the sales department, it is unclear how the situation will progress depending on the actions and judgments of the business partner, and management at an unclear stage is often unnecessary or wasted.
 It is desirable to extract a situation that may cause inconvenience for the organization in advance at an appropriate stage and manage it after judging by an appropriate person.
  したがって、法律違反となる事態を未然に防止し、不正の芽があれば速やかに発見して改善に向かわせるシステムが求められている。
  出願人は、キーワード検索などを試みた。  その結果、当組織にとって不都合が生じるおそれのある文書を発見したり、単純に修正や削除をしたりするという技術は存在するようであるが、そのような技術では、イー・ディスカバリーや訴訟手続きにおいて裁判官の心証を悪くしてしまう可能性がある。Therefore, there is a need for a system that prevents violations of the law in advance and promptly discovers any fraudulent buds that can be improved.
 The applicant tried keyword search. As a result, there appears to be technology that finds documents that could cause inconvenience for the organization, or simply modifies and deletes them, but such technologies are used in e-discovery and litigation procedures. There is a possibility that the judgment of the judge will be worsened.
  前記の説明では、法律についての違反について説明してきたが、遵守すべき所定の契約に対する違反についても同様である。
  本発明が解決しようとする課題は、組織内にて格納蓄積されていく文書データを介して、組織が法律や契約などの重大な約束事に違反するおそれを未然防止、再発防止するのに役立つ技術を提供することにある。
In the above description, violations of the law have been described, but the same applies to violations of prescribed contracts to be observed.
 The problem to be solved by the present invention is a technique that helps prevent or recurrence of an organization's risk of violating a serious agreement such as a law or contract through document data stored and accumulated in the organization. Is to provide.
    (第一の発明)
  第一の発明は、 検閲対象となる文書データを所定の文書サーバから受信する対象文書受信手段と、 前記文書サーバ毎のNGワードを格納するNG判定用辞書記憶手段と、 前記対象文書受信手段が受信した文書データの文書を形態素解析して単語を抽出する形態素解析手段と、 その形態素解析手段が抽出した単語が前記NG判定用辞書記憶手段を参照して前記NGワードであるか否かを判断し、NGワードが存在すると判断した場合には当該NGワードを起点として修正候補であるか否かを判断するNG判断手段と、 そのNG判断手段がNGと判断した修正候補を含む判断結果データを所定の端末へ送信する処理結果出力手段と、を備えた文書管理装置に係る。
  そして、前記NG判定用辞書記憶手段には、NGワードではない二以上の単語の組み合わせが同一文中に併存することでNG文章を構成することとなるNG文章構成単語群を格納する。
  前記NG判断手段は、前記文書データの文章の一つを判断対象として、当該一つの文章中にNGワードが存在しないと判断した場合に、当該一つの文章を構文解析するとともに、前記NG判定用辞書記憶部を参照してNG文章構成単語群が含まれるか否かによって当該一つの文章が修正候補であるか否かを判断する。
  前記NG判定用辞書記憶手段は、ある期間において限定的にNGワード、NG文章またはNG文章構成単語群となる限定NGワード、限定NG文章または限定NG文章構成単語群を格納する。
  更に、前記NG判断手段は、その期間限定に指定された期間にのみ修正候補であるか否かを判断することとした。
(First invention)
 The first invention is a target document receiving means for receiving document data to be censored from a predetermined document server, an NG determination dictionary storing means for storing NG words for each document server, and the target document receiving means Morphological analysis means for extracting a word by morphological analysis of the received document data document, and determining whether the word extracted by the morphological analysis means is the NG word with reference to the NG determination dictionary storage means If it is determined that an NG word exists, NG determination means for determining whether or not the NG word is a correction candidate, and determination result data including the correction candidate determined by the NG determination means as NG The present invention relates to a document management apparatus comprising processing result output means for transmitting to a predetermined terminal.
The NG determination dictionary storage means stores a group of NG sentence constituent words that constitute an NG sentence when a combination of two or more words that are not NG words coexists in the same sentence.
The NG determination means, when determining that one of the sentences of the document data is an object of determination and that there is no NG word in the one sentence, parses the one sentence and uses the NG determination It is determined whether or not the one sentence is a correction candidate by referring to the dictionary storage unit based on whether or not an NG sentence constituent word group is included.
The NG determination dictionary storage means stores a limited NG word, a limited NG sentence, or a limited NG sentence constituent word group that becomes an NG word, an NG sentence, or an NG sentence constituent word group in a limited period.
Further, the NG judging means judges whether or not it is a correction candidate only during the period designated for the limited period.
  「検閲対象」が文書ファイルではなくて「文書データ」であるとしているのは、文書ファイルのほか、文書ファイル中の所定の文書データや、電子メールの中の一文、といった場合もあるからである。
  「文書サーバ」とは、文書管理サーバのほか、電子メールサーバなども含む。本願に係る文書管理装置を導入する組織が大きい場合には、分割された部署ごとに文書サーバが存在する。 「NG判定用辞書記憶手段」が「文書サーバ毎」に存在するのは、同じワードでも、部署毎にNGワードとなったりならなかったりするからである。
  たとえば、「賄賂」というワードは全てのNG判定用辞書記憶手段に含まれるが、「侵害」のように法務知財部署では日常的なワードであっても、法務知財以外の部署が使用することは確認が必要なワードとしてNGワードに含めてよい。
  「処理結果出力手段」が送信する「所定の端末」は、検閲対象となった文書データを作成した端末、検閲対象となった文書データを格納している文書サーバにアクセスする端末など、適宜設定できる。
  「NG文章構成単語群」とは、NG文章である、と判断すべき文章構成単語群である。たとえば、「他社の特許×号は、当社の製品の障害となるおそれがある。」という文章がNGワードをひとつも含まないとしても、単語の組み合わせが同一文中に併存することでNG文章を構成することとなるとして格納するのである。
  「限定的にNGワード」等となる「限定NGワード」とは、平常時にNGワードとすると日常業務に支障が出かねないワードが該当する。たとえば、公的入札日の前後一ヶ月の期間を指定して、接待申請書における競合他社名をNGワードとする、などである。
The reason for “censored” is not “document file” but “document data” because it may be a document file, a predetermined document data in a document file, or a sentence in an e-mail. .
 The “document server” includes not only a document management server but also an electronic mail server. If the organization that introduces the document management apparatus according to the present application is large, there is a document server for each divided department. The reason why the “NG determination dictionary storage means” exists in “for each document server” is that the same word does not become an NG word for each department.
 For example, the word “bribery” is included in all NG determination dictionary storage means, but even if it is a daily word in a legal intellectual property department such as “infringement”, it is used by a department other than legal intellectual property. This may be included in the NG word as a word that needs to be confirmed.
 The “predetermined terminal” sent by the “processing result output means” is set as appropriate, such as the terminal that created the document data subject to censorship, or the terminal that accesses the document server storing the document data subject to censorship. it can.
The “NG sentence constituent word group” is a sentence constituent word group to be determined as an NG sentence. For example, even if the sentence “Other company's patent x issue may be an obstacle to our products” does not contain any NG word, NG sentence is composed by the combination of words in the same sentence. It is stored as it will be.
“Limited NG word” such as “Limited NG word” corresponds to a word that may interfere with daily work if it is an NG word in normal times. For example, a period of one month before and after the public bidding date is specified, and the competitor's name in the entertainment application form is set as NG word.
  「対象文書受信手段」が検閲対象となる文書データを受信するタイミングについては、様々である。  管理部門において所定期間ごと(例えば毎月一度)というように設定してもよいし、文書管理サーバにおいて対象となる文書ファイルの数が所定数に達したら文書管理サーバ側からトリガーを発信してもよい。  もちろん、不定期あるいは有事の際に、文書データへ能動的にアクセスして解析してもよい。
  「NGワード」とは、本願に係る文書管理装置を導入する組織において文書中に用いる単語として、または他のキーワードとの組み合わせ等によって相応しくない、と判断すべきワードである。たとえば、公序良俗を害するような言葉、差別用語、などである。  NGワードは、同一組織内であっても部署が異なればNGワードに該当したりしなかったりする場合もあるので、部署毎や組織員の個人別にNGワードを区別するようにしてもよい。また、製品開発における時期や販売商品のライフサイクルなど、時期に応じてNGワードを入れ替えたり追加したりする場合もある。
  公共放送における禁止用語集などを用いることで、NG判定用辞書記憶手段への入力の手間を軽減してもよい。There are various timings at which the “target document receiving means” receives document data to be censored. It may be set at a predetermined period (for example, once a month) in the management department, or a trigger may be transmitted from the document management server side when the number of target document files reaches a predetermined number in the document management server. . Of course, the document data may be actively accessed and analyzed during irregular or emergency situations.
 The “NG word” is a word that should be determined as unsuitable as a word used in a document or in combination with other keywords in an organization that introduces the document management apparatus according to the present application. For example, words that discourage public order and morals, discriminatory terms, etc. Even if the NG word is in the same organization, if the department is different, the NG word may or may not correspond to the NG word. Therefore, the NG word may be distinguished for each department or for each individual member of the organization. Further, the NG word may be replaced or added depending on the time, such as the time in product development and the life cycle of the sales product.
 By using a collection of prohibited terms in public broadcasting, etc., the trouble of inputting to the NG determination dictionary storage means may be reduced.
    (作用)
  NG判定用辞書記憶手段には、検閲対象となる文書データが格納された文書サーバ毎にNGワードを予め格納する。
  検閲対象となる文書データを、所定の端末から対象文書受信手段が受信する。 その受信した文書データに対して形態素解析手段が形態素解析をし、当該文書データを単語ごとに分割する。
  NG判断手段は、形態素解析手段が抽出した単語が前記NG判定用辞書記憶手段を参照して前記NGワードであるか否かを判断する。 そして、NGワードが存在すると判断した場合には当該NGワードを起点として修正候補であるか否かを判断する。 そのNG判断手段がNGと判断した修正候補を含む判断結果データは、処理結果出力手段が所定の端末へ送信する。
  NG判定用辞書記憶手段には、NGワードではない二以上の単語の組み合わせが同一文中に併存することでNG文章を構成することとなるNG文章構成単語群を格納しておく。
  NG判断手段は、前記文書データの文章の一つを判断対象として、当該一つの文章中にNGワードが存在しないと判断した場合に、当該一つの文章を構文解析する。そして、NG判定用辞書記憶部を参照し、NG文章構成単語群が含まれるか否かによって当該一つの文章が修正候補であるか否かを判断する。
  NG判定用辞書記憶手段には、ある期間において限定的にNGワード、NG文章またはNG文章構成単語群となる限定NGワード、限定NG文章または限定NG文章構成単語群が格納される。NG判断手段は、指定されたその期間にのみ修正候補であるか否かを判断し、指定されていない期間であれば、修正候補とは判断しない。 これによって、指定された期間以外は修正候補とならず、業務の円滑化に寄与する。
(Function)
 The NG determination dictionary storage unit stores NG words in advance for each document server storing document data to be censored.
 The target document receiving means receives the document data to be censored from a predetermined terminal. The morphological analysis means performs morphological analysis on the received document data, and divides the document data into words.
 The NG determination means determines whether the word extracted by the morphological analysis means is the NG word with reference to the NG determination dictionary storage means. When it is determined that an NG word exists, it is determined whether or not it is a correction candidate with the NG word as a starting point. The determination result data including the correction candidate determined by the NG determination unit as NG is transmitted to the predetermined terminal by the processing result output unit.
The NG determination dictionary storage means stores an NG sentence constituent word group that constitutes an NG sentence when a combination of two or more words that are not NG words coexists in the same sentence.
The NG determination unit parses one sentence when one of the sentences in the document data is determined as a determination target and it is determined that no NG word exists in the one sentence. Then, referring to the NG determination dictionary storage unit, it is determined whether or not the one sentence is a correction candidate depending on whether or not an NG sentence constituent word group is included.
The NG determination dictionary storage means stores a limited NG word, a limited NG sentence, or a limited NG sentence constituent word group that is limited to an NG word, an NG sentence, or an NG sentence constituent word group in a certain period. The NG judging means judges whether or not it is a correction candidate only during the designated period, and does not judge it as a correction candidate if it is not designated. As a result, it is not a candidate for correction except for the designated period, and contributes to smooth operation.
    (第一の発明のバリエーション1)
  第一の発明に係る文書管理装置は、以下のように形成してもよい。
  すなわち、  前記NG判定用辞書記憶手段は、格納されるNGワード毎にランクデータを含み、  前記NG判断手段は、検閲対象となる文書データの文書においてNGワードが存在すると判断した場合は当該NGワードを起点として当該起点のランクによって修正候補であるか否かを判断することとしてもよい。(
 The document management apparatus according to the first invention may be formed as follows.
 That is, the NG determination dictionary storage means includes rank data for each NG word to be stored, and when the NG determination means determines that an NG word exists in the document of the document data to be censored, the NG word It is good also as judging whether it is a correction candidate by the rank of the said starting point.
  「ランクデータ」とは、たとえば、どんな文書にも使ってはいけない言葉、場合によっては使うことが許される言葉、といった危険度のランクである。  どんな文書にも使ってはいけない言葉が「5」、場合によっては使うことが許される言葉が『「4」〜「1」』といった具合である。ランクデータは数値を使うこととするのが処理しやすいが、言葉や色分けにてラベルを選択する場合もある。
  他の請求項にて特定する「処理結果出力手段」においては、修正候補に対してランク表示を実行する。  ここで「ランク表示」とは、NGワードとして抽出された際に、そのNGワードの危険度が文字への着色で表現される表示、ハイライトの色や濃さ、網掛けの種類や濃さ、下線の種類や太さ、イタリックの角度、フォントの変更、文字の大小、文字の太さなどで表現される表示、修正候補の出力画面にカーソルを当てると当該ランクやその危険度が吹き出しなどで表現される表示、あるいはこれらを組み合わせた表示である。
  なお、NGワードの登録時にランクデータが入力されていない場合には、後に入力することとしてもよい。また、入力されていたランクデータがふさわしくない場合には、改訂して入力し直してもよい。“Rank data” is, for example, a rank of danger such as a word that should not be used in any document and a word that may be used in some cases. The words that should not be used in any document are “5”, and the words that are allowed to be used in some cases are “4” to “1”. Although it is easy to process rank data using numerical values, there are cases where labels are selected based on words or colors.
 In the “processing result output means” specified in another claim, rank display is executed for the correction candidates. Here, “rank display” means a display in which the danger level of the NG word is expressed by coloring the character, highlight color and darkness, shade type and darkness when extracted as an NG word. , Underline type and thickness, italic angle, font change, character size, character size, character thickness, etc. When you place the cursor on the correction candidate output screen, the rank and its risk level will be displayed as a balloon It is a display expressed by or a combination of these.
 If rank data is not input at the time of NG word registration, it may be input later. If the rank data that has been input is not appropriate, it may be revised and input again.
    (作用)
  NG判定用辞書記憶手段は、格納されるNGワード毎にランクデータを含んで登録されている。
  NG判断手段は、検閲対象となる文書データの文書においてNGワードが存在すると判断した場合は、当該NGワードを起点として当該起点のランクによって修正候補であるか否かを判断する。
  NG判断手段による判断結果が所定ランク以上である場合には、判断結果出力手段が判断結果データを所定の端末へ送信する。(Function)
 The NG determination dictionary storage means is registered including rank data for each stored NG word.
 When it is determined that there is an NG word in the document of the document data to be censored, the NG determination unit determines whether the correction candidate is a correction candidate based on the rank of the starting point.
 If the determination result by the NG determination unit is equal to or higher than the predetermined rank, the determination result output unit transmits the determination result data to the predetermined terminal.
    (第一の発明のバリエーション2)
  第一の発明に係る文書管理装置は、以下のように形成してもよい。
  すなわち、  前記NG判定用辞書記憶手段は、二以上の単語の係り受けによってNG文章を構成するNG係り受けを格納し、  前記NG判断手段は、前記文書データの文章の一つを判断対象として、当該一つの文章中の少なくとも一つのNGワードを起点として当該起点と他の単語との関係を構文解析し、  前記NG判定用辞書記憶手段を参照して当該起点と他の単語との関係がNG係り受けであるか否かを判断するとともに、  NG係り受けが存在すると判断した場合には当該NG係り受けを起点として修正候補であるか否かを判断することとしてもよい。(
 The document management apparatus according to the first invention may be formed as follows.
 That is, the NG determination dictionary storage means stores an NG dependency that constitutes an NG sentence by dependency of two or more words, and the NG determination means uses one of the sentences of the document data as a determination target. At least one NG word in the one sentence is used as a starting point, and the relationship between the starting point and another word is parsed, and the relation between the starting point and the other word is determined as NG with reference to the NG determination dictionary storage means. It may be determined whether or not it is a dependency, and if it is determined that there is an NG dependency, it may be determined whether or not it is a correction candidate starting from the NG dependency.
  「NG係り受け」とは、NG文例を予め構文解析した結果から抽出したサンプルや、係り受けによってNGとなる場合の規則性などに関する情報などである。
  たとえば、「主語−述語」の関係において「当社−侵害」をNG係り受けとして登録しておく。  「当社」について、「弊社」、「我が社」、「うちの会社」、正式な社名などは、シソーラスとして登録すると効果的である。
  係り受けにおける目的節の「A社(競合他社の正式名や俗称としての社名)−特許権」をNG係り受けとして登録しておくと、「他社の特許に抵触するおそれ」という趣旨の表現を抽出しやすくなるので、効果的である。“NG dependency” is a sample extracted from a result of parsing an NG sentence example in advance, information on regularity when becoming NG by dependency, and the like.
 For example, “our company-infringement” is registered as an NG dependency in the “subject-predicate” relationship. About "our company", "our company", "our company", "our company", the official company name, etc. are effective if they are registered as a thesaurus.
 If you register “Company A (Company name as the official name or slang name of a competitor)-patent right” in the objective section of the dependency as an NG dependency, you will be able to express the meaning of “may conflict with another company's patent”. Since it becomes easy to extract, it is effective.
    (作用)
  NG判定用辞書記憶手段は、二以上の単語の係り受けによってNG文章を構成するNG係り受けを格納している。
  NG判断手段は、前記文書データの文章の一つを判断対象として、当該一つの文章中の少なくとも一つのNGワードを起点として当該起点と他の単語との関係を構文解析する。  そして、前記NG判定用辞書記憶手段を参照して当該起点と他の単語との関係がNG係り受けであるか否かを判断する。NG係り受けが存在すると判断した場合には当該NG係り受けを起点として修正候補であるか否かを判断する。(Function)
 The NG determination dictionary storage means stores NG dependency that forms an NG sentence by dependency of two or more words.
 The NG determination means uses one sentence of the document data as a determination target, and parses the relationship between the start point and another word from at least one NG word in the one sentence. Then, referring to the NG determination dictionary storage means, it is determined whether or not the relationship between the starting point and another word is NG dependency. If it is determined that there is an NG dependency, it is determined whether or not it is a correction candidate from the NG dependency.
    (第一の発明のバリエーション3)
  第一の発明に係る文書管理装置は、以下のように形成してもよい。
  すなわち、 前記NG判断手段による判断結果として修正候補と判断された部位を表示させる処理結果出力手段と、 その処理結果出力手段によって修正候補と判断された部位に対する修正データの入力を受け付ける修正入力手段と、 その修正入力手段によって修正された文書データを受信する適正文書データ受信手段と、を備えることとしてもよい。
(
 The document management apparatus according to the first invention may be formed as follows.
 A processing result output means for displaying a part determined as a correction candidate as a determination result by the NG determination means; a correction input means for receiving input of correction data for the part determined as a correction candidate by the processing result output means; And appropriate document data receiving means for receiving the document data corrected by the correction input means.
  「修正データ」には、修正が不要である場合に、修正が不要であったことを確認した場合に入力される確認データをも含む。
  「処理結果出力手段」および「修正入力手段」は、検閲対象となる文書ファイルを作成した端末(被管理部門端末)であってもよいし(図13参照)、検閲対象となる文書ファイルを作成した端末(被管理部門端末)以外の端末(管理部門端末)であってもよい(図1参照)。前者の場合は、検閲対象となる文書ファイルを作成した作成者が自ら「管理者」となる場合が含まれる。The “correction data” includes confirmation data that is input when it is confirmed that correction is not necessary when correction is not necessary.
 The “processing result output unit” and the “correction input unit” may be a terminal (a managed department terminal) that has created a document file to be censored (see FIG. 13), or creates a document file to be censored. It may be a terminal (management department terminal) other than the terminal (managed department terminal) (see FIG. 1). The former case includes a case where the creator who created the document file to be censored becomes the “manager” himself.
    (作用)
  NG判断手段による判断結果として修正候補と判断された部位を処理結果出力手段が表示させる。
  所定の端末操作者(たとえば文書データの管理者)は表示された修正候補と判断された部位を閲覧し、それに対して修正入力手段を用いて修正データを入力する。その修正入力手段によって修正された文書データを適正文書データ受信手段が受信する。
  以上により、本願に係る文書管理装置を導入する組織内で保管すべき文書ファイルを保管前に事前チェックをする体制が、その組織へ提供されることとなる。
  また例えば、処理結果出力手段によって修正候補とともにランクデータを出力された作業者は、ランクデータを意識しながら修正作業が行える。(Function)
 The processing result output means displays the part determined as the correction candidate as the determination result by the NG determination means.
 A predetermined terminal operator (for example, an administrator of document data) browses the displayed portion determined to be a correction candidate, and inputs correction data using a correction input unit. The proper document data receiving means receives the document data corrected by the correction input means.
 As described above, a system for pre-checking document files to be stored in the organization in which the document management apparatus according to the present application is installed is provided to the organization.
 Further, for example, an operator whose rank data is output together with the correction candidates by the processing result output means can perform the correction work while being aware of the rank data.
    (第一の発明のバリエーション4)
  前述のバリエーション3に係る文書管理装置は、以下のように形成してもよい。
  すなわち、 前記修正入力手段は、修正データの入力をした場合にその修正入力に対して前記NG判断手段による判断を求めるか否かを選択入力が可能であるように形成され、 前記適正文書データ受信手段にて受信した修正された文書データに前記NG判断手段による判断を求める旨が含まれている場合には、修正された文書データに対して修正候補であるか否かをNG判断手段が判断し、その判断結果を前記処理結果出力手段が所定の端末へ送信することとしてもよい。
(
 The document management apparatus according to the above-described
 That is, the correction input means is formed so that, when correction data is input, whether or not the determination by the NG determination means is requested for the correction input can be selected and input. If the corrected document data received by the means includes a request for determination by the NG determination means, the NG determination means determines whether the corrected document data is a correction candidate. Then, the processing result output means may transmit the determination result to a predetermined terminal.
    (作用)
  修正候補を受信した端末の操作者は、修正入力を行ったとしても、その修正が適切なのかどうか不安な場合がある。不安な場合、その修正入力に対して前記NG判断手段による判断を求める、を選択入力する。すると、修正された文書データに対して修正候補であるか否かをNG判断手段が判断し、その判断結果を前記処理結果出力手段が所定の端末へ送信する。  修正入力した箇所が再び修正候補となっていなければ、バリエーション6に係る文書管理装置は、適切な修正だったと判断したこととなる。
  なお、当該端末の操作者が修正入力を行い、その修正が適切であると判断した場合には、その修正入力に対して前記NG判断手段による判断を求めない、を選択入力する。(Function)
 Even if the operator of the terminal receiving the correction candidate performs correction input, there is a case where the operator is uneasy about whether or not the correction is appropriate. If the user is uneasy, the user inputs and inputs a request for determination by the NG determination means for the correction input. Then, the NG determination unit determines whether the corrected document data is a correction candidate, and the processing result output unit transmits the determination result to a predetermined terminal. If the correction input location is not a correction candidate again, the document management apparatus according to
 When the operator of the terminal makes a correction input and determines that the correction is appropriate, the terminal selects and inputs that the determination by the NG determination means is not requested for the correction input.
    (第一の発明のバリエーション5)
  前述のバリエーション3またはバリエーション4に係る文書管理装置は、以下のように形成してもよい。
  すなわち、前記修正入力手段は、修正候補と判断された部位を修正しない場合に修正保留か修正不要かを選択入力が可能であるように形成され、 修正不要が選択された場合には、当該文書データにおける修正不要の箇所はNG判断手段による次の機会の判断において判断対象とはならないこととしてもよい。
(
 The document management apparatus according to
 In other words, the correction input means is formed so that it is possible to select and input whether correction is pending or correction is not required when a portion determined to be a correction candidate is not corrected. A portion in the data that does not require correction may not be a determination target in the determination of the next opportunity by the NG determination means.
    (作用)
  本願に係る文書管理装置のNG判断手段が修正候補としたとしても、実際には修正が明らかに不要な場合もある。その場合、修正不要と判断した端末の操作者は、その修正候補に対して修正不要を選択入力する。すると、当該文書データにおける修正不要の箇所はNG判断手段による次の機会の判断において判断対象とはならない。
  一方、本願に係る文書管理装置のNG判断手段が修正候補としたとしても、端末の操作者が修正すべきか否か、判断に迷う場合もある。その場合、当該操作者は、その修正候補に対して修正保留を選択入力する。すると、当該文書データにおける修正不要の箇所はNG判断手段による次の機会の判断において判断対象となる。  なお、当該操作者の上司に係る端末や管理部門に係る端末へ修正保留に係る修正候補を送信し、修正データの入力または修正不要の選択が入力されるまで、所定間隔で繰り返されるようにしてもよい。(Function)
 Even if the NG determination unit of the document management apparatus according to the present application sets the correction candidate, there is a case where the correction is obviously unnecessary in practice. In this case, the operator of the terminal that has determined that correction is not necessary selects and inputs correction unnecessary for the correction candidate. As a result, a portion that does not require correction in the document data is not determined in the next opportunity determination by the NG determination means.
 On the other hand, even if the NG determination unit of the document management apparatus according to the present application sets the correction candidate, the operator of the terminal may be unsure whether or not to correct. In that case, the operator selects and inputs correction suspension for the correction candidate. As a result, a portion that does not require correction in the document data becomes a determination target in the next opportunity determination by the NG determination means. The correction candidate related to the correction suspension is transmitted to the terminal related to the supervisor of the operator or the terminal related to the management department, and is repeated at predetermined intervals until input of correction data or selection of no correction is input. Also good.
    (第一の発明のバリエーション6)
  第一の発明に係る文書管理装置においては、 NG判定用辞書記憶手段に格納されたNGワードに対応した推奨ワードを予め格納する推奨ワード辞書記憶手段を備え、 前記処理結果出力手段は、前記NG判断手段によって修正候補と判断された部位を出力する際に、当該修正候補に対応する推奨ワードを出力することとしてもよい。
(
 In the document management apparatus according to the first aspect of the present invention, the document management apparatus includes a recommended word dictionary storage unit that stores in advance a recommended word corresponding to the NG word stored in the NG determination dictionary storage unit, and the processing result output unit includes the NG When outputting a part determined as a correction candidate by the determination means, a recommended word corresponding to the correction candidate may be output.
    (作用)
  NG判定用辞書記憶手段に、格納されたNGワードに対応した推奨ワードを、推奨ワード辞書記憶手段が予め格納しておく。処理結果出力手段は、前記NG判断手段によって修正候補と判断された部位を出力する際に、当該修正候補に対応する推奨ワードを出力する。  修正入力を行おうとする端末の操作者は、その推奨ワードを参考にして修正入力の作業をすることができる。(Function)
 The recommended word dictionary storage unit stores in advance the recommended words corresponding to the stored NG words in the NG determination dictionary storage unit. The processing result output means outputs a recommended word corresponding to the correction candidate when outputting the part determined as the correction candidate by the NG determination means. The operator of the terminal who intends to perform correction input can perform correction input work with reference to the recommended word.
    (第一の発明のバリエーション7)
  前記した第一の発明のバリエーション3からバリエーション6に係る文書管理装置においては、修正入力手段による修正の結果をNG判定用辞書記憶手段へ登録することとしてもよい。
ここで、「修正の結果」とは、修正が不要である場合に、修正が不要であったことを確認した場合に入力される確認データをも含む。 また、修正候補と判断された部位、修正入力手段によって入力された修正データ、修正データを入力した主体に関するデータ、修正データの入力日時などのデータを含む。
(Variation 7 of the first invention)
 In the document management apparatus according to
 Here, the “correction result” includes confirmation data that is input when it is confirmed that the correction is unnecessary when the correction is unnecessary. In addition, it includes data such as a part determined as a correction candidate, correction data input by the correction input means, data relating to a subject who has input the correction data, and input date and time of the correction data.
    (作用)
  修正入力手段によって入力された修正の結果がNG判定用辞書記憶手段へ登録されるので、NG判定用辞書記憶手段は修正データが入力されるたびに修正され、その組織に適合したNG判定能力へ進化することとなる。
  これによって、本願に係る文書管理装置の解析能力が徐々に向上し、修正を担当する者の負担が軽減される。(Function)
 Since the result of the correction input by the correction input means is registered in the NG determination dictionary storage means, the NG determination dictionary storage means is corrected each time correction data is input, and the NG determination capability suitable for the organization is obtained. It will evolve.
 Thereby, the analysis capability of the document management apparatus according to the present application is gradually improved, and the burden on the person in charge of correction is reduced.
    (第一の発明のバリエーション8)
  前記した第一の発明のバリエーション3からバリエーション7に係る文書管理装置においては、前記の修正入力手段にて入力された修正データが反映された適正文書データを記録する文書ファイルに対して、電子的なタイムスタンプを押すタイムスタンプ手段を備えることとしてもよい。
(Variation 8 of the first invention)
 In the document management apparatus according to
  「タイムスタンプ手段」とは、文書ファイルに対して保存日時を記録する手段である。  文書ファイルまたはその文書ファイルのハッシュ値を日時特定のための時計が備えられたサーバへ送信する機能、当該サーバが文書ファイルまたはその文書ファイルのハッシュ値に対して日時データを付加して送り返してきたファイルを受信する機能などが含まれる。
  なお、保存日時を特定するための時計は、本願に係る文書管理装置を導入しているイントラネットの外部であることが望ましく、公的または準公的な第三者機関であることがより好ましい。日時データの客観性が高まるからである。The “time stamp unit” is a unit that records the save date and time for the document file. A function for sending a document file or a hash value of the document file to a server equipped with a clock for specifying the date and time, and the server sends back the date and time data to the document file or the hash value of the document file. Includes the ability to receive files.
 Note that the clock for specifying the storage date and time is preferably outside the intranet in which the document management apparatus according to the present application is installed, and more preferably a public or semi-public third party organization. This is because the objectivity of date / time data is increased.
    (第一の発明のバリエーション9)
  本願に係る文書管理装置は、前記修正候補を所定の文書サーバごとに集計して出力する集計データ出力手段を備えることとしてもよい。
(Variation 9 of the first invention)
 The document management apparatus according to the present application may further include a total data output unit that totals and outputs the correction candidates for each predetermined document server.
    (第一の発明のバリエーション10)
  前記した第一の発明のバリエーション3からバリエーション9に係る文書管理装置においては、前記NG判定用辞書記憶手段に格納されたNGワード、NG文章またはNG文章構成単語群を加除訂正するデータ入力が可能なNG判定用辞書修正手段を備えることとしてもよい。
(
 In the document management apparatus according to
    (第一の発明のバリエーション11)
  前記した第一の発明に係る文書管理装置においては、 前記対象文書受信手段は、前記文書サーバまたはNG判定用辞書記憶手段のいずれか一方が更新された場合に、検閲対象となる文書データを受信することとしてもよい。
  文書サーバが更新された場合に検閲対象についてのNG判定をすることとすれば、検閲対象となる文書データの総数を減らすことができる。
  また、NG判定用辞書記憶手段が更新された場合に検閲対象についてのNG判定をすることとすれば、新たなNG判断をタイムリーに反映させることができる。
(Variation 11 of the first invention)
 In the document management apparatus according to the first aspect, the target document receiving unit receives document data to be censored when either the document server or the NG determination dictionary storage unit is updated. It is good to do.
 If the NG determination for the censored object is made when the document server is updated, the total number of document data to be censored can be reduced.
 Further, if the NG determination dictionary storage means is updated and an NG determination is made on the object to be censored, a new NG determination can be reflected in a timely manner.
    (第一の発明のバリエーション12)
  前記した第一の発明に係る文書管理装置においては、検閲対象となる文書データを所定の文書サーバから廃棄削除する文書データ廃棄手段と、 文書データの廃棄ルールを蓄積した文書データ廃棄ルール格納手段と、 前記文書データ廃棄手段によって文書データを廃棄しようとする場合には前記文書データ廃棄ルール格納手段に蓄積された廃棄ルールに従っているか否かを判断する廃棄ルール判断手段とを備えることとしてもよい。
  その廃棄ルール判断手段が廃棄不能と判断した場合に、前記文書データ廃棄手段による文書データの廃棄削除の実行前に警告を出力することとするのである。
(
 In the document management apparatus according to the first invention, document data discarding means for discarding and deleting document data to be censored from a predetermined document server; document data discarding rule storing means for storing document data discarding rules; The document data discarding unit may include a discard rule determining unit that determines whether or not the document data is being discarded according to the discard rule stored in the document data discard rule storing unit.
 When the discard rule determining means determines that the document data cannot be discarded, a warning is output before the document data discarding means executes the document data discard / deletion.
    (第二の発明)
  本願は、コンピュータプログラムに係る第二の発明を提供することもできる。
  その第二の発明は、  検閲対象となる文書データを所定の文書サーバから受信する対象文書受信手順と、  前記文書サーバ毎のNGワードを予めNG判定用辞書記憶手段へ格納するNG判定用辞書記憶手順と、  前記対象文書受信手順にて受信した文書データの文書を形態素解析して単語を抽出する形態素解析手順と、  その形態素解析手順にて抽出した単語が前記NG判定用辞書記憶手段を参照して前記NGワードであるか否かを判断し、NGワードが存在すると判断した場合には当該NGワードを起点として修正候補であるか否かを判断するNG判断手順と、  そのNG判断手順にてNGと判断した修正候補を含む判断結果データを所定の端末へ送信する処理結果出力手順とを、コンピュータに実行させるためのコンピュータプログラムに係る。(Second invention)
 The present application can also provide a second invention relating to a computer program.
 The second invention includes an object document receiving procedure for receiving document data to be censored from a predetermined document server, and an NG determination dictionary storage for storing the NG word for each document server in the NG determination dictionary storage means in advance. A morpheme analysis procedure for extracting a word by morphological analysis of a document of document data received in the target document reception procedure, and the word extracted in the morpheme analysis procedure refers to the dictionary storage unit for NG determination The NG determination procedure for determining whether or not it is a candidate for correction starting from the NG word and the NG determination procedure A computer program for causing a computer to execute a processing result output procedure for transmitting determination result data including a correction candidate determined to be NG to a predetermined terminal
    (第二の発明のバリエーション)
  第二の発明は、第一の発明のバリエーション1から14に対応したバリエーションを実現可能な各手順を含んだコンピュータプログラムとしてもよい。(Variation of the second invention)
 The second invention may be a computer program including each procedure capable of realizing variations corresponding to
第二の発明に係るコンピュータプログラムは、バリエーションを含め、ハードディスク、DVD−Rなどの記録媒体に格納して提供することもできる。 また、第二の発明に係るコンピュータプログラムを格納した記録媒体から、通信回線を介して所定の情報端末に受信することもできる。受信した情報端末(またはサーバ)は、第一の発明に係る文書管理装置となる。 The computer program according to the second invention, including variations, can be provided by being stored in a recording medium such as a hard disk or a DVD-R. It can also be received from a recording medium storing the computer program according to the second invention to a predetermined information terminal via a communication line. The received information terminal (or server) is the document management apparatus according to the first invention.
  本願発明によれば、組織内にて格納蓄積されていく文書データを介して、組織が法律や契約などの重大な約束事に違反するおそれを未然に防止できるとともに、違反が生じた場合に再発を防止するのに役立つ技術を提供することができた。
According to the present invention, through the document data stored and accumulated in the organization, it is possible to prevent the organization from violating important agreements such as laws and contracts, and to reoccur when a violation occurs. We were able to provide technology that helped prevent.
  以下、本発明を実施形態に基づいて更に詳しく説明する。ただし、本発明は、実施形態の態様に限られるものではない。
  以下の説明に使用する図面は、図1から図17である。Hereinafter, the present invention will be described in more detail based on embodiments. However, the present invention is not limited to the embodiments.
 The drawings used for the following description are FIGS. 1 to 17.
    (図1)
  図1では、本願発明の主要な構成を概念的にブロック図で示したものである。
  管理部門に係る端末(図中では「管理部門端末」と表記)、NG文言サーバ、および管理される部門に係る端末(図中では「被管理部門端末」と表記)が、社内のイントラネットで接続されている。  事業者がインターネットなどを通じたASP形態によって必要な構成を提供してもよい。
  管理部門とは、社内の各部門(「被管理部門」)にて作成されたり改訂されたりする文書に対して、法律的なチェックや適切な保管を行う部署であり、一般的には法務・知的財産部門や総務部門である。(Figure 1)
 FIG. 1 conceptually shows a main configuration of the present invention in a block diagram.
 A terminal related to the management department (indicated as “management department terminal” in the figure), an NG wording server, and a terminal related to the managed department (indicated as “managed department terminal” in the figure) are connected via the company intranet. Has been. A company may provide a necessary configuration by an ASP form through the Internet or the like.
 Administrative departments are departments that perform legal checks and appropriate storage for documents created and revised in each department within the company ("managed departments"). Intellectual property department and general affairs department.
管理部門端末からは、NG文言入力手段(当該端末のキーボード等)を用いてNGワードやNG文例を入力する。入力されたNGワード、NG文章構成単語群、NG文例、NG係り受け等を入力する。入力されたNGワード等は、NG文言サーバにおけるNG判定用辞書データベース(NG判定用辞書手段)に格納される。 From the management department terminal, an NG word or an NG sentence example is input using an NG word input means (such as a keyboard of the terminal). The input NG word, NG sentence constituent word group, NG sentence example, NG dependency, etc. are input. The input NG word or the like is stored in the NG determination dictionary database (NG determination dictionary means) in the NG wording server.
「NG文例」とは、NGワードを含む一文のほか、NGワードではない特定のワードの組み合わせを所定の組織において文書中に用いたとすると相応しくない、と判断すべき文例(NG文章構成)である。たとえば、「他社の特許×号は、当社の製品の障害となるおそれがある。」といった文である。 An “NG sentence example” is a sentence example (NG sentence structure) that should be determined to be inappropriate if a combination of specific words that are not NG words is used in a document in a predetermined organization in addition to a single sentence that includes NG words. . For example, it is a sentence such as “other company's patent × number may be an obstacle to our products”.
  さて、被管理部門端末の対象文書入力手段(当該端末のキーボード等)から、検閲対象の文書データを含む文書ファイルが準備され、NG文言サーバに送信されてきたとする(図中、「文書ファイル」は、単に「文書」と表記している)。
  ここで、「検閲対象文書ファイル」とは、本実施形態においては、技術担当者らにメール回覧予定の電子回覧板のような文書を含むファイルであり、当該技術担当者が所属する部署の保存文書サーバに一旦格納され、文書データとして「Y社の特許abcd号は、当社の製品Aの障害となるおそれあり。」という一文のデータを含むものであったとする。Now, it is assumed that a document file including document data to be censored is prepared and transmitted to the NG wording server from the target document input means (such as the keyboard of the terminal) of the managed department terminal (“document file” in the figure). Is simply written as “document”).
 In this embodiment, the “document file to be censored” is a file including a document such as an electronic circulation board scheduled to be circulated by e-mail to technical personnel, and stores the department to which the technical personnel belong. It is assumed that the data is temporarily stored in the document server, and the document data includes one sentence of data such as “Y company's patent abcd may be an obstacle to our product A”.
  NG文言サーバに送信されてきた検閲対象文書に対しては、まず、形態素解析手段による形態素解析処理が実行される。
  形態素解析処理は、自然言語文を形態素に分割し単語辞書を参照して単語を抽出し文章を単語単位に分割する自然言語処理であり、形態素解析手段は公知の形態素解析ツールで構成できる。
  なお、検閲対象文書に対する検閲は、管理部門などにおいて設定された周期で行われる。法律改正、社内事情、社外の状況などに応じて検閲のタイミングを適宜変更することも当然可能であるし、非常時などに適宜実行することも可能である。For the document to be censored transmitted to the NG wording server, first, morphological analysis processing by the morphological analysis means is executed.
 The morpheme analysis process is a natural language process in which a natural language sentence is divided into morphemes, a word is extracted by referring to a word dictionary, and a sentence is divided into words, and the morpheme analysis means can be configured by a known morpheme analysis tool.
 Note that censorship of a document to be censored is performed in a cycle set in a management department or the like. Of course, the timing of censorship can be changed as appropriate according to legal revisions, internal circumstances, external circumstances, etc., and it can also be implemented in an emergency.
検閲対象文書に含まれる単語は、前述の形態素解析手段で抽出された後、NG判断手段によるNG判断処理を受ける。NG判断手段は、NG判定用辞書記憶部を参照して検閲対象文書中の単語がNGワードであるか否かを判断し、NGワードであると判断した単語があればこれを起点として修正候補であるか否かを判断する。 After the words included in the document to be censored are extracted by the morphological analysis unit described above, they are subjected to NG determination processing by the NG determination unit. The NG determination means refers to the NG determination dictionary storage unit to determine whether or not the word in the document to be censored is an NG word. If there is a word determined to be an NG word, the correction candidate is based on this word It is determined whether or not.
  NGワードであると判断した単語を起点として修正候補であるか否かを判断する方法としては、例えば以下の三つの方法がある。
  第一の方法は、NG判定用辞書記録部に格納されたNGワードのランクデータを参照し、最高ランクのNGワードを起点とし、その起点のランクが所定値以上である場合に修正候補と判断する方法である。
  第二の方法は、検閲対象における一文中の起点の数(すなわちNGワードの数)が所定数以上である場合に修正候補と判断する方法、検閲対象における一文中のNGワードの全てを起点とし、それぞれの起点におけるランクの合計値が所定値以上の場合に修正候補と判断する方法である。
  第三の方法は、一文中の起点と他の単語との関係(すなわち単語同士の係り受け)を構文解析し、その起点と他の単語との関係がNG係り受けである場合に修正候補と判断する方法である。For example, there are the following three methods for determining whether or not a candidate is a correction candidate from a word determined to be an NG word.
 The first method refers to the rank data of NG words stored in the NG determination dictionary recording unit, starts from the highest rank NG word, and is determined as a correction candidate when the rank of the start point is equal to or higher than a predetermined value. It is a method to do.
 The second method is a method of determining a candidate for correction when the number of starting points in a sentence (ie, the number of NG words) in a censored object is a predetermined number or more, and starting from all NG words in a sentence in the censored object. This is a method of determining a candidate for correction when the total rank value at each starting point is equal to or greater than a predetermined value.
 The third method parses the relationship between the starting point in one sentence and other words (that is, dependency between words), and if the relationship between the starting point and other words is NG dependency, It is a method to judge.
  さらに、検閲対象文にNGワードが存在しない場合、NG判断手段は構文解析処理を実行して二以上の単語で構成される構文(解析)木を作成し、一つの構文木を構成する二以上の単語の組み合わせがNG文章構成単語群に該当するか否かによって修正候補と判断してもよい。
  「構文解析処理」とは、形態素解析処理の結果(形態素列)を入力とし、単語同士の係り受け関係や格関係を表す構文木を出力する処理であり、公知の構文解析ツールにて構成できる。構文解析処理を実行することによって、NGとして抽出する部位に対する精度が向上する。そのため、構文解析処理の手順を採用していない文書管理装置の場合に比べて、修正候補として出力される箇所が減ったり、抽出し損なう箇所が減ったりするので、修正入力の手間を軽減することに寄与する。Further, when there is no NG word in the censored sentence, the NG determination means executes a syntax analysis process to create a syntax (parse) tree composed of two or more words, and two or more which constitute one syntax tree It may be determined as a correction candidate depending on whether the combination of the words corresponds to the NG sentence constituent word group.
 The “syntactic analysis process” is a process in which the result of the morpheme analysis process (morpheme sequence) is input, and a syntax tree representing the dependency relationship or case relationship between words is output, and can be configured by a known syntax analysis tool. . By executing the parsing process, the accuracy of the part extracted as NG is improved. Therefore, compared to a document management device that does not employ a parsing procedure, the number of parts that are output as correction candidates and the number of parts that fail to be extracted are reduced. Contribute to.
  なお本実施形態では、構文解析処理における「係り受けの解析手法」としては、例えば特開2004−21445号の「テキストデータ分析システム」に開示された手法を採用している。
  用語間の対応関係を分析するために抽出するシステムを併用してもよい。用語間の対応関係抽出システムとしては、たとえば、特開2011−103038号に開示された手法である。In the present embodiment, as the “dependency analysis method” in the syntax analysis process, for example, the method disclosed in “Text Data Analysis System” of Japanese Patent Application Laid-Open No. 2004-21445 is adopted.
 You may use together the system extracted in order to analyze the correspondence between terms. As a system for extracting correspondence between terms, for example, a method disclosed in Japanese Patent Application Laid-Open No. 2011-103038 is used.
構文解析処理が実行された後、NG判定用辞書記憶部を用いて、NGワードやNG係り受けに該当する箇所を抽出する。そして、処理結果出力手段にて、抽出した箇所を他とは区別できるように表示させる。NG判定用辞書記憶部がインテリジェント化している場合には、単なる解析結果のみならず、修正候補の文言を含んだ対象文書として、所定の端末へ送信する。図1に示す実施形態では、検閲対象文書を作成して保存した文書サーバにアクセスした端末へ送信している。 After the parsing process is executed, a part corresponding to the NG word or the NG dependency is extracted by using the NG determination dictionary storage unit. Then, the processing result output means displays the extracted location so that it can be distinguished from others. In the case where the NG determination dictionary storage unit is intelligent, not only a simple analysis result but also a target document including correction candidate words is transmitted to a predetermined terminal. In the embodiment shown in FIG. 1, a document to be censored is created and transmitted to a terminal that has accessed the document server.
処理結果出力手段を介して、被管理部門の端末の出力画面には、修正候補の文言を含んだ対象文書ファイルが出力される。出力された文書ファイルは、被管理部門の担当者が閲覧し、解析結果として抽出されたNGワードやNG文章を検討する。そして、その担当者が修正の必要ありと判断すれば、修正入力手段を用いて、修正データを入力する。 たとえば、「Y社の特許abcd号は、当社の製品Aの改良に参考となる。」というように修正する。 Through the processing result output means, the target document file including the words of the correction candidates is output to the output screen of the managed department terminal. The person in charge of the managed department browses the output document file and examines NG words and NG sentences extracted as analysis results. If the person in charge determines that correction is necessary, correction data is input using correction input means. For example, “Y company's patent abcd is useful for improvement of our product A”.
  当該担当者は、修正の必要が無く、元の文言で問題ないと判断した場合には、修正しない旨を入力する。なお、当該担当者が判断不能な場合に「保留」という選択をし、その旨を入力することとしてもよい。
  修正後の文書ファイルは、文書サーバへ送信される。そして、図示は省略しているが、その文書サーバから、修正後の文書ファイルを送信すべき人や部門へ送信される。
  なお、修正前の文書ファイルの扱いは、本システムを採用する組織におけるポリシーによって異なる。たとえば、修正前の文書ファイルは管理部門などの所定部署において回覧用に印刷出力し、文書サーバには保存しないとする、としてもよい。If the person in charge determines that there is no need for correction and there is no problem with the original wording, the person in charge inputs that the correction is not made. If the person in charge cannot be determined, it is possible to select “hold” and input to that effect.
 The corrected document file is transmitted to the document server. Although not shown, the document server transmits the corrected document file to the person or department to be transmitted.
 It should be noted that the handling of the document file before correction differs depending on the policy in the organization adopting the system. For example, the document file before correction may be printed out for circulation in a predetermined department such as a management department and not stored in the document server.
    (図2)
  図2では、前述した修正候補であるか否かを判断する手順の一例を示している。
  検閲対象となる文書データに対して、まず形態素解析処理を実行し、文書データを単語に分割する。
  分割された単語にNGワードが含まれているか否かを判断する。含まれていない場合には、文書データにおける一文中の起点と他の単語との関係(すなわち単語同士の係り受け)を構文解析し、その起点と他の単語との関係がNG係り受けである場合に修正候補と判断する。
  NG係り受けと判断されない場合には、構文解析を行って二以上の単語で構成される構文(解析)木を作成し、一つの構文木を構成する二以上の単語の組み合わせがNG文章構成単語群に該当するか否かによって修正候補と判断する。(Figure 2)
 FIG. 2 shows an example of a procedure for determining whether or not the correction candidate is described above.
 First, morphological analysis processing is executed on document data to be censored, and the document data is divided into words.
 It is determined whether or not NG words are included in the divided words. If not included, the relationship between the starting point in one sentence in the document data and other words (that is, the dependency between words) is parsed, and the relationship between the starting point and other words is NG dependency. In this case, it is determined as a correction candidate.
 When it is not determined to be NG dependency, a syntax (analysis) tree composed of two or more words is generated by performing parsing, and a combination of two or more words constituting one syntax tree is an NG sentence constituent word. It is determined as a correction candidate depending on whether or not it corresponds to a group.
この図2に示したフローチャートは一例であり、本願に係る文書管理装置を導入する組織における環境、規模、予算、検閲対象文書の種類、組織における処理ポリシーなどに応じて、前述した方法の組み合わせを採択できる。 The flowchart shown in FIG. 2 is an example, and a combination of the above-described methods is selected according to the environment, scale, budget, type of document to be censored, processing policy in the organization, etc. in the organization that introduces the document management apparatus according to the present application. Can be adopted.
    (自主修正と管理部門とによる修正の複数チェック)
  被管理部門端末にて文書ファイルを作成する段階でNG判定用辞書記憶手段にもアクセスし、NGワード等を入力したら警告が発せられるといったシステムを構築してもよい。こうすることで、検閲対象文書においてNGワード等がなるべく使われないような、事前チェックのシステムが形成できる。(Self-correction and multiple checks of corrections by the management department)
 A system may be constructed in which the NG determination dictionary storage means is accessed at the stage of creating a document file at the managed department terminal, and a warning is issued when an NG word or the like is input. By doing so, it is possible to form a pre-check system in which NG words or the like are not used as much as possible in the document to be censored.
    (図3)
  図3では、「A社が当社の特許権を侵害している。」という一文を構文解析した場合(A)と、「当社がA社の特許権を侵害している。」という一文を構文解析した場合(B)とを示している。
  構文解析を実行しないと、(A),(B)のいずれもが修正候補として抽出されてしまう可能性が高い。しかし、NG係り受けにおいて「主語=当社、述語=侵害」と登録しており、構文解析を実行していれば、(A)が修正候補として抽出されず、(B)のみが修正候補として抽出される。(Figure 3)
 In FIG. 3, when a sentence “A company infringes our patent right” is parsed (A), and a sentence “our company infringes the patent right of company A”. The case of analysis (B) is shown.
 If syntax analysis is not performed, there is a high possibility that both (A) and (B) will be extracted as correction candidates. However, if NG dependency is registered as “subject = our company, predicate = infringement” and syntax analysis is executed, (A) is not extracted as a correction candidate and only (B) is extracted as a correction candidate. Is done.
    (図4)
  図4は、NG文言サーバにおけるNG判定用辞書データベースの構造を概念的に示したブロック図である。  図1では、NG判定用辞書データベースが一つであるように図示されているが、NG判定用辞書データベースは、被管理部門毎(部署毎)にそれぞれ作成されている。部署毎にNGワードは異なることが多く、組織全体で統一することは困難且つ非効率だからである(例を後述する)。
  予め登録しておくべきNGワードなどは、NG文言入力手段によって入力され、NGワードデータベースなどにそれぞれ登録される。(Fig. 4)
 FIG. 4 is a block diagram conceptually showing the structure of the NG determination dictionary database in the NG wording server. Although FIG. 1 shows that there is only one NG determination dictionary database, the NG determination dictionary database is created for each managed department (each department). This is because NG words are often different for each department, and it is difficult and inefficient to unify the entire organization (an example will be described later).
 An NG word or the like to be registered in advance is input by the NG word input unit and is registered in the NG word database or the like.
  なお、NG判定用辞書データベースには、語句の共起性(任意の複数の語句が同時に出現する割合)についても、必要に応じて登録している。
  一方、前記した修正入力手段にて修正した文言は、OKワードやOK文例としてOKワードデータベースなどにそれぞれ登録される。すなわち、修正作業によって、事後的に登録され、学習される。
  学習したNG文言辞書データベースは、学習前よりも、本実施形態に係る文書管理装置を導入する該当部署における不適切な表現を含んだ文書ファイルが作成される蓋然性を低くする。In the NG determination dictionary database, the co-occurrence of words / phrases (ratio at which arbitrary words / phrases appear simultaneously) is also registered as necessary.
 On the other hand, the words corrected by the correction input means are registered in the OK word database or the like as OK words or OK sentence examples. That is, it is registered and learned afterwards by the correction work.
 The learned NG word / phrase dictionary database lowers the probability that a document file including an inappropriate expression in a corresponding department where the document management apparatus according to the present embodiment is introduced is created before learning.
  図4には図示していないが、NG判定用辞書データベースについて、検閲対象となる文書ファイルの種類ごとに、NGワードやNG文例やNG係り受けを予め格納することとしてもよい。また、システムの稼働前に、NGワードを事前チェックすることとしてもよい。  図示は省略するが、NG判定用辞書データベースの管理者の端末においては、NG判定用辞書データベースをメンテナンスする画面が提供される。
  法務・知的財産部門におけるお客様向けの文書ファイルにおいては、あるワード(たとえば「クレーム」)が用いられていたとして一般的にNGワードに該当したとしても、特許文書ファイルにおいてはNGワードとならない場合(「クレーム」は「請求項」という意味しか持たない場合)があり、NGワードではないのにNGワードとして抽出されてしまっては修正作業の効率を落とすこととなってしまうからである。Although not shown in FIG. 4, an NG word, an NG sentence example, or an NG dependency may be stored in advance for each type of document file to be censored in the NG determination dictionary database. Further, it is possible to pre-check the NG word before the system is operated. Although illustration is omitted, a screen for maintaining the dictionary database for NG determination is provided at the terminal of the administrator of the dictionary database for NG determination.
 In a document file for customers in the legal / intellectual property sector, a word (for example, "claim") is used, but even if it falls under NG word in general, it is not NG word in patent document file (“Claim” has only the meaning of “claim”), and if it is not an NG word but is extracted as an NG word, the efficiency of the correction work is reduced.
    (推奨文章の出力)
  検閲対象文書ファイルにNGワードやNG文章が使用されているという解析結果を所定の端末へ出力する際、前述のOKワードデータベース、OK文例データベースを用いて、推奨文章を出力することとしてもよい。修正データ入力手段を操作する操作者が推奨文章をそのまま使ってよいと判断した場合には、その推奨文章を選択するだけで修正データの入力が完了する。  そのまま使わない場合でも、操作者にとって修正の参考となる。
  なお、推奨文章の採用結果(採用した場合も不採用の場合も)についても、NG判定用辞書データベースにフィードバックされ、以後の精度を高めることに寄与する。(Output recommended text)
 When an analysis result indicating that NG words or NG sentences are used in the document file to be censored is output to a predetermined terminal, the recommended sentence may be output using the above-described OK word database or OK sentence example database. When the operator who operates the correction data input means determines that the recommended text can be used as it is, the input of the correction data is completed only by selecting the recommended text. Even if it is not used as it is, it will be a reference for correction for the operator.
 Note that the result of adopting the recommended text (whether it is adopted or not adopted) is also fed back to the NG determination dictionary database, which contributes to improving the accuracy thereafter.
    (図5)
  図5は、検閲対象文書ファイルが、構文解析手段によってどのように解析されるかについて具体的に示したものである。
  検閲対象文書ファイルは、技術開発を担当するメンバー全員に回覧される「電子回覧板」である。閲覧した者は電子的に「閲覧済み」というデータを、この検閲対象文書ファイルに格納させる。また、回覧された内容についてコメントがあれば、コメントも記入して保存できる。
  構文解析手段によって解析された後の検閲対象文書ファイルにおけるメモには、「α関連と推測」という箇所と、「製品Aの障害」という箇所が抽出され、その抽出箇所は、他の箇所と識別可能であるように出力表示(いわゆるハイライト表示)される。
  なお、図示を省略するが、抽出箇所における他の箇所と識別可能であるような出力表示とともに、修正の候補を表示し、さらにその修正候補を選択すれば修正が完了するように画面出力を提供しても良い。(Fig. 5)
 FIG. 5 specifically shows how the censored document file is analyzed by the syntax analysis means.
 The document file to be censored is an “electronic circulation board” that is circulated to all members in charge of technology development. The person who browsed electronically stores the data “read” in this document file to be censored. In addition, if there is a comment on the circulated content, it can be entered and saved.
 In the memo in the document file to be censored after being analyzed by the parsing means, the part “α-related and guessed” and the part “product A failure” are extracted, and the extracted part is distinguished from other parts. Output display (so-called highlight display) is performed as possible.
 Although illustration is omitted, an output display that can be distinguished from other locations in the extracted location is displayed, and correction candidates are displayed. Further, if the correction candidate is selected, a screen output is provided so that the correction is completed. You may do it.
    (図6)
  図6は、解析後の検閲対象文書ファイルが修正入力手段によってどのように修正されるかを具体的に示している。
  修正入力手段を操作したのは、修正候補を含む文書ファイルの作成担当者である。その担当者は、「α関連と推測」という箇所の修正は不要であると判断し、その判断を反映させている。  また、「製品Aの障害」というフレーズを含んだ箇所は、「改良に参考となる」というように修正し、その修正内容を確定させている。
  なお、端末上でカーソルを修正箇所に持っていくと、修正した理由がメモとして表示されるようにしている。換言すれば、修正入力手段において、メモ書きを追加できる機能を備えているということである。修正内容を他の人が見る場合の便宜のためである。
  この修正によって、製品Aが特許公開番号2011−abcd号に開示されている内容と抵触していることを伺わせる記載が、社内の文書ファイルとして保存されることを未然に防止したこととなる。(Fig. 6)
 FIG. 6 specifically shows how the censored document file after analysis is corrected by the correction input means.
 The person in charge of creating the document file including the correction candidates has operated the correction input means. The person in charge determines that the correction of the part “estimated as α-related” is unnecessary, and reflects the determination. In addition, a part including the phrase “product A failure” is corrected to “use as a reference for improvement”, and the correction content is confirmed.
 When the cursor is moved to the correction location on the terminal, the reason for the correction is displayed as a memo. In other words, the correction input means has a function for adding notes. This is for the convenience of others when viewing the corrections.
 By this modification, the description that indicates that the product A conflicts with the content disclosed in the patent publication number 2011-abcd is prevented from being saved as an in-house document file.
    (図7)
  図7もまた、検閲対象文書ファイルが、構文解析手段によってどのように解析されるかについて具体的に示したものであり、検閲対象文書ファイルは「発明届出書」である。
  構造解析手段は、「怪我をするおそれ」と「怪我のおそれ」という二カ所を抽出している。(Fig. 7)
 FIG. 7 also specifically shows how the censored document file is analyzed by the syntax analysis means, and the censored document file is an “invention notification form”.
 The structural analysis means extracts two places: “injury” and “injury”.
    (図8)
  図8もまた、解析後の検閲対象文書ファイルが修正入力手段によってどのように修正されるかを具体的に示したものである。
  文書ファイルの作成担当者は、構造解析手段が抽出した部位のみならずその前の部分までを、修正前の文言を一切使わず、大幅に修正している。  このような修正をしたのは、いわゆる製造物責任法において、自社製品の危険性を認識しながら放置したと解釈されかねない記載が、社内の文書として保存されることを未然に防止するためである。なおここでも、端末上でカーソルを修正箇所に持っていくと、修正した理由がメモとして表示される(図中では、製造物責任法を「PL法」と表示している)。
  なお、図示を省略しているが、修正後の検閲対象文書ファイルに対して、再分析の必要があるか否かを質問し、修正後の再分析も可能としている。(Fig. 8)
 FIG. 8 also specifically shows how the censored document file after analysis is corrected by the correction input means.
 The person in charge of creating the document file significantly corrects not only the part extracted by the structural analysis means but also the part before it, without using any wordings before the correction. The reason for making such amendments is to prevent the so-called Product Liability Act from preserving descriptions that could be interpreted as being left unrecognized while recognizing the dangers of our products. is there. In this case as well, when the cursor is moved to the correction location on the terminal, the reason for the correction is displayed as a memo (in the figure, the product liability law is displayed as “PL Law”).
 Although not shown in the figure, the revised document file to be censored is asked whether reanalysis is necessary, and the reanalysis after correction is also possible.
    (図9)
  図9では、検閲対象文書ファイルがどのような理由で修正されるかを例示している。
  修正前の検索対象文書ファイルの中には、以下のようなフレーズが存在していたとする。  『当社製品「A」が、例の安全基準に対してセーフであるとは思えない。』
  最初の「A」は、固有名詞または登録商標に係る名称であるため、普通名称に変換している。  なお、社内文書には、こうした固有名詞や登録商標に係る名称がいろいろな部署で使われる蓋然性が高いので、予め変換テーブルをNG判定用辞書データベースに備えることとしてもよい。
  営業先への提案書や自社ホームページに掲載する文書が検閲対象文書である場合、競合他社名や競合他社における製品の固有名称などについては、比較広告に該当する可能性がある。比較広告となってしまう事態を未然に防止するため、具体的な競合他社の名称を「競合他社」と抽象化したり、製品の固有名称を「製品の一般名称」としたりする変換テーブルを予め備える場合もある。(Fig. 9)
 FIG. 9 illustrates why the censored document file is modified.
 Assume that the following phrase exists in the search target document file before correction. “I don't think our product“ A ”is safe against the example safety standards. ]
 Since the first “A” is a name associated with a proper noun or a registered trademark, it is converted to a common name. Note that in-house documents have a high probability that names associated with proper nouns and registered trademarks will be used in various departments, so a conversion table may be provided in the NG determination dictionary database in advance.
 If a proposal to a business partner or a document posted on the company's homepage is a document to be censored, the name of the competitor, the unique name of the product in the competitor, etc., may fall under comparative advertising. In order to prevent the occurrence of comparative advertisements, a conversion table that abstracts the names of specific competitors as “competitors” or sets the product unique name as “general name of product” is provided in advance. In some cases.
次に、「例の安全基準」といった略語または隠語を、普通に用いられる用語(Z号安全基準)に変換している。 略語は、社内どころか、社内の他の部署でも通じない用語があるため、変換の必要性が高い。 また、隠語については、裁判などにおいては不利な証拠となりかねないため、変換の必要性が高い。 Next, abbreviations or concealments such as “example safety standards” are converted into commonly used terms (No. Z safety standards). Abbreviations need to be converted because some terms are not understood by other departments in the company. In addition, there is a high need for conversion of slang words because they can be disadvantageous evidence in trials.
  次に、「セーフであるとは思えない」という二重否定の構文を、構文解析手段が指摘し、管理部門の担当者が修正している。
  二重否定のフレーズは一般的にわかりにくく、正確な表現ではないためである。修正前における該当箇所の前後との整合性から、「安全性を確認したい」という修正を行った。Next, the syntax analysis means pointed out the double negation syntax “I don't think it is safe”, and the person in charge in the management department has corrected it.
 This is because double negative phrases are generally difficult to understand and are not accurate. From the consistency with the relevant part before and after the revision, the revision “I want to confirm safety” was made.
    (図10)
  図10は、検閲対象文書ファイルが複数回の修正を経て戻される場合を概念的に示している。
  被管理部門のA氏が検閲対象文書ファイルを作成したとする。なお、A氏の作成段階においても、A氏が文書ファイルを作成していた端末は、NG判定用辞書記憶部にアクセスし、NGワードやNG文例に該当する入力を指摘していたとする。
  前記の検閲対象文書ファイルが管理部門へ送信され、管理部門のB氏が検閲対象文書ファイルを閲覧し、B氏ができる範囲で修正をし、判断がつかない箇所を保留して、上司であるC氏に係る端末へ、第一修正ファイルを保留箇所である旨のメモデータを付属させて送信する。(Fig. 10)
 FIG. 10 conceptually shows a case where the censored document file is returned after being corrected a plurality of times.
 Assume that Mr. A of the managed department has created a document file to be censored. In the creation stage of Mr. A, it is assumed that the terminal where Mr. A has created the document file accesses the NG determination dictionary storage unit and points out an input corresponding to an NG word or an NG sentence example.
 The document file to be censored is sent to the management department, Mr. B of the management department browses the document file to be censored, makes corrections as far as Mr. B can do, holds the part that cannot be judged, and is the supervisor The memo data indicating that the first correction file is a reserved part is attached to the terminal associated with Mr. C and transmitted.
  C氏は、保留箇所である旨のメモデータと、その保留箇所を見ながら、必要な修正を入力し、第二修正ファイルとして被管理部門の端末(A氏に係る端末)と、文書サーバとに送信する。また、B氏に係る端末へも送信する。
  以上の手順を踏めば、管理部門においてダブルチェック、A氏の自己チェックを含めればトリプルチェックを実行できたこととなる。  B氏が管理業務に成熟していない場合には、B氏のスキルアップにも寄与する。Mr. C inputs memo data indicating that it is a reserved part and a necessary correction while looking at the reserved part, as a second corrected file, a terminal of the managed department (terminal related to Mr. A), a document server, Send to. It is also transmitted to the terminal related to Mr. B.
 By following the above procedure, the double check can be executed in the management department and the triple check can be executed if Mr. A's self-check is included. If Mr. B is not matured in management work, it will contribute to Mr. B's skill improvement.
    (図11)
  図11は、修正後の文書ファイルに対し、電子的なタイムスタンプを付与するシステムについて説明するための概念図である。手順をカッコ書きのローマ数字で示している。
  まず、タイムスタンプを欲する文書ファイル(ここでは、修正後の文書ファイルとしているが、修正前や修正中でも、必要に応じて含めてもよい)をタイムスタンプ要求手段にかける。  NG文言サーバ内のタイムスタンプ要求手段は、その文書ファイルのハッシュ値を算出し、第三者機関に係るサーバへ、そのハッシュ値をインターネット経由で送信する。(Fig. 11)
 FIG. 11 is a conceptual diagram for explaining a system for giving an electronic time stamp to a corrected document file. The procedure is shown in parenthesized Roman numerals.
 First, a document file that wants a time stamp (here, it is a document file after correction, but may be included before or during correction, if necessary) is applied to the time stamp requesting means. The time stamp requesting means in the NG wording server calculates the hash value of the document file and transmits the hash value to the server related to the third party via the Internet.
  第三者機関に係るサーバは、更に時刻認証局へインターネット経由でアクセスし、そのハッシュ値に対してタイムスタンプを取得する。そして、タイムスタンプ登録証をNG文言サーバへ返信する。
  受信したタイムスタンプ登録証は、修正後の文書ファイルに合成する。タイムスタンプ登録証が合成された文書ファイルは、保存すべきデータベースに保存する。  その文書ファイルを必要とする端末が呼び出すと、タイムスタンプが押された文書ファイルが出力される。The server related to the third-party organization further accesses the time certification authority via the Internet, and acquires a time stamp for the hash value. Then, a time stamp registration certificate is returned to the NG wording server.
 The received time stamp registration certificate is combined with the corrected document file. The document file combined with the time stamp registration certificate is stored in a database to be stored. When a terminal that requires the document file calls it, the document file with the time stamp is output.
  前記の例示では、文書ファイルそのものではなくその文書ファイルのハッシュ値を第三者機関へ送信することとしたが、文書ファイルそのものを第三者機関へ送信することとしても良い場合はある。
  また、前記の例示では、第三者機関と時刻認証局とを分けて説明したが、時刻認証局が第三者機関として直接タイムスタンプを発行、発送することとしてもよい。In the above example, the hash value of the document file is transmitted to the third party instead of the document file itself. However, there are cases where the document file itself may be transmitted to the third party.
 In the above example, the third party organization and the time certificate authority are described separately. However, the time certificate authority may issue and send a time stamp directly as a third party authority.
    (図12)
  図12は、既に格納された文書ファイルのデータベースや、送信を終えたメールの送信済みメールの保存データベースに対して、事後的にNGワードやNG文例に該当しないかどうかをチェックする場合を示したものである。
  図2と同様、NG文言サーバに送信されてきた検閲対象文書は、構文解析手段に入力され、構文解析手段では、前記のNG判定用辞書データベースのデータを用いるとともに、単語間の係り受け関係を抽出する構文分析手段などに基づいて、検閲対象文書ファイルにNGワードやNG文章が使用されているか否かを解析する。(Fig. 12)
 FIG. 12 shows a case where it is checked whether the document file database that has already been stored or the stored database of the mail that has already been sent is not applicable to an NG word or an NG sentence example. Is.
 As in FIG. 2, the document to be censored sent to the NG wording server is input to the syntax analysis means, which uses the data in the dictionary database for NG determination and determines the dependency relationship between words. Based on the syntax analysis means to extract, etc., it is analyzed whether or not NG words or NG sentences are used in the censored document file.
    (事後的なNGチェック)
  文書ファイルが作成され、必要なチェックもなされ、格納された後に、事後的に登録されたNGワードやNG文例に該当してしまうことがある。  図12に示したように、一旦格納された文書ファイルに対しても、事後的に構文解析を実行することができるようにしてもよい。  ただし、事後的な構文解析は、修正候補の文言を含む対象文書を抽出するにとどめる。  修正入力手段によってデータを修正できるが、修正した文書ファイルは上書きをせず、別名でなければ保存できないようにしている。
  なお、送信済みメールの保存データベースではなく、メールサーバ全体を検閲対象とすることで、事前のNGチェックとしてもよい。(Ex-post NG check)
 After a document file is created, necessary checks are made, and stored, it may correspond to an NG word or an NG sentence example registered afterwards. As shown in FIG. 12, it may be possible to execute syntax analysis later on a document file once stored. However, the subsequent parsing only extracts the target document including the wording of the correction candidate. Data can be corrected by the correction input means, but the corrected document file is not overwritten and can only be saved with a different name.
 In addition, it is good also as a prior | preceding NG check by making the whole mail server the object of censorship instead of the storage database of the transmitted mail.
    (図13)
  図13に示す実施形態は、図1(文書ファイルを作成した端末において検閲対象文書ファイルを修正する実施形態)と異なり、管理部門が検閲対象文書ファイルを修正する実施形態を示すブロック図である。
  解析結果送信手段は、管理部門の端末へ検閲対象文書ファイルを送信する。そして、その端末の操作者(管理者)は、端末において出力された修正候補などを参照しながら、修正データを入力する。
  管理部門によって修正データを入力して適正文書ファイルとなった文書ファイルは、検閲対象文書ファイルが保存されていた文書サーバへ送信される。(Fig. 13)
 The embodiment shown in FIG. 13 is a block diagram showing an embodiment in which the management department modifies the censored document file, unlike FIG. 1 (embodiment in which the censored document file is modified in the terminal that created the document file).
 The analysis result transmitting means transmits the censored document file to the terminal of the management department. Then, the operator (administrator) of the terminal inputs correction data while referring to the correction candidates output from the terminal.
 The document file that has become the proper document file by inputting the correction data by the management department is transmitted to the document server in which the document file to be censored is stored.
    (図14)
  図14では、検閲対象文書を所定周期にてNG文言サーバへ送信することを概念的に示している。
  (A)は平常時であり、予め設定した所定周期にて検閲対象文書をNG文言サーバが受信し、NG判定をする。
  (B)は非平常時であり、たとえば公的入札日を中心として前後一ヶ月の期間は、平常時の三分の一ほどの周期にて検閲対象文書をNG文言サーバが受信し、NG判定をするのである。  こうすることによって、法律条例や契約を遵守できないような文書データが放置される期間を減らすことに寄与する。(Fig. 14)
 FIG. 14 conceptually shows that the document to be censored is transmitted to the NG wording server at a predetermined cycle.
 (A) is normal, and the NG wording server receives the censored document at a predetermined cycle set in advance, and makes an NG determination.
 (B) is a non-normal period. For example, during the period of one month before and after the date of the public tender, the NG wording server receives the document to be censored at a period of about one third of the normal period. To do. By doing so, it contributes to reducing the period in which document data that cannot comply with legal regulations and contracts is left unattended.
    (図15)
  図15はNGワード等の集計をして出力する場合の例であり、(A)は、一ヶ月間の部署別のNG数を棒グラフによって出力した例である。(B)は、抽出したNGワードの種類毎のNG数を棒グラフによって出力した例である。
  こうした出力を通じて、同じ誤りを繰り返さないような効果も期待できる。(Fig. 15)
 FIG. 15 shows an example in which NG words and the like are aggregated and output, and FIG. 15A shows an example in which the number of NGs for each department for one month is output as a bar graph. (B) is an example in which the number of NGs for each type of extracted NG word is output as a bar graph.
 Through such output, the effect of not repeating the same error can be expected.
    (図16)
  図16は、NGワード等の集計をして出力する場合の例であり、部署毎にNGワードの内訳までを一緒に示した出力例である。
  部署毎の出力例としたが、個人別(端末毎)の出力とすることも可能である。(Fig. 16)
 FIG. 16 shows an example in which NG words and the like are aggregated and output, and is an output example in which the breakdown of NG words is shown together for each department.
 Although an example of output for each department has been described, it is also possible to output for each individual (for each terminal).
    (図17)
  図17は、NGワード等の集計をして出力する場合の例であり、(A)がレーダーチャート、(B)が三次元グラフである。
  図16および図17以外の主な出力としては、たとえばいわゆるバブルチャートがある。(Fig. 17)
 FIG. 17 shows an example in which NG words and the like are aggregated and output. (A) is a radar chart and (B) is a three-dimensional graph.
 As main outputs other than FIGS. 16 and 17, for example, there is a so-called bubble chart.
    (翻訳への応用)
  ここまでの記載では、法律的な背景から、不適切な表現を効率的に発見し、未然に修正することを趣旨として説明してきたが、別の用途もあり得る。例えば、法律の面のみならず、グローバル企業においては一つの文書ファイルを複数の言語へ翻訳する必要がある場合も多く、その翻訳に誤りがないように、あわよくば機械翻訳で済むようにする、という目的として使用しても有益である。(Application to translation)
 In the description so far, for the purpose of legal discovery, inappropriate expression has been efficiently discovered and corrected in advance, but there are other uses. For example, not only legally but also global companies often need to translate a single document file into multiple languages, so that machine translation can be used to avoid errors in the translation. It is also useful to use as a purpose.
    (組織内の略語や隠語)
  本実施形態に係る文書管理装置を導入する組織、またはその組織内の更に細かな組織(部署)内においてのみ通用している略語、特殊用語、隠語などについては、前述のNG言語辞書データベースとは別に、特殊用語データベースを備えることとしてもよい。  その場合、その特殊用語データベースには、それぞれの略語、特殊用語、隠語などに対応する一般用語をそれぞれ登録しておく。
  検閲対象文書において、特殊用語データベースに登録されている用語が使われている場合には、一般用語に変換する。  そして、前述の修正入力手段を操作する管理者等が表示させる出力画面においては、その用語が変換された旨を認識できるように表示する。
  なお、部署毎よりも更に細かく、例えば担当者毎にそれぞれNG判定用辞書データベースを準備してもよい。(Abbreviations and secret words in the organization)
 For the abbreviations, special terms, slang words, etc. that are valid only in the organization that introduces the document management apparatus according to the present embodiment, or in a more detailed organization (department) in the organization, what is the NG language dictionary database described above? Alternatively, a special term database may be provided. In that case, general terms corresponding to each abbreviation, special term, secret word, etc. are registered in the special term database.
 If a term registered in the special term database is used in the document to be censored, it is converted to a general term. Then, on the output screen displayed by the administrator or the like who operates the above-described correction input means, it is displayed so that the fact that the term has been converted can be recognized.
 It should be noted that an NG determination dictionary database may be prepared for each person in charge, for example, more finely than for each department.
    (NGランク)
  NG文言辞書データベースへ予め格納されるNGワードは、そのNGワード毎にランクデータを含ませることとしてもよい。たとえば、
独占禁止法の規制を受ける部署におけるNGワードについては、「不正に該当する」、「不正の可能性がある」、「不正と誤解される可能性がある」、といった危険レベルに関するランクデータを含ませる。
  そして解析処理結果出力手段は、検閲対象となる文書ファイルにおいてNGワードを出力する際に、当該NGワードのランクデータに応じた識別が可能なランク表示を含ませることとしてもよい。
  この場合、修正を担当する者は、そのランクデータを意識しながら修正作業が行える。(NG rank)
 The NG word stored in advance in the NG word dictionary database may include rank data for each NG word. For example,
 NG words in departments subject to antitrust laws include rank data on risk levels such as “corrupt”, “possible fraud”, “possibly misunderstood” Make it.
 The analysis processing result output means may include a rank display that can be identified according to rank data of the NG word when outputting the NG word in the document file to be censored.
 In this case, the person in charge of the correction can perform the correction work while being aware of the rank data.
    (検閲対象文書の分類)
  検閲対象文書について分類が可能な場合には、NG文言辞書データベースにおいて格納されるNGワードやNG文言についても、対象とする検閲対象文書の種類についてのデータを予め入力しておいたり、追加で登録したりするようにする。  たとえば、検閲対象文書が発明届出書である場合に特有なNGワードやNG文言であるときには、検閲対象文書が発明届出書である場合にのみ、構文解析手段を用いるようにする。
  なお、形態素解析手段が解析できないファイル、たとえば紙に描かれた資料をスキャニングしたのみの画像データファイルに対しては、OCR処理を実行してから形態素解析処理を実行する。(Classification of documents subject to censorship)
 If the document to be censored can be classified, data on the type of the document to be censored is entered in advance or registered for the NG word or NG word stored in the NG word dictionary database. To do. For example, when the censored document is an invention notification form, the parse word is used only when the censored document is an invention notification form.
 For a file that cannot be analyzed by the morpheme analyzer, for example, an image data file obtained by simply scanning a material drawn on paper, the morpheme analysis process is executed after the OCR process is executed.
    (応用例)
  前述してきた実施形態においては、組織における文書ファイル保存前の文書チェック補助技術として説明したが、本発明に示すアイディアのコンセプトは、契約書の作成支援システム、特許明細書の作成支援システムなどにも応用可能である。
  特許明細書の作成支援システムにおけるNGワードとしては、例えば登録商標となっている自社や競合他社の製品名がある。  これらの製品名は、その製品を示す普通名称に自動変換することとしてもよい。  すなわち、NG判断用辞書データベース内のOKワードを格納したデータベースに、その製品を示す普通名称を登録しておき、登録商標となっている自社や競合他社の製品名が検閲対象文書ファイルに含まれていたら、自動変換するのである。(Application examples)
 In the embodiment described above, the document check assisting technology before storing the document file in the organization has been described. However, the idea concept shown in the present invention is also applied to a contract creation support system, a patent specification creation support system, and the like. Applicable.
 As an NG word in the patent specification creation support system, for example, there are registered product names of the company and competitors. These product names may be automatically converted to ordinary names indicating the products. In other words, the normal name indicating the product is registered in the database storing the OK word in the dictionary database for NG judgment, and the product name of the company or competitor that is the registered trademark is included in the censored document file. If so, it will be converted automatically.
    (文書廃棄ルールとの関係)
  組織内では文書データの廃棄ルールが定められていることが多く、たとえば、経理書類は、10年間は廃棄しないと社内規程にて定まっているとする。  このような文書データの廃棄ルールを文書データ廃棄ルール格納手段に蓄積して検閲対象となる文書データを所定の文書サーバから端末からの操作によって廃棄削除しようとした場合、前記文書データ廃棄ルール格納手段に蓄積された廃棄ルールに従っているか否かを判断する。
  その廃棄ルール判断手段が廃棄不能と判断した場合には、前記文書データ廃棄手段による文書データの廃棄削除の実行前に警告を当該端末へ出力する。たとえば、「削除しようとしている文書データは、経理書類に分類されているので、10年経過しなければ廃棄できません。」といった警告を出力する。
  これによって、文書データ廃棄ルールの遵守を促したり、ルールが破られる土壌が形成されることを抑制したりすることとなる。
(Relationship with document disposal rules)
 Document data disposal rules are often established within an organization. For example, it is assumed that accounting documents are determined according to company regulations so that they are not discarded for 10 years. When such document data discarding rules are accumulated in the document data discarding rule storing unit and the document data to be censored is to be discarded and deleted from the predetermined document server by an operation from the terminal, the document data discarding rule storing unit It is determined whether or not the disposal rules stored in the database are being followed.
 If the discard rule determining unit determines that the document cannot be discarded, a warning is output to the terminal before the document data discarding unit executes the document data discarding / deletion. For example, a warning such as “The document data to be deleted is classified as an accounting document and can only be discarded after 10 years has passed” is output.
 As a result, compliance with the document data disposal rules is promoted, and formation of soil that breaks the rules is suppressed.
本発明は、所定の組織内のイントラネットを構築するシステムインテグレータ、イントラネットにインストールするためのソフトウェア開発をするソフトウェア開発業、イントラネットを構築するためのハードウェア製造業、インターネットを通じたASP事業などにおいて利用可能性を有する。 The present invention can be used in a system integrator that builds an intranet in a predetermined organization, a software development business that develops software for installation on an intranet, a hardware manufacturing industry that builds an intranet, an ASP business through the Internet, etc. Have sex.
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| JP2011255200AJP5735403B2 (en) | 2011-11-22 | 2011-11-22 | Document management device | 
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| JP2011255200AJP5735403B2 (en) | 2011-11-22 | 2011-11-22 | Document management device | 
| Publication Number | Publication Date | 
|---|---|
| JP2013109642A JP2013109642A (en) | 2013-06-06 | 
| JP5735403B2true JP5735403B2 (en) | 2015-06-17 | 
| Application Number | Title | Priority Date | Filing Date | 
|---|---|---|---|
| JP2011255200AExpired - Fee RelatedJP5735403B2 (en) | 2011-11-22 | 2011-11-22 | Document management device | 
| Country | Link | 
|---|---|
| JP (1) | JP5735403B2 (en) | 
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| JP5636082B1 (en)* | 2013-10-08 | 2014-12-03 | 株式会社ワイズ | Advertising information sharing system | 
| JP5627820B1 (en)* | 2014-02-04 | 2014-11-19 | 株式会社Ubic | Document analysis system, document analysis method, and document analysis program | 
| WO2015118619A1 (en)* | 2014-02-04 | 2015-08-13 | 株式会社Ubic | Document analysis system, document analysis method, and document analysis program | 
| JP5851007B2 (en)* | 2014-09-30 | 2016-02-03 | 株式会社Ubic | Document analysis system, document analysis method, and document analysis program | 
| JP6016963B2 (en)* | 2015-02-26 | 2016-10-26 | 京セラドキュメントソリューションズ株式会社 | Document editing device | 
| JP6663968B2 (en)* | 2018-07-04 | 2020-03-13 | 株式会社LegalForce | Document creation program and information processing device | 
| JP7286133B2 (en)* | 2018-12-04 | 2023-06-05 | 株式会社ひらめき | Computer program, information processing device, and trademark determination method | 
| JP7496584B1 (en) | 2023-03-27 | 2024-06-07 | 株式会社Tokium | PROGRAM, COMPUTER AND INFORMATION PROCESSING METHOD | 
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| JPH11203298A (en)* | 1998-01-08 | 1999-07-30 | Nippon Telegr & Teleph Corp <Ntt> | Post character information pre-check method and apparatus, and storage medium storing post character information pre-check program | 
| JP2003242078A (en)* | 2002-02-18 | 2003-08-29 | Hitachi Ltd | Electronic bulletin board system | 
| JP4234139B2 (en)* | 2006-01-19 | 2009-03-04 | 株式会社ガーラ | Electronic bulletin board system | 
| JP4242892B2 (en)* | 2006-12-22 | 2009-03-25 | 株式会社メディア・マジック | Electronic bulletin board monitoring system and electronic bulletin board monitoring program | 
| Publication number | Publication date | 
|---|---|
| JP2013109642A (en) | 2013-06-06 | 
| Publication | Publication Date | Title | 
|---|---|---|
| JP5735403B2 (en) | Document management device | |
| US11461859B1 (en) | Method for improving document review performance | |
| Agarwal et al. | Legislative compliance assessment: framework, model and GDPR instantiation | |
| US8127365B1 (en) | Origination-based content protection for computer systems | |
| Hasan Dalip et al. | Automatic quality assessment of content created collaboratively by web communities: a case study of wikipedia | |
| US9342505B2 (en) | Translation protocol for large discovery projects | |
| US10089287B2 (en) | Redaction with classification and archiving for format independence | |
| CN103443787B (en) | A system for identifying textual relationships | |
| US20160321582A1 (en) | Device, process and system for risk mitigation | |
| US20110099052A1 (en) | Automatic checking of expectation-fulfillment schemes | |
| US20150032645A1 (en) | Computer-implemented systems and methods of performing contract review | |
| US8661059B1 (en) | Compliance framework database schema | |
| JP2019114285A (en) | Legal document review program, legal document review method, and legal document review system | |
| US20150106378A1 (en) | Document Categorization By Rules and Clause Group Scores Associated with Type Profiles Apparatus and Method | |
| US9165065B2 (en) | Terminology management database | |
| US20150106385A1 (en) | Transformation of Documents To Display Clauses In Variance From Best Practices and Custom Rules Score Apparatus and Method. | |
| CN104756067A (en) | Method and system for managing metadata | |
| Branting et al. | Decision support for detecting sensitive text in government records: Anonymous submission | |
| US20240403982A1 (en) | Contract document review program, contract document review apparatus, and contract document review method | |
| Sane et al. | Semantically rich framework to automate cyber insurance services | |
| Barker et al. | Tools, techniques, methods, and processes for the detection and mitigation of fraudulent or erroneous data in evidence synthesis: a scoping review protocol | |
| US20150106276A1 (en) | Identification of Clauses in Conflict Across a Set of Documents Apparatus and Method | |
| JP5683428B2 (en) | Document management device | |
| Nguyen et al. | Scientific Integrity of Researchers in Scholarly Publishing | |
| Xie | Evaluation of the electronic document and record management program in a Canadian municipality | 
| Date | Code | Title | Description | 
|---|---|---|---|
| A621 | Written request for application examination | Free format text:JAPANESE INTERMEDIATE CODE: A621 Effective date:20140304 | |
| A977 | Report on retrieval | Free format text:JAPANESE INTERMEDIATE CODE: A971007 Effective date:20140827 | |
| A131 | Notification of reasons for refusal | Free format text:JAPANESE INTERMEDIATE CODE: A131 Effective date:20140924 | |
| A521 | Written amendment | Free format text:JAPANESE INTERMEDIATE CODE: A523 Effective date:20141121 | |
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) | Free format text:JAPANESE INTERMEDIATE CODE: A01 Effective date:20150414 | |
| A61 | First payment of annual fees (during grant procedure) | Free format text:JAPANESE INTERMEDIATE CODE: A61 Effective date:20150416 | |
| R150 | Certificate of patent or registration of utility model | Ref document number:5735403 Country of ref document:JP Free format text:JAPANESE INTERMEDIATE CODE: R150 | |
| LAPS | Cancellation because of no payment of annual fees |