Movatterモバイル変換


[0]ホーム

URL:


FR2842332A1 - Method for managing information on the basis of concepts arising from knowledge of the related domain, comprises creation of ontological organiser, information classification and information search - Google Patents

Method for managing information on the basis of concepts arising from knowledge of the related domain, comprises creation of ontological organiser, information classification and information search
Download PDF

Info

Publication number
FR2842332A1
FR2842332A1FR0208775AFR0208775AFR2842332A1FR 2842332 A1FR2842332 A1FR 2842332A1FR 0208775 AFR0208775 AFR 0208775AFR 0208775 AFR0208775 AFR 0208775AFR 2842332 A1FR2842332 A1FR 2842332A1
Authority
FR
France
Prior art keywords
concepts
text
concept
texts
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
FR0208775A
Other languages
French (fr)
Inventor
Christophe Roche
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ONTOLOGOS
Original Assignee
ONTOLOGOS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ONTOLOGOSfiledCriticalONTOLOGOS
Priority to FR0208775ApriorityCriticalpatent/FR2842332A1/en
Publication of FR2842332A1publicationCriticalpatent/FR2842332A1/en
Withdrawnlegal-statusCriticalCurrent

Links

Classifications

Landscapes

Abstract

The method is characterised by the creation of trade ontology and terminology (4,5). To classify a document it is processed (6), concepts extracted (7), ontology chosen (8) and sorted (9) against reliable concepts, differences and key words. A document is found via stages of trade terminology choice (10), search for ontological concepts (11), identification of concepts (12), identification of concepts (13) and identification (15).

Description

Translated fromFrench

La présente invention concerne un procédé de gestion d'informations enThe present invention relates to a method for managing information in

fonction des concepts issus de la connaissance du domaine concerné par ces informations. Elle a plus particulièrement pour objet un procédé de gestion d'informations en fonction des concepts issus des connaissances basées sur l'organisation  based on concepts derived from knowledge of the field concerned by this information. More particularly, it relates to a process for managing information according to concepts derived from knowledge based on organization.

ontologique de l'information.ontological information.

Ce procédé est particulièrement adapté à une gestion dite " intelligente " de  This process is particularly suitable for so-called "intelligent" management of

l'information quelle que soit sa nature texte, image, son...  information whatever its nature text, image, sound ...

D'une manière générale, on sait que la gestion de l'information est un des enjeux prioritaires des sociétés de l'information. Face à la quantité croissante des documents, il devient vital de pouvoir disposer de moyens de classification et de recherche de l'information qui puissent tenir compte du point de vue de  In general, we know that information management is one of the priority issues of information societies. Faced with the growing quantity of documents, it becomes vital to be able to have means of classification and information retrieval that can take into account the point of view of

l'utilisateur, du contexte et du contenu des documents.  the user, the context and the content of the documents.

Les approches classiques de gestion documentaire reposent principalement sur la gestion des mots clés pour l'indexation et la recherche de documents, indépendamment de la signification de ces mots clés et de l'utilisateur. Ce sont des techniques orientées par le mot et non par le sens. Or un même terme peut posséder des significations différentes d'un utilisateur à un autre, et la  Conventional approaches to document management rely mainly on keyword management for indexing and searching for documents, regardless of the meaning of these keywords and of the user. These are techniques oriented by word and not by meaning. The same term can have different meanings from one user to another, and the

pertinence d'un document peut varier pour ces mêmes utilisateurs.  relevance of a document may vary for these same users.

A titre d'exemple, on sait que le terme " mine " peut avoir plusieurs sens s mine de crayon, mine d'or et mine du visage; en linguistique diachronique, les deux premiers relèvent de la polysémie, tous deux issus de la même origine  For example, we know that the term "mine" can have several meanings: pencil lead, gold mine and facial mine; in diachronic linguistics, the first two come from polysemy, both from the same origin

latine; quant au troisième, issu du breton, il relève de l'homonymie.  Latin; the third, from Breton, is homonymous.

Ainsi le contexte joue un rôle fondamental dans la communication, au même 1o titre que dans la perception. Un message isolé peut être interprété de plusieurs manières différentes, voire incompatibles; dans un contexte précis, plusieurs sens possibles sont écartés par le fait même; inversement, un changement de  Context thus plays a fundamental role in communication, in the same way as in perception. An isolated message can be interpreted in several different, even incompatible, ways; in a specific context, several possible meanings are excluded by the very fact; conversely, a change of

contexte modifiera le sens du message.  context will change the meaning of the message.

Actuellement les technologies de gestion de l'information, classées en cinq catégories, basées sur: * la recherche par mots clés, * la recherche par thesaurus, * la recherche par relations statistiques, e la recherche en langage naturel, * la catégorisation de textes, n'exploitent pas le potentiel de l'approche ontologique, consistant à créer un  Currently information management technologies, classified into five categories, based on: * search by keywords, * search by thesaurus, * search by statistical relationships, e search in natural language, * categorization of texts , do not exploit the potential of the ontological approach, consisting in creating a

vocabulaire partagé et consensuel des termes et des significations.  shared and consensual vocabulary of terms and meanings.

En effet, l'approche ontologique " marque " l'information par son sens, à la manière d'un " code à barre sémantique ", et garantit la cohérence, la  Indeed, the ontological approach "marks" information with its meaning, in the manner of a "semantic bar code", and guarantees consistency,

compréhension et la distribution du sens de l'information.  understanding and distribution of the meaning of information.

Néanmoins l'approche ontologique est complexe en termes de construction et  Nevertheless, the ontological approach is complex in terms of construction and

de maintenance.of maintenance.

Ainsi pour palier à cette insuffisance de pertinence dans la gestion de l'information qui caractérise les modèles existants, tout en bénéficiant de l'approche ontologique, l'invention propose, à cet effet, un procédé de classification et de recherche d'informations basé sur l'exploitation des traits  Thus to overcome this insufficiency of relevance in the management of information which characterizes existing models, while benefiting from the ontological approach, the invention proposes, for this purpose, a method of classification and search for information based on the exploitation of traits

s sémantiques différentiateurs, et de la relation d'hyperonymie des ontologies.  s differentiating semantics, and the hyperonymy relation of ontologies.

Selon l'invention, ce procédé comprend les phases opératoires suivantes: une première phase (phase 1) de création de l'organiseur ontologique, une seconde phase (phase 2) permettant le classement d'informations, et une  According to the invention, this method comprises the following operational phases: a first phase (phase 1) of creation of the ontological organizer, a second phase (phase 2) allowing the classification of information, and a

io troisième phase (phase 3) de recherche d'informations.  io third phase (phase 3) of information research.

Avantageusement, la première phase pourra comprendre la création d'un ensemble des ontologies, c'est-à-dire: * la création de l'ontologie par domaine de connaissances,  Advantageously, the first phase may include the creation of a set of ontologies, that is to say: * the creation of the ontology by area of knowledge,

a la création de la terminologie par domaine de connaissances.  the creation of terminology by area of knowledge.

La deuxième phase comprendra le classement des informations, c'est-àdire: * un traitement du contenu de l'information à classer, * une extraction des concepts associés à l'information à classer, a le choix de l'ontologie par domaine de connaissances en fonction de l'information à classer, * la classification par concepts srs, ou par unités de sèmes élémentaires, ou par mots clés,  The second phase will include the classification of information, that is to say: * processing the content of the information to be classified, * extracting the concepts associated with the information to be classified, choosing the ontology by domain of knowledge according to the information to be classified, * classification by srs concepts, or by units of elementary semes, or by keywords,

* la validation de l'information à classer.  * validation of the information to be classified.

La troisième phase comprendra la recherche, parmi les informations ainsi classées, d'informations particulières, c'est-à-dire: * le choix de la terminologie par domaine de connaissances en fonction de l'information à rechercher, e la recherche par concepts de l'ontologie, ou par unités de sèmes élémentaires, ou par mots clés, * l'identification des concepts,  The third phase will include the search, among the information thus classified, of specific information, that is to say: * the choice of terminology by area of knowledge according to the information to be sought, and the search by concepts of ontology, or by elementary semes units, or by keywords, * the identification of concepts,

* l'identification de l'information recherchée.  * identification of the information sought.

Ainsi ce procédé permettra d'offrir une organisation et une gestion de s l'information quelle que soit sa nature, en tenant compte: * du contenu de l'information, * du type de document supportant l'information, * du profil de l'utilisateur, * du domaine d'application, et ceci en garantissant: * la pertinence, c'est-à-dire qu'il ne retournera que les informations en relation avec la demande de l'utilisateur, * la complétude, c'est-à-dire qu'il retournera toutes les informations  Thus this process will make it possible to offer an organization and management of information whatever its nature, taking into account: * the content of the information, * the type of document supporting the information, * the profile of the 'user, * of the field of application, and this by guaranteeing: * relevance, that is to say that it will only return information related to the user's request, * completeness, c' that is, it will return all the information

en relation avec la demande de l'utilisateur.  in relation to the user's request.

Ainsi le procédé, selon l'invention, pourra répondre, en étant simple dans ses fonctionnalités et son paramétrage, à la nécessité absolue de tenir compte de la définition des mots en termes de concepts et de leurs relations sémantiques, en  Thus the method according to the invention will be able to respond, by being simple in its functionalities and its configuration, to the absolute need to take into account the definition of words in terms of concepts and their semantic relationships, by

particulier l'hyperonymie.especially hyperonymy.

Un mode d'exécution de l'invention sera décrit ci-après, à titre d'exemple non limitatif, avec référenceaux dessins annexés, dans lesquels: * la figure 1 représente schématiquement un procédé de gestion de documents en fonctions de concepts métiers, * la figure 2 représente schématiquement un contenu d'une ontologie métier, * la figure 3 représente des différents vocabulaires et leurs relations contenus dans une terminologie métier, * la figure 4 représente schématiquement un processus de classification de texte sur une ontologie, la figure 5 représente schématiquement un processus de recherche  An embodiment of the invention will be described below, by way of nonlimiting example, with reference drawings appended, in which: * FIG. 1 schematically represents a process for managing documents according to business concepts, * FIG. 2 schematically represents a content of a business ontology, * FIG. 3 represents different vocabularies and their relationships contained in a business terminology, * FIG. 4 schematically represents a process for classifying text on an ontology, FIG. 5 represents schematically a research process

de documents.of documents.

Dans l'exemple représenté sur la figure 1, la gestion de documents, c'està5 dire la classification et la recherche de documents, concerne une Entreprise caractérisée par ses métiers (bloc 1), son centre de gestion des connaissances (bloc 2) et ses utilisateurs (bloc 3) concernés par la classification et la  In the example shown in FIG. 1, document management, that is to say the classification and search for documents, concerns a Company characterized by its trades (block 1), its knowledge management center (block 2) and its users (block 3) affected by the classification and

recherche de documents.search for documents.

1o Comme indiqué ci-dessus, la première phase consiste à créer un ensemble des ontologies; cette étape concerne la création d'une part de l'ontologie métier (bloc 4) et d'autre part de la terminologie métier (bloc 5) associé à l'ontologie,  1o As indicated above, the first phase consists in creating a set of ontologies; this step concerns the creation on the one hand of the business ontology (block 4) and on the other hand of the business terminology (block 5) associated with the ontology,

effectuée par le gestionnaire des connaissances (bloc 2).  performed by the knowledge manager (block 2).

Si l'utilisateur (bloc 3) souhaite effectuer une classification d'un document à classer DI, le procédé effectue un traitement du contenu du document (bloc 6), puis l'extraction des concepts associés au texte (bloc 7); l'utilisateur (bloc 3) effectue préalablement un choix de l'ontologie métier (bloc 8) parmi les ontologies métiers proposées (bloc 4), puis une classification suivant trois possibilités (concepts srs, différences, mots clés) (bloc 9) à partir des concepts associés au texte (bloc 7); le document DI sera ainsi classifié dans la base de documents D. Si l'utilisateur (bloc 3) souhaite effectuer une recherche d'un document noté D2, extrait de la base de documents D, celui-ci effectue préalablement un choix de terminologie métier (bloc 10) parmi celles proposées par la terminologie métier (bloc 5), puis une recherche de concepts de l'ontologie suivant trois possibilités (concepts srs, différences, mots clés) (bloc 11), puis une identification des concepts (bloc 12), puis la simplification des concepts (bloc 13) puis l'identification du document recherché (bloc 15) à partir de la base de documents D, cette identification permettant d'en extraire le ou les  If the user (block 3) wishes to perform a classification of a document to be classified as DI, the method performs a processing of the content of the document (block 6), then the extraction of the concepts associated with the text (block 7); the user (block 3) first makes a choice of the business ontology (block 8) from the proposed business ontologies (block 4), then a classification according to three possibilities (srs concepts, differences, keywords) (block 9) to starting from the concepts associated with the text (block 7); the document DI will thus be classified in the database of documents D. If the user (block 3) wishes to carry out a search for a document noted D2, extracted from the database of documents D, the latter makes beforehand a choice of business terminology (block 10) among those proposed by business terminology (block 5), then a search for ontology concepts according to three possibilities (srs concepts, differences, keywords) (block 11), then an identification of concepts (block 12 ), then the simplification of the concepts (block 13) then the identification of the document sought (block 15) from the database D, this identification making it possible to extract the

document(s) recherché(s) D2.document (s) searched for D2.

Ces deux phases de classification et de recherche, décrites précédemment, sont conditionnées par la création d'un organiseur ontologique, objet de la phase 1. Cinq hypothèses doivent être préalablement posées, à savoir: * l'hypothèse principale est que les ontologies métier structurent les connaissances de l'Entreprise et fournissent une grille de lecture et de recherche de l'information basée sur les concepts métier; chaque ontologie utilisateur définit une structure particulière d'indexation  These two phases of classification and research, described above, are conditioned by the creation of an ontological organizer, the object of phase 1. Five hypotheses must be posed beforehand, namely: * the main hypothesis is that business ontologies structure the knowledge of the Company and provide a grid for reading and searching for information based on business concepts; each user ontology defines a specific indexing structure

des documents.documents.

* la seconde hypothèse est qu'il existe des terminologies métier, c'estàdire des lexiques propres à l'Entreprise, constitués de termes issus des ontologies et de mots s'y référant; une terminologie est associée  * the second hypothesis is that there are business terminologies, that is to say lexicons specific to the Company, made up of terms from the ontologies and words referring to them; associated terminology

de façon univoque à une ontologie.  unequivocally to an ontology.

* la troisième hypothèse est que le contenu d'une information est directement lié au métier de l'entreprise et qu'il peut-être décrit par un ensemble de couple " mots clés-fréquence ", sachant qu'un terme est un mot clé s'il appartient à une terminologie métier; à noter que si l'information est un texte, la fréquence est le nombre d'occurrences du mot dans le texte divisé par le nombre de mots clés. * la quatrième hypothèse est qu'il existe un certain nombre de méta25 informations dont principalement les notions de " nom de document ", de " date " et de " type de document "; ces notions seront prises en compte, sous une forme particulière, pour la  * the third hypothesis is that the content of information is directly linked to the business of the company and that it can be described by a set of "keyword-frequency" pair, knowing that a term is a keyword if it belongs to business terminology; note that if the information is a text, the frequency is the number of occurrences of the word in the text divided by the number of keywords. * the fourth hypothesis is that there are a certain number of meta25 information including mainly the notions of "document name", "date" and "document type"; these notions will be taken into account, in a particular form, for the

classification et la recherche des informations.  classification and information retrieval.

* la cinquième hypothèse est que la classification et la recherche de documents sont contextualisées par le profil utilisateur (choix d'une  * the fifth hypothesis is that the classification and the search for documents are contextualized by the user profile (choice of a

ontologie, d'une catégorie, paramétrage de la recherche...).  ontology, category, search settings ...).

Dans ces conditions, sachant que le mode d'exécution de l'invention préféré concerne le cas o les informations sont des textes, * le métier sera caractérisé par: - les terminologies de l'Entreprise, s - les ontologies, * le texte sera caractérisé par: - les méta-informations, - le contenu du texte exprimé en termes de mots-clés, * l'utilisateur sera caractérisé par:  Under these conditions, knowing that the preferred embodiment of the invention relates to the case where the information is text, * the business will be characterized by: - the terminologies of the Company, s - the ontologies, * the text will be characterized by: - meta-information, - the content of the text expressed in terms of keywords, * the user will be characterized by:

- le profil utilisateur.- the user profile.

L'organiseur ontologique repose sur la notion d'ontologie métier pouvant représenter aussi bien des métiers différents que différents points de vue d'un même utilisateur (les catégories permettent de se focaliser sur les concepts sémantiquement liés d'une même ontologie). La pertinence de la gestion et de  The ontological organizer is based on the notion of business ontology which can represent both different professions and different points of view of the same user (the categories allow us to focus on the semantically related concepts of the same ontology). The relevance of management and

la recherche des textes dépend directement de la " qualité " des ontologies.  the search for texts directly depends on the "quality" of the ontologies.

Selon les modes de représentation des figures 2 a 4, les concepts de l'ontologie métiers sont dénotés CI, C2, C3, C4, C5... les différences, ou unités de sèmes élémentaires entre Cl-C2, entre C3-C4... sont dénotées respectivement dl, d2... En se limitant aux vocabulaires des différences et des concepts, conformément à la figure 2, le groupe Cl -C5 représente une " catégorie "; CI représente un " concept racine "; l'ensemble est structuré selon " l'arbre de Porphyre ",  According to the modes of representation of Figures 2 to 4, the concepts of the business ontology are denoted CI, C2, C3, C4, C5 ... the differences, or units of elementary semes between Cl-C2, between C3-C4. .. are denoted respectively dl, d2 ... By limiting themselves to the vocabularies of differences and concepts, in accordance with FIG. 2, the group Cl -C5 represents a "category"; CI represents a "root concept"; the whole is structured according to "the Porphyry tree",

réseau du type hiérarchique caractérisé par sa binarité.  hierarchical type network characterized by its binarity.

Ainsi la construction des ontologies métier sera effectuée par le gestionnaire des connaissances (bloc 2) conformément à la figure 1. Il en sera de même  Thus the construction of the business ontologies will be carried out by the knowledge manager (block 2) in accordance with Figure 1. It will be the same

pour la création de la terminologie métier.  for creating business terminology.

Les terminologies de l'Entreprise sont des lexiques de spécialité dédiés à l'Entreprise. Elles représentent les différents points de vue possibles de  Company terminologies are specialist lexicons dedicated to the Company. They represent the different possible points of view of

l'Entreprise quant à son métier.the Company as for its trade.

Les terminologies sont constituées de mots décontextualisés (termes) dont les significations sont les concepts dénotés par les termes. Il est à noter qu'un  Terminologies are made up of decontextualized words (terms) whose meanings are the concepts denoted by the terms. It should be noted that

terme peut être une expression.term can be an expression.

Une terminologie est associée de façon univoque à une ontologie. Les mots de 1o la terminologie n'appartiennent pas tous au vocabulaire des concepts ou à celui des différences; c'est le cas d'attributs, des noms propres et des synonymes; néanmoins, l'ontologie métier étant au coeur du système, tous les termes de la terminologie associée font référence directement ou indirectement à des concepts par des relations qui peuvent être de nature diverse selon la catégorie du terme considéré: relation de définition pour les différences, relation d'appartenance pour le cas d'un attribut, relation d'instance dans le  Terminology is unequivocally associated with an ontology. The words of 1o terminology do not all belong to the vocabulary of concepts or that of differences; this is the case with attributes, proper names and synonyms; nevertheless, the business ontology being at the heart of the system, all the terms of the associated terminology refer directly or indirectly to concepts by relations which can be of diverse nature according to the category of the term considered: definition relation for differences, membership relationship for the case of an attribute, instance relationship in the

cadre de noms propres, relation de synonymie faible pour les autres termes.  framework of proper names, weak synonymy relationship for other terms.

Ainsi les mots de la terminologie sont soit: e un nom de concept, * un nom de catégorie, c'est-à-dire le nom d'un concept racine, * un nom de différence lié par une relation définitoire à un ou plusieurs concepts, ceux possédant la différence, * un nom d'attribut lié par une relation d'appartenance à un ou plusieurs concepts, * un nom propre lié par une relation d'instance à un concept, * un nom lié par une relation de type " synonyme faible " ou de  Thus the words of the terminology are either: e a concept name, * a category name, that is to say the name of a root concept, * a difference name linked by a definitive relation to one or more concepts, those with the difference, * an attribute name linked by a relation of belonging to one or more concepts, * a proper name linked by an instance relation to a concept, * a name linked by a type relation "weak synonym" or

" référence " à un nom de concept, de différence ou d'attribut.  "reference" to a concept, difference or attribute name.

Une terminologie métier est donc constituée de: * une ontologie métier, * le vocabulaire des catégories, * le vocabulaire des concepts, * le vocabulaire des différences, * le vocabulaire des noms propres, * le vocabulaire des attributs, * et le vocabulaire des synonymes: synonyme de concepts, de  A business terminology is therefore made up of: * a business ontology, * the vocabulary of categories, * the vocabulary of concepts, * the vocabulary of differences, * the vocabulary of proper names, * the vocabulary of attributes, * and the vocabulary of synonyms : synonymous with concepts,

différence et d'attribut.difference and attribute.

Les relations entre les différents vocabulaires, cités précédemment, et leurs relations sont représentées conformément à la figure 3. Il est à noter que la notion de " catégorie " joue un rôle important dans l'organisation et la structuration des concepts puisqu'elle permet de regrouper au sein d'une même structure (arbre de Porphyre) des concepts sémantiquement liés: le nom d'une catégorie est le nom d'un concept racine, c'est-à-dire le concept hyperonyme d'un ensemble de concepts, second fondement du procédé selon l'invention.  The relationships between the various vocabularies, mentioned above, and their relationships are represented in accordance with Figure 3. It should be noted that the notion of "category" plays an important role in the organization and structuring of concepts since it allows group together within the same structure (Porphyry tree) semantically related concepts: the name of a category is the name of a root concept, that is to say the hyperonym concept of a set of concepts, second basis of the method according to the invention.

Préalablement à la description des phase 2 (classification de document) et  Prior to the description of phase 2 (document classification) and

phase 3 (recherche de document), il est nécessaire de décrire le type de  phase 3 (document search), it is necessary to describe the type of

document et son contenu.document and its content.

Le type et l'auteur du document font partie des " méta "informations  The document type and author are part of the "meta" information

contenues dans le document lui-même.  contained in the document itself.

La description du contenu peut varier d'un utilisateur à un autre selon son  The description of the content can vary from one user to another depending on their

point de vue, c'est-à-dire des concepts métier qu'il utilise et plus précisément  point of view, that is to say of the business concepts he uses and more precisely

de sa terminologie métier.of its business terminology.

Ainsi à partir d'une terminologie donnée, le contenu d'un document est décrit  So from a given terminology, the content of a document is described

par les mots clés qu'il contient et leur fréquence.  by the keywords it contains and their frequency.

Sachant que les mots clés du texte sont obtenus en utilisant les huit s vocabulaires de la terminologie métier cités précédemment, à savoir: * le vocabulaire des catégories, ò le vocabulaire des concepts, * le vocabulaire des différences, * le vocabulaire des noms propres, e le vocabulaire des attributs, * et le vocabulaire des synonymes: synonyme de concepts, de différence et d'attribut, le contenu d'un texte, " MotsClésFréquences(texte) ", est représenté par un ensemble de couples " mot clé-fréquence du mot dans le texte "  Knowing that the key words of the text are obtained using the eight vocabularies of business terminology mentioned above, namely: * the vocabulary of categories, ò the vocabulary of concepts, * the vocabulary of differences, * the vocabulary of proper names, e the vocabulary of attributes, * and the vocabulary of synonyms: synonymous with concepts, difference and attribute, the content of a text, "KeywordsKeywordsFrequencies (text)", is represented by a set of couples "keyword-frequency of the word in the text "

MotsClésFréquences(texte) = ((mcl fl), (mc2 f2),...(mcn fni)).  KeywordsFrequencies (text) = ((mcl fl), (mc2 f2), ... (mcn fni)).

Par ailleurs l'ensemble des concepts associés au texte est déterminé à partir du  In addition, all of the concepts associated with the text are determined from the

contenu du texte; cet ensemble est noté: " ConceptsAssociés(texte) ".  content of the text; this set is noted: "AssociatedConcepts (text)".

De la même manière que précédemment, cet ensemble est constitué d'un ensemble de couples " concept-fréquence(notée prime) ", soit:  In the same way as above, this set is made up of a set of "concept-frequency couples (denoted prime)", that is:

ConceptsAssociés(texte) = ((cl fi1), (c2 f 2),...(cn f n)).  Associated Concepts (text) = ((cl fi1), (c2 f 2), ... (cn f n)).

L'ensemble des concepts associés au texte constitue le code barre sémantique  The set of concepts associated with the text constitutes the semantic barcode

du texte pour la terminologie considérée.  text for the terminology considered.

La détermination des concepts associés et de leur fréquence est faite à partir des mots clés de l'ensemble MotsClésFréquence(texte). Cependant, les mots clés ne sont pas tous de même nature et les concepts qu'ils référencent peuvent l'être de façon certaine ou probable. Les mots clés ne peuvent donc être traités  The determination of the associated concepts and their frequency is made from the keywords of the set of KeywordsKeywordsFrequency (text). However, the keywords are not all of the same nature and the concepts which they refer to can be certain or probable. Keywords cannot therefore be processed

de façon identique.identically.

Ainsi, les termes désignant un concept ou ceux qui sont synonymes de concepts, ainsi que les noms propres, désignent sans ambiguté des concepts. Il n'en est pas de même pour les différences qui désignent les concepts qui possèdent ces différences sans que le texte fasse nécessairement référence à  Thus, terms designating a concept or those which are synonyms of concepts, as well as proper names, unambiguously designate concepts. It is not the same for the differences which designate the concepts which have these differences without the text necessarily making reference to

tous ces concepts, ainsi que pour les attributs.  all of these concepts, as well as attributes.

Les concepts correspondant au premier cas cité précédemment doivent tenir une place plus importante que les concepts référencés par une différence ou un attribut. C'est pourquoi l'ensemble ConceptsAssociés(texte) sera subdivisé en deux sous-ensembles distincts et complémentaires, à savoir: ConceptsAssociés(texte) = ConceptsAssociésSrs(texte) u ConceptsAssociésPossibles(texte) Par conséquent, l'ensemble ConceptsAssociésSrs(texte) comprendra: e les noms de concept ou les synonymes de concept ainsi que leur nombre d'occurrences,  The concepts corresponding to the first case cited above must hold a more important place than the concepts referenced by a difference or an attribute. This is why the Associated Concepts (text) set will be subdivided into two distinct and complementary subsets, namely: Associated Concepts (text) = Possible Associated Concepts (text) u Possible Associated Concepts (text) Consequently, the Associated Concepts (text) set will include : e the concept names or the synonyms of concept as well as their number of occurrences,

* les noms propres et leur nombre d'occurrences.  * proper names and their number of occurrences.

L'ensemble ConceptsAssociésPossibles(texte) comprendra: e les noms de différence ou les synonymes de différence et leur nombre d'occurrences, * les noms d'attribut ou les synonymes d'attribut et leur nombre d'occurrences. Ainsi les concepts associés srs et possibles avec leur fréquence permettent de caractériser un texte en termes de " spectre " en fonction du nombre de concepts référencés, de " ciblage " indiquant la prédominance d'une catégorie ou d'un ou plusieurs concepts, ensemble de caractéristiques que la fonction  The set of PossibleAssociated Concepts (text) will include: e difference names or synonyms of difference and their number of occurrences, * attribute names or synonyms of attribute and their number of occurrences. Thus the associated concepts srs and possible with their frequency make it possible to characterize a text in terms of "spectrum" according to the number of concepts referenced, of "targeting" indicating the predominance of a category or one or more concepts, set of features that function

s recherche pourra exploiter pour une pertinence accrue.  s research will be able to exploit for increased relevance.

Cette fonction recherche présuppose une démarche classification, objet de la  This search function presupposes a classification process, the subject of the

phase 2.phase 2.

En préambule au processus de classification de document, à partir des 1o éléments décrits précédemment, on peut constater que le contenu de tout texte peut être caractérisé par un ensemble de mots clés, MotsClésfréquences(texte), à partir duquel sont construits et associés au texte, un ensemble de concepts  As a preamble to the document classification process, from the 1o elements described above, we can see that the content of any text can be characterized by a set of keywords, KeywordsKeywords (text), from which are built and associated with the text , a set of concepts

srs et un ensemble de concepts possibles.  srs and a set of possible concepts.

Réciproquement, on peut en déduire qu'à tout concept peuvent être associés un premier ensemble de textes pour lequel le concept est sr, noté TextesAssociésSrs(concept), et un deuxième ensemble de textes pour lequel  Conversely, we can deduce that with any concept can be associated a first set of texts for which the concept is sr, denoted TextesAssociésSrs (concept), and a second set of texts for which

ce concept est possible, noté TextesAssociésPossibles(concept).  this concept is possible, noted TextsAssociésPossibles (concept).

Une ontologie définit donc une structure d'indexation des documents o les  An ontology therefore defines a document indexing structure where the

concepts définissent autant de répertoires, appelés répertoires ontologiques.  concepts define as many repertoires, called ontological repertoires.

Conformément à la figure 1, l'utilisateur choisit dans un premier temps une ontologie métier (bloc 8), c'est-à-dire le point de vue sous lequel il classifiera  In accordance with Figure 1, the user first chooses a business ontology (block 8), that is to say the point of view under which he will classify

les documents.the documents.

De par son contenu, c'est-à-dire de par ses mots clés, un texte fait référence à un ou plusieurs concepts de l'ontologie. Le principe de l'organiseur ontologique est d'associer le texte aux concepts auxquels il fait référence en indiquant si les concepts sont pour le texte des concepts srs ou possibles:  By its content, that is to say by its keywords, a text refers to one or more concepts of ontology. The principle of the ontological organizer is to associate the text with the concepts to which it refers by indicating if the concepts are for the text of the concepts srs or possible:

c'est le principe de classification conformément à la figure 4.  this is the principle of classification according to figure 4.

Le classement d'un texte peut s'effectuer sur des concepts différents. Ainsi, un texte portant sur le fraisage et le tournage doit être classifié sur les concepts  The classification of a text can be done on different concepts. Thus, a text relating to milling and turning must be classified on the concepts

correspondants, soit C2 dans la figure 4, et non sur le concept hyperonyme CI.  corresponding, that is C2 in FIG. 4, and not on the hyperonym concept CI.

Les méthodes de classification et de recherche dépendent de ce postulat.  The classification and search methods depend on this premise.

La classification d'un texte sur une ontologie, c'est-à-dire l'association d'un texte à un ou plusieurs concepts d'une ou plusieurs catégories, peut s'effectuer de trois manières (bloc 9): * association à un ou plusieurs concepts srs, e association aux concepts possédant des différences sélectionnées,  The classification of a text on an ontology, that is to say the association of a text with one or more concepts of one or more categories, can be done in three ways (block 9): * association to one or more srs concepts, association with concepts having selected differences,

* association aux concepts référencés par les mots clés.  * association with the concepts referenced by the keywords.

L'association du texte à un ou plusieurs concepts srs est indépendante des mots clés du texte associés au concept; elle est particulièrement utile lorsque 1 5 les mots clés du texte référencent un ou plusieurs concepts qui ne sont pas  The association of the text with one or more srs concepts is independent of the keywords of the text associated with the concept; it is particularly useful when the keywords in the text refer to one or more concepts which are not

explicitement cités dans le texte.explicitly cited in the text.

L'association du texte à un ensemble de concepts possédant des différences sélectionnées est basée non plus directement sur les concepts mais sur les unités de sèmes élémentaires que sont les différences; il est cependant  The association of the text with a set of concepts having selected differences is no longer based directly on the concepts but on the units of elementary semes that are the differences; it is however

nécessaire que les différences sélectionnées ne soient pas antinomiques.  it is necessary that the selected differences are not mutually exclusive.

L'association aux concepts référencés par les mots clés tient compte du contenu du texte; chaque mot clé faisant référence à un ou plusieurs concepts, il est alors possible de rattacher le texte aux concepts référencés par les mots clés. -Ce mode de classification sera effectué en trois étapes: * extraction des mots clés et définition du contenu: ensemble MotsClésFréquences(texte) e détermination des concepts référencés par le contenu avec leur fréquence: ensemble ConceptsAssociés(texte), * association du texte à chaque concept en indiquant ses caractéristiques. Le texte est alors ajouté à l'ensemble TextesAssociésSrs(concept) de chaque concept de l'ensemble ConceptsAssociésSrs(texte) en indiquant ses caractéristiques globales, c'est-à-dire portant sur le texte lui-même, et ses  The association with the concepts referenced by the keywords takes into account the content of the text; each keyword referring to one or more concepts, it is then possible to attach the text to the concepts referenced by the keywords. -This classification mode will be carried out in three stages: * extraction of the keywords and definition of the content: set KeywordsKeywordsFrequencies (text) e determination of the concepts referenced by the content with their frequency: set ConceptsAssociés (text), * association of the text with concept indicating its characteristics. The text is then added to the TextsAssociésSrs (concept) set of each concept in the ConceptsAssociésSrs (text) set, indicating its global characteristics, i.e. relating to the text itself, and its

caractéristiques locales, c'est-à-dire relatives au concept.  local characteristics, that is to say relative to the concept.

De même, le texte est ajouté à l'ensemble TextesAssociésPossibles(concept) de l'ensemble ConceptsAssociésPossibles(texte) en indiquant ses  Likewise, the text is added to the set TextsAssociésPossibles (concept) of the set ConceptsAssociésPossibles (text) indicating its

1o caractéristiques globales et locales.  1o global and local characteristics.

Les caractéristiques du texte sont autant d'informations utiles qui seront exploitées pour une meilleure pertinence de la fonction recherche. Ces caractéristiques portent sur le concept lui-même (caractéristiques locales), par exemple la pertinence du texte pour le concept considéré, mais aussi sur le texte lui-même (caractéristiques globales), par exemple son spectre (nombre de concepts référencés), son ciblage, etc. Conformément à la figure 1, l'utilisateur peut effectuer une recherche de  The characteristics of the text are all useful information that will be used for better relevance of the search function. These characteristics relate to the concept itself (local characteristics), for example the relevance of the text for the concept considered, but also to the text itself (global characteristics), for example its spectrum (number of concepts referenced), its targeting, etc. According to Figure 1, the user can search for

document (phase 3).document (phase 3).

Cette procédure de recherche doit vérifier trois propriétés: * être pertinente, c'est-à-dire ne retourner que des textes en relation avec la demande de l'utilisateur, * être complète, c'est-à-dire retourner tous les textes en relation avec la demande de l'utilisateur,  This search procedure must verify three properties: * be relevant, that is, return only texts related to the user's request, * be complete, that is, return all texts in relation to the user's request,

* rester simple dans ses fonctionnalités et son paramétrage.  * keep it simple in its functionality and configuration.

Ces propriétés sont ainsi garanties par la procédure de classification qui effectue: * la distinction entre les textes portant d'une façon certaine sur un concept de ceux portant éventuellement sur le concept,  These properties are thus guaranteed by the classification procedure which carries out: * the distinction between the texts bearing in a certain way on a concept from those possibly bearing on the concept,

* l'exploitation de la relation d'hyperonymie des ontologies.  * the exploitation of the hyperonymy relation of ontologies.

Ainsi le processus de classification a permis de "projeter" les textes sur l'ontologie. A chaque concept sont associés deux ensembles de textes. Le premier, noté "TextesAssociésSrs (concept) ", contient les textes qui "parlent " de façon certaine du concept (le concept y est directement référencé par son nom, un synonyme ou un nom propre). Le deuxième 1o ensemble, noté " TextesAssociésPossibles(concept), contient des textes qui font éventuellement référence au concept (par l'intermédiaire d'une différence ou d'un attribut ou d'un de leurs synonymes). Une ontologie est donc une  Thus the classification process made it possible to "project" the texts on the ontology. Each concept is associated with two sets of texts. The first, noted "TextesAssociésSrs (concept)", contains the texts which "speak" with certainty about the concept (the concept is directly referenced by its name, a synonym or a proper name). The second 1o set, noted "PossibleAssociated Texts (concept), contains texts which possibly refer to the concept (via a difference or an attribute or one of their synonyms). An ontology is therefore a

structure d'indexation de documents qu'exploitera la recherche.  document indexing structure that the search will use.

Ainsi dans le cadre d'une recherche, l'utilisateur définit dans un premier temps son "profil", c'est-à-dire le point de vue sous lequel il recherchera les documents en sélectionnant une terminologie métier (bloc 10) et en précisant  Thus in the context of a search, the user first defines his "profile", that is to say the point of view under which he will search for the documents by selecting a business terminology (block 10) and by specifying

le cas échéant un thème particulier en indiquant quelle catégorie considérer.  if applicable, a particular theme indicating which category to consider.

La recherche consiste à déterminer les concepts référencés par la demande et de retourner les textes portant sur ces concepts, c'est-à-dire l'intersection des  The research consists of determining the concepts referenced by the request and returning the texts relating to these concepts, that is to say the intersection of

ensembles de textes associés aux concepts.  sets of texts associated with the concepts.

Conformément à la figure 5, la recherche de textes sur une ontologie peut s'effectuer soit par mots clés soit en exploitant les concepts de l'ontologie  According to Figure 5, the search for texts on an ontology can be done either by keywords or by exploiting the concepts of the ontology

(bloc 11).(block 11).

L'identification des concepts recherchés (bloc 12) peut s'effectuer de trois manières différentes qui sont désignées sous le même terme de " recherche " (bloc 11) soit: * sélection des concepts de l'ontologie, * sélection des concepts possédant des différences sélectionnées,  The identification of the concepts sought (block 12) can be carried out in three different ways which are designated by the same term of "research" (block 11) either: * selection of the concepts of the ontology, * selection of the concepts having selected differences,

* sélection des concepts référencés par les mots clés.  * selection of concepts referenced by keywords.

Les textes sont indexés sur les concepts d'une ontologie. La relation d'hyperonymie entre concepts permet de simplifier l'ensemble des concepts  The texts are indexed on the concepts of an ontology. The hyperonymy relationship between concepts simplifies all of the concepts

recherchés (bloc 13).sought (block 13).

A titre d'exemple, conformément au texte imprimé sur les documents de la figure 4, un " tournage " est une sorte d' "usinage mécanique ", dès lors un  By way of example, in accordance with the text printed on the documents in FIG. 4, a "turning" is a kind of "mechanical machining", therefore a

texte portant sur le tournage porte également sur les usinages mécaniques.  text relating to the turning also relates to mechanical machining.

Ainsi la recherche d'un texte portant sur les usinages mécaniques et sur le tournage peut se limiter à la recherche d'un texte portant uniquement sur le tournage. Cette simplification, motivée par l'extension ou la restriction de la recherche (bloc 14), a un double intérêt: simplifier la requête et trouver des textes qui  Thus the search for a text relating to mechanical machining and to turning can be limited to the search for a text relating only to turning. This simplification, motivated by the extension or the restriction of the search (block 14), has a double interest: to simplify the request and to find texts which

n'auraient pas été retenus.would not have been retained.

L'identification des documents étant effectuée (bloc 15), il s'agit à ce niveau  The identification of the documents being carried out (block 15), it is at this level

de la recherche d'en effectuer la sélection (bloc 16).  of the search to make the selection (block 16).

La première phase de la recherche a permis de déterminer l'ensemble des concepts décrivant la demande de l'utilisateur. Plus précisément celle-ci est la conjonction: C1 A C2 A... ACm des concepts issus de l'ensemble: ConceptsAssociés(recherche) = ((Cl f), (C2 f 2),...(Cm f m)) Le principe de la recherche de documents est de retourner l'ensemble des textes sur chacun de ces concepts, c'est-à-dire l'intersection des ensembles de documents associés à chacun des concepts de l'ensemble  The first phase of the research made it possible to determine all of the concepts describing the user's request. More precisely, this is the conjunction: C1 A C2 A ... ACm of concepts from the set: ConceptsAssociés (recherche) = ((Cl f), (C2 f 2), ... (Cm fm)) The principle of searching for documents is to return all of the texts on each of these concepts, i.e. the intersection of the sets of documents associated with each of the concepts in the set

" ConceptsAssociés(recherche) "."Associated Concepts (research)".

TextesAssociés(recherche) = rn TextesAssociés (c) c étant la variable concept de l'ensemble des ConceptsAssociés(recherche). Comme décrit précédemment, à chaque concept sont associés deux ensembles io de textes: * TextesAssociésSrs(c): regroupe les textes qui font référence d'une façon sre au concept " c ", * TextesAssociésPossibles(c): contient les textes qui font  Associated Texts (research) = rn Associated Texts (c) c being the concept variable of the set of Associated Concepts (research). As described above, each concept is associated with two sets of texts: * TextsAssociésSrs (c): groups together the texts which refer in a safe way to the concept "c", * TextesAssociésPossibles (c): contains the texts which make

éventuellement référence au concept " c ".  possibly reference to concept "c".

De même, un texte portant sur un concept, porte nécessairement sur les  Similarly, a text relating to a concept necessarily relates to the

concepts hyperonymes de ce concept.hyperonym concepts of this concept.

Ainsi la prise en compte de la relation d'hyperonymie permet d'étendre la recherche à des concepts directement liés, au sens d'une spécialisation, au  Thus, taking into account the hyperonymy relation makes it possible to extend the research to concepts directly linked, in the sense of a specialization, to

concept recherché.concept sought.

Le contrôle de la " profondeur " au sens du nombre de liens d'hyperonymie  Control of "depth" in the sense of the number of hyperonymy links

permet de maîtriser cette extension de la recherche.  allows to control this extension of research.

Par conséquent la prise en compte de la relation d'hyperonymie permet d'étendre la recherche des textes associés pour le concept recherché à ses concepts hyponymes. Ainsi, les ensembles de textes associés à un concept de l'ensemble ConceptsAssociés(recherche) se définissent en terme d'union des ensembles de textes qui lui sont associés avec ceux de leurs concepts hyponymes: TextesAssociésSrs(c) devient: TextesAssociésSrs(c) u TextesAssociésSrs(ci) ci étant la variable concept de l'ensemble ConceptsHyponymes(c), de même, s TextesAssociésPossibles(c) devient:  Consequently, taking into account the hyperonymy relation makes it possible to extend the search for associated texts for the concept sought to its hyponym concepts. Thus, the sets of texts associated with a concept of the set ConceptsAssociés (research) are defined in terms of union of the sets of texts which are associated with it with those of their hyponym concepts: TextesAssociésSrs (c) becomes: TextesAssociésSrs (c) u TextsAssociésSrs (ci) ci being the concept variable of the set ConceptsHyponyms (c), similarly, s TextesAssociésPossibles (c) becomes:

TextesAssociésPossibles(c) u TextesAssociésPossibles(ci).  Possible Associated Texts (c) u Possible Associated Texts (ci).

A ce niveau, il est maintenant possible de déterminer l'ensemble des textes associés à la demande utilisateur en prenant l'intersection des textes associés à 1o chacun des concepts de la demande; deux ensembles de textes associés à la demande sont définis comme suit: * l'ensemble des textes faisant référence de façon certaine aux concepts sélectionnés, c'est-à-dire l'intersection des ensembles TextesAssociésSrs de ces concepts, ensemble désigné sous le même nom: TextesAssociésSrs(recherche) = n TextesAssociésSrs(c) c étant la variable concept de l'ensemble ConceptsAssociés(recherche), * l'ensemble des textes pouvant faire référence aux concepts sélectionnés, c'est-à-dire l'intersection des ensembles des textes associés à ces concepts, qu'ils le soient de façonsre ou possible, diminuée des textes de l'ensemble TextesAssociésSrs(recherche), ensemble désigné TextesAssociésPossibles(recherche) TextesAssociésPossibles(recherche) = n [TextesAssociésSrs(c) u TextesAssociésPossibles(c)]  At this level, it is now possible to determine all the texts associated with the user request by taking the intersection of the texts associated with 1o each of the concepts of the request; two sets of texts associated with the request are defined as follows: * the set of texts making definite reference to the selected concepts, that is to say the intersection of the TextsAssociésSrs sets of these concepts, set designated under the same name: TextesAssociésSrs (research) = n TextesAssociésSrs (c) c being the concept variable of the set ConceptsAssociés (research), * the set of texts can refer to the selected concepts, i.e. the intersection of sets of texts associated with these concepts, whether they are so or possible, minus the texts of the set TextsAssociésSrs (research), designated set TextsAssociésPossibles (research) TextesAssociésPossibles (research) = n [TextesAssociésSrs (c) u TextesAssociésPossibles ( vs)]

- TextesAssociésSrs(recherche).- TextsAssociésSrs (research).

Il peut être utile de pouvoir étendre la recherche, par exemple dans le cas o aucun résultat n'est retourné, ou de la restreindre dans le cas contraire o trop  It may be useful to be able to extend the search, for example in the case where no result is returned, or to limit it in the opposite case o too

d'informations sont fournies (bloc 14).  information is provided (block 14).

Il existe deux façons de procéder: * la première consiste à supprimer des concepts (extension) de l'ensemble des concepts associés à la recherche ou en rajouter (restriction si le concept n'est pas un concept hyperonyme d'un concept de l'ensemble des concepts associés à la recherche), * la seconde consiste à modifier la requête en se servant de la structure de l'ontologie et plus précisément de la relation d'hyperonymie; ainsi un concept de l'ensemble des concepts associés à la recherche peut être soit remplacé par son concept hyperonyme direct (extension) ou soit remplacé par un ou plusieurs de ses hyponymes directs (restriction), c'est-à-dire que le ou les concepts hyponymes sont ajoutés à l'ensemble des concepts  There are two ways to proceed: * the first consists in removing concepts (extension) from the set of concepts associated with research or adding more (restriction if the concept is not a concept hyperonym of a concept of set of concepts associated with research), * the second consists in modifying the query by using the structure of the ontology and more precisely the hyperonymy relation; thus a concept of the set of concepts associated with research can either be replaced by its direct hyperonym concept (extension) or be replaced by one or more of its direct hyponyms (restriction), that is to say that the or hyponym concepts are added to the set of concepts

associés à la recherche.associated with research.

L'ontologie, dans son acception technique, traite des concepts utilisés par le langage et de leur structuration; elle constitue l'équivalent d'un " code à barre sémantique " capable de "marquer" les éléments d'information circulant dans l'Entreprise par exemple, permettant la gestion par le sens de ces éléments d'information. Cette indexation sémantique permet à l'information qui circule d'être distribuée, routée, exploitée en fonction de son sens dans un ou plusieurs référentiels métiers; d'o une amélioration potentiellement très forte de la chaîne de valeur de l'information: pertinence et vitesse accrues, réduction du bruit informationnel ambiant, souplesse et dynamicité des flux de traitement, compréhension, facilité des interfaces métier, interopérabilité plus forte des  Ontology, in its technical sense, deals with the concepts used by language and their structuring; it constitutes the equivalent of a "semantic bar code" capable of "marking" the elements of information circulating in the Company for example, allowing the management by the direction of these elements of information. This semantic indexing allows the information that circulates to be distributed, routed, exploited according to its meaning in one or more business repositories; hence a potentially very strong improvement in the information value chain: increased relevance and speed, reduction of ambient information noise, flexibility and dynamism of processing flows, understanding, ease of business interfaces, stronger interoperability of

systèmes d'informations.information system.

Ainsi, le procédé proposé selon l'invention exploite le potentiel de l'approche ontologique en assurant la cohérence, la compréhension et la distribution du  Thus, the method proposed according to the invention exploits the potential of the ontological approach by ensuring the consistency, understanding and distribution of the

sens de l'information.sense of information.

Claims (22)

Translated fromFrench
REVENDICATIONS 1. Procédé de classification et de recherche d'informations, basé sur l'exploitation des traits sémantiques différentiateurs et de la relation d'hyperonymie des ontologies, caractérisé en ce qu'il comprend * une première phase de réalisation d'un outil, matériel et logiciel, d'organisation des ontologies et des terminologies associées auxdites ontologies par domaine de connaissances, comportant au moins une liste desdites ontologies et desdites terminologies ainsi que les relations existant entre les ontologies et entre celles-ci et les terminologies associées, * une seconde phase de classification d'informations par ledit outil matériel et logiciel, effectuée préalablement par un choix de l'ontologie parmi lesdites ontologies proposées, suivi d'une extraction de concepts issus de la connaissance du domaine concerné par lesdites informations à classer, puis d'une classification par concepts srs, ou par unités de sèmes élémentaires, ou par mots clés, puis d'une validation desdites informations à classer, * une troisième phase de recherche par ledit outil logiciel et matériel, parmi les informations ainsi classées, d'informations particulières, à partir d'un choix de la terminologie par domaine de connaissances parmi lesdites terminologies proposées, en fonction de l'information à rechercher, puis à partir de la recherche par concepts de l'ontologie, ou par unités de sèmes élémentaires, ou de mots clés, puis de l'identification des concepts, et enfin  1. A method of classifying and searching for information, based on the exploitation of the differentiating semantic features and of the hyperonymy relationship of the ontologies, characterized in that it comprises * a first phase of production of a tool, material and software, for organizing the ontologies and terminologies associated with said ontologies by knowledge domain, comprising at least a list of said ontologies and said terminologies as well as the relationships existing between the ontologies and between them and the associated terminologies, * a second phase of classification of information by said hardware and software tool, carried out beforehand by a choice of the ontology among said proposed ontologies, followed by an extraction of concepts resulting from the knowledge of the field concerned by said information to be classified, then of a classification by srs concepts, or by units of elementary semes, or by keywords, then a va validation of said information to be classified, * a third phase of research by said software and hardware tool, among the information thus classified, of specific information, from a choice of terminology by area of knowledge among said proposed terminologies, depending information to search, then from the search by concepts of the ontology, or by units of elementary semes, or by keywords, then by the identification of the concepts, and finally de l'identification de l'information recherchée.  identification of the information sought. 2. Procédé selon la revendication 1, s'appliquant à la gestion de documents, notamment à la classification et à la recherche de documents, effectuée par un gestionnaire des connaissances (bloc 2), caractérisé en ce que la susdite première phase comprend, la création d'un ensemble des ontologies, comportant d'une part la création de l'ontologie  2. Method according to claim 1, applying to the management of documents, in particular to the classification and the search for documents, carried out by a knowledge manager (block 2), characterized in that the aforesaid first phase comprises, the creation of a set of ontologies, comprising on the one hand the creation of the ontology métier (bloc 4) et d'autre part la création de la terminologie métier (bloc 5).  trade (block 4) and secondly the creation of trade terminology (block 5). 3. Procédé selon l'une des revendications 1 et 2,  3. Method according to one of claims 1 and 2, caractérisé en ce que la susdite deuxième phase comprend, dans le cas de la classification d'un document à classer DI, effectuée par un utilisateur (bloc 3), le traitement du contenu du document (bloc 6) et l'extraction des concepts  characterized in that the aforesaid second phase comprises, in the case of the classification of a document to be classified DI, carried out by a user (block 3), the processing of the content of the document (block 6) and the extraction of the conceptsassociés au texte (bloc 7).associated with the text (block 7). 4. Procédé selon la revendication 3, caractérisé en ce que la susdite deuxième phase comprend, un choix de l'ontologie métier (bloc 8) parmi les ontologies métiers proposées (bloc 4), la classification suivant trois possibilités à savoir, concepts srs, différences, mots clés (bloc 9) à partir de concepts associés au texte (bloc 7), et le classement du document DI dans la base de documents D.  4. Method according to claim 3, characterized in that the aforesaid second phase comprises, a choice of the business ontology (block 8) among the proposed business ontologies (block 4), the classification according to three possibilities, namely, srs concepts, differences, keywords (block 9) from concepts associated with the text (block 7), and the classification of the DI document in the D database. 5. Procédé selon l'une des revendications 2 à 4, dans le cas de la  5. Method according to one of claims 2 to 4, in the case of recherche d'un document noté D2, extrait de la base de documents D, effectuée par l'utilisateur (bloc 3), caractérisé en ce que la susdite troisième phase comprend, un choix de la terminologie métier (bloc 10) parmi celles proposées dans l'ensemble de la terminologie métier (bloc 5), la recherche de concepts de l'ontologie suivant trois possibilités, à savoir, concepts srs, différences, mots clés (bloc 11), l'identification des concepts (bloc 12), la simplification des concepts (bloc 13)  search for a document marked D2, extracted from the database D, carried out by the user (block 3), characterized in that the aforesaid third phase comprises, a choice of the business terminology (block 10) from those proposed in the whole of the business terminology (block 5), the search for ontology concepts according to three possibilities, namely, srs concepts, differences, keywords (block 11), the identification of concepts (block 12), the simplification of concepts (block 13) et l'identification du ou des document(s) recherché(s) (bloc 15).  and the identification of the document (s) sought (block 15). 6. Procédé selon la revendication 2, caractérisé en ce que la terminologie métier est constituée du vocabulaire des catégories, du vocabulaire des concepts, du vocabulaire des différences, du vocabulaire des noms propres, du vocabulaire des attributs, du vocabulaire des synonymes de concept, du vocabulaire des synonymes de différence et du  6. Method according to claim 2, characterized in that the business terminology consists of the vocabulary of categories, the vocabulary of concepts, the vocabulary of differences, the vocabulary of proper names, the vocabulary of attributes, the vocabulary of synonyms for concept, the vocabulary of synonyms for difference and the vocabulaire des synonymes d'attribut.  vocabulary of attribute synonyms. 7. Procédé selon la revendication 3, caractérisé en ce que le contenu d'un texte, " MotsClésFréquences(texte) ", est représenté par un ensemble de couples " mot clé-fréquence du mot dans le texte ":  7. Method according to claim 3, characterized in that the content of a text, "MotsClésFréquences (texte)", is represented by a set of pairs "keyword-frequency of the word in the text": MotsClésFréquences(texte) = ((mcl fi), (mc2 f2),...(mcn fn)).  KeywordsFrequencies (text) = ((mcl fi), (mc2 f2), ... (mcn fn)). 8. Procédé selon la revendication 3, caractérisé en ce que l'ensemble des concepts associés au texte, " ConceptsAssociés(texte) ", est représenté par un ensemble de couples " concept-fréquence(notée prime) ":  8. Method according to claim 3, characterized in that the set of concepts associated with the text, "ConceptsAssociés (text)", is represented by a set of couples "concept-frequency (denoted prime)": ConceptsAssociés(texte) = ((cl f 1), (c2 f 2),...(cn f n)).  Associated Concepts (text) = ((cl f 1), (c2 f 2), ... (cn f n)). 9. Procédé selon la revendication 8, caractérisé en ce que l'ensemble des concepts associés au texte constitue le  9. Method according to claim 8, characterized in that the set of concepts associated with the text constitutes the code barre sémantique du texte pour la terminologie considérée.  semantic barcode of the text for the terminology considered. 10. Procédé selon la revendication 8, caractérisé en ce que l'ensemble des concepts associés au texte sera subdivisé en deux sous-ensembles distincts et complémentaires  10. Method according to claim 8, characterized in that the set of concepts associated with the text will be subdivided into two distinct and complementary subsets ConceptsAssociés(texte) = ConceptsAssociésSrs(texte) u ConceptsAssociésPossibles(texte).  Associated Concepts (text) = Associated Concepts (text) u Possible Associated Concepts (text). 11. Procédé selon la revendication 10, caractérisé en ce que l'ensemble ConceptsAssociésSrs(texte) comprend: * les noms de concept ou les synonymes de concept ainsi que leur nombre d'occurrences,  11. Method according to claim 10, characterized in that the set ConceptsAssociésSrs (text) comprises: * the concept names or the synonyms of concept as well as their number of occurrences, * les noms propres et leur nombre d'occurrences.  * proper names and their number of occurrences. 12. Procédé selon la revendication 10, caractérisé en ce que l'ensemble ConceptsAssociésPossibles(texte) comprend: * les noms de différence ou les synonymes de différence et leur nombre d'occurrences, e les noms d'attribut ou les synonymes d'attribut et leur nombre d'occurrences.  12. Method according to claim 10, characterized in that the set ConceptsAssociésPossibles (text) comprises: * the difference names or the synonyms of difference and their number of occurrences, e the names of attribute or the synonyms of attribute and their number of occurrences.13. Procédé selon la revendication 3, caractérisé en ce que à tout concept sont associés un premier ensemble de textes pour lequel le concept est sr, noté TextesAssociésSrs(concept), et un deuxième ensemble de textes pour lequel ce concept est possible, noté TextesAssociésPossibles(concept) .13. Method according to claim 3, characterized in that with any concept are associated a first set of texts for which the concept is sr, denoted TextesAssociésSrs (concept), and a second set of texts for which this concept is possible, denoted TextesAssociésPossibles (concept). 14. Procédé selon l'une des revendications 3, 7 et 8,  14. Method according to one of claims 3, 7 and 8, caractérisé en ce que la classification du document est effectuée en trois étapes: * extraction des mots clés et définition du contenu: ensemble MotsClésFréquences(texte) * détermination des concepts référencés par le contenu avec leur fréquence: ensemble ConceptsAssociés(texte), * association du texte à chaque concept en indiquant ses caractéristiques.  characterized in that the classification of the document is carried out in three stages: * extraction of the key words and definition of the content: set KeywordsKeywordsFrequencies (text) * determination of the concepts referenced by the content with their frequency: set ConceptsAssociés (text), * association of text for each concept, indicating its characteristics.15. Procédé selon la revendication 14, caractérisé en ce que le texte est ajouté à l'ensemble TextesAssociésSrs(concept) de chaque concept de l'ensemble ConceptsAssociésSrs(texte) en indiquant ses caractéristiques globales, c'està-dire portant sur le texte lui-même, et locales, c'est-à-dire relatives au15. The method of claim 14, characterized in that the text is added to the set TextesAssociésSrs (concept) of each concept of the set ConceptsAssociésSrs (text) indicating its global characteristics, that is to say relating to the text itself, and local, i.e. relating to theconcept.concept. 16. Procédé selon la revendication 14, caractérisé en ce que le texte est ajouté à l'ensemble TextesAssociésPossibles (concept) de l'ensemble ConceptsAssociésPossibles(texte) en indiquant ses  16. Method according to claim 14, characterized in that the text is added to the set TextesAssociésPossibles (concept) of the set ConceptsAssociésPossibles (text) by indicating its caractéristiques globales et locales.  global and local characteristics. 17. Procédé selon la revendication 5, caractérisé en ce que l'ensemble des concepts décrivant la demande de l'utilisateur est la conjonction: CI A C2 A...ACm, des concepts issus de l'ensemble:  17. Method according to claim 5, characterized in that the set of concepts describing the user request is the conjunction: CI A C2 A ... ACm, concepts from the set: ConceptsAssociés(recherche) = ((CI fi1), (C2 f 2),... (Cm f m)).  Associated Concepts (research) = ((CI fi1), (C2 f 2), ... (Cm f m)). 18. Procédé selon la revendication 5, caractérisé en ce que le principe de la recherche de documents est de retourner l'ensemble des textes sur chacun de ces concepts, c'est-à-dire l'intersection des ensembles de documents associés à chacun des concepts de l'ensemble " ConceptsAssociés(recherche) ":  18. Method according to claim 5, characterized in that the principle of searching for documents is to return the set of texts on each of these concepts, that is to say the intersection of the sets of documents associated with each concepts from the "AssociatedConcepts (research)" set: TextesAssociés(recherche) = q TextesAssociés (c).  Associated Texts (research) = q Associated Texts (c). 19. Procédé selon la revendication 18, caractérisé en ce qu'à chaque concept sont associés deux ensembles de textes: * TextesAssociésSrs(c): comprend les textes qui font référence d'une façon sre au concept " c ", * TextesAssociésPossibles(c): comprend les textes qui font  19. The method of claim 18, characterized in that each concept is associated with two sets of texts: * TextesAssociésSrs (c): includes texts which refer in a safe way to the concept "c", * TextesAssociésPossibles (c ): includes the texts that make éventuellement référence au concept " c ".  possibly reference to concept "c". 20. Procédé selon l'une des revendications 5, 18 et 19,  20. Method according to one of claims 5, 18 and 19, caractérisé en ce que les ensembles de textes associés à un concept de l'ensemble ConceptsAssociés(recherche) se définissent en terme d'union des ensembles de textes qui lui sont associés avec ceux de leurs concepts hyponymes: TextesAssociésSrs(c) devient: TextesAssociésSrs(c) u TextesAssociésSrs(ci) ci étant la variable concept de l'ensemble ConceptsHyponymes(c), de même, TextesAssociésPossibles(c) devient: TextesAssociésPossibles(c) u TextesAssociésPossibles(ci).  characterized in that the sets of texts associated with a concept of the set ConceptsAssociés (research) are defined in terms of union of the sets of texts which are associated with it with those of their hyponym concepts: TextesAssociésSrs (c) becomes: TextesAssociésSrs ( c) u TextsAssociésSrs (ci) ci being the concept variable of the set ConceptsHyponyms (c), similarly, TextesAssociésPossibles (c) becomes: TextesAssociésPossibles (c) u TextesAssociésPossibles (ci). 21. Procédé selon l'une des revendications 5, 18, 19 et 20,  21. Method according to one of claims 5, 18, 19 and 20, caractérisé en ce que l'ensemble des textes associés à la demande utilisateur sont définis comme suit: - l'ensemble des textes faisant référence de façon certaine aux concepts sélectionnés, c'est-à-dire l'intersection des ensembles TextesAssociésSrs de ces concepts, ensemble désigné sous le même nom: TextesAssociésSrs(recherche) = n TextesAssociésSrs(c) c étant la variable concept de l'ensemble ConceptsAssociés(recherche), - l'ensemble des textes pouvant faire référence aux concepts sélectionnés, c'est-à-dire l'intersection des ensembles des textes associés à ces concepts, qu'ils le soient de façon sre ou possible, diminuée des textes de l'ensemble TextesAssociésSrs(recherche), ensemble désigné TextesAssociésPossibles(recherche): TextesAssociésPossibles(recherche) = n [TextesAssociésSrs(c) u TextesAssociésPossibles(c)]  characterized in that the set of texts associated with the user request are defined as follows: - the set of texts making definite reference to the selected concepts, that is to say the intersection of the TextsAssociésSrs sets of these concepts , set designated under the same name: TextesAssociésSrs (research) = n TextesAssociésSrs (c) c being the concept variable of the set ConceptsAssociés (research), - all texts that can refer to the selected concepts, that is -to say the intersection of the sets of texts associated with these concepts, whether they are safe or possible, minus the texts of the set TextsAssociésSrs (research), set designated TextesAssociésPossibles (recherche): TextesAssociésPossibles (research) = n [TextsAssociésSrs (c) u TextesAssociésPossibles (c)]- TextesAssociésSrs(recherche).- TextsAssociésSrs (research). 22. Procédé selon l'une des revendications 5, 18, 19, 20 et 21,  22. Method according to one of claims 5, 18, 19, 20 and 21, caractérisé en ce que la recherche peut être étendue ou restreinte en se servant de la relation d'hyperonymie en remplaçant un concept de l'ensemble des concepts associés à la recherche par son concept hyperonyme direct  characterized in that the search can be extended or restricted by using the hyperonymy relationship by replacing a concept of the set of concepts associated with the search with its direct hyperonym concept (extension) ou par un ou plusieurs de ses hyponymes directs (restriction).  (extension) or by one or more of its direct hyponyms (restriction).
FR0208775A2002-07-112002-07-11Method for managing information on the basis of concepts arising from knowledge of the related domain, comprises creation of ontological organiser, information classification and information searchWithdrawnFR2842332A1 (en)

Priority Applications (1)

Application NumberPriority DateFiling DateTitle
FR0208775AFR2842332A1 (en)2002-07-112002-07-11Method for managing information on the basis of concepts arising from knowledge of the related domain, comprises creation of ontological organiser, information classification and information search

Applications Claiming Priority (1)

Application NumberPriority DateFiling DateTitle
FR0208775AFR2842332A1 (en)2002-07-112002-07-11Method for managing information on the basis of concepts arising from knowledge of the related domain, comprises creation of ontological organiser, information classification and information search

Publications (1)

Publication NumberPublication Date
FR2842332A1true FR2842332A1 (en)2004-01-16

Family

ID=29763773

Family Applications (1)

Application NumberTitlePriority DateFiling Date
FR0208775AWithdrawnFR2842332A1 (en)2002-07-112002-07-11Method for managing information on the basis of concepts arising from knowledge of the related domain, comprises creation of ontological organiser, information classification and information search

Country Status (1)

CountryLink
FR (1)FR2842332A1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
CN103324689A (en)*2013-06-042013-09-25北京大学Business domain knowledge base building method and device
FR3060800A1 (en)*2016-12-192018-06-22Orange METHOD AND DEVICE FOR AUTOMATICALLY INDEXING A TEXTUAL DOCUMENT
CN110555113A (en)*2019-09-022019-12-10西北工业大学cloud service ontology construction method based on description text

Citations (4)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
WO2001063486A2 (en)*2000-02-242001-08-30Findbase, L.L.C.Method and system for extracting, analyzing, storing, comparing and reporting on data stored in web and/or other network repositories and apparatus to detect, prevent and obfuscate information removal from information servers
WO2002010980A1 (en)*2000-07-272002-02-07Science Applications International CorporationConcept-based search and retrieval system
EP1189148A1 (en)*2000-09-192002-03-20UMA Information Technology AGDocument search and analysing method and apparatus
FR2815743A1 (en)*2000-10-252002-04-26Gilles Marie Francois TardyMethod for description of images by separation of tracings in which a digital image description can be separated into several modes allowing the image to be stored and referenced according to different classification systems

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
WO2001063486A2 (en)*2000-02-242001-08-30Findbase, L.L.C.Method and system for extracting, analyzing, storing, comparing and reporting on data stored in web and/or other network repositories and apparatus to detect, prevent and obfuscate information removal from information servers
WO2002010980A1 (en)*2000-07-272002-02-07Science Applications International CorporationConcept-based search and retrieval system
EP1189148A1 (en)*2000-09-192002-03-20UMA Information Technology AGDocument search and analysing method and apparatus
FR2815743A1 (en)*2000-10-252002-04-26Gilles Marie Francois TardyMethod for description of images by separation of tracings in which a digital image description can be separated into several modes allowing the image to be stored and referenced according to different classification systems

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KYUNG-SAM CHOI ET AL: "Document ontology based personalized filtering system", PROCEEDINGS ACM MULTIMEDIA 2000, PROCEEDINGS OF MULTIMEDIA 2000, LOS ANGELES, CA, USA, 30 OCT.-4 NOV. 2000, 2000, New York, NY, USA, ACM, USA, pages 362 - 364, XP002245638, ISBN: 1-58113-198-4*
YIU-KAI NG ET AL: "A binary-categorization approach for classifying multiple-record web documents using application ontologies and a probabilistic model", IEEE, 18 April 2001 (2001-04-18), pages 58 - 65, XP010538562*

Cited By (4)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
CN103324689A (en)*2013-06-042013-09-25北京大学Business domain knowledge base building method and device
FR3060800A1 (en)*2016-12-192018-06-22Orange METHOD AND DEVICE FOR AUTOMATICALLY INDEXING A TEXTUAL DOCUMENT
CN110555113A (en)*2019-09-022019-12-10西北工业大学cloud service ontology construction method based on description text
CN110555113B (en)*2019-09-022023-03-24西北工业大学Cloud service ontology construction method based on description text

Similar Documents

PublicationPublication DateTitle
RU2732850C1 (en)Classification of documents by levels of confidentiality
CA2385503C (en)Method for thematic classification of documents, thematic classification module and search engine incorporating such a module
Kim et al.Investigating technology opportunities: The use of SAOx analysis
US20100223248A1 (en)Detecting Correlations Between Data Representing Information
WO2006120352A1 (en)Device and method for semantic analysis of documents by construction of n-ary semantic trees
EP0812440B1 (en)Method for processing and accessing data objects, particularly documents, and system therefore
FR2825496A1 (en) METHOD AND SYSTEM FOR BROAD SYNTAXIC ANALYSIS OF CORPUSES, ESPECIALLY SPECIALIZED CORPUSES
FR2842332A1 (en)Method for managing information on the basis of concepts arising from knowledge of the related domain, comprises creation of ontological organiser, information classification and information search
EP1903483A1 (en)Method and device for encoding a note with semantic and spatial similarity between concepts of an ontology memorised in the form of a hierarchically numbered lattice
Trieschnigg et al.Hierarchical topic detection in large digital news archives
Umale et al.Survey on document clustering approach for forensics analysis
Ibekwe-SanJuan et al.Mining for knowledge chunks in a terminology network.
EP1574950B1 (en)Structured task naming
Kilfeather et al.An ontological application for archaeological narratives
WangNovel Approaches to Pre-processing Documentbase in Text Classification
FR3096157A1 (en) multidimensional textual content indexing process
FR2878050A1 (en)Interactive entity e.g. date, information search system for e.g. multimedia document, has unit to generate response to search from structured knowledge in knowledge base created relative to focus of search from set of textual resources
FR3135802A1 (en) Method for supervised generation of a virtual semantic graph of specialized knowledge
De Nart et al.A Keyphrase Generation Technique Based upon Keyphrase Extraction and Reasoning on Loosely Structured Ontologies.
FR2763715A1 (en)Processing and location of information in documents stored on information system
Chernyak et al.A method for refining a taxonomy by using annotated suffix trees and wikipedia resources
FR2828308A1 (en)Database management system for topological data relating to data search methods, especially for finding multimedia data in the Internet in a quicker more efficient manner
Ananyan et al.Automated analysis of unstructured texts
Connell et al.Evaluating Semantic Representation Strategies for Robust Information Retrieval Matching
PrawiraRetrieval-Augmented Generation for Social Media Content Creation with Sentence Window and Auto-Merging Retrieval

Legal Events

DateCodeTitleDescription
STNotification of lapse

[8]ページ先頭

©2009-2025 Movatter.jp