DE10152168A1

Movatterモバイル変換

Info

Publication number: DE10152168A1
Application number: DE10152168A
Authority: DE
Inventors: Markus Breitenbach; Frank Hutter; Jiri Splichal; Georg Turban; Andreas Wittmann
Original assignee: Individual
Current assignee: Individual
Priority date: 2001-10-23
Filing date: 2001-10-23
Publication date: 2003-04-30

Abstract

The automatic process allows key words , eg names, locations, money amounts, numbers to be selected from text. The words are used to identify characteristics in an iterative process. The characteristics are then used in a document search processes. New text can be added and the process updated.

Description

Translated fromGerman

1 Titel der Erfindung1 Title of the invention

Automatische und sich dynamisch anpassende Verschlagwortung von natürlichsprachigem Text und Anwendung derselben.Automatic and dynamically adapting indexing ofnatural language text and application of the same.

2 Hintergrund - Ziele und Probleme des Information RetrievalBackground - goals and problems of theInformation retrieval

Das Gebiet des Information Retrieval befasst sich mit Methoden zum Finden und Wiederfinden von Informationen in jedweder Form. Da die meisten Informationen heute trotz steigendem Einfluss der elektronischen Datenverarbeitung noch in natürlicher Sprache abgefasst sind, beschäftigt sich ein großes Teilgebiet des Information Retrieval mit Ansätzen, aus natürlichsprachlichem Text Information zu extrahieren bzw. diese organisiert zugänglich zu machen. Aufgrund der durch elektronische Medien forcierten Informationsflut werden Ansätze benötigt, die ohne menschliche Interaktion auskommen.The field of information retrieval deals with methods of findingand retrieving information in any form. Since mostInformation today despite the increasing influence of electronicData processing are still written in natural language, deals a great dealPart of information retrieval with approaches from natural languageExtract text information or make it accessible in an organized manner.Due to the flood of information forced by electronic mediaApproaches are needed that can do without human interaction.

Naturgemäß haben vollautomatische Ansätze den Nachteil, die bearbeiteten Texte nicht wie ein Mensch zu verstehen; somit ist es nicht trivial, der Informationsflut mit Hilfe der elektronischen Datenverarbeitung Herr zu werden.Naturally, fully automatic approaches have the disadvantage of being processedNot to understand texts like a human; so it’s not trivial thatMastering the flood of information with the help of electronic data processing.

Die Vermeidung menschlicher Interaktion führt in aller Regel zu einem schlechteren Ergebnis und die anspruchsvolle Aufgabe ist es, Information effizient zu organisieren und gleichzeitig jegliche menschliche Interaktion, die über den Retrievalprozeß hinausgeht zu minimieren.Avoiding human interaction usually leads to onepoorer result and the challenging task is to make information efficientorganize and at the same time any human interaction beyond theRetrieval process goes beyond minimizing.

3 Stand der Technik3 State of the art

Die meisten heute eingesetzten Systeme setzen auf der klassischen Volltextsuche auf, die auf [5] zurückgeht. Die Volltextsuche hat den Nachteil, dass der Benutzer durch geeignete, von ihm zu bestimmende, Wortkombinationen die Menge aller Dokumente auf die Menge aller für seine Suche relevanten einschränken muss. Die Praxis hat gezeigt, dass dies nicht einfach ist, da Menschen schwerlich den Informationsgehalt eines Wortes einschätzen können. Es wurden daher einige Verfahrensweisen entwickelt, die dieses Manko beheben sollen, so z. B. werden die Worte in ihre Stammformen überführt bzw. die Suche berücksichtigt automatisch Synonyme [7], die Kombination von Suchbegriffen (Boolsche Suche) mit UND, ODER, NICHT [7], die Möglichkeit nach Satz-Phrasen zu suchen [7], einer unterschiedlichen Gewichtung der einzelnen Suchtermini [7], erweiterte Query-Möglichkeiten wie NEAR [7], N-von-M-Wörter [6], Ranges [6] oder Fuzzy-Suchen [7]. Keine dieser Techniken schlägt einem Benutzer vollautomatisch Suchwörter vor, die zu einem guten Suchergebnis führen können.Most systems used today rely on the classicFull-text search based on [5]. The disadvantage of full text search is that theUsers through appropriate combinations of words to be determined by himSet of all documents on the set of all relevant to his searchmust restrict. Practice has shown that this is not easy since humanscan hardly estimate the information content of a word. There weretherefore developed some procedures that should remedy this shortcoming, soz. B. the words are converted into their original forms or the searchautomatically takes synonyms [7], the combination of search terms(Boolean search) with AND, OR, NOT [7], the possibility of sentence phrasesto search [7], a different weighting of the individual search terms [7],advanced query options such as NEAR [7], N-of-M words [6], ranges [6]or fuzzy searches [7]. None of these techniques hit a userFully automatic search words that can lead to a good search result.

Ein weiterer beliebter Ansatz im Information Retrieval, allgemein bekannt unter der Bezeichnung Text Categorization, ist es, Texte einem Schema von Kategorien zuzuweisen. Dies kann manuell geschehen, wie z. B. bei IPC-Codes, oder auch automatisch mit unterschiedlichster Genauigkeit, je nach Verfahren. Eine Übersicht über einige Textkategorisierungsmethoden findet sich in [8]. Bemerkenswert ist, dass die Kategorien immer statisch und unveränderlich angelegt werden und das jeweilige Verfahren nur Texte in die jeweiligen vorgegebenen Kategorien sortiert. Würde man dieses Schema auf Nachrichten anwenden, so wäre dieses Unterfangen zum Scheitern verurteilt, weil man für neue Entwicklungen immer neue Kategorien anlegen muss. Übersieht man eine Entwicklung, ist es (je nach Verfahren) deutlich schwerer diese Information zu finden, denn sie kann in der falschen Kategorie oder sogar über Kategorien verstreut liegen.Another popular approach to information retrieval, commonly knownUnder the term text categorization, it is to create a schema of textsAssign categories. This can be done manually, e.g. B. with IPC codes, oralso automatically with different levels of accuracy, depending on the process. AAn overview of some text categorization methods can be found in [8].It is noteworthy that the categories are always static and unchangeableand the respective procedure only texts in the respective givenCategories sorted. If one were to apply this scheme to news, thenthis endeavor would be doomed to fail because of new onesDevelopments must always create new categories. If you overlook a developmentit is (depending on the method) much harder to find this information, becauseit can be in the wrong category or even scattered across categories.

4 Neuer Ansatz für das Information Retrieval4 New approach to information retrieval

Das Verfahren bestimmt automatisch unter Zuhilfenahme statistischer Kenngrößen, die das Auftreten eines Wortes oder Paares in den bisher bearbeiteten Texten insbesondere über die Zeit betrachtet charakterisieren, und anderer Kenngrößen wie dem weiter unten definierten Nearfactor sowie anderen gebräuchlichen Werten Schlagwörter und Kombinationen von Schlagworten, die geeignet sind, den Inhalt sowohl einzelner Texte als auch einer Menge von im System enthaltener Texte stichpunktartig zu beschreiben.The procedure determines automatically with the help of statisticalCharacteristics of the occurrence of a word or pair in the pastcharacterize the edited texts, especially when viewed over time, andother parameters such as the near factor defined below and otherscommon values keywords and combinations of keywords thatare suitable, the content of both individual texts and a lot of imDescribe the system of texts contained in key terms.

Wird ein Text bearbeitet, so werden alle möglichen Schlagwörter (d. h. alle Wörter, die aus irgendeinem Grund interessant erscheinen) extrahiert. Für alle Wörter, die aus den bisher eingespielten Texten extrahiert wurden, sowie für alle Paare von global als geeignet eingestuften Worten werden charakteristische Messwerte inkrementell angepasst, d. h. ein Messwert nach i + 1 Dokumenten ist nur abhängig von seinem Wert nach i Dokumenten sowie vom i + 1-ten Dokument; insbesondere muss auf zuvor bearbeitete Texte nicht mehr explizit Rücksicht genommen werden.If a text is edited, all possible keywords (i.e. allWords that appear interesting for some reason). For allWords extracted from the previously imported texts, as well as forall pairs of words classified globally as suitable become characteristicMeasured values adjusted incrementally, d. H. a measured value according to i + 1 documentsis only dependent on its value according to i documents and on the i + 1-thDocument; in particular, you no longer have to explicitly edit previously edited textsBe considered.

Aus den charakteristischen Messgrößen wird in einem nächsten Schritt die globale Eignung aller Wörter als Schlagwort neu bestimmt; aus neuen global geeigneten Wörtern werden Paare gebildet, wenn die Wörter in einem Text in lokaler Nähe auftreten. Für neu gebildete Paare werden die statistischen Werte anhand von allen Texten, die beide Worte enthalten, angepasst.In a next step, the characteristic measurement variables becomeglobal suitability of all words as a new keyword; from new globalSuitable words are formed in pairs when the words in a textlocal proximity. For newly formed pairs, the statistical valuesadapted from all texts that contain both words.

Ein neue Messgröße für lokale Nähe zweier Wörter in einem Text stellt der Nearfactor dar. Um diesen zu definieren, nummerieren wir die extrahierten Wörter eines Textes der Reihe nach von 1 bis n. Bezeichnet die Variable xi die Nummer des i-ten Auftretens des Wortes x, dann ist der absolute Nearfactor folgendermaßen definiert (der Parameter w (für windowsize) ist einstellbar):Provides a new measure of the local proximity of two words in a textis the near factor. To define this, we number theextracted words of a text in sequence from 1 to n. denotes the variable xithe number of the ith occurrence of the word x, then is the absolute near factordefined as follows (the parameter w (for windowsize) can be set):

Definition 4.1Definition 4.1

Gegeben einen Text mit n Vorkommen von Wort x und m Vorkommen von Wort y, so ist der absolute Nearfactor n abs|xy (die absolute Häufigkeit des Auftretens) des Paars (x, y) definiert als

Given a text with n occurrences of word x and m occurrences of word y, the absolute nearfactor n abs | xy (the absolute frequency of occurrence) of the pair (x, y) is defined as

Worte x und y, die im Abstrakt benachbart (d. h. mit keinem Wort zwischen ihnen) vorkommen, tragen w - 1 zum Nearfactor des Paars bei; wenn ein Wort zwischen ihnen steht tragen sie w - 2 bei und so weiter bis zu w - 1 Worten zwischen ihnen, was mit 1 gewichtet wird. Auftreten von x und y mit w oder mehr Wörtern zwischen x und y tragen nichts zum Nearfactor bei. Zwei Worte x und y kommen genau dann in einem Text in lokaler Nähe vor, wenn der Nearfactor des Paars (x, y) größer als 0 ist.Words x and y that are adjacent in the abstract (i.e. with no word betweento them), w - 1 contribute to the near factor of the pair; if a wordbetween them they add w - 2 and so on up to w - 1 wordsbetween them what is weighted with 1. Occurrence of x and y with w ormore words between x and y do not contribute to the near factor. Two wordsx and y occur in a text in local proximity if and only ifNear factor of the pair (x, y) is greater than 0.

Kombinationen von n > 2 Schlagworten werden gebildet mittels einer Kombination von n - 1 Schlagworten und einem Schlagwort, das zusammen mit der Kombination aus n - 1 Wörtern geeignete statistische Werte und zeitliches Verhalten aufweist.Combinations of n> 2 keywords are formed using aCombination of n - 1 key words and a key word that together withthe combination of n - 1 words suitable statistical values and temporalBehavior.

Werden neue Texte eingespielt, so wird die Verschlagwortung angepasst, wodurch eine ständige Aktualität der Schlagworte erreicht wird, so dass die vorhandenen Kombinationen von Schlagworten der aktuellen Thematik der Texte entsprechen.If new texts are imported, the keywording is adjusted,whereby the keywords are constantly up to date, so that theexisting combinations of keywords of the current topic of the textscorrespond.

Das Verfahren umfasst weiterhin eine Retrievalmethode, die es dem Benutzer erlaubt, durch Auswahl von Wörtern einen Kontext aufzusetzen, der letztendlich zu den gewünschten Texten führt. Das Retrieval beginnt mit der Auswahl eines Wortes aus der Menge der global geeigneten Wörter. Als nächstes werden dem Benutzer alle Wörter präsentiert, die mit dem gewählten Wort relevante Paare bilden. Dieser Prozess kann fortgesetzt werden, bis eine Kombination von Schlagworten aufgesetzt ist, die spezifisch genug ist, um (nur) die gewünschten Texte zu finden. Es können weiterhin verwandte Kombinationen von Schlagworten angezeigt werden, wobei zwei Kombinationen verwandt sind, wenn sie ein gemeinsames Wort beinhalten und ihr Verwandschaftsgrad mit der Anzahl und der globalen Eignung ihrer gemeinsamen Wörter steigt, wobei die Reihenfolge von Worten in einer Kombination von Schlagworten keine Rolle spielt.The method also includes a retrieval method that the userallows to create a context by selecting words thatultimately leads to the desired texts. Retrieval begins with the selectiona word from the set of globally suitable words. Next will bepresents to the user all the words that are relevant with the selected wordForm pairs. This process can continue until a combination ofKeywords are set up that are specific enough to (only) the ones you wantFind texts. Related combinations ofKeywords appear, with two combinations being related when they are oneinclude common word and their degree of kinship with the number andThe global suitability of their common words increases, with the orderof words in a combination of keywords doesn't matter.

5 Mögliche Auswirkungen auf den Stand der Technik5 Possible effects on the status oftechnology

Mit dem Verfahren wird das Zuweisen von Schlagwörtern zu Texten wieder interessant. Bisher war dieser Ansatz eher uninteressant, da die zugewiesenen Schlagwörter schnell veralten und periodisch erneuert werden müssten, was bei großen Datenmengen aufgrund des Umfangs technisch nicht möglich ist.With the procedure, the assignment of keywords to texts againInteresting. So far, this approach has been rather uninteresting since the assigned onesKeywords quickly become obsolete and have to be renewed periodically, which atlarge amounts of data is technically not possible due to the size.

Das Verfahren stellt eine stets aktuelle Verschlagwortung aller eingespielten Texte sicher und behebt somit den Hauptnachteil der traditionellen Verschlagwortung. Durch das automatische Zuweisen aktueller Schlagworte ist ein kostengünstiges Arbeiten mit dem Ansatz ohne Administrationsaufwand möglich.The procedure provides an up-to-date keywording of all the recorded onesTexts safe and thus eliminates the main disadvantage of traditional onesIndexing. By automatically assigning current keywords is ainexpensive work with the approach possible without administration effort.

Außerdem wird durch das Verfahren das bisherige Spektrum an Retrievalmöglichkeiten derart erweitert, dass es dem Benutzer nun möglich ist, vollkommen unbekannte Texte einzuspielen und automatisch eine Menge von Schlagwortgruppen zu erhalten, die den Inhalt der eingespielten Texte widerspiegeln.In addition, the previous spectrum is shown by the processRetrieval options expanded in such a way that the user is now able toto import completely unknown texts and automatically a lot ofTo receive key word groups that reflect the content of the imported texts.

Das Spektrum an Retrievalmöglichkeiten wird durch das Verfahren noch in einem anderen Aspekt erweitert: durch den Vorschlag assoziierter Wörter zu von Benutzern ausgewählten Wörtern wird das Problem behoben, dass Benutzer oft nicht genau die Wörter eingeben, die zu einem Sucherfolg führen. Wird ihnen eine Menge von Auswahlmöglichkeiten präsentiert, so finden sie schneller und leichter geeignete Wörter, die zum Sucherfolg führen. Sie setzen durch das Navigieren durch interessante Wörter einen Kontext auf, der sie zu den begehrten Dokumenten führt.The spectrum of retrieval options is still in the processextended another aspect: by proposing associated words to byWords selected by users fixes the problem that users oftendo not enter exactly the words that lead to a search result. Will youpresents a lot of choices so you can find them faster andmore suitable words that lead to search results. You put through thatNavigate through interesting words to find a context that makes them desirableDocuments.

6 Gewerbliche Anwendungsmöglichkeiten6 Commercial applications

Für das Verfahren gibt es viele Anwendungen. Das Harvesta-Paket ist speziell auf die Bedürfnisse eines Business-Intelligence Bereich eines größeren Konzerns zugeschnitten und befindet sich dort bereits im Einsatz. Durch die Bestimmung geeigneter Wörter, in Abhängigkeit von allen bisher bearbeiteten Texten bleibt die Menge der geeigneten Worte immer aktuell. Am Beispiel von Nachrichten bedeutet dies, dass sich die Menge der geeigneten Wörter den Themen der Nachrichten anpasst: z. B. wenn neue Präsidenten gewählt oder neue Produktnamen erwähnt werden. Die geeigneten Wörter werden so gewählt, dass sie auf Nachrichten passen, die nicht von allgemeinem Interesse sind, aber auch nicht so spezifisch, dass sie in zu wenig Texten vorkommen. Die Nachrichten, die mit dem Ansatz gefunden werden können, sind für die Business-Intelligence im allgemeinen potentiell interessant.There are many applications for the method. The Harvesta package isspecifically to the needs of a business intelligence area of a larger oneGroup tailored and is already in use there. Through theDetermination of suitable words, depending on all previously worked onTexts always have the right amount of suitable words. On the example ofThis means that the amount of suitable words in the newsCustomizes news topics: B. when new presidents are elected or new onesProduct names are mentioned. The appropriate words are chosen so thatthey fit on messages that are not of general interest, but alsonot so specific that they appear in too few texts. The news thatwith the approach can be found for business intelligencein general, potentially interesting.

Denkbar wäre weiterhin auch ein Einsatz bei Internet-Suchmaschinen wie z. B. Altavista oder Google. Auch dort besteht für die Suchenden das Problem, daß sie die Worte wissen oder erraten müssen, die zu dem gewünschten Sucherfolg führen. Durch den Einsatz des hier beschriebenen Verfahrens lässt sich der Suchprozess effizienter gestalten.It would also be conceivable to use Internet search engines such asz. B. Altavista or Google. There is also the problem for the seekers there,that they need to know or guess the words related to the one they wantLead search success. By using the method described here, theMake the search process more efficient.

7 Der Ansatz im Detail - Erläuterung der Komponenten und ihres Zusammenspiels7 The approach in detail - explanation ofComponents and their interaction

In diesem Abschnitt wird das Harvesta-Paket von BIIT 〈Breitenbach, Hutter, Splichal, Turban, Wittmann〉 GbR beschrieben, das eine mögliche Realisierung der oben genannten Ansätze darstellt.In this section, the Harvesta package from BIIT 〈Breitenbach, Hutter,Splichal, Turban, Wittmann〉 GbR described that a possible realizationof the above approaches.

Das Harvesta-Paket besteht aus zwei Systemen, dem Harvesta Server und der Harvesta Retrieval Engine.The Harvesta package consists of two systems, the Harvesta Server andthe Harvesta Retrieval Engine.

Der Harvesta Server verarbeitet eine Menge von natürlichsprachlichen Texten, die in strukturierter oder unstrukturierter Form vorliegen und bestimmt geeignete Wörter, Paare und Tripel von Wörtern, die die eingespielten Texte schlagwortartig beschreiben. Für diesen Zweck ist der Server unterteilt in drei aufeinanderfolgende Subsysteme: Das erste Subsystem ist verantwortlich für das Einspielen von Dokumenten, das zweite für eine Vorverarbeitung der Texte inklusive der inkrementellen Berechnung von statistischen Meßwerten und das dritte Subsystem bestimmt die globale Eignung von einzelnen Worten sowie Paaren von Worten anhand der im zweiten Subsystem berechneten Werte.The Harvesta server processes a lot of natural languageTexts that exist and are structured or unstructuredsuitable words, pairs and triples of words that match the recorded textdescriptive. For this purpose, the server is divided into threesuccessive subsystems: The first subsystem is responsible for theImport of documents, the second for preprocessing the textsincluding the incremental calculation of statistical measurements and thethird subsystem determines the global suitability of individual words as wellPairs of words based on the values calculated in the second subsystem.

Das zweite System, die Harvesta Retrieval Engine stellt die Schnittstelle zum Endnutzer dar und befasst sich mit dem Auffinden und Wiederauffinden von Dokumenten zu einem speziellen Thema.The second system, the Harvesta Retrieval Engine, provides the interfaceto the end user and deals with finding and retrievingof documents on a specific topic.

Der Harvesta Server verlangt nicht, dass das Retrieval mit der Harvesta Retrieval Engine durchgeführt wird, alternativ kann auch ein etabliertes Dokumentenmanagementsystem verwendet werden; die Harvesta Retrieval Engine hingegen baut exakt auf dem vom Harvesta Server verwendeten Datenmodell auf.The Harvesta server does not require retrieval with the HarvestaRetrieval engine is performed, alternatively an established oneDocument management system can be used; the Harvesta Retrieval Engineon the other hand builds exactly on the data model used by the Harvesta serveron.

7.1 Harvesta Server, Subsystem 17.1 Harvesta server, subsystem 1Vorverarbeitung der TextePreprocessing thetexts

Naturgemäß liegen nicht alle Texte, die in das System eingespielt werden, im gleichen Format vor. Aus diesem Grund beinhaltet der Harvesta Server ein integriertes Parser-Framework, um neue Formate schnell und einfach unterstützen zu können. Derzeit werden unstrukturierter Text, Nachrichtenartikel von dem Newsticker FIRST!(tm) und HTML-Seiten der financial times Webseite unterstützt.Naturally, not all texts that are imported into the system are in thesame format. For this reason, the Harvesta server includes aIntegrated parser framework to support new formats quickly and easilyto be able to. Currently unstructured text, news articles from theNewsticker FIRST! (Tm) and HTML pages of the financial times websitesupported.

Der Server erkennt die Sprache eines eingespielten Textes basierend auf dem Textkategorisierungsalgorithmus in (1). Derzeit werden 13 verschiedene Sprachen, unter anderem Englisch, Französisch, Deutsch und Spanisch erkannt.The server recognizes the language of a imported text based on theText categorization algorithm in (1). There are currently 13 differentLanguages, including English, French, German and Spanish recognized.

Das Einspielen von Texten in das Harvesta System findet über das Filesystem statt; Für jeden noch nicht in der Datenbank vorhandenen Text extrahiert der entsprechende Parser eine Menge von Attributen wie Autor, Datum und Quelle. Außerdem wird mit Hilfe linguistischer Methoden eine Liste von möglichen Schlagworten extrahiert und zusammen mit dem Text gespeichert. Diese Liste enthält alle Substantive des Texts sowie andere auffällige Wörter. Um Substantive zu bestimmen wird der part-of-speech-tagger QTag [2] benutzt, für durch Formatierung auffällige Wörter String-Verarbeitung. Obwohl die Extraktion sehr gute Ergebnisse liefert, existiert noch eine Möglichkeit, manuell zu berücksichtigende Wörter auszuwählen. Mit Hilfe der Regeln in [3] und einem Wörterbuch [4] werden extrahierte Wörter stammformreduziert.The import of texts into the Harvesta system takes place via theFilesystem instead; Extracted for any text not yet in the databasethe corresponding parser has a lot of attributes like author, date andSource. In addition, with the help of linguistic methods, a list ofpossible keywords extracted and saved together with the text. ThisList contains all nouns of the text as well as other striking words. AroundThe part-of-speech tagger QTag [2] is used to determine nouns forby formatting striking words string processing. Although theExtraction gives very good results, there is still a way to do it manuallywords to consider. With the help of the rules in [3] and oneDictionary [4] extracted words are reduced in stem form.

7.2 Harvesta Server, Subsystem 27.2 Harvesta server, subsystem 2Statistische Verarbeitung der TextestatisticalProcessing of the texts

Die im ersten Subsystem extrahierten Abstrakte werden in dieser Phase benutzt, um charakteristische Meßwerte für einzelne Wörter sowie für Paare von zuvor als relevant erachteten Wörtern anzupassen.The abstracts extracted in the first subsystem are used in this phase,for characteristic measured values for individual words as well as for pairs from beforeto adapt words considered relevant.

Im wesentlichen werden in diesem Subsystem statistische Meßwerte inkrementell angepaßt; diese reduzieren die immense Menge an Daten aus zehntausenden von Texten auf eine angebrachte Größenordnung, ohne zu viel Information zu vernachlässigen. Der inkrementelle Charakter der Berechnung erlaubt eine effiziente Verarbeitung.Statistical measurements are essentially used in this subsystemadjusted incrementally; these reduce the immense amount of datatens of thousands of texts on an appropriate scale without too much informationto neglect. The incremental nature of the calculation allows oneefficient processing.

Die angewandten charakteristischen Meßwerte setzen sich zusammen aus gebräuchlichen Meßwerten wie der summierten Häufigkeit des Auftretens eines Wortes bzw. der Anzahl Dokumente, in denen es vorkommt, gebräuchlichen statistischen Meßwerten, die in bisherigen Ansätzen in diesem Kontext keine Verwendung gefunden haben, dem in Abschnitt 4 definierten Nearfactor sowie einem Messwert für die globale Abhängigkeit zweier Wörter.The applied characteristic measured values are composed of each othercommon measured values such as the summed frequency of occurrence of aWord or the number of documents in which it occursstatistical measured values that have not been used in previous approaches in this contextHave found use, the nearfactor defined in section 4 anda measure of the global dependency of two words.

Wie statistische Werte in diesem Kontext benutzt werden, wird im folgenden erläutert. An den Stellen, wo es für das Verständnis hilfreich ist, sind Formeln eingefügt.How statistical values are used in this context is described belowexplained. In the places where it is helpful for understanding, there are formulasinserted.

7.2.1 Statistische Werte für einzelne Wörter7.2.1 Statistical values for individual words

Wenn man ein einzelnes Wort x betrachtet, so formen die Häufigkeiten seines Auftretens in den eingespielten Texten eine Meßreihe; angenommen, die Datenbank enthält n Dokumente. Wenn x abs|i für die absolute Häufigkeit des Auftretens von Wort x in Dokument i steht, dann formen die Werte x abs|1, . . ., x abs|n eine Meßreihe. Um statistische Meßwerte verläßlich anwenden zu können, wird eine Realisierung einer gleichverteilten Zufallsvaribale benötigt; aus diesem Grund werden die Werte x abs|i mittels Division durch die Anzahl der Wörter im jeweiligen Abstrakt standardisiert zu x_i. Von der resultierenden Messreihe x₁, . . ., x_n wird der empirische Variationskoeffizient verwendet.If you look at a single word x, the frequencies of its occurrence in the recorded texts form a series of measurements; Assume that the database contains n documents. If x abs | i stands for the absolute frequency of occurrence of word x in document i, then the values form x abs | 1,. , ., x abs | n a series of measurements. In order to be able to use statistical measured values reliably, an implementation of an equally distributed random variable is required; for this reason the values x abs | i are standardized to x_i by division by the number of words in the respective abstract. From the resulting series of measurements x₁ ,. , ., x_n the empirical coefficient of variation is used.

Eine weitere Messreihe kann generiert werden, wenn nicht das Vorkommen eines Wortes in einzelnen Texten betrachtet wird, sondern das summierte Auftreten über einen längeren Zeitraum, beispielsweise einige Tage für jeden Messwert.Another series of measurements can be generated if not the occurrenceof a word in individual texts, but the summed upOccurrence over a longer period of time, for example a few days for each measured value.

Der Harvester Server beinhaltet einen einstellbaren Parameter, der regelt, für wie viele Tage nach Veröffentlichung ein Text für die Statistik verwendet werden soll. Zur Zeit ist der Wert dieses Parameters auf 60 Tage gesetzt; wenn diese 60 Tage in zehn Intervalle geteilt werden, so erhalten wir nach Standardisierung mittels Division durch die Gesamtanzahl Wörter in dem jeweiligen Intervall eine neue Messreihe ≙₁ . . ., ≙₁₀ für jedes Wort x, die repräsentiert, wie oft das Wort in den jeweiligen Intervallen auftaucht; auch von dieser Messreihe wird der empirische Variationskoeffizient benutzt.The Harvester Server contains an adjustable parameter that regulates for how many days after publication a text should be used for the statistics. The value of this parameter is currently set to 60 days; If these 60 days are divided into ten intervals, we will get a new series of measurements ≙₁ after standardization by dividing by the total number of words in the respective interval. , ., ≙₁₀ for each word x, which represents how often the word appears in the respective intervals; The empirical coefficient of variation is also used for this series of measurements.

Wenn man als einen weiteren Parameter eines Messwerts in obiger Messreihe die Nummer des Texts verwendet, so erhält man die zweidimensionale Messreihe ( ≙₁, 1), . . ., ( ≙₁₀, 10), die die Charakteristik eines Wortes über die Zeit widerspiegelt (die Texte sind nach aufsteigendem Datum nummeriert). Von dieser Messreihe wird die Steigung der Regressionsgeraden benutzt.If you use the number of the text as a further parameter of a measured value in the above series of measurements, you get the two-dimensional series of measurements (≙₁ , 1),. , ., (≙₁₀ , 10), which reflects the characteristics of a word over time (the texts are numbered according to the ascending date). The slope of the regression line is used from this series of measurements.

7.2.2 Statistische Werte für Paare von Wörtern7.2.2 Statistical values for pairs of words

Für alle Paare von relevanten Wörtern, die in mindestens einem Text in lokaler Nähe auftreten, werden wie für Wörter charakteristische Werte gepflegt.For all pairs of relevant words in at least one local textCloseness occurs, characteristic values are maintained as for words.

Um statistische Formeln zu benutzen benötigen wir wieder eine Realisierung einer gleichverteilten Zufallsvariable, deswegen wird der absolute Nearfactor n abs|xy des Paars (x, y) (siehe Abschnitt 4) in einem Text unter Berücksichtigung des Parameters w und der Anzahl Wörter in dem jeweiligen Text angepasst zum standardisierten Nearfactor n_xy.In order to use statistical formulas, we again need to implement an equally distributed random variable, which is why the absolute nearfactor n abs | xy of the pair (x, y) (see section 4) is given in a text, taking into account the parameter w and the number of words in the respective Text adapted to the standardized near factor n_xy .

Die standardisierten Nearfactors n_xy,1, . . ., n_{xy, n} eines Paars (x, y) in den Texten 1 bis n stellen erneut eine Meßreihe dar, von der der empirische Variationskoeffizient ermittelt wird. Außerdem wird für die zweidimensionale Meßreihe (x₁, y₁), . . ., (x_n, y_n) der empirische Korrelationskoeffizient berechnet.The standardized near factors n_{xy, 1} ,. , ., n_{xy, n of} a pair (x, y) in texts 1 to n again represent a series of measurements from which the empirical coefficient of variation is determined. In addition, for the two-dimensional series of measurements (x₁ , y₁ ),. , ., (x_n , y_n ) the empirical correlation coefficient is calculated.

Ein weiterer charakteristischer Messwert für ein Paar (x, y) ist die Abhängigkeit seiner Wörter x und y:Another characteristic measurement for a pair (x, y) is theDependency of his words x and y:

Definition 7.1Definition 7.1

Die Abhängigkeit d_xy zweier Wörter x und y ist definiert als das summierte Auftreten des Paars (x, y) geteilt durch das Produkt der summierten Auftreten der einzelnen Wörter x und y.The dependence d_{xy of} two words x and y is defined as the sum of the occurrences of the pair (x, y) divided by the product of the sum of the occurrences of the individual words x and y.

7.3 Harvesta Server, Subsystem 37.3 Harvesta server, subsystem 3Berechnung von RelevanzCalculation ofrelevance

Basierend auf den in Subsystem 2 berechneten charakteristischen Größen wird in dieser Phase die Relevanz von Wörtern und Paaren bestimmt. Boole'sche Relevanz entscheidet darüber, ob ein Wort zum Bilden von Paaren herangezogen wird bzw. ob ein Paar zum Bilden von Tripeln benutzt wird. Für jedes Wort und Paar wurden im letzten Subsystem eine Reihe von charakteristischen Größen berechnet; für jede dieser Größen existiert eine parametrisierbare obere und untere Schranke. Falls wenigstens ein berechneter Wert eines Wortes oder Paares oberhalb der oberen oder unterhalb der unteren Schranke für diesen Wert liegt, so wird das Wort oder Paar als nicht relevant betrachtet; andernfalls ist es relevant.Based on the characteristic quantities calculated in subsystem 2determines the relevance of words and pairs in this phase. BooleanRelevance determines whether a word is used to form pairsor whether a pair is used to form triples. For every word andIn the last subsystem, pairs became a series of characteristic quantitiescalculated; for each of these quantities there is a parameterizable upper andlower bound. If at least one calculated value of a word or pairis above or below the lower bound for this valueso the word or pair is considered irrelevant; otherwise it isrelevant.

Um dem Benutzer beim Retrieval zu unterstützen wird außerdem jedem Wort und jedem Paar eine natürliche Zahl zwischen 0 und 100 als Relevanz zugewiesen. Diese Zahl stellt eine Gewichtung der im zweiten Subsystem berechneten Größen dar.In order to support the user in retrieval, everyone will alsoWord and each pair have a natural number between 0 and 100 as relevanceassigned. This number represents a weighting in the second subsystemcalculated sizes.

7.4 Harvesta Retrieval Engine - Auffinden und Wiederauffinden von Texten7.4 Harvesta Retrieval Engine - Find andRetrieval of texts

Die Harvesta Retrieval Engine implementiert die in Abschnitt 4 beschriebene Retrieval-Methode. Über ein Webinterface und mit Hilfe der Java-RMI Technologie ist eine Benutzerschnittstelle zum Harvesta Server realisiert. Der Benutzer erhält als erstes eine Liste aller vom Server als global geeignet erachteten Wörter. Diese werden durch einen Datenbankzugriff in die Interface-Software eingelesen und entsprechend formatiert ausgegeben. Nach Auswahl eines für den Benutzer interessanten Wortes sucht das System aus der Datenbank alle Worte, die mit dem gewählten Wort ein geeignetes Paar bilden. Durch das in Abschnitt 4 beschriebene iterative Vorgehen wird die Menge der Texte, die die gewählten Worte enthalten, immer kleiner. Schließlich kann, wie bei anderen Suchverfahren, aus der Liste der Dokumente, die die gewählten Worte enthalten, eines zur genaueren Betrachtung ausgewählt werden. Durch diese Vorgehensweise wird im Vergleich zu einer normalen Volltextsuche das Problem vermieden, dass der Benutzer implizit den Informationsgehalt der Suchworte einschätzen muss. Die Harvesta Retrieval Engine stellt bei jeder Abfrage auch die zur bisher eingegebenen Wortkombination verwandten Wortkombinationen dar (siehe Abschnitt 4).Literatur[1] Cavnar, W. B. and J. M. Trenkle (1994). N-Gram-Based Text Categorization In Proceedings on Document Analysis and Information Retrieval, Las Vegas, NV, UNLV Publications/Reprographics, 3, p161-175.
[2] Mason, O. QTag - A portable POS tagger;
http:/ / www.english.bham.ac.uk/staff/oliver/software/tagger/
[3] R. Kuhlen (1977). Experimentelle Morphologie in der Informationswissenschaft; Verlag Dokumentation, München
[4] Wordnet - a lexical database for the english language;
http:/ / www.cogsci.princeton.edu/wn/
[5] Luhn, H. P. (1957) A statistical approach to mechanized encoding and searching of literary information IBM Journal of Research and Development, 1 (4), p309-317
[6] Memex Technology Limited, Product Overview, http:/ / www.memex.co.uk/mieover.html
[7] DT Software Inc., Product Overview, http:/ / www.dtsearch.com/search-full-text.html
[8] www.cs.cmu.edu/The Harvesta Retrieval Engine implements the retrieval method described in Section 4. A user interface to the Harvesta server is implemented via a web interface and with the help of Java RMI technology. The user first receives a list of all words deemed globally suitable by the server. These are read into the interface software by database access and output appropriately formatted. After selecting a word that is of interest to the user, the system searches the database for all words that form a suitable pair with the selected word. Due to the iterative procedure described in section 4, the amount of texts containing the selected words is getting smaller and smaller. Finally, as with other search methods, one can be selected from the list of documents containing the selected words for a closer look. In comparison to a normal full-text search, this procedure avoids the problem that the user has to implicitly estimate the information content of the search words. With every query, the Harvesta Retrieval Engine also displays the word combinations related to the previously entered word combination (see section 4).Literature [1] Cavnar, WB and JM Trenkle (1994). N-Gram-Based Text Categorization In Proceedings on Document Analysis and Information Retrieval, Las Vegas, NV, UNLV Publications / Reprographics, 3, p161-175.
[2] Mason, O. QTag - A portable POS tagger;
http: / / www.english.bham.ac.uk/staff/oliver/software/tagger/
[3] R. Kuhlen (1977). Experimental morphology in information science; Documentation Publishing House, Munich
[4] Wagert - a lexical database for the english language;
http: / / www.cogsci.princeton.edu/wn/
[5] Luhn, HP (1957) A statistical approach to mechanized encoding and searching of literary information IBM Journal of Research and Development, 1 (4), p309-317
[6] Memex Technology Limited, Product Overview, http: / / www.memex.co.uk/mieover.html
[7] DT Software Inc., Product Overview, http: / / www.dtsearch.com/search-full-text.html
[8] www.cs.cmu.edu/

Claims

Translated fromGerman

1. Ein inkrementelles Verfahren, welches für eine Menge von Texten aus möglichen Schlagworten, insbesondere Nomen, Ortsangaben, Verweisen auf Quellen (URLs, Quellenangaben), Zahlen, Geld-Beträgen, Zeitangaben und sonstigen durch Formatierung hervorgehobenen Wörtern, jene auswählt, die sich zur Verschlagwortung sowohl einzelner Texte aber auch der gesamten Menge von Texten am besten eignen.
Die Eignung von Schlagwörtern wird abgeleitet aus der Verteilung des Auftretens der Wörter in allen bisher vom Verfahren bearbeiteten Texten, insbesondere der zeitlichen Charakteristik derselben.
Werden neue Texte eingefügt, so passt das Verfahren die Eignung von Worten und somit auch die Menge der genutzen Schlagworte an und gewährleistet so automatisch eine stets aktuelle Verschlagwortung aller Texte.1. An incremental process, which for a lot of texts from possible keywords, in particular nouns, locations, references to sources (URLs, references), numbers, amounts of money, times and other words highlighted by formatting, selects those which are to Tagging both individual texts and the entire set of texts are best suited.
The suitability of key words is derived from the distribution of the occurrence of the words in all texts previously processed by the method, in particular the temporal characteristics thereof.
If new texts are inserted, the procedure adjusts the suitability of words and thus also the amount of keywords used and thus automatically ensures that all texts are always up-to-date.

2. Ein iteratives Verfahren, das die durch das im Hauptanspruch geschilderte Verfahren ermittelten Schlagworte, die gemeinsam in Dokumenten vorkommen, zu Schlagwortgruppen zusammenfasst und aus allen auf diese Weise ermittelten Schlagwortgruppen jene auswählt, die sich zur Charakterisierung einzelner Themengebiete in allen im System eingespielten Texten am besten eignen.
Die Eignung zur Charakterisierung einzelner Schlagwortgruppen wird abgeleitet aus der Verteilung des Auftretens der Schlagwortgruppen in allen bisher vom Verfahren bearbeiteten Texten, insbesondere der zeitlichen Charakteristik derselben.
Werden neue Texte eingefügt, so passt das Verfahren die Eignung von Schlagwortgruppen und somit auch die Menge der genutzen Schlagwortgruppen an und gewährleistet somit automatisch, dass die charakterisierende Eigenschaft der Schlagwortgruppen erhalten bleibt.2. An iterative procedure, which summarizes the keywords determined by the procedure described in the main claim, which occur together in documents, into keyword groups and selects from all the keyword groups determined in this way those which are used to characterize individual subject areas in all texts imported into the system best suited.
The suitability for the characterization of individual keyword groups is derived from the distribution of the occurrence of the keyword groups in all texts previously processed by the method, in particular the temporal characteristics of the same.
If new texts are inserted, the procedure adjusts the suitability of keyword groups and thus also the number of keyword groups used and thus automatically ensures that the characteristic property of the keyword groups is retained.

3. Ein Verfahren, um nach Eingabe von in den vorigen Ansprüchen charakterisierten geeigneten Schlagwörtern oder Schlagwortgruppen weitere Schlagwörter auszugeben, so dass eine Schlagwortgruppe, bestehend aus dem eingegebenen Schlagwort bzw. der Schlagwortgruppe sowie einem der ausgegebenen Schlagwörter, eine Schlagwortgruppe bildet, die den in den vorigen Ansprüchen genannten Kriterien genügen.3. A procedure to enter after in the previous claimscharacterized suitable keywords or keyword groups further keywordsoutput so that a keyword group consisting of the enteredKeyword or the keyword group as well as one of the keywords given,forms a catchword group that the ones mentioned in the previous claimsCriteria are sufficient.

4. Ein Verfahren, um nach Eingabe einer Schlagwortgruppe von mindestens zwei Schlagwörtern, weitere Wortkombinationen auflisten kann, die mit diesem in einer Verwandschaftsrelation stehen. Eine Wortkombination ist unabhängig von der Reihenfolge des Auftretens verwandt, wenn sie mindestens ein Wort gemeinsam haben.4. A procedure to enter a keyword group of at least twoKeywords, can list further combinations of words with this inhave a relationship. A word combination is independent ofthe order of occurrence is related if it has at least one wordhave in common.