有鑒於此,本發明提供一種主題提供裝置及其雲儲存檔案提示方法,其依據互動交談內容,提供合適主題的檔案、教材等內容。
本發明的雲儲存檔案提示方法,其包括下列步驟。取得互動文字內容,此互動文字內容係經至少二位使用者之多媒體對話內容轉換而得。自此互動文字內容中取得關鍵詞彙。依據這些關鍵詞彙篩選檔案資料庫所記錄的數個主題。提供篩選主題之內容。
本發明的主題提供裝置,其包括通訊單元、儲存單元及處理單元。通訊單元傳送或接收資料。儲存單元記錄數個模組及檔案資料庫,此檔案資料庫儲存數個主題之內容。處理單元耦接通訊單元及儲存單元,且存取並載入儲存單元所記錄的那些模組。那些模組包括訊息交換模組、互動詞彙抽取模組、主題分析模組及主題提供模組。訊息交換模組透過通訊單元取得至少二位使用者之多媒體對話內容,並將這些使用者之多媒體對話內容轉換成互動文字內容。互動詞彙抽取模組自互動文字內容中取得關鍵詞彙。主題分析模組依據這些關鍵詞彙篩選那些主題。主題提供模組透過通訊單元提供篩選主題之內容。
基於上述,本發明實施例係基於機器運算方法,將二人以上的線上互動文字內容(包含聲音轉文字的語音討論)之主題進行關注詞標示,以自動提示或推薦雲端儲存空間中相應主題之檔案或教材,從而達到檔案系統智慧化,並加強雲儲存檔案系統的使用度,且增進人群之間知識學習及刺激經濟發展。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
圖1是依據本發明一實施例之主題提供裝置1的元件方塊圖。主題提供裝置1 可以係伺服器、電腦主機、工作站等電子裝置,並至少包括但不僅限於通訊單元110、儲存單元120及處理單元130。
通訊單元110可以係支援光纖、乙太網路(Ethernet)等有線網路技術或Wi-Fi、行動通訊網路、WiMAX等無線網路的通訊收發器,其可接收來自其他用戶設備(例如,電腦、智慧型手機、平板電腦等)的訊息、聊天內容、多媒體內容等檔案或資料,並可發送各種主題之內容(例如,檔案、教材等)給對應用戶設備。
儲存單元120可以係任何型態的固定或可移動隨機存取記憶體(RAM)、唯讀記憶體(ROM)、快閃記憶體(flash memory)、傳統硬碟(hard disk drive)、固態硬碟(solid-state drive)或類似元件或上述元件的組合,並用以記錄訊息交換模組121、互動詞彙抽取模組122、檔案資料庫123、資料庫詞彙抽取模組124、主題分析模組125及主題提供模組126等軟體程式、主題模型、停用詞(stop word)、關鍵詞彙、資料庫詞彙等相關資訊。前述模組、資料庫、檔案及資料待後續實施例再詳細說明。
處理單元130與儲存單元120及通訊單元110連接,並可以是中央處理單元(CPU),或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、數位信號處理器(DSP)、可程式化控制器、特殊應用積體電路(ASIC)或其他類似元件或上述元件的組合。在本發明實施例中,處理單元130用以執行主題提供裝置1的所有作業,且可存取並執行上述儲存單元120中記錄的模組。
為了方便理解本發明實施例的操作流程,以下將舉諸多實施例詳細說明本發明實施例中主題提供裝置1之運作流程。圖2是依據本發明一實施例說明一種雲儲存檔案提示方法之流程圖。請參照圖2,本實施例的方法適用於圖1中主題提供裝置1中的各裝置。下文中,將搭配主題提供裝置1的各項元件及模組說明本發明實施例所述之方法。本方法的各個流程可依照實施情形而隨之調整,且並不僅限於此。
首先,經擷取網路封包、用戶上傳或透過外部或內件儲存媒介(例如,隨身碟、光碟、外接硬碟等)而使主題提供裝置1取得任何類型(例如,教材、圖庫、新聞等)檔案內容、檔案註解內容、檔案資料屬性等檔案相關資料、或是影音/語音檔案等多媒體檔案,並將這些檔案轉換成文字、語音等形式的資訊內容而儲存於檔案資料庫123中,以作為訓練學習的樣本。
另一方面,訊息交換模組121會透過該通訊單元取得至少二位使用者之多媒體對話內容,並將這些使用者之多媒體對話內容轉換成互動文字內容,從而此得互動文字內容(步驟S210)。具體而言,訊息交換模組121可自行運作聊天室、討論區或其他訊息交換平台或自外部的訊息交換平台(如圖3之聊天室310),蒐集用戶(例如,師生、客戶、業者等)所留下的純文字訊息、視訊錄音等多媒體對話內容。
接著,資料庫詞彙抽取模組124對檔案資料庫123所記錄資訊內容進行詞彙抽取並濾除停用詞(Stop words),以產生資料庫詞彙。具體而言,資料庫詞彙抽取模組124分析檔案內容、檔案註解內容、檔案資料屬性、書籤分類名稱、搜尋關鍵字之文字內容,以擷取用戶關注的詞彙。由於檔案內容、檔案資料屬性與檔案註解內容多為一般語句,因此資料庫詞彙抽取模組124可透過後綴數組(suffix array)或PAT-Tree等抽詞方法擷取語句中之重要詞彙。經抽詞方法所擷取出之詞彙先利用預先給定之規則條件進行初步過濾,刪除非成詞之詞彙。接著,資料庫詞彙抽取模組124利用預先收集之中英文停用詞列表,進一步過濾擷取出之詞彙,並以空格分隔擷取出之詞彙,最終所得之詞彙即作為資料庫詞彙。
此外,互動詞彙抽取模組122亦自互動文字內容中取得關鍵詞彙(步驟S220),相似地,互動詞彙抽取模組122係對互動文字內容進行詞彙抽取並濾除停用詞,以產生關鍵詞彙,而其詳細步驟可參照前述取得資料庫詞彙的流程,於此不再贅述。
而主題分析模組125則透過自然語言處理相關之主題模型學習那些資料庫詞彙,以產生資訊內容所隱含之主題。具體而言,主題模型領域中的潛在狄利克里分配 (LDA、Latent Dirichlet Allocation)、LSA(Latent Semantic Analysis)、PLSA(Probabilistic Latent Semantic Analysis)等都是常見用於自然語言處理的模型方法。
請參照圖3係潛在狄利克里分配的概念數學函式之示意圖,其中的標籤數學意義為::每個文檔(即,資訊內容)所屬之主題之狄利克里分佈:每個主題內詞語之狄利克里分佈:文檔m之主題機率分佈:主題k之詞語機率分佈:文檔m之第n個詞所屬的主題:文檔m之第n個詞:主題總數:文檔總數:文檔內之詞語總數 潛在狄利克里分配模型之文檔生成步驟為: 從狄利克里分佈中取樣生成文檔m的主題分布。從主題的多項式分佈中取樣生成文檔m第n個詞的主題。從狄利克里分佈中取樣生成主題的詞語分布。從詞語的多項式分佈中採樣最終生成詞語。
而針對訓練樣本D(即,資訊內容),其資料內容相似度(likelihood)可表示成:…(1) 透過最大化相似度評估(Maximum Likelihood Estimate)的訓練條件及對應的訓練方式,例如吉布斯取樣法(Gibbs Sampling)或變分性推斷(Variational Inference),主題分析模組125可求得模型參數α、β、θ、φ。
請接著參照圖5是一範例說明文檔生成過程。針對一篇文章,主題分析模組125可以透過主題機率分佈,例如圖面右方以不同底色柱狀圖所表示三種主題的分佈以及每一種主題的詞彙分佈,例如第一主題包含「三角函數」、「正弦」、「餘弦」等詞彙,其機率分別為0.05、0.02、0.02等,依此類推,之後再依照主題分佈產生不同主題順序的樣本,如產生的主題順序為第一主題、第二主題、第一主題、第二主題、第三主題、第一主題等圓圈。最後,透過主題詞彙分佈,生成對應的詞彙(如圖中所示箭頭指向及標註)。而透過模型的訓練,主題分析模組125即得到最符合訓練資料的主題分佈、詞彙分佈及主題樣本順序。
接著,主題分析模組125可依據互動文字內容的關鍵詞彙篩選檔案資料庫123所記錄的主題(步驟S230)。於本實施例中,主題分析模組125判斷關鍵詞彙與那些主題符合的相似度,以作為篩選基礎。具體而言,主題分析模組125透過前述主題模型(例如,潛在狄利克里分配)分析該資料庫詞彙及關鍵詞彙對於不同主題的機率,以作為各機率值之向量。此外,由於互動文字內容與資訊內容皆已轉換到相同主題空間中,因此主題分析模組125可利用餘弦相似度計算公式(2)(假設A、B分別代表二向量),計算資料庫詞彙及關鍵詞彙的對應兩機率值之向量之相似度。…(2)
以圖6為例,師生互動內容(即,互動文字內容)與雲端教材(即,資訊內容)輸入至狄利克里分配主題模型,透過主題模型分析兩輸入資料的對於主題1至主題n(n係正整數)的機率向量。最後,主題分析模組125將兩組向量透過公式(2)計算對於不同主題的相似度。
最後,主題提供模組126即可透過通訊單元110提供篩選主題之內容給對應的用戶設備(步驟S240)。主題提供模組126可挑選相似度高於特定門檻值(例如,0.5、0.8、0.9等)的主題,在從檔案資料庫123中取得所挑選主題的對應內容(例如,教材、圖片、文檔、清單等)。如圖7所示係用戶設備之顯示器所呈現畫面700係主題提供裝置1所提供的教材。
值得注意的是,本發明實施例可應用情境相當多,除了雲端檔案的提供、資訊搜尋、圖片資訊提供、教育學習等,呈現主題提供裝置1甚至可作為一種專家系統,提供使用者在交談後還能獲得額外的輔助內容。例如,圖3所示師生在聊天室310交談後或過程中,主題提供裝置1可提供合適主題的雲端教材350給學生的設備。
綜上所述,本發明實施例主要係由以下流程進行:蒐集雲端電子檔案相關資訊(即,資訊內容)。蒐集複數用戶間之互動文字內容。將雲端電子檔案相關資訊,進行詞彙抽取並濾除停用詞。將互動討論文字內容,進行詞彙抽取並濾除停用詞。利用主題模型,學習資訊內容所隱含之主題。依據主題分佈機率,計算主題符合相似度。最後,依據相似度,推薦符合相關主題之資訊內容給用戶。此資訊內容還可能係應用於教育領域的雲端教材,或是其他法律文件、新聞章節、圖片等各種領域之資訊檔案。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。