Movatterモバイル変換


[0]ホーム

URL:


TWI656448B - 主題提供裝置及其雲儲存檔案提示方法 - Google Patents

主題提供裝置及其雲儲存檔案提示方法
Download PDF

Info

Publication number
TWI656448B
TWI656448BTW106137724ATW106137724ATWI656448BTW I656448 BTWI656448 BTW I656448BTW 106137724 ATW106137724 ATW 106137724ATW 106137724 ATW106137724 ATW 106137724ATW I656448 BTWI656448 BTW I656448B
Authority
TW
Taiwan
Prior art keywords
vocabulary
database
keyword
content
topics
Prior art date
Application number
TW106137724A
Other languages
English (en)
Other versions
TW201918901A (zh
Inventor
許庭瑋
王昱鈞
林春風
陳嬿如
翁慈佳
Original Assignee
中華電信股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中華電信股份有限公司filedCritical中華電信股份有限公司
Priority to TW106137724ApriorityCriticalpatent/TWI656448B/zh
Application grantedgrantedCritical
Publication of TWI656448BpublicationCriticalpatent/TWI656448B/zh
Publication of TW201918901ApublicationCriticalpatent/TW201918901A/zh

Links

Landscapes

Abstract

本發明提供一種主題提供裝置及其雲儲存檔案提示方法。取得互動文字內容,此互動文字內容係經至少二位使用者之多媒體對話內容轉換而得。自此互動文字內容中取得關鍵詞彙。依據這些關鍵詞彙篩選檔案資料庫所記錄的數個主題。提供篩選主題之內容(例如,雲儲存檔案、教材等)。藉此,可應用於各種領域,讓討論的使用者能得到額外的參考資料。

Description

主題提供裝置及其雲儲存檔案提示方法
本發明是有關於一種機器學習及人工智慧技術的語意分析領域,且特別是有關於一種主題提供裝置及其雲儲存檔案提示方法。
近年來人工智慧係相當熱門的技術之一,各大型電子公司無不投入大量人力及資金來研發。其中,自然語言處理係人工智慧技術中重要的研究項目,其主要係探討如何處理及運用自然語言,並讓電腦能理解人類的語言。以往,人們可能需要透過鍵盤或滑鼠等輸入裝置來輸入預設的幾個關鍵字,電腦才能提供回應。藉由自然語言處理技術,電腦可理解人類正常談話內容,使大眾能以更簡單且方便的方式與智能產品(例如,智慧型手機、機器人、智慧管家等)互動。此外,人工智慧技術中另一熱門研究項目係機器學習,其主要係讓電腦能夠從輸入資料中自動學習。而機器學習目前已經廣泛應用在資料探勘、自然語言處理、生物特徵辨識、搜尋引擎等領域,可見其重要性。
另一方面,隨著網路快速發展,現代人幾乎難以脫離網路世界。然而,一般使用者所用電子產品的功能有限,甚至會有效能不足等問題。為了解決前述問題,不少業者會提供雲端處理服務,將需要運算處理的部分交由伺服器執行,而使用者僅需要透過瀏覽器或應用程式發出需求即可。
有鑒於此,本發明提供一種主題提供裝置及其雲儲存檔案提示方法,其依據互動交談內容,提供合適主題的檔案、教材等內容。
本發明的雲儲存檔案提示方法,其包括下列步驟。取得互動文字內容,此互動文字內容係經至少二位使用者之多媒體對話內容轉換而得。自此互動文字內容中取得關鍵詞彙。依據這些關鍵詞彙篩選檔案資料庫所記錄的數個主題。提供篩選主題之內容。
本發明的主題提供裝置,其包括通訊單元、儲存單元及處理單元。通訊單元傳送或接收資料。儲存單元記錄數個模組及檔案資料庫,此檔案資料庫儲存數個主題之內容。處理單元耦接通訊單元及儲存單元,且存取並載入儲存單元所記錄的那些模組。那些模組包括訊息交換模組、互動詞彙抽取模組、主題分析模組及主題提供模組。訊息交換模組透過通訊單元取得至少二位使用者之多媒體對話內容,並將這些使用者之多媒體對話內容轉換成互動文字內容。互動詞彙抽取模組自互動文字內容中取得關鍵詞彙。主題分析模組依據這些關鍵詞彙篩選那些主題。主題提供模組透過通訊單元提供篩選主題之內容。
基於上述,本發明實施例係基於機器運算方法,將二人以上的線上互動文字內容(包含聲音轉文字的語音討論)之主題進行關注詞標示,以自動提示或推薦雲端儲存空間中相應主題之檔案或教材,從而達到檔案系統智慧化,並加強雲儲存檔案系統的使用度,且增進人群之間知識學習及刺激經濟發展。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
圖1是依據本發明一實施例之主題提供裝置1的元件方塊圖。主題提供裝置1 可以係伺服器、電腦主機、工作站等電子裝置,並至少包括但不僅限於通訊單元110、儲存單元120及處理單元130。
通訊單元110可以係支援光纖、乙太網路(Ethernet)等有線網路技術或Wi-Fi、行動通訊網路、WiMAX等無線網路的通訊收發器,其可接收來自其他用戶設備(例如,電腦、智慧型手機、平板電腦等)的訊息、聊天內容、多媒體內容等檔案或資料,並可發送各種主題之內容(例如,檔案、教材等)給對應用戶設備。
儲存單元120可以係任何型態的固定或可移動隨機存取記憶體(RAM)、唯讀記憶體(ROM)、快閃記憶體(flash memory)、傳統硬碟(hard disk drive)、固態硬碟(solid-state drive)或類似元件或上述元件的組合,並用以記錄訊息交換模組121、互動詞彙抽取模組122、檔案資料庫123、資料庫詞彙抽取模組124、主題分析模組125及主題提供模組126等軟體程式、主題模型、停用詞(stop word)、關鍵詞彙、資料庫詞彙等相關資訊。前述模組、資料庫、檔案及資料待後續實施例再詳細說明。
處理單元130與儲存單元120及通訊單元110連接,並可以是中央處理單元(CPU),或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、數位信號處理器(DSP)、可程式化控制器、特殊應用積體電路(ASIC)或其他類似元件或上述元件的組合。在本發明實施例中,處理單元130用以執行主題提供裝置1的所有作業,且可存取並執行上述儲存單元120中記錄的模組。
為了方便理解本發明實施例的操作流程,以下將舉諸多實施例詳細說明本發明實施例中主題提供裝置1之運作流程。圖2是依據本發明一實施例說明一種雲儲存檔案提示方法之流程圖。請參照圖2,本實施例的方法適用於圖1中主題提供裝置1中的各裝置。下文中,將搭配主題提供裝置1的各項元件及模組說明本發明實施例所述之方法。本方法的各個流程可依照實施情形而隨之調整,且並不僅限於此。
首先,經擷取網路封包、用戶上傳或透過外部或內件儲存媒介(例如,隨身碟、光碟、外接硬碟等)而使主題提供裝置1取得任何類型(例如,教材、圖庫、新聞等)檔案內容、檔案註解內容、檔案資料屬性等檔案相關資料、或是影音/語音檔案等多媒體檔案,並將這些檔案轉換成文字、語音等形式的資訊內容而儲存於檔案資料庫123中,以作為訓練學習的樣本。
另一方面,訊息交換模組121會透過該通訊單元取得至少二位使用者之多媒體對話內容,並將這些使用者之多媒體對話內容轉換成互動文字內容,從而此得互動文字內容(步驟S210)。具體而言,訊息交換模組121可自行運作聊天室、討論區或其他訊息交換平台或自外部的訊息交換平台(如圖3之聊天室310),蒐集用戶(例如,師生、客戶、業者等)所留下的純文字訊息、視訊錄音等多媒體對話內容。
接著,資料庫詞彙抽取模組124對檔案資料庫123所記錄資訊內容進行詞彙抽取並濾除停用詞(Stop words),以產生資料庫詞彙。具體而言,資料庫詞彙抽取模組124分析檔案內容、檔案註解內容、檔案資料屬性、書籤分類名稱、搜尋關鍵字之文字內容,以擷取用戶關注的詞彙。由於檔案內容、檔案資料屬性與檔案註解內容多為一般語句,因此資料庫詞彙抽取模組124可透過後綴數組(suffix array)或PAT-Tree等抽詞方法擷取語句中之重要詞彙。經抽詞方法所擷取出之詞彙先利用預先給定之規則條件進行初步過濾,刪除非成詞之詞彙。接著,資料庫詞彙抽取模組124利用預先收集之中英文停用詞列表,進一步過濾擷取出之詞彙,並以空格分隔擷取出之詞彙,最終所得之詞彙即作為資料庫詞彙。
此外,互動詞彙抽取模組122亦自互動文字內容中取得關鍵詞彙(步驟S220),相似地,互動詞彙抽取模組122係對互動文字內容進行詞彙抽取並濾除停用詞,以產生關鍵詞彙,而其詳細步驟可參照前述取得資料庫詞彙的流程,於此不再贅述。
而主題分析模組125則透過自然語言處理相關之主題模型學習那些資料庫詞彙,以產生資訊內容所隱含之主題。具體而言,主題模型領域中的潛在狄利克里分配 (LDA、Latent Dirichlet Allocation)、LSA(Latent Semantic Analysis)、PLSA(Probabilistic Latent Semantic Analysis)等都是常見用於自然語言處理的模型方法。
請參照圖3係潛在狄利克里分配的概念數學函式之示意圖,其中的標籤數學意義為::每個文檔(即,資訊內容)所屬之主題之狄利克里分佈:每個主題內詞語之狄利克里分佈:文檔m之主題機率分佈:主題k之詞語機率分佈:文檔m之第n個詞所屬的主題:文檔m之第n個詞:主題總數:文檔總數:文檔內之詞語總數 潛在狄利克里分配模型之文檔生成步驟為: 從狄利克里分佈中取樣生成文檔m的主題分布。從主題的多項式分佈中取樣生成文檔mn個詞的主題。從狄利克里分佈中取樣生成主題的詞語分布。從詞語的多項式分佈中採樣最終生成詞語
而針對訓練樣本D(即,資訊內容),其資料內容相似度(likelihood)可表示成:…(1) 透過最大化相似度評估(Maximum Likelihood Estimate)的訓練條件及對應的訓練方式,例如吉布斯取樣法(Gibbs Sampling)或變分性推斷(Variational Inference),主題分析模組125可求得模型參數α、β、θ、φ。
請接著參照圖5是一範例說明文檔生成過程。針對一篇文章,主題分析模組125可以透過主題機率分佈,例如圖面右方以不同底色柱狀圖所表示三種主題的分佈以及每一種主題的詞彙分佈,例如第一主題包含「三角函數」、「正弦」、「餘弦」等詞彙,其機率分別為0.05、0.02、0.02等,依此類推,之後再依照主題分佈產生不同主題順序的樣本,如產生的主題順序為第一主題、第二主題、第一主題、第二主題、第三主題、第一主題等圓圈。最後,透過主題詞彙分佈,生成對應的詞彙(如圖中所示箭頭指向及標註)。而透過模型的訓練,主題分析模組125即得到最符合訓練資料的主題分佈、詞彙分佈及主題樣本順序。
接著,主題分析模組125可依據互動文字內容的關鍵詞彙篩選檔案資料庫123所記錄的主題(步驟S230)。於本實施例中,主題分析模組125判斷關鍵詞彙與那些主題符合的相似度,以作為篩選基礎。具體而言,主題分析模組125透過前述主題模型(例如,潛在狄利克里分配)分析該資料庫詞彙及關鍵詞彙對於不同主題的機率,以作為各機率值之向量。此外,由於互動文字內容與資訊內容皆已轉換到相同主題空間中,因此主題分析模組125可利用餘弦相似度計算公式(2)(假設A、B分別代表二向量),計算資料庫詞彙及關鍵詞彙的對應兩機率值之向量之相似度。…(2)
以圖6為例,師生互動內容(即,互動文字內容)與雲端教材(即,資訊內容)輸入至狄利克里分配主題模型,透過主題模型分析兩輸入資料的對於主題1至主題n(n係正整數)的機率向量。最後,主題分析模組125將兩組向量透過公式(2)計算對於不同主題的相似度。
最後,主題提供模組126即可透過通訊單元110提供篩選主題之內容給對應的用戶設備(步驟S240)。主題提供模組126可挑選相似度高於特定門檻值(例如,0.5、0.8、0.9等)的主題,在從檔案資料庫123中取得所挑選主題的對應內容(例如,教材、圖片、文檔、清單等)。如圖7所示係用戶設備之顯示器所呈現畫面700係主題提供裝置1所提供的教材。
值得注意的是,本發明實施例可應用情境相當多,除了雲端檔案的提供、資訊搜尋、圖片資訊提供、教育學習等,呈現主題提供裝置1甚至可作為一種專家系統,提供使用者在交談後還能獲得額外的輔助內容。例如,圖3所示師生在聊天室310交談後或過程中,主題提供裝置1可提供合適主題的雲端教材350給學生的設備。
綜上所述,本發明實施例主要係由以下流程進行:蒐集雲端電子檔案相關資訊(即,資訊內容)。蒐集複數用戶間之互動文字內容。將雲端電子檔案相關資訊,進行詞彙抽取並濾除停用詞。將互動討論文字內容,進行詞彙抽取並濾除停用詞。利用主題模型,學習資訊內容所隱含之主題。依據主題分佈機率,計算主題符合相似度。最後,依據相似度,推薦符合相關主題之資訊內容給用戶。此資訊內容還可能係應用於教育領域的雲端教材,或是其他法律文件、新聞章節、圖片等各種領域之資訊檔案。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
1‧‧‧主題提供裝置
110‧‧‧通訊單元
120‧‧‧儲存單元
121‧‧‧訊息交換模組
122‧‧‧互動詞彙抽取模組
123‧‧‧檔案資料庫
124‧‧‧資料庫詞彙抽取模組
125‧‧‧主題分析模組
126‧‧‧主題提供模組
S210~S240‧‧‧步驟
310‧‧‧聊天室
350‧‧‧雲端教材
700‧‧‧呈現畫面
α‧‧‧每個文檔所屬之主題之狄利克里分佈
β‧‧‧每個主題內詞語之狄利克里分佈
θ‧‧‧主題機率分佈
φ‧‧‧詞語機率分佈
Z‧‧‧所屬的主題
w‧‧‧詞
K‧‧‧主題總數
M‧‧‧文檔總數
N‧‧‧文檔內之詞語總數
圖1是依據本發明一實施例之主題提供裝置的元件方塊圖。 圖2是依據本發明一實施例之雲儲存檔案提示方法的流程圖。 圖3是一範例說明聊天室及主題內容之提供。 圖4是潛在狄利克里分配(Latent Dirichlet Allocation,LDA)的概念數學函式之示意圖。 圖5是一範例說明文檔生成過程。 圖6是一範例說明相似度運算流程。 圖7是一範例說明所提供之主題內容。

Claims (9)

  1. 一種主題提供裝置,包括:一通訊單元,傳送或接收資料;一儲存單元,記錄多個模組及一檔案資料庫,其中該檔案資料庫儲存多個主題之內容;一處理單元,耦接該通訊單元及該儲存單元,且存取並載入該儲存單元所記錄的該些模組,而該些模組包括:一訊息交換模組,透過該通訊單元取得至少二使用者之多媒體對話內容,並將該至少二使用者之多媒體對話內容轉換成一互動文字內容;一互動詞彙抽取模組,自該互動文字內容中取得至少一關鍵詞彙;一主題分析模組,依據該至少一關鍵詞彙篩選該些主題,並判斷該至少一關鍵詞彙與該些主題符合的相似度,以作為篩選基礎;以及一主題提供模組,透過該通訊單元提供篩選主題之內容。
TW106137724A2017-11-012017-11-01主題提供裝置及其雲儲存檔案提示方法TWI656448B (zh)

Priority Applications (1)

Application NumberPriority DateFiling DateTitle
TW106137724ATWI656448B (zh)2017-11-012017-11-01主題提供裝置及其雲儲存檔案提示方法

Applications Claiming Priority (1)

Application NumberPriority DateFiling DateTitle
TW106137724ATWI656448B (zh)2017-11-012017-11-01主題提供裝置及其雲儲存檔案提示方法

Publications (2)

Publication NumberPublication Date
TWI656448Btrue TWI656448B (zh)2019-04-11
TW201918901A TW201918901A (zh)2019-05-16

Family

ID=66996104

Family Applications (1)

Application NumberTitlePriority DateFiling Date
TW106137724ATWI656448B (zh)2017-11-012017-11-01主題提供裝置及其雲儲存檔案提示方法

Country Status (1)

CountryLink
TW (1)TWI656448B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
CN114385902A (zh)*2020-10-222022-04-22腾讯科技(深圳)有限公司一种内容推荐方法、装置及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
TW589589B (en)*2002-06-032004-06-01Yuan Chiou Internat Co LtdAn interactive teaching system and method provided through internet
TW201044332A (en)*2009-06-032010-12-16Qing-Rong LiaoMultiple-user on-line interaction system and the method thereof
CN104978878A (zh)*2015-06-262015-10-14苏州点通教育科技有限公司微课教学系统及方法
US20160164815A1 (en)*2014-12-082016-06-09Samsung Electronics Co., Ltd.Terminal device and data processing method thereof
CN106649405A (zh)*2015-11-042017-05-10陈包容一种获取聊天发起句的回复提示内容的方法及装置
US20170147919A1 (en)*2015-11-242017-05-25Samsung Electronics Co., Ltd.Electronic device and operating method thereof

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
TW589589B (en)*2002-06-032004-06-01Yuan Chiou Internat Co LtdAn interactive teaching system and method provided through internet
TW201044332A (en)*2009-06-032010-12-16Qing-Rong LiaoMultiple-user on-line interaction system and the method thereof
US20160164815A1 (en)*2014-12-082016-06-09Samsung Electronics Co., Ltd.Terminal device and data processing method thereof
CN104978878A (zh)*2015-06-262015-10-14苏州点通教育科技有限公司微课教学系统及方法
CN106649405A (zh)*2015-11-042017-05-10陈包容一种获取聊天发起句的回复提示内容的方法及装置
US20170147919A1 (en)*2015-11-242017-05-25Samsung Electronics Co., Ltd.Electronic device and operating method thereof

Cited By (2)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
CN114385902A (zh)*2020-10-222022-04-22腾讯科技(深圳)有限公司一种内容推荐方法、装置及存储介质
CN114385902B (zh)*2020-10-222024-01-30腾讯科技(深圳)有限公司一种内容推荐方法、装置及存储介质

Also Published As

Publication numberPublication date
TW201918901A (zh)2019-05-16

Similar Documents

PublicationPublication DateTitle
Chen et al.Using social media images as data in social science research
US11899681B2 (en)Knowledge graph building method, electronic apparatus and non-transitory computer readable storage medium
CN111079444B (zh)一种基于多模态关系的网络谣言检测方法
US11704501B2 (en)Providing a response in a session
US12001474B2 (en)Information determining method and apparatus, computer device, and storage medium
CN102902821B (zh)基于网络热点话题的图像高级语义标注、检索方法及装置
CN114419515B (zh)视频处理方法、机器学习模型训练方法及相关装置、设备
CN106156365A (zh)一种知识图谱的生成方法及装置
CN107463605A (zh)低质新闻资源的识别方法及装置、计算机设备及可读介质
WO2020103899A1 (zh)用于生成图文信息的方法和用于生成图像数据库的方法
CN112052414A (zh)一种数据处理方法、装置以及可读存储介质
US10652454B2 (en)Image quality evaluation
CN112199954B (zh)基于语音语义的疾病实体匹配方法、装置及计算机设备
SeenivasanETL in a World of Unstructured Data: Advanced Techniques for Data Integration
CN112149389A (zh)简历信息结构化处理方法、装置、计算机设备和存储介质
CN113821669A (zh)搜索方法、装置、电子设备和存储介质
US11595614B1 (en)Intelligent reframing
Alfrjani et al.A new approach to ontology-based semantic modelling for opinion mining
Panda et al.Heritage app: annotating images on mobile phones
TWI656448B (zh)主題提供裝置及其雲儲存檔案提示方法
US11501071B2 (en)Word and image relationships in combined vector space
CN118331502A (zh)一种云资源管理方法、装置及电子设备
CN116933069B (zh)内容资源检测模型的训练方法、内容资源检测方法及装置
CN117079052A (zh)图像内容标注方法、装置、存储介质及计算机设备
CN111401047A (zh)法律文书的争议焦点生成方法、装置及计算机设备

[8]ページ先頭

©2009-2025 Movatter.jp