Movatterモバイル変換

yiyepiaoling0715/unsupervised_extract_detect_wordsPublic

NotificationsYou must be signed in to change notification settings
Fork6
Star23

multiprocess unsupervised chinese_detect_words ngram_combination

23 stars 6 forks Branches Tags Activity

Star

Notifications

You must be signed in to change notification settings

Branches Tags

Folders and files

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
.idea		.idea
__pycache__		__pycache__
files		files
output		output
README.md		README.md
configs.py		configs.py
get_corpus.py		get_corpus.py
get_raw_words.py		get_raw_words.py
multiprocess_deal.py		multiprocess_deal.py
patterns.py		patterns.py
segment_multi.py		segment_multi.py
trie_multi.py		trie_multi.py
util_funcs.py		util_funcs.py

Repository files navigation

1.思路：借鉴之前有一篇blog，利用人人网数据进行新词挖掘的思想，做了改进优化；

2.原始思路：利用jieba对文档分词，3个相邻词为一组，计算两个词的左信息熵，右信息熵，内部的凝聚度，并据此进行计算分数，根据分数大小获取新词；

3.优化点：

      1.针对只能结合两个词，泛化到结合计算相邻N个词；      2.内部互信息【凝聚度计算】，归一化到长度=1个词的情况下的值，可以实现不同长度词在同一纬度下进行比较；            3.多进程处理，提高运行速度；            4.添加过滤机制，根据停用词,高频常用词等进行过滤

4.入口文件： segment_multi.py

执行方式： python segment_multi.py

参数修改文件：configs.py

5.效果展示

('_重大_疾病', 0.017789747314352424)('_保障_范围', 0.015639743403053734)('_本_公司', 0.014212133249451173)('_完全_丧失', 0.013672071599779227)('_意外_伤害', 0.010722245979224557)('_明确_诊断', 0.009062853195861094)('_日常生活_活动', 0.008990786509666062)('_六项_基本_日常生活', 0.008813957372202039)('_基本_日常生活', 0.008694797110512052)('_基本_日常生活_活动', 0.008671016020472998)('_保险_事故', 0.008504469334120192)('_六项_基本_日常生活_活动', 0.008471400808888209)('_能力_完全_丧失', 0.008404916576493579)('_全部_条件', 0.008136980840438046)('_无法_独立', 0.008091270307811042)('_满足_下列_全部_条件', 0.008055553080109046)        ('_现金_价值', 0.007895715475057304)

About

multiprocess unsupervised chinese_detect_words ngram_combination

Releases

No releases published

Packages

No packages published

Languages

Python100.0%

Movatterモバイル変換

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Folders and files

Latest commit

History

Repository files navigation

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages

Languages

Movatterモバイル変換

yiyepiaoling0715/unsupervised_extract_detect_words

Folders and files

Latest commit

History

Repository files navigation

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages0

Languages

Packages