- Notifications
You must be signed in to change notification settings - Fork89
一个生产级、高性能、模块化、可扩展的中文NLP工具包。(中文分词、平均感知机、fastText、拼音、新词发现、分词纠错、BM25、人名识别、命名实体、自定义词典)
License
mayabot/mynlp
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
该章节介绍如何安装和简单使用mynlp的基础功能。
mynlp已经发布在Maven中央仓库中,所以只需要在Maven或者Gradle中引入mynlp.jar依赖即可。
compile 'com.mayabot.mynlp:mynlp:4.0.0'
<dependency> <groupId>com.mayabot.mynlp</groupId> <artifactId>mynlp</artifactId> <version>4.0.0</version></dependency>
因为资源文件较大,所以mynlp.jar包默认不包括资源文件(词典和模型文件)依赖。
懒人方案,通过引用mynlp-all依赖默认提供的资源词典,满足大部分需求。
compile 'com.mayabot.mynlp:mynlp-all:4.0.0'
Gradle 坐标 | mynlp-all依赖 | 文件大小 | 说明 |
---|---|---|---|
com.mayabot.mynlp.resource:mynlp-resource-coredict:1.0.0 | Y | 18.2M | 核心词典(20w+词,500w+二元) |
com.mayabot.mynlp.resource:mynlp-resource-pos:1.0.0 | Y | 17.5M | 词性标注模型(感知机模型) |
com.mayabot.mynlp.resource:mynlp-resource-ner:1.0.0 | Y | 13.4M | 命名实体识别(人名识别、其他NER) |
com.mayabot.mynlp.resource:mynlp-resource-pinyin:1.1.0 | Y | 272K | 拼音词典、拼音切分模型 |
com.mayabot.mynlp.resource:mynlp-resource-transform:1.0.0 | Y | 478K | 繁简体词典 |
com.mayabot.mynlp.resource:mynlp-resource-cws:1.0.0 | N | 62.4M | 感知机分词模型 |
com.mayabot.mynlp.resource:mynlp-resource-custom:1.0.0 | N | 2.19M | 自定义扩展词库 |
根据实际的需要,按需引入资源包。
compile 'com.mayabot.mynlp:mynlp:3.2.0'// 核心词典implementation 'com.mayabot.mynlp.resource:mynlp-resource-coredict:1.0.0'// 词性标注implementation 'com.mayabot.mynlp.resource:mynlp-resource-pos:1.0.0'// 命名实体implementation 'com.mayabot.mynlp.resource:mynlp-resource-ner:1.0.0'// 拼音implementation 'com.mayabot.mynlp.resource:mynlp-resource-pinyin:1.1.0'// 繁简体转换implementation 'com.mayabot.mynlp.resource:mynlp-resource-transform:1.0.0'// 感知机分词模型// implementation 'com.mayabot.mynlp.resource:mynlp-resource-cws:1.0.0'// 自定义扩展词库// implementation 'com.mayabot.mynlp.resource:mynlp-resource-custom:1.0.0'
About
一个生产级、高性能、模块化、可扩展的中文NLP工具包。(中文分词、平均感知机、fastText、拼音、新词发现、分词纠错、BM25、人名识别、命名实体、自定义词典)