Movatterモバイル変換


[0]ホーム

URL:


Skip to content

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up

📜 A method for reasonably measuring nested terms (一种用于合理度量嵌套术语的方法)

License

NotificationsYou must be signed in to change notification settings

waiyuchan/CValue

Repository files navigation


一种用于合理度量嵌套术语的方法—C-value方法的实现项目。其基本思想是,首先利用词法规则生成术语候选词集合,然后使用统计信息对集合中的术语进行过滤。C-value术语自动抽取方法(Python版本)支持CLI方式对语料文本直接进行术语抽取。其中,分词技术采用工业界和学术界高度认可的HanLP自然语言处理工具包。

C-value提供以下功能:

  • 支持多种语料输入,包括
    • CSV、TXT
  • 候选术语C-value快速计算
  • 候选术语集合快速排序(待完成)
  • 候选术语集合多文件格式导出,包括:
    • CSV、TXT(待完成)、JSON(待完成)

环境配置


具体的操作视操作者当前操作系统下的真实情况而定,如果系统默认的python版本就是python3可以直接按下面的命令操作,如果系统有多个版本可以直接见下面命令里的python以及pip改为python3pip3

pip install virtualenvpython -m virtualenv venvsource venv/bin/activatepip install -r requirements.txt

命令行执行


INPUT_CORPUS_FILE_PATH: 需要进行术语抽取的语料的文件路径 OUTPUT_TERMS_FILE_PATH: 需要导出候选术语集合的文件路径

python main.py -i INPUT_CORPUS_FILE_PATH -o OUTPUT_TERMS_FILE_PATH

比如项目中的demo语料操作如下:

python main.py -i demo_corpus.csv -o result.csv

API执行


以demo语料操作如下:

fromcvalueimportCValueinput_path="demo_corpus.csv"output_path="result_of_csv.csv"CValue(input_path,output_path)

About

📜 A method for reasonably measuring nested terms (一种用于合理度量嵌套术语的方法)

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages


[8]ページ先頭

©2009-2025 Movatter.jp