We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see ourdocumentation.
📜 A method for reasonably measuring nested terms (一种用于合理度量嵌套术语的方法)
一种用于合理度量嵌套术语的方法—C-value方法的实现项目。其基本思想是,首先利用词法规则生成术语候选词集合,然后使用统计信息对集合中的术语进行过滤。C-value术语自动抽取方法(Python版本)支持CLI方式对语料文本直接进行术语抽取。其中,分词技术采用工业界和学术界高度认可的HanLP自然语言处理工具包。
HanLP
C-value提供以下功能:
具体的操作视操作者当前操作系统下的真实情况而定,如果系统默认的python版本就是python3可以直接按下面的命令操作,如果系统有多个版本可以直接见下面命令里的python以及pip改为python3和pip3。
python3
python
pip
pip3
pip install virtualenvpython -m virtualenv venvsource venv/bin/activatepip install -r requirements.txt
INPUT_CORPUS_FILE_PATH: 需要进行术语抽取的语料的文件路径 OUTPUT_TERMS_FILE_PATH: 需要导出候选术语集合的文件路径
python main.py -i INPUT_CORPUS_FILE_PATH -o OUTPUT_TERMS_FILE_PATH
比如项目中的demo语料操作如下:
python main.py -i demo_corpus.csv -o result.csv
以demo语料操作如下:
fromcvalueimportCValueinput_path="demo_corpus.csv"output_path="result_of_csv.csv"CValue(input_path,output_path)