Movatterモバイル変換


[0]ホーム

URL:


Skip to content

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up

电商领域命名实体识别

NotificationsYou must be signed in to change notification settings

uloveqian2021/gaiic_task2

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

17 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

2022全球人工智能技术创新大赛—算法挑战赛-商品标题实体识别

复赛成绩81.1(没有太多精力投入,只能这样了)

环境配置

默认是python3.7

数据

仅仅使用了官方的竞赛数据集,按照9:1划分train:dev,存放于data/public_data 目录下,其中train.json和dev.json文件只是方便读取文件转换了格式而已

预训练模型

使用了macbert训练模型,可以通过https://huggingface.co/hfl/chinese-macbert-base链接获得,对code/run_pretrain.py中的BERT网络进行初始化

算法

整体思路介绍(必选)

使用了 EfficientGlobalPointer 进行实体标注, 参考https://kexue.fm/archives/8373

网络结构(必选)

使用BERT对文本进行编码, 使用EfficientGlobalPointer进行解码

损失函数(必选)

使用了 multilabel_categorical_crossentropy 参考https://kexue.fm/archives/7359

模型集成(可选)

使用了10折交叉验证,采用投票的方式生成了为标签,其中无标注数据随机抽取了4W条,testa 抽取了7000条, testb抽取了5000条

训练流程

对train.sh每一步进行描述,或者在train.sh中对每一步添加注释python code/run_pretrain.py 采用无标签数据+训练集+testa 基于macbert继续训练了100 epochpython code/jd_ner_cv.py    基于上一步训练的模型进行10折交叉验证生成无标注数据上的伪标签python code/postprocess.py 利用投票的方式进行融合python code/jd_ner_cv_testa.py   生成testa数据上的伪标签python code/postprocess_testa.pypython code/jd_ner_cv_testb.py 生成testb数据上的伪标签python code/postprocess_testb.pypython code/jd_ner.py 使用三个为标签数据加上训练集数据进行模型训练,并生成最终的结果

测试流程

对test.sh每一步进行描述,或者在test.sh中对每一步添加注释python code/jd_ner.py 加载最好的模型训练,并生成最终的结果

其他注意事项

按照9:1划分train(3.6W):dev(0.4W),存放于data/public_data 目录下

About

电商领域命名实体识别

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

[8]ページ先頭

©2009-2025 Movatter.jp