uloveqian2021/gaiic_task2Public

NotificationsYou must be signed in to change notification settings
Fork1
Star9

电商领域命名实体识别

You must be signed in to change notification settings

Folders and files

Name		Name	Last commit message	Last commit date
Latest commit History 17 Commits
code		code
data/submission		data/submission
README.md		README.md
init.sh		init.sh
requirements.txt		requirements.txt
test.sh		test.sh
train.sh		train.sh

Repository files navigation

代码说明

2022全球人工智能技术创新大赛—算法挑战赛-商品标题实体识别

复赛成绩81.1(没有太多精力投入，只能这样了）

环境配置

默认是python3.7

数据

仅仅使用了官方的竞赛数据集，按照9:1划分train:dev,存放于data/public_data 目录下，其中train.json和dev.json文件只是方便读取文件转换了格式而已

预训练模型

使用了macbert训练模型，可以通过https://huggingface.co/hfl/chinese-macbert-base链接获得，对code/run_pretrain.py中的BERT网络进行初始化

算法

整体思路介绍（必选）

使用了　EfficientGlobalPointer 进行实体标注，　参考https://kexue.fm/archives/8373

网络结构（必选）

使用BERT对文本进行编码，　使用EfficientGlobalPointer进行解码

损失函数（必选）

使用了　multilabel_categorical_crossentropy　参考https://kexue.fm/archives/7359

模型集成（可选）

使用了10折交叉验证，采用投票的方式生成了为标签，其中无标注数据随机抽取了4W条，testa 抽取了7000条, testb抽取了5000条

训练流程

对train.sh每一步进行描述，或者在train.sh中对每一步添加注释python code/run_pretrain.py 采用无标签数据＋训练集＋testa 基于macbert继续训练了100 epochpython code/jd_ner_cv.py 　　基于上一步训练的模型进行10折交叉验证生成无标注数据上的伪标签python code/postprocess.py 利用投票的方式进行融合python code/jd_ner_cv_testa.py 　　生成testa数据上的伪标签python code/postprocess_testa.pypython code/jd_ner_cv_testb.py 生成testb数据上的伪标签python code/postprocess_testb.pypython code/jd_ner.py 使用三个为标签数据加上训练集数据进行模型训练，并生成最终的结果

测试流程

对test.sh每一步进行描述，或者在test.sh中对每一步添加注释python code/jd_ner.py 加载最好的模型训练，并生成最终的结果

其他注意事项

按照9:1划分train(3.6W):dev(0.4W),存放于data/public_data 目录下

About

电商领域命名实体识别

Releases

No releases published

Packages

No packages published

Movatterモバイル変換

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Folders and files

Latest commit

History

Repository files navigation

代码说明

环境配置

数据

预训练模型

算法

整体思路介绍（必选）

网络结构（必选）

损失函数（必选）

模型集成（可选）

训练流程

测试流程

其他注意事项

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages

Languages

Movatterモバイル変換

uloveqian2021/gaiic_task2

Folders and files

Latest commit

History

Repository files navigation

代码说明

环境配置

数据

预训练模型

算法

整体思路介绍（必选）

网络结构（必选）

损失函数（必选）

模型集成（可选）

训练流程

测试流程

其他注意事项

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages0

Languages

Packages