Movatterモバイル変換


[0]ホーム

URL:


Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

数据标注是一款专门对文本数据进行处理和标注的工具,通过简化快捷的文本标注流程和动态的算法反馈,支持用户快速标注关键词并能通过算法持续减少人工标注的成本和时间。数据标注的过程先由人工标注构建基础,再由自动标注反哺人工标注,最后由人工标注进行纠偏,从而大幅度提高标注的精准度和高效性。数据标注需要依赖开源的数字底座进行人员岗位管控。

License

NotificationsYou must be signed in to change notification settings

risesoft-y9/Data-Labeling

Repository files navigation

logo

starlogo

简介

数据标注是一款专门对文本数据进行处理和标注的工具,通过简化快捷的文本标注流程和动态的算法反馈,支持用户快速标注关键词并能通过算法持续减少人工标注的成本和时间。数据标注的过程先由人工标注构建基础,再由自动标注反哺人工标注,最后由人工标注进行纠偏,从而大幅度提高标注的精准度和高效性。数据标注需要依赖开源的数字底座进行人员岗位管控。

源码目录

vue -- 前端工程 ├── y9vue-tokenizer -- 数据标注前端工程webapp -- 系统模块 ├── risenet-y9boot-webapp-tokenizer -- 数据标注后端工程

数据标注功能架构图

数据标注应用架构图

产品特点

高效标注

针对文章和文本,数据标注利用各种标识、快捷键、组合键、分类方法来提高标注的效率并减少标注错误率。

全局算法校准

在多组同时标注的情况下,数据标注会汇聚全部的标注结果,从而减少重复标注的工作量。通过全局校准的方法,标注人员可以看到全局当前对于文章的自动标注结果,从而只需要对结果纠偏即可。

行业词库

针对数据标注的结果,本项目会定期释放各类、各行业以txt形式存储的经过人工纠偏的标注结果,从而帮助AI和分词器更精准地识别中文词汇里面不断的新生词汇和组合词汇。

功能描述

序 号特 点  名 称特点描述
1添加文章通过本地导入或者批量导入的方式添加文章,同时可以根据文章类型进行必要的分类。
2文章筛选根据文章类型和顺序编号进行筛选。
3导出分词支持将全部已经完成的分词和标注进行一次性的导出。本功能以压txt的形式导出文件。
4标注结果通过红色方框显示最终的人工标注结果。此结果为全局的人工标注的综合结果,而非单人单文章的标注结果。
5标注操作支持以快捷键、右键、组合键等方式确认标注,同时支持在页面或者快捷键的方式删除已经标注的词汇。
6标注状态包含“全部标注”、“标注中”、“未标注”、“已标注”共计四种状态,可以根据状态、序号、文章分类进行筛选。
7标注验证利用分词器和已具备的全局综合分词能力进行一次标注验证,检查是否有遗漏的标注语料,也可以检验全局综合分词能力是否有偏颇。标注验证以下划线和波浪线的方式区别邻近的名词。
8标注日志在单个文章中查看已经完成的标注操作日志。

数据资产

1. 行业领域专有词汇

2. 政务公开文章词汇

3. 司法案件观点条例

4. 数据库分类题目库

5. 算法库(来自“山东国家应用数学中心”)

后端技术选型

序号依赖版本官网
1Spring Boot2.7.10官网
2SpringDataJPA2.7.10官网
3nacos2.2.1官网
4druid1.2.16官网
5Jackson2.13.5官网
6javers6.13.0官网
7lombok1.18.26官网
8logback1.2.11官网

前端技术选型

序号依赖版本官网
1vue3.3.2官网
2vite22.9.13官网
3vue-router4.0.13官网
4pinia2.0.11官网
5axios0.24.0官网
6typescript4.5.4官网
7core-js3.20.1官网
8element-plus2.2.29官网
9sass1.58.0官网
10animate.css4.1.1官网
11vxe-table4.3.5官网
12echarts5.3.2官网
13svgo1.3.2官网
14lodash4.17.21官网

中间件选型

序号工具版本官网
1JDK11官网
2Tomcat9.0+官网

数据库选型

序号工具版本官网
1elasticsearch7.9+官网

信创兼容适配

序号类型对象
1浏览器奇安信、火狐、谷歌、360等
2插件金山、永中、数科、福昕等
3中间件东方通、金蝶、宝兰德等
4数据库人大金仓、达梦、高斯等
5操作系统统信、麒麟、中科方德等
6芯片ARM体系、MIPS体系、X86体系

文档专区

开发文档:https://docs.youshengyun.com/

序号名称
1内部Java开发规范手册
2日志组件使用文档
3文件组件使用文档
4代码生成器使用文档
5配置文件说明文档
6常用工具类使用示例文档
7前端开发手册
8前端开发规范
9前端代码格式化
10前端系统组件
11前端通用方法
12前端国际化
13前端Icon图标
14单点登录对接文档
15分词器安装部署文档
16分词器操作手册

数据标注截图

依赖开源项目

序 号项 目  名 称项目介绍地 址
1数字底座数字底座是一款面向大型政府、企业数字化转型,基于身份认证、组织架构、岗位职务、应用系统、资源角色等功能构建的统一且安全的管理支撑平台。数字底座基于三员管理模式,具备微服务、多租户、容器化和国产化,支持用户利用代码生成器快速构建自己的业务应用,同时可关联诸多成熟且好用的内部生态应用码云GitHub

赞助与支持

中关村软件和信息服务产业创新联盟

官网:https://www.zgcsa.net

北京有生博大软件股份有限公司

官网:https://www.risesoft.net/

统一标识代码注册管理中心

官网:https://www.idcode.org.cn/

数字底座已经全面接入统一标识码(MA码),具体使用说明请查看:https://gitee.com/risesoft-y9/y9-core/tree/main/y9-digitalbase-idcode

中国城市发展研究会

官网:https://www.china-cfh.com/

济南亚跃信息技术有限公司

官网:https://www.yayueyun.com/yayueOwe

北京京畿法律咨询有限公司

联系人:邱先生

邮箱:bjbj7@qq.com

山东国家应用数学中心

官网:http://www.sdam.sdu.edu.cn/

咨询与合作

联系人:曲经理

微信号:qq349416828

备注:开源咨询-姓名

联系人:有生博大-咨询热线

座机号:010-86393151

About

数据标注是一款专门对文本数据进行处理和标注的工具,通过简化快捷的文本标注流程和动态的算法反馈,支持用户快速标注关键词并能通过算法持续减少人工标注的成本和时间。数据标注的过程先由人工标注构建基础,再由自动标注反哺人工标注,最后由人工标注进行纠偏,从而大幅度提高标注的精准度和高效性。数据标注需要依赖开源的数字底座进行人员岗位管控。

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Contributors4

  •  
  •  
  •  
  •  

[8]ページ先頭

©2009-2025 Movatter.jp