- Notifications
You must be signed in to change notification settings - Fork166
Releases: PaddlePaddle/PaddleFleetX
Releases · PaddlePaddle/PaddleFleetX
PaddleFleetX v2.4.1
362ffe3 This commit was created on GitHub.com and signed with GitHub’sverified signature. The key has expired.
- 更新 imagen 相关配置信息
- 发布 PaddleFleetX 2.4 镜像
- 修复 GPT 量化相关 bug
- ViT 和 imagen 的 benchmark 监控修复
Assets2
Uh oh!
There was an error while loading.Please reload this page.
PaddleFleetX v2.4.0
2a41090 This commit was created on GitHub.com and signed with GitHub’sverified signature. The key has expired.
一、环境部署
- 为提升开发部署用户体验,全面适配了 PaddlePaddle 2.4,并发布了预安装镜像。
二、动态图训练
- 支持gradient accumulation。(#824)
- 修复dataloader int32 overflow的问题。(#818)
- 开源了 MoCo V1、V2 在 Imagenet1K 上的预训练和 linprob 微调代码以及Checkpoint,并达对齐精度
三、自动并行
- 在 345M、1.3B、6.7B 规模上支持 GPT 预训练模型的自动并行分布式训练,还支持了自动混合精度、分组切片、重计算与梯度累计优化策略。(#757#801)
- 为了支持大模型分布式推理,实现了 GPT 生成模型的自适应转换,包括组网重切分与参数自动转换功能。(#815)
四、推理部署
- 优化GPT生成模型组网逻辑,添加自定义融合算子,减少动转静产生的同步操作,提升推理性能(#946)。
五、性能
- 在345M、1.3B、6.7B与175B模型上支持TensorFuse功能、适配使用FusedLinear、支持selective recompute、支持fp16 embedding。(#620,#626,#634,#635,#752)
- 在6.7B模型上适配sharding stage 2 reduce overlap、适配sharding stage 2 broadcast overlap、适配sharding stage 2多流broadcast。(#799,#812,#833)
- 在175B模型上适配interleave pipeline、适配pipeline recompute interval、支持pipeline非均匀且分的组网方式、支持sequence parallel策略。(#860,#881,#884,#734,#746,#819,#846,#854,#861)
- 相对于同等模型规模的Megatron(DeepSpeed),345M GPT 八卡性能超越竞品 14.2%、1.3B GPT 八卡性能超越竞品5.6%、6.7B GPT 16卡性能超越竞品11.7%、175B GPT 128卡性能超越竞品 0.4%。
六、调试工具
七、模型
Assets2
Uh oh!
There was an error while loading.Please reload this page.
PaddleFleetX v2.4.0rc
13b4341 This commit was created on GitHub.com and signed with GitHub’sverified signature. The key has expired.
1、环境部署
开发支持包括 Docker/PyPI 等多种二次开发和部署环境,提升使用易用性,可被其他套件或平台安装集成
2、动态图训练
- 开源GPT大模型分布式训练代码及345M模型参数
- 开源了 ViT-B/16 在 Imagenet1K 上的预训练代码以及Checkpoint,并达到谷歌官方ViT公布的精度
- 开源Imagen模型代码,实现 Imagen 397M、2B 文图生成算法以及 256x256、1024x1024 2个超分扩散模型组网、训练、评估和推理功能
3、自动并行
实现GPT『动转静+自动并行』大模型训练,支持常见并行策略、优化策略和两者的任意组合使用,其中并行策略包括数据并行、张量并行、流水线并行和混合并行,优化策略包括重计算、混合精度(1/2/3)、梯度累加、Sharding(1/2/3)
4、推理部署
- 支持动转静模型导出和InferenceEngine推理部署通用能力
- 支持GPT系列模型导出和推理部署
5、量化压缩
- 支持动态图量化训练功能
- GPT-345M模型经过INT8量化,在LAMBDA任务上精度无损。(Baseline Accuracy: 44.17%; INT8量化后 Accuracy: 44.38%)
6、性能
- 训练:GPT-345M模型下,八卡性能超越竞品Megatron-LM 14.2%。GPT-1.3B模型下,八卡性能超越竞品Megatron-LM 5.6%
- 推理:Imagen对齐了 T5-11B 文本推理模型,性能超越 PyTorch 20%。解决 Imagen 1024x1024 长序列超分扩散模型显存占用过大的问题,模型吞吐提升35%
7、调试工具
覆盖包括分布式等多种调试需求,兼容VisualDL可视化工具,提升二次开发体验
Assets2
Uh oh!
There was an error while loading.Please reload this page.