fastnlp/fastNLPPublic

NotificationsYou must be signed in to change notification settings
Fork450
Star3.1k

fastNLP: A Modularized and Extensible NLP Framework. Currently still in incubation.

License

Apache-2.0 license

3.1k stars 450 forks Branches Tags Activity

Star

Notifications

You must be signed in to change notification settings

Branches Tags

Folders and files

Name		Name	Last commit message	Last commit date
Latest commit History 2,484 Commits
.github		.github
docs		docs
fastNLP		fastNLP
tests		tests
tutorials		tutorials
.Jenkinsfile		.Jenkinsfile
LICENSE		LICENSE
MANIFEST.in		MANIFEST.in
README.md		README.md
requirements.txt		requirements.txt
setup.py		setup.py

Repository files navigation

fastNLP

fastNLP是一款轻量级的自然语言处理（NLP）工具包，目标是减少用户项目中的工程型代码，例如数据处理循环、训练循环、多卡运行等。

fastNLP具有如下的特性：

便捷。在数据处理中可以通过apply函数避免循环、使用多进程提速等；在训练循环阶段可以很方便定制操作。
高效。无需改动代码，实现fp16切换、多卡、ZeRO优化等。
兼容。fastNLP支持多种深度学习框架作为后端。

⚠️为了实现对不同深度学习架构的兼容，fastNLP 1.0.0之后的版本重新设计了架构，因此与过去的fastNLP版本不完全兼容，基于更早的fastNLP代码需要做一定的调整:

fastNLP文档

中文文档

安装指南

fastNLP可以通过以下的命令进行安装

pip install fastNLP>=1.0.0alpha

如果需要安装更早版本的fastNLP请指定版本号，例如

pip install fastNLP==0.7.1

另外，请根据使用的深度学习框架，安装相应的深度学习框架。

Pytorch

下面是使用pytorch来进行文本分类的例子。需要安装torch>=1.6.0。

fromfastNLP.ioimportChnSentiCorpLoaderfromfunctoolsimportpartialfromfastNLPimportcache_resultsfromfastNLP.transformers.torchimportBertTokenizer# 使用cache_results装饰器装饰函数，将prepare_data的返回结果缓存到caches/cache.pkl，再次运行时，如果#  该文件还存在，将自动读取缓存文件，而不再次运行预处理代码。@cache_results('caches/cache.pkl')defprepare_data():# 会自动下载数据，并且可以通过文档看到返回的 dataset 应该是包含"raw_words"和"target"两个field的data_bundle=ChnSentiCorpLoader().load()# 使用tokenizer对数据进行tokenizetokenizer=BertTokenizer.from_pretrained('hfl/chinese-bert-wwm')tokenize=partial(tokenizer,max_length=256)# 限制数据的最大长度data_bundle.apply_field_more(tokenize,field_name='raw_chars',num_proc=4)# 会新增"input_ids", "attention_mask"等field进入dataset中data_bundle.apply_field(int,field_name='target',new_field_name='labels')# 将int函数应用到每个target上，并且放入新的labels field中returndata_bundledata_bundle=prepare_data()print(data_bundle.get_dataset('train')[:4])# 初始化model, optimizerfromfastNLP.transformers.torchimportBertForSequenceClassificationfromtorchimportoptimmodel=BertForSequenceClassification.from_pretrained('hfl/chinese-bert-wwm')optimizer=optim.AdamW(model.parameters(),lr=2e-5)# 准备dataloaderfromfastNLPimportprepare_dataloaderdls=prepare_dataloader(data_bundle,batch_size=32)# 准备训练fromfastNLPimportTrainer,Accuracy,LoadBestModelCallback,TorchWarmupCallback,Eventcallbacks= [TorchWarmupCallback(warmup=0.1,schedule='linear'),# 训练过程中调整学习率。LoadBestModelCallback()# 将在训练结束之后，加载性能最优的model]# 在训练特定时机加入一些操作， 不同时机能够获取到的参数不一样，可以通过Trainer.on函数的文档查看每个时机的参数@Trainer.on(Event.on_before_backward())defprint_loss(trainer,outputs):iftrainer.global_forward_batches%10==0:# 每10个batch打印一次loss。print(outputs.loss.item())trainer=Trainer(model=model,train_dataloader=dls['train'],optimizers=optimizer,device=0,evaluate_dataloaders=dls['dev'],metrics={'acc':Accuracy()},callbacks=callbacks,monitor='acc#acc',n_epochs=5,# Accuracy的update()函数需要pred，target两个参数，它们实际对应的就是以下的field。evaluate_input_mapping={'labels':'target'},# 在评测时，将dataloader中会输入到模型的labels重新命名为targetevaluate_output_mapping={'logits':'pred'}# 在评测时，将model输出中的logits重新命名为pred                  )trainer.run()# 在测试集合上进行评测fromfastNLPimportEvaluatorevaluator=Evaluator(model=model,dataloaders=dls['test'],metrics={'acc':Accuracy()},# Accuracy的update()函数需要pred，target两个参数，它们实际对应的就是以下的field。output_mapping={'logits':'pred'},input_mapping={'labels':'target'})evaluator.run()

更多内容可以参考如下的链接

快速入门

0. 10 分钟快速上手 fastNLP torch

详细使用教程

Paddle

下面是使用paddle来进行文本分类的例子。需要安装paddle>=2.2.0以及paddlenlp>=2.3.3。

fromfastNLP.ioimportChnSentiCorpLoaderfromfunctoolsimportpartial# 会自动下载数据，并且可以通过文档看到返回的 dataset 应该是包含"raw_words"和"target"两个field的data_bundle=ChnSentiCorpLoader().load()# 使用tokenizer对数据进行tokenizefrompaddlenlp.transformersimportBertTokenizertokenizer=BertTokenizer.from_pretrained('hfl/chinese-bert-wwm')tokenize=partial(tokenizer,max_length=256)# 限制一下最大长度data_bundle.apply_field_more(tokenize,field_name='raw_chars',num_proc=4)# 会新增"input_ids", "attention_mask"等field进入dataset中data_bundle.apply_field(int,field_name='target',new_field_name='labels')# 将int函数应用到每个target上，并且放入新的labels field中print(data_bundle.get_dataset('train')[:4])# 初始化 modelfrompaddlenlp.transformersimportBertForSequenceClassification,LinearDecayWithWarmupfrompaddleimportoptimizer,nnclassSeqClsModel(nn.Layer):def__init__(self,model_checkpoint,num_labels):super(SeqClsModel,self).__init__()self.num_labels=num_labelsself.bert=BertForSequenceClassification.from_pretrained(model_checkpoint)defforward(self,input_ids,token_type_ids=None,position_ids=None,attention_mask=None):logits=self.bert(input_ids,token_type_ids,position_ids,attention_mask)returnlogitsdeftrain_step(self,input_ids,labels,token_type_ids=None,position_ids=None,attention_mask=None):logits=self(input_ids,token_type_ids,position_ids,attention_mask)loss_fct=nn.CrossEntropyLoss()loss=loss_fct(logits.reshape((-1,self.num_labels)),labels.reshape((-1, )))return {"logits":logits,"loss":loss,        }defevaluate_step(self,input_ids,token_type_ids=None,position_ids=None,attention_mask=None):logits=self(input_ids,token_type_ids,position_ids,attention_mask)return {"logits":logits,        }model=SeqClsModel('hfl/chinese-bert-wwm',num_labels=2)# 准备dataloaderfromfastNLPimportprepare_dataloaderdls=prepare_dataloader(data_bundle,batch_size=16)# 训练过程中调整学习率。scheduler=LinearDecayWithWarmup(2e-5,total_steps=20*len(dls['train']),warmup=0.1)optimizer=optimizer.AdamW(parameters=model.parameters(),learning_rate=scheduler)# 准备训练fromfastNLPimportTrainer,Accuracy,LoadBestModelCallback,Eventcallbacks= [LoadBestModelCallback()# 将在训练结束之后，加载性能最优的model]# 在训练特定时机加入一些操作， 不同时机能够获取到的参数不一样，可以通过Trainer.on函数的文档查看每个时机的参数@Trainer.on(Event.on_before_backward())defprint_loss(trainer,outputs):iftrainer.global_forward_batches%10==0:# 每10个batch打印一次loss。print(outputs["loss"].item())trainer=Trainer(model=model,train_dataloader=dls['train'],optimizers=optimizer,device=0,evaluate_dataloaders=dls['dev'],metrics={'acc':Accuracy()},callbacks=callbacks,monitor='acc#acc',# Accuracy的update()函数需要pred，target两个参数，它们实际对应的就是以下的field。evaluate_output_mapping={'logits':'pred'},evaluate_input_mapping={'labels':'target'}                  )trainer.run()# 在测试集合上进行评测fromfastNLPimportEvaluatorevaluator=Evaluator(model=model,dataloaders=dls['test'],metrics={'acc':Accuracy()},# Accuracy的update()函数需要pred，target两个参数，它们实际对应的就是以下的field。output_mapping={'logits':'pred'},input_mapping={'labels':'target'})evaluator.run()

更多内容可以参考如下的链接

快速入门

0. 10 分钟快速上手 fastNLP paddle

详细使用教程

oneflow

jittor

项目结构

fastNLP的项目结构如下：

fastNLP	开源的自然语言处理库
fastNLP.core	实现了核心功能，包括数据处理组件、训练器、测试器等
fastNLP.models	实现了一些完整的神经网络模型
fastNLP.modules	实现了用于搭建神经网络模型的诸多组件
fastNLP.embeddings	实现了将序列index转为向量序列的功能，包括读取预训练embedding等
fastNLP.io	实现了读写功能，包括数据读入与预处理，模型读写，数据与模型自动下载等