- Notifications
You must be signed in to change notification settings - Fork0
自然言語処理データ拡張ライブラリnlpaugのJupyter上での実行例。
License
NotificationsYou must be signed in to change notification settings
Kazuhito00/nlpaug-examples
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
nlpaug-examplesは自然言語処理データ拡張ライブラリnlpaugのJupyter上での実行例です。
動作確認はGoogle Colaboratory上で実施しています。
- nlpaug
- numpy
- matplotlib
- python-dotenv
- torch>=1.2.0
- transformers>=2.5.0
- nltk>=3.4.5
Jupyter上でnlpaug-examples.ipynbを開いて実行してください。
実行例を見るだけであれば、Github上でnlpaug-textual-examples.ipynbを開くと以下のように見ることが出来ます。
以下の実行例を実装しています。
- テキストデータに対するデータ拡張(nlpaug-textual-examples.ipynb)
- 文字単位のデータ拡張
- KeyboardAug(キーボード打ち間違い)
- OcrAug(OCR検出間違い)
- RandomAug(ランダム)
- 単語単位のデータ拡張
- AntonymAug(反意語)
- ContextualWordEmbsAug(BERT等を用いた挿入、置換)
- RandomWordAug(ランダム)
- SpellingAug(スペルミス)
- SplitAug(単語分割)
- SynonymAug(類義語)
- TfIdfAug(tf-idfを用いた挿入、置換)
- WordEmbsAug(Word2Vec等を用いた挿入、置換)
- 文単位のデータ拡張
- ContextualWordEmbsForSentenceAug(XLNet等を用いた予測文を挿入)
- 文字単位のデータ拡張
以下の実行例は未実装です。
- 信号データに対するデータ拡張(nlpaug-signal-examples.ipynb)
- オーディオのデータ拡張
- CropAug(クロッピング)
- LoudnessAug(音量)
- MaskAug(マスク)
- NoiseAug(ノイズ)
- PitchAug(ピッチ)
- ShiftAug(時間方向のシフト)
- SpeedAug(速度)
- VtlpAug(声道)
- スペクトログラム
- FrequencyMaskingAug(周波数マスク)
- TimeMaskingAug(時間方向マスク)
- オーディオのデータ拡張
https://github.com/makcedward/nlpaug
-
nlpaugに直接関係ありませんが、チェックしたいもの。
*自然言語を簡単に可視化・分析できるライブラリ「nlplot」を公開しました
高橋かずひと(https://twitter.com/KzhtTkhs)
nlpaug-examples is underMIT license.