- Notifications
You must be signed in to change notification settings - Fork2
word2vec, doc2vec testing for Japanese, using Ansible/Docker. Seehttps://github.com/vochicong/datalab-nlp for a Datalab version.
vochicong/doc2vec
Folders and files
| Name | Name | Last commit message | Last commit date | |
|---|---|---|---|---|
Repository files navigation
日本語に対してword2vec, doc2vec等をやってみる。
以下くらいの環境を想定
- GCP VM: n1-highmem-2 (2 vCPUs, 13 GB memory)
- Disk: 256 GB
- OS: Ubuntu Linux 16.04
インストールされるもの
- Ubuntu 16.04
- vim, wget, git, nkf
- g++
- Python2, Python3, pip, Cython
- gensim (word2vec, doc2vec), pattern
- MeCab
- JUMAN, JUMAN++, KNP
- fastText
注
- Python3だとgensimがslow modeになり、patternはエラー
git clone git@github.com:vochicong/doc2vec.gitcd doc2vec以下、3つの方法が選べる。
- build済みのDocker imageを利用
- Docker imageを手元でbuild
- DockerではなくVMにインストール
build済みのDocker imageをpullして、containerを起動
- docker, docker-compose
docker-compose upDocker内でコマンドを打つなら
docker-compose exec nlp-doc2vec bash手元でansible-containerを使ってDocker imageをbuildする。
- docker, docker-compose
- ansible-container
buildしてvochicong/nlp-doc2vecへpush
ansible-container builddocker tag nlp-doc2vec:latest vochicong/nlp-doc2vec:latestansible-container push --push-to dockerdocker push vochicong/nlp-doc2vec:latest # push tag latest手元でdocker-composeを使ってDocker imageをbuildする。
- docker, docker-compose
buildしてvochicong/nlp-doc2vecへpush
docker-compose builddocker-compose pushDockerではなく、VM(Ubuntu 16.04想定)に環境をインストールする。
- ansible
初回、データダウンロードを含めて実行
sudo mkdir -p /workspace/downloadsudo chown -R `whoami` /workspaceansible-playbook ansible-playbook.yml --skip-tags="clean"2回目以降は、データダウンロードが不要
ansible-playbook ansible-playbook.yml --skip-tags="download,clean"ダウロードしたデータを削除する場合
ansible-playbook ansible-playbook.yml --tags="clean"rm -Rf /workspace/download/*About
word2vec, doc2vec testing for Japanese, using Ansible/Docker. Seehttps://github.com/vochicong/datalab-nlp for a Datalab version.
Topics
Resources
Uh oh!
There was an error while loading.Please reload this page.
Stars
Watchers
Forks
Releases
Packages0
Uh oh!
There was an error while loading.Please reload this page.