Movatterモバイル変換


[0]ホーム

URL:


Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings
This repository was archived by the owner on Oct 25, 2019. It is now read-only.
/doc2vecPublic archive

word2vec, doc2vec testing for Japanese, using Ansible/Docker. Seehttps://github.com/vochicong/datalab-nlp for a Datalab version.

NotificationsYou must be signed in to change notification settings

vochicong/doc2vec

Repository files navigation

日本語に対してword2vec, doc2vec等をやってみる。

実験ノート

計算環境

以下くらいの環境を想定

  • GCP VM: n1-highmem-2 (2 vCPUs, 13 GB memory)
  • Disk: 256 GB
  • OS: Ubuntu Linux 16.04

内容

インストールされるもの

  • Ubuntu 16.04
  • vim, wget, git, nkf
  • g++
  • Python2, Python3, pip, Cython
  • gensim (word2vec, doc2vec), pattern
  • MeCab
  • JUMAN, JUMAN++, KNP
  • fastText

  • Python3だとgensimがslow modeになり、patternはエラー

git clone

git clone git@github.com:vochicong/doc2vec.gitcd doc2vec

以下、3つの方法が選べる。

  • build済みのDocker imageを利用
  • Docker imageを手元でbuild
  • DockerではなくVMにインストール

build済みのDocker imageを利用

build済みのDocker imageをpullして、containerを起動

必要なもの

  • docker, docker-compose

実行

docker-compose up

Docker内でコマンドを打つなら

docker-compose exec nlp-doc2vec bash

Build Docker image using ansible-container

手元でansible-containerを使ってDocker imageをbuildする。

必要なもの

  • docker, docker-compose
  • ansible-container

実行

buildしてvochicong/nlp-doc2vecへpush

ansible-container builddocker tag nlp-doc2vec:latest vochicong/nlp-doc2vec:latestansible-container push --push-to dockerdocker push vochicong/nlp-doc2vec:latest # push tag latest

Build Docker image using docker-compose

手元でdocker-composeを使ってDocker imageをbuildする。

必要なもの

  • docker, docker-compose

実行

buildしてvochicong/nlp-doc2vecへpush

docker-compose builddocker-compose push

VMにインストール

Dockerではなく、VM(Ubuntu 16.04想定)に環境をインストールする。

必要なもの

  • ansible

実行

初回、データダウンロードを含めて実行

sudo mkdir -p /workspace/downloadsudo chown -R `whoami` /workspaceansible-playbook ansible-playbook.yml  --skip-tags="clean"

2回目以降は、データダウンロードが不要

ansible-playbook ansible-playbook.yml  --skip-tags="download,clean"

ダウロードしたデータを削除する場合

ansible-playbook ansible-playbook.yml  --tags="clean"rm -Rf /workspace/download/*

About

word2vec, doc2vec testing for Japanese, using Ansible/Docker. Seehttps://github.com/vochicong/datalab-nlp for a Datalab version.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

[8]ページ先頭

©2009-2025 Movatter.jp