Commitd97aaab

committed

add re_cnn evalution code, add cbow

1 parent746d2e4 commitd97aaabCopy full SHA for d97aaab

File tree

12 files changed

+346

-100

lines changed

python
- dnlp
  - config
    - re_config.py
  - core
  - data_process
    - process_embedding_pretrain.py
    - process_emr.py
- scripts

12 files changed

+346

-100

lines changed

`‎python/dnlp/config/re_config.py‎`

Lines changed: 1 addition & 1 deletion

Original file line number	Diff line number	Diff line change
`@@ -1,7 +1,7 @@`
`1`	`1`	`# -- coding:utf-8 --`
`2`	`2`
`3`	`3`	`classRECNNConfig(object):`
`4`		`-def__init__(self,window_size:tuple=(3,),filter_size:int=150,learning_rate:float=0.4,dropout_rate:float=0.5,`
	`4`	`+def__init__(self,window_size:tuple=(3,4,),filter_size:int=150,learning_rate:float=0.1,dropout_rate:float=0.5,`
`5`	`5`	`lam:float=1e-4,word_embed_size:int=300,position_embed_size:int=50,batch_length:int=85,`
`6`	`6`	`batch_size:int=50):`
`7`	`7`	`self.__window_size=window_size`

`‎python/dnlp/core/dnn_crf.py‎`

Lines changed: 4 additions & 4 deletions

Original file line number	Diff line number	Diff line change
`@@ -88,7 +88,7 @@ def __init__(self, *, config: DnnCrfConfig = None, task='cws', data_path: str =`
`88`	`88`	`tf.summary.scalar('loss',self.mean_loss)`
`89`	`89`	`self.merged=tf.summary.merge_all()`
`90`	`90`
`91`		`-deffit(self,epochs:int=50,interval:int=10):`
	`91`	`+deffit(self,epochs:int=40,interval:int=10):`
`92`	`92`	`withtf.Session(graph=self.graph)assess:`
`93`	`93`	`tf.global_variables_initializer().run()`
`94`	`94`	`saver=tf.train.Saver(max_to_keep=epochs)`
`@@ -104,11 +104,11 @@ def fit(self, epochs: int = 50, interval: int = 10):`
`104`	`104`	`ifepoch%interval==0:`
`105`	`105`	`ifnotself.embedding_path:`
`106`	`106`	`ifself.remark:`
`107`		`-model_path='../dnlp/models/{0}-{1}-{2}-{3}.ckpt'.format(self.task,self.nn,self.remark,epoch)`
	`107`	`+model_path='../dnlp/models/emr/{0}-{1}-{2}-{3}.ckpt'.format(self.task,self.nn,self.remark,epoch)`
`108`	`108`	`else:`
`109`		`-model_path='../dnlp/models/{0}-{1}-{2}.ckpt'.format(self.task,self.nn,epoch)`
	`109`	`+model_path='../dnlp/models/emr/{0}-{1}-{2}.ckpt'.format(self.task,self.nn,epoch)`
`110`	`110`	`else:`
`111`		`-model_path='../dnlp/models/{0}-{1}-embedding-{2}.ckpt'.format(self.task,self.nn,epoch)`
	`111`	`+model_path='../dnlp/models/emr/{0}-{1}-embedding-{2}.ckpt'.format(self.task,self.nn,epoch)`
`112`	`112`	`saver.save(sess,model_path)`
`113`	`113`	`self.save_config(model_path)`
`114`	`114`	`self.train_writer.close()`

`‎python/dnlp/core/dnn_crf_emr.py‎`

Lines changed: 2 additions & 27 deletions

Original file line number	Diff line number	Diff line change
`@@ -8,7 +8,7 @@`
`8`	`8`
`9`	`9`	`classDnnCrfEmr(DnnCrfBase):`
`10`	`10`	`def__init__(self,*,config:DnnCrfConfig=None,data_path:str='',dtype:type=tf.float32,task:str='ner',mode:str='train',`
`11`		`-train:str='',nn:str,model_path:str=''):`
	`11`	`+nn:str,model_path:str=''):`
`12`	`12`	`ifmodenotin ['train','predict']:`
`13`	`13`	`raiseException('mode error')`
`14`	`14`	`ifnnnotin ['mlp','rnn','lstm','bilstm','gru']:`
`@@ -52,11 +52,6 @@ def __init__(self, *, config: DnnCrfConfig = None, data_path: str = '', dtype: t`
`52`	`52`	`self.sess=tf.Session()`
`53`	`53`	`self.sess.run(tf.global_variables_initializer())`
`54`	`54`	`tf.train.Saver().restore(save_path=self.model_path,sess=self.sess)`
`55`		`-eliftrain=='ll':`
`56`		`-self.ll_loss,_=tf.contrib.crf.crf_log_likelihood(self.output,self.real_indices,self.seq_length,`
`57`		`-self.transition)`
`58`		`-self.optimizer=tf.train.AdagradOptimizer(self.learning_rate)`
`59`		`-self.train_ll=self.optimizer.minimize(-self.ll_loss)`
`60`	`55`	`else:`
`61`	`56`	`# 构建训练函数`
`62`	`57`	`# 训练用placeholder`
`@@ -135,26 +130,6 @@ def fit_batch(self, characters, labels, lengths, sess):`
`135`	`130`	`feed_dict[self.trans_init_curr]=trans_init_neg_indices`
`136`	`131`	`sess.run(self.train_with_init,feed_dict)`
`137`	`132`
`138`		`-deffit_ll(self,epochs:int=100,interval:int=20):`
`139`		`-withtf.Session()assess:`
`140`		`-tf.global_variables_initializer().run()`
`141`		`-saver=tf.train.Saver(max_to_keep=epochs)`
`142`		`-forepochinrange(1,epochs+1):`
`143`		`-print('epoch:',epoch)`
`144`		`-for_inrange(self.batch_count):`
`145`		`-characters,labels,lengths=self.get_batch()`
`146`		`-# scores = sess.run(self.output, feed_dict={self.input: characters})`
`147`		`-feed_dict= {self.input:characters,self.real_indices:labels,self.seq_length:lengths}`
`148`		`-sess.run(self.train_ll,feed_dict=feed_dict)`
`149`		`-# self.fit_batch(characters, labels, lengths, sess)`
`150`		`-ifepoch%interval==0:`
`151`		`-model_path='../dnlp/models/emr_old/{0}-{1}.ckpt'.format(self.nn,epoch)`
`152`		`-saver.save(sess,model_path)`
`153`		`-self.save_config(model_path)`
`154`		`-`
`155`		`-deffit_batch_ll(self):`
`156`		`-pass`
`157`		`-`
`158`	`133`	`defgenerate_transition_update_index(self,correct_labels,current_labels):`
`159`	`134`	`ifcorrect_labels.shape!=current_labels.shape:`
`160`	`135`	`print('sequence length is not equal')`
`@@ -218,7 +193,7 @@ def get_mlp_layer(self, layer: tf.Tensor) -> tf.Tensor:`
`218`	`193`	`returnlayer`
`219`	`194`
`220`	`195`	`defget_rnn_layer(self,layer:tf.Tensor)->tf.Tensor:`
`221`		`-rnn=tf.nn.rnn_cell.RNNCell(self.hidden_units)`
	`196`	`+rnn=tf.nn.rnn_cell.BasicRNNCell(self.hidden_units)`
`222`	`197`	`rnn_output,rnn_out_state=tf.nn.dynamic_rnn(rnn,layer,dtype=self.dtype)`
`223`	`198`	`self.params+= [vforvintf.global_variables()ifv.name.startswith('rnn')]`
`224`	`199`	`returntf.transpose(rnn_output)`

`‎python/dnlp/core/re_cnn.py‎`

Lines changed: 63 additions & 22 deletions

Original file line number	Diff line number	Diff line change
`@@ -2,30 +2,38 @@`
`2`	`2`	`importtensorflowastf`
`3`	`3`	`importnumpyasnp`
`4`	`4`	`importpickle`
	`5`	`+fromcollectionsimportCounter`
`5`	`6`	`fromdnlp.core.re_cnn_baseimportRECNNBase`
`6`	`7`	`fromdnlp.configimportRECNNConfig`
`7`	`8`	`fromdnlp.utils.constantimportBATCH_PAD,BATCH_PAD_VAL`
`8`	`9`
`9`	`10`
`10`	`11`	`classRECNN(RECNNBase):`
`11`	`12`	`def__init__(self,config:RECNNConfig,dtype:type=tf.float32,dict_path:str='',mode:str='train',`
`12`		`-data_path:str='',relation_count:int=2,model_path:str=''):`
	`13`	`+data_path:str='',relation_count:int=2,model_path:str='',embedding_path:str='',`
	`14`	`+remark:str=''):`
`13`	`15`	`tf.reset_default_graph()`
`14`	`16`	`RECNNBase.__init__(self,config,dict_path)`
`15`	`17`	`self.dtype=dtype`
`16`	`18`	`self.mode=mode`
`17`	`19`	`self.data_path=data_path`
`18`	`20`	`self.model_path=model_path`
`19`	`21`	`self.relation_count=relation_count`
	`22`	`+self.embedding_path=embedding_path`
	`23`	`+self.remark=remark`
`20`	`24`
`21`	`25`	`self.concat_embed_size=self.word_embed_size+2*self.position_embed_size`
`22`	`26`	`self.input_characters=tf.placeholder(tf.int32, [None,self.batch_length])`
`23`	`27`	`self.input_position=tf.placeholder(tf.int32, [None,self.batch_length])`
`24`	`28`	`self.input=tf.placeholder(self.dtype, [None,self.batch_length,self.concat_embed_size,1])`
`25`	`29`	`self.input_relation=tf.placeholder(self.dtype, [None,self.relation_count])`
`26`		`-self.position_embedding=self.__weight_variable([2*self.batch_length-1,self.position_embed_size],`
	`30`	`+self.position_embedding=self.__weight_variable([2*self.batch_length-1,self.position_embed_size],`
`27`	`31`	`name='position_embedding')`
`28`		`-self.word_embedding=self.__weight_variable([self.words_size,self.word_embed_size],name='word_embedding')`
	`32`	`+ifself.embedding_path:`
	`33`	`+self.word_embedding=tf.Variable(np.load(self.embedding_path),dtype=self.dtype,name='word_embedding',`
	`34`	`+trainable=True)`
	`35`	`+else:`
	`36`	`+self.word_embedding=self.__weight_variable([self.words_size,self.word_embed_size],name='word_embedding')`
`29`	`37`	`self.conv_kernel=self.get_conv_kernel()`
`30`	`38`	`self.bias= [self.__weight_variable([self.filter_size],name='conv_bias')]*len(self.window_size)`
`31`	`39`	`self.full_connected_weight=self.__weight_variable([self.filter_size*len(self.window_size),self.relation_count],`
`@@ -42,13 +50,15 @@ def __init__(self, config: RECNNConfig, dtype: type = tf.float32, dict_path: str`
`42`	`50`	`self.emebd_concat=tf.expand_dims(`
`43`	`51`	`tf.concat([self.character_embed_holder,self.primary_embed_holder,self.secondary_embed_holder],2),3)`
`44`	`52`	`self.words,self.primary,self.secondary,self.labels=self.load_data()`
	`53`	`+`
`45`	`54`	`ifself.mode=='train':`
`46`		`-self.hidden_layer=tf.layers.dropout(self.get_hidden(),self.dropout_rate)`
`47`	`55`	`self.start=0`
	`56`	`+self.hidden_layer=tf.layers.dropout(self.get_hidden(),self.dropout_rate)`
`48`	`57`	`self.data_count=len(self.words)`
`49`	`58`	`self.saver=tf.train.Saver(max_to_keep=100)`
`50`	`59`	`else:`
`51`		`-self.hidden_layer=tf.expand_dims(tf.layers.dropout(self.get_hidden(),self.dropout_rate),0)`
	`60`	`+self.hidden_layer=self.get_hidden()`
	`61`	`+# self.hidden_layer = tf.expand_dims(tf.layers.dropout(self.get_hidden(), self.dropout_rate), 0)`
`52`	`62`	`self.sess=tf.Session()`
`53`	`63`	`self.saver=tf.train.Saver().restore(self.sess,self.model_path)`
`54`	`64`	`self.output_no_softmax=tf.matmul(self.hidden_layer,self.full_connected_weight)+self.full_connected_bias`
`@@ -60,12 +70,11 @@ def __init__(self, config: RECNNConfig, dtype: type = tf.float32, dict_path: str`
`60`	`70`	`self.loss=tf.reduce_sum(tf.square(self.output-self.input_relation))/self.batch_size+self.regularization`
`61`	`71`	`self.cross_entropy=tf.nn.softmax_cross_entropy_with_logits(labels=self.input_relation,`
`62`	`72`	`logits=self.output_no_softmax)+self.regularization`
`63`		`-self.optimizer=tf.train.GradientDescentOptimizer(self.learning_rate)`
`64`		`-#self.optimizer = tf.train.AdagradOptimizer(self.learning_rate)`
	`73`	`+#self.optimizer = tf.train.GradientDescentOptimizer(self.learning_rate)`
	`74`	`+self.optimizer=tf.train.AdagradOptimizer(self.learning_rate)`
`65`	`75`	`self.train_model=self.optimizer.minimize(self.loss)`
`66`	`76`	`self.train_cross_entropy_model=self.optimizer.minimize(self.cross_entropy)`
`67`	`77`
`68`		`-`
`69`	`78`	`defget_conv_kernel(self):`
`70`	`79`	`conv_kernel= []`
`71`	`80`	`forwinself.window_size:`
`@@ -85,10 +94,10 @@ def get_hidden(self):`
`85`	`94`	`h=tf.squeeze(self.max_pooling(tf.nn.relu(self.conv(conv)+bias),w))`
`86`	`95`	`else:`
`87`	`96`	`hh=tf.squeeze(self.max_pooling(tf.nn.relu(self.conv(conv)+bias),w))`
`88`		`-ifself.mode=='train':`
`89`		`-h=tf.concat([h,hh],1)`
`90`		`-else:`
`91`		`-h=tf.concat([h,hh],0)`
	`97`	`+#if self.mode == 'train':`
	`98`	`+h=tf.concat([h,hh],1)`
	`99`	`+#else:`
	`100`	`+# h = tf.concat([h, hh], 0)`
`92`	`101`	`returnh`
`93`	`102`
`94`	`103`	`defconv(self,conv_kernel):`
`@@ -98,7 +107,7 @@ def max_pooling(self, x, window_size):`
`98`	`107`	`returntf.nn.max_pool(x,ksize=[1,self.batch_length-window_size+1,1,1],`
`99`	`108`	`strides=[1,1,1,1],padding='VALID')`
`100`	`109`
`101`		`-deffit(self,epochs=100,interval=20):`
	`110`	`+deffit(self,epochs=40,interval=5):`
`102`	`111`	`withtf.Session()assess:`
`103`	`112`	`tf.global_variables_initializer().run()`
`104`	`113`	`sess.graph.finalize()`
`@@ -116,21 +125,53 @@ def fit(self, epochs=100, interval=20):`
`116`	`125`	`# sess.run(self.train_model, feed_dict={self.input: input, self.input_relation: batch['label']})`
`117`	`126`	`sess.run(self.train_cross_entropy_model,feed_dict={self.input:input,self.input_relation:labels})`
`118`	`127`	`ifi%interval==0:`
`119`		`-model_name='../dnlp/models/re/{0}-{1}.ckpt'.format(i,'_'.join(map(str,self.window_size)))`
	`128`	`+ifself.relation_count==2:`
	`129`	`+model_name='../dnlp/models/re_{2}/{0}-{1}{3}.ckpt'.format(i,'_'.join(map(str,self.window_size)),`
	`130`	`+'two',self.remark)`
	`131`	`+else:`
	`132`	`+model_name='../dnlp/models/re_{2}/{0}-{1}{3}.ckpt'.format(i,'_'.join(map(str,self.window_size)),`
	`133`	`+'multi',self.remark)`
	`134`	`+`
`120`	`135`	`self.saver.save(sess,model_name)`
`121`		`-defpredict(self,words,primary,secondary):`
	`136`	`+`
	`137`	`+defpredict(self,words,primary,secondary):`
`122`	`138`	`character_embeds,primary_embeds=self.sess.run([self.character_lookup,self.position_lookup],`
`123`		`-feed_dict={self.input_characters:words,`
`124`		`-self.input_position:primary})`
	`139`	`+feed_dict={self.input_characters:words,`
	`140`	`+self.input_position:primary})`
`125`	`141`	`secondary_embeds=self.sess.run(self.position_lookup,feed_dict={self.input_position:secondary})`
`126`	`142`	`input=self.sess.run(self.emebd_concat,feed_dict={self.character_embed_holder:character_embeds,`
`127`		`-self.primary_embed_holder:primary_embeds,`
`128`		`-self.secondary_embed_holder:secondary_embeds})`
	`143`	`+self.primary_embed_holder:primary_embeds,`
	`144`	`+self.secondary_embed_holder:secondary_embeds})`
`129`	`145`	`output=self.sess.run(self.output,feed_dict={self.input:input})`
`130`	`146`	`returnnp.argmax(output,1)`
`131`	`147`
`132`	`148`	`defevaluate(self):`
`133`		`-res=self.predict(self.words,self.primary,self.secondary)`
	`149`	`+res=self.predict(self.words,self.primary,self.secondary)`
	`150`	`+res_count=Counter(res)[1]`
	`151`	`+target=np.argmax(self.labels,1)`
	`152`	`+target_count=Counter(target)[1]`
	`153`	`+correct_number=Counter(np.array(res)-target)`
	`154`	`+print(correct_number)`
	`155`	`+returnself.get_score(np.array(res),target)`
	`156`	`+`
	`157`	`+defget_score(self,predict,true):`
	`158`	`+types=Counter(predict).keys()`
	`159`	`+corr_count= []`
	`160`	`+true_count= []`
	`161`	`+pred_count= []`
	`162`	`+`
	`163`	`+fortintypes:`
	`164`	`+corr_count.append(len([vforv,cinzip(predict-t,predict-true)ifv==0andc==0]))`
	`165`	`+true_count.append(len([teforteintrueifte==t]))`
	`166`	`+pred_count.append(len([pdforpdinpredictifpd==t]))`
	`167`	`+`
	`168`	`+precs= [c/pforc,pinzip(corr_count,pred_count)ifp!=0andc!=0]`
	`169`	`+recalls= [c/rforc,rinzip(corr_count,true_count)ifr!=0andc!=0]`
	`170`	`+prec=sum(precs)/len(precs)`
	`171`	`+recall=sum(recalls)/len(recalls)`
	`172`	`+f1=2precrecall/ (prec+recall)`
	`173`	`+print(prec,recall,f1)`
	`174`	`+returnprec,recall,f1`
`134`	`175`
`135`	`176`	`defload_batch(self):`
`136`	`177`	`ifself.start+self.batch_size>self.data_count:`
`@@ -163,8 +204,8 @@ def load_data(self):`
`163`	`204`	`else:`
`164`	`205`	`sentence_words=sentence_words[:self.batch_length]`
`165`	`206`	`words.append(sentence_words)`
`166`		`-primary.append(np.arange(self.batch_length)-sentence['primary']+self.batch_length-1)`
`167`		`-secondary.append(np.arange(self.batch_length)-sentence['secondary']+self.batch_length-1)`
	`207`	`+primary.append(np.arange(self.batch_length)-sentence['primary']+self.batch_length-1)`
	`208`	`+secondary.append(np.arange(self.batch_length)-sentence['secondary']+self.batch_length-1)`
`168`	`209`	`sentence_labels=np.zeros([self.relation_count])`
`169`	`210`	`sentence_labels[sentence['type']]=1`
`170`	`211`	`labels.append(sentence_labels)`

`‎python/dnlp/core/skip_gram.py‎renamed to ‎python/dnlp/core/word2vec.py‎`

Lines changed: 12 additions & 5 deletions

Original file line number	Diff line number	Diff line change
`@@ -6,14 +6,16 @@`
`6`	`6`
`7`	`7`
`8`	`8`	`classSkipGram(object):`
`9`		`-def__init__(self,src_filename:str,dest_filename:str,batch_size:int=128,embed_size:int=100,`
`10`		`-num_sampled:int=64,steps:int=50000):`
	`9`	`+def__init__(self,src_filename:str,dest_filename:str,window_size:int=4,mode='skip_gram',batch_size:int=128,`
	`10`	`+embed_size:int=100,num_sampled:int=64,steps:int=50000):`
`11`	`11`	`withopen(src_filename,'rb')asf:`
`12`	`12`	`data=pickle.load(f)`
`13`	`13`	`self.input=data['input']`
`14`	`14`	`self.output=data['output']`
`15`	`15`	`self.dictionary=data['dictionary']`
`16`	`16`	`self.vocab_size=len(self.dictionary)`
	`17`	`+self.mode=mode`
	`18`	`+self.window_size=window_size`
`17`	`19`	`self.start=0`
`18`	`20`	`self.dest_filename=dest_filename`
`19`	`21`	`self.batch_size=batch_size`
`@@ -24,10 +26,15 @@ def __init__(self, src_filename: str, dest_filename: str, batch_size: int = 128,`
`24`	`26`	`self.embeddings=tf.Variable(tf.random_uniform([self.vocab_size,self.embed_size],-1.0,1.0))`
`25`	`27`
`26`	`28`	`deftrain(self):`
`27`		`-train_inputs=tf.placeholder(tf.int32,shape=[self.batch_size])`
	`29`	`+ifself.mode=='skip_gram':`
	`30`	`+train_inputs=tf.placeholder(tf.int32,shape=[self.batch_size])`
	`31`	`+else:`
	`32`	`+train_inputs=tf.placeholder(tf.int32,shape=[self.batch_size,self.window_size])`
`28`	`33`	`train_labels=tf.placeholder(tf.int32,shape=[self.batch_size,1])`
`29`	`34`
`30`	`35`	`embed=tf.nn.embedding_lookup(self.embeddings,train_inputs)`
	`36`	`+ifself.mode=='cbow':`
	`37`	`+embed=tf.reduce_sum(embed,1)`
`31`	`38`
`32`	`39`	`nce_weights=tf.Variable(`
`33`	`40`	`tf.truncated_normal([self.vocab_size,self.embed_size],`
`@@ -37,13 +44,13 @@ def train(self):`
`37`	`44`	`loss=tf.reduce_mean(`
`38`	`45`	`tf.nn.nce_loss(weights=nce_weights,biases=nce_biases,labels=train_labels,inputs=embed,`
`39`	`46`	`num_sampled=self.num_sampled,num_classes=self.vocab_size))`
`40`		`-optimizer=tf.train.GradientDescentOptimizer(0.2).minimize(loss)`
	`47`	`+optimizer=tf.train.AdagradOptimizer(0.2).minimize(loss)`
`41`	`48`
`42`	`49`	`withtf.Session()assess:`
`43`	`50`	`tf.global_variables_initializer().run()`
`44`	`51`
`45`	`52`	`aver_loss=0`
`46`		`-forstepinrange(1,self.steps+1):`
	`53`	`+forstepinrange(1,self.steps+1):`
`47`	`54`	`batch_inputs,batch_labels=self.generate_batch()`
`48`	`55`	`feed_dict= {train_inputs:batch_inputs,train_labels:batch_labels}`
`49`	`56`	`_,loss_val=sess.run([optimizer,loss],feed_dict=feed_dict)`

`‎python/dnlp/data_process/process_character_embedding_pretrain.py‎renamed to ‎python/dnlp/data_process/process_embedding_pretrain.py‎`

Lines changed: 25 additions & 6 deletions

Original file line number	Diff line number	Diff line change
`@@ -5,21 +5,30 @@`
`5`	`5`	`fromdnlp.utils.constantimportUNK`
`6`	`6`
`7`	`7`
`8`		`-classCharacterEmbeddingPertrainProcess(Preprocessor):`
`9`		`-def__init__(self,base_folder:str,files:tuple,dict_path:str,skip_window:int):`
	`8`	`+classEmbeddingPertrainProcess(Preprocessor):`
	`9`	`+def__init__(self,base_folder:str,files:tuple,dict_path:str,skip_window:int,`
	`10`	`+output_name:str,mode:str='character',algorithm='skip_gram'):`
`10`	`11`	`Preprocessor.__init__(self,base_folder=base_folder,files=files,dict_path=dict_path)`
`11`	`12`	`self.skip_window=skip_window`
`12`	`13`	`self.files=files`
	`14`	`+self.output_name=output_name`
	`15`	`+self.mode=mode`
`13`	`16`	`self.sentences=self.preprocess()`
`14`	`17`	`self.indices=self.map_to_indices()`
`15`		`-self.input,self.output=self.process()`
	`18`	`+ifalgorithm=='skip_gram':`
	`19`	`+self.input,self.output=self.process_skip_gram()`
	`20`	`+else:`
	`21`	`+self.input,self.output=self.process_cbow()`
`16`	`22`	`self.save_data()`
`17`	`23`
`18`	`24`	`defpreprocess(self):`
`19`	`25`	`sentences= []`
`20`	`26`	`forfileinself.files:`
`21`	`27`	`withopen(self.base_folder+file,encoding='utf-8')asf:`
`22`		`-sentences.extend(f.read().splitlines())`
	`28`	`+ifself.mode=='character':`
	`29`	`+sentences.extend(f.read().splitlines())`
	`30`	`+else:`
	`31`	`+sentences.extend([l.split(' ')forlinf.read().splitlines()])`
`23`	`32`	`returnsentences`
`24`	`33`
`25`	`34`	`defmap_to_indices(self):`
`@@ -35,7 +44,17 @@ def map_to_indices(self):`
`35`	`44`	`indices.append(idx)`
`36`	`45`	`returnindices`
`37`	`46`
`38`		`-defprocess(self):`
	`47`	`+defprocess_cbow(self):`
	`48`	`+input= []`
	`49`	`+output= []`
	`50`	`+forindexinself.indices:`
	`51`	`+iflen(index)<2*self.skip_window+1:`
	`52`	`+continue`
	`53`	`+foriinrange(self.skip_window,len(index)-self.skip_window):`
	`54`	`+input.append(index[i-self.skip_window:i]+index[i+1:i+1+self.skip_window])`
	`55`	`+output.append(index[i])`
	`56`	`+returninput,output`
	`57`	`+defprocess_skip_gram(self):`
`39`	`58`	`input= []`
`40`	`59`	`output= []`
`41`	`60`	`forindexinself.indices:`
`@@ -54,6 +73,6 @@ def shuffle(i):`
`54`	`73`	`returninput,output`
`55`	`74`
`56`	`75`	`defsave_data(self):`
`57`		`-withopen(self.base_folder+'emr_skip_gram.pickle','wb', )asf:`
	`76`	`+withopen(self.base_folder+self.output_name,'wb', )asf:`
`58`	`77`	`data= {'input':self.input,'output':self.output,'dictionary':self.dictionary}`
`59`	`78`	`pickle.dump(data,f)`

0 commit comments

Comments

(0)

Movatterモバイル変換

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Commitd97aaab

File tree

12 files changed

12 files changed

`‎python/dnlp/config/re_config.py‎`

`‎python/dnlp/core/dnn_crf.py‎`

`‎python/dnlp/core/dnn_crf_emr.py‎`

`‎python/dnlp/core/re_cnn.py‎`

`‎python/dnlp/core/skip_gram.py‎renamed to ‎python/dnlp/core/word2vec.py‎`

`‎python/dnlp/data_process/process_character_embedding_pretrain.py‎renamed to ‎python/dnlp/data_process/process_embedding_pretrain.py‎`

0 commit comments