Commit1dabce4

committed

modify to dataset api

1 parented380f9 commit1dabce4Copy full SHA for 1dabce4

File tree

2 files changed

+52

-21

lines changed

python/dnlp/core
- dnn_crf.py
- dnn_crf_base.py

2 files changed

+52

-21

lines changed

`‎python/dnlp/core/dnn_crf.py‎`

Lines changed: 18 additions & 2 deletions

Original file line number	Diff line number	Diff line change
`@@ -35,11 +35,18 @@ def __init__(self, *, config: DnnCrfConfig = None, task='cws', data_path: str =`
`35`	`35`	`ifmode=='train':`
`36`	`36`	`self.input=tf.placeholder(tf.int32, [self.batch_size,self.batch_length,self.windows_size])`
`37`	`37`	`self.real_indices=tf.placeholder(tf.int32, [self.batch_size,self.batch_length])`
	`38`	`+self.sentence_inputs=tf.data.Dataset.from_tensor_slices(self.sentences).repeat(-1).batch(self.batch_size)`
	`39`	`+self.label_inputs=tf.data.Dataset.from_tensor_slices(self.labels).repeat(-1).batch(self.batch_size)`
	`40`	`+self.length_inputs=tf.data.Dataset.from_tensor_slices(self.sentence_lengths).repeat(-1).batch(self.batch_size)`
	`41`	`+self.sentence_iterator=self.sentence_inputs.make_initializable_iterator()`
	`42`	`+self.label_iterator=self.label_inputs.make_initializable_iterator()`
	`43`	`+self.length_iterator=self.length_inputs.make_initializable_iterator()`
`38`	`44`	`else:`
`39`	`45`	`self.input=tf.placeholder(tf.int32, [None,self.windows_size])`
`40`	`46`
`41`	`47`	`self.seq_length=tf.placeholder(tf.int32, [None])`
`42`	`48`
	`49`	`+`
`43`	`50`	`# 查找表层`
`44`	`51`	`self.embedding_layer=self.get_embedding_layer()`
`45`	`52`	`# 执行drpout`
`@@ -91,13 +98,22 @@ def __init__(self, *, config: DnnCrfConfig = None, task='cws', data_path: str =`
`91`	`98`	`deffit(self,epochs:int=50,interval:int=10):`
`92`	`99`	`withtf.Session(graph=self.graph)assess:`
`93`	`100`	`tf.global_variables_initializer().run()`
	`101`	`+sess.run(self.sentence_iterator.initializer)`
	`102`	`+sess.run(self.label_iterator.initializer)`
	`103`	`+sess.run(self.length_iterator.initializer)`
	`104`	`+sentence=self.sentence_iterator.get_next()`
	`105`	`+label=self.label_iterator.get_next()`
	`106`	`+length=self.length_iterator.get_next()`
`94`	`107`	`saver=tf.train.Saver(max_to_keep=epochs)`
`95`	`108`	`forepochinrange(1,epochs+1):`
`96`	`109`	`print('epoch:',epoch)`
`97`	`110`	`j=0`
`98`	`111`	`foriinrange(self.batch_count):`
`99`		`-characters,labels,lengths=self.get_batch()`
`100`		`-feed_dict= {self.input:characters,self.real_indices:labels,self.seq_length:lengths}`
	`112`	`+# sentences, labels, lengths = self.get_batch()`
	`113`	`+sentences=sess.run(sentence)`
	`114`	`+labels=sess.run(label)`
	`115`	`+lengths=sess.run(length)`
	`116`	`+feed_dict= {self.input:sentences,self.real_indices:labels,self.seq_length:lengths}`
`101`	`117`	`_,summary,loss=sess.run([self.train,self.merged,self.mean_loss],feed_dict=feed_dict)`
`102`	`118`	`self.train_writer.add_summary(summary,j)`
`103`	`119`	`j+=1`

`‎python/dnlp/core/dnn_crf_base.py‎`

Lines changed: 34 additions & 19 deletions

Original file line number	Diff line number	Diff line change
`@@ -10,16 +10,6 @@ def __init__(self, config: DnnCrfConfig = None, data_path: str = '', mode: str =`
`10`	`10`	`# 加载数据`
`11`	`11`	`self.data_path=data_path`
`12`	`12`	`self.config_suffix='.config.pickle'`
`13`		`-ifmode=='train':`
`14`		`-self.dictionary,self.tags,self.characters,self.labels=self.__load_data()`
`15`		`-else:`
`16`		`-self.model_path=model_path`
`17`		`-self.config_path=self.model_path+self.config_suffix`
`18`		`-self.dictionary,self.tags=self.__load_config()`
`19`		`-self.tags_count=len(self.tags)-1# 忽略TAG_PAD`
`20`		`-self.tags_map=self.__generate_tag_map()`
`21`		`-self.reversed_tags_map=dict(zip(self.tags_map.values(),self.tags_map.keys()))`
`22`		`-self.dict_size=len(self.dictionary)`
`23`	`13`	`# 初始化超参数`
`24`	`14`	`self.skip_left=config.skip_left`
`25`	`15`	`self.skip_right=config.skip_right`
`@@ -32,12 +22,25 @@ def __init__(self, config: DnnCrfConfig = None, data_path: str = '', mode: str =`
`32`	`22`	`self.concat_embed_size=self.embed_size*self.windows_size`
`33`	`23`	`self.batch_length=config.batch_length`
`34`	`24`	`self.batch_size=config.batch_size`
`35`		`-# 数据`
	`25`	`+`
`36`	`26`	`ifmode=='train':`
`37`		`-self.sentences_length=list(map(lambdas:len(s),self.characters))`
`38`		`-self.sentences_count=len(self.sentences_length)`
	`27`	`+self.dictionary,self.tags,self.sentences,self.labels=self.__load_data()`
	`28`	`+self.sentence_lengths=list(map(lambdas:len(s),self.sentences))`
	`29`	`+self.sentences_count=len(self.sentence_lengths)`
`39`	`30`	`self.batch_count=self.sentences_count//self.batch_size`
`40`	`31`	`self.batch_start=0`
	`32`	`+self.dataset_start=0`
	`33`	`+else:`
	`34`	`+self.model_path=model_path`
	`35`	`+self.config_path=self.model_path+self.config_suffix`
	`36`	`+self.dictionary,self.tags=self.__load_config()`
	`37`	`+self.tags_count=len(self.tags)-1# 忽略TAG_PAD`
	`38`	`+self.tags_map=self.__generate_tag_map()`
	`39`	`+self.reversed_tags_map=dict(zip(self.tags_map.values(),self.tags_map.keys()))`
	`40`	`+self.dict_size=len(self.dictionary)`
	`41`	`+ifmode=='train':`
	`42`	`+self.preprocess()`
	`43`	`+`
`41`	`44`
`42`	`45`	`def__load_data(self)-> (dict,tuple,np.ndarray,np.ndarray):`
`43`	`46`	`withopen(self.data_path,'rb')asf:`
`@@ -63,17 +66,29 @@ def __generate_tag_map(self):`
`63`	`66`	`tags_map[self.tags[i]]=i`
`64`	`67`	`returntags_map`
`65`	`68`
	`69`	`+defpreprocess(self):`
	`70`	`+fori,(sentence,labels,length)inenumerate(zip(self.sentences,self.labels,self.sentence_lengths)):`
	`71`	`+iflength<self.batch_length:`
	`72`	`+ext_size=self.batch_length-length`
	`73`	`+sentence=self.__indices2input_single(sentence)`
	`74`	`+self.sentences[i]=sentence+ [[self.dictionary[BATCH_PAD]]self.windows_size]ext_size`
	`75`	`+self.labels[i]= [self.tags_map[l]forlinlabels]+[0]*ext_size`
	`76`	`+eliflength>self.batch_length:`
	`77`	`+self.sentences[i]=self.__indices2input_single(sentence[:self.batch_length])`
	`78`	`+self.labels[i]= [self.tags_map[l]forlinlabels[:self.batch_length]]`
	`79`	`+`
	`80`	`+`
`66`	`81`	`defget_batch(self)-> (np.ndarray,np.ndarray,np.ndarray):`
`67`	`82`	`ifself.batch_start+self.batch_size>self.sentences_count:`
`68`	`83`	`new_start=self.batch_start+self.batch_size-self.sentences_count`
`69`		`-chs_batch=self.characters[self.batch_start:]+self.characters[:new_start]`
	`84`	`+chs_batch=self.sentences[self.batch_start:]+self.sentences[:new_start]`
`70`	`85`	`lls_batch=self.labels[self.batch_start:]+self.labels[:new_start]`
`71`		`-len_batch=self.sentences_length[self.batch_start:]+self.sentences_length[:new_start]`
	`86`	`+len_batch=self.sentence_lengths[self.batch_start:]+self.sentence_lengths[:new_start]`
`72`	`87`	`else:`
`73`	`88`	`new_start=self.batch_start+self.batch_size`
`74`		`-chs_batch=self.characters[self.batch_start:new_start]`
	`89`	`+chs_batch=self.sentences[self.batch_start:new_start]`
`75`	`90`	`lls_batch=self.labels[self.batch_start:new_start]`
`76`		`-len_batch=self.sentences_length[self.batch_start:new_start]`
	`91`	`+len_batch=self.sentence_lengths[self.batch_start:new_start]`
`77`	`92`	`fori, (chs,lls)inenumerate(zip(chs_batch,lls_batch)):`
`78`	`93`	`iflen(chs)>self.batch_length:`
`79`	`94`	`chs_batch[i]=chs[:self.batch_length]`
`@@ -162,13 +177,13 @@ def tags2entities(self, sentence: str, tags_seq: np.ndarray, return_start: bool`
`162`	`177`	`continue`
`163`	`178`	`eliftag==self.tags_map[TAG_BEGIN]:`
`164`	`179`	`ifentity:`
`165`		`-entities.append(entity)`
	`180`	`+entities.append((entity,tag_index))`
`166`	`181`	`entity=sentence[tag_index]`
`167`	`182`	`entity_starts.append(tag_index)`
`168`	`183`	`else:`
`169`	`184`	`entity+=sentence[tag_index]`
`170`	`185`	`ifentity!='':`
`171`		`-entities.append(entity)`
	`186`	`+entities.append((entity,len(sentence)-len(entity)))`
`172`	`187`	`ifreturn_start:`
`173`	`188`	`returnentities,entity_starts`
`174`	`189`	`else:`

0 commit comments

Comments

(0)

Movatterモバイル変換

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Commit1dabce4

File tree

2 files changed

2 files changed

`‎python/dnlp/core/dnn_crf.py‎`

`‎python/dnlp/core/dnn_crf_base.py‎`

0 commit comments