NotificationsYou must be signed in to change notification settings
Fork352
Star6.6k

Commitb8a9886

authored

Working streaming tokenizer (#1210)

1 parentffe4bfe commitb8a9886Copy full SHA for b8a9886

File tree

1 file changed

+33

-8

lines changed

pgml-extension/src/bindings/transformers
- transformers.py

1 file changed

+33

-8

lines changed

`‎pgml-extension/src/bindings/transformers/transformers.py‎`

Lines changed: 33 additions & 8 deletions

Original file line number	Diff line number	Diff line change
`@@ -104,19 +104,42 @@ def __init__(self, tokenizer, skip_prompt=False, timeout=None, **decode_kwargs):`
`104`	`104`	`self.next_tokens_are_prompt=True`
`105`	`105`	`self.stop_signal=None`
`106`	`106`	`self.text_queue=queue.Queue()`
	`107`	`+self.token_cache= []`
	`108`	`+self.text_index_cache= []`
`107`	`109`
`108`		`-defput(self,value):`
	`110`	`+defput(self,values):`
`109`	`111`	`ifself.skip_promptandself.next_tokens_are_prompt:`
`110`	`112`	`self.next_tokens_are_prompt=False`
`111`	`113`	`return`
`112`		`-# Can't batch this decode`
`113`		`-decoded_values= []`
`114`		`-forvinvalue:`
`115`		`-decoded_values.append(self.tokenizer.decode(v,**self.decode_kwargs))`
`116`		`-self.text_queue.put(decoded_values,self.timeout)`
	`114`	`+output= []`
	`115`	`+fori,vinenumerate(values):`
	`116`	`+iflen(self.token_cache)<=i:`
	`117`	`+self.token_cache.append([])`
	`118`	`+self.text_index_cache.append(0)`
	`119`	`+token=v.tolist()# Returns a list or number`
	`120`	`+iftype(token)==list:`
	`121`	`+self.token_cache[i].extend(token)`
	`122`	`+else:`
	`123`	`+self.token_cache[i].append(token)`
	`124`	`+text=self.tokenizer.decode(self.token_cache[i],**self.decode_kwargs)`
	`125`	`+iftext.endswith("\n"):`
	`126`	`+output.append(text[self.text_index_cache[i] :])`
	`127`	`+self.token_cache[i]= []`
	`128`	`+self.text_index_cache[i]=0`
	`129`	`+else:`
	`130`	`+printable_text=text[self.text_index_cache[i] :text.rfind(" ")+1]`
	`131`	`+self.text_index_cache[i]+=len(printable_text)`
	`132`	`+output.append(printable_text)`
	`133`	`+ifany(output):`
	`134`	`+self.text_queue.put(output,self.timeout)`
`117`	`135`
`118`	`136`	`defend(self):`
`119`	`137`	`self.next_tokens_are_prompt=True`
	`138`	`+output= []`
	`139`	`+fori,tokensinenumerate(self.token_cache):`
	`140`	`+text=self.tokenizer.decode(tokens,**self.decode_kwargs)`
	`141`	`+output.append(text[self.text_index_cache[i] :])`
	`142`	`+self.text_queue.put(output,self.timeout)`
`120`	`143`	`self.text_queue.put(self.stop_signal,self.timeout)`
`121`	`144`
`122`	`145`	`def__iter__(self):`
`@@ -127,6 +150,7 @@ def __next__(self):`
`127`	`150`	`ifvalue!=self.stop_signal:`
`128`	`151`	`returnvalue`
`129`	`152`
	`153`	`+`
`130`	`154`	`classGGMLPipeline(object):`
`131`	`155`	`def__init__(self,model_name,**task):`
`132`	`156`	`importctransformers`
`@@ -245,7 +269,8 @@ def stream(self, input, **kwargs):`
`245`	`269`	`generation_kwargs=None`
`246`	`270`	`ifself.task=="conversational":`
`247`	`271`	`streamer=TextIteratorStreamer(`
`248`		`-self.tokenizer,skip_prompt=True,skip_special_tokens=True`
	`272`	`+self.tokenizer,`
	`273`	`+skip_prompt=True,`
`249`	`274`	`)`
`250`	`275`	`if"chat_template"inkwargs:`
`251`	`276`	`input=self.tokenizer.apply_chat_template(`
`@@ -261,7 +286,7 @@ def stream(self, input, **kwargs):`
`261`	`286`	`input=self.tokenizer(input,return_tensors="pt").to(self.model.device)`
`262`	`287`	`generation_kwargs=dict(input,streamer=streamer,**kwargs)`
`263`	`288`	`else:`
`264`		`-streamer=TextIteratorStreamer(self.tokenizer,skip_special_tokens=True)`
	`289`	`+streamer=TextIteratorStreamer(self.tokenizer)`
`265`	`290`	`input=self.tokenizer(input,return_tensors="pt",padding=True).to(`
`266`	`291`	`self.model.device`
`267`	`292`	`)`

0 commit comments

Comments

(0)

Movatterモバイル変換

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Commitb8a9886

File tree

1 file changed

1 file changed

`‎pgml-extension/src/bindings/transformers/transformers.py‎`

0 commit comments