NotificationsYou must be signed in to change notification settings
Fork4
Star9

Commit84d92db

authored

Enhanced gemma-3 output. Fixed problem with short output generation

1 parentf2e2ec1 commit84d92dbCopy full SHA for 84d92db

File tree

1 file changed

+22

-6

lines changed

llm
- transformers_gemma3.py

1 file changed

+22

-6

lines changed

`‎llm/transformers_gemma3.py‎`

Lines changed: 22 additions & 6 deletions

Original file line number	Diff line number	Diff line change
`@@ -17,7 +17,8 @@ class Gemma3(BaseLM):`
`17`	`17`	`"""`
`18`	`18`
`19`	`19`	`def__init__(self,model_name="google/gemma-3-1b-it",temp=0.1,device='cuda',use_bf16=False,`
`20`		`-max_new_tokens=None,api_token=None,**kwargs):`
	`20`	`+max_new_tokens=8192,api_token=None,**kwargs):`
	`21`	`+assert (isinstance(max_new_tokens,int)andmax_new_tokensisnotNone)`
`21`	`22`	`super(Gemma3,self).__init__(name=model_name,support_batching=True,**kwargs)`
`22`	`23`	`self.__device=device`
`23`	`24`	`self.__model=Gemma3ForCausalLM.from_pretrained(`
`@@ -27,6 +28,20 @@ def __init__(self, model_name="google/gemma-3-1b-it", temp=0.1, device='cuda', u`
`27`	`28`	`self.__tokenizer=AutoTokenizer.from_pretrained(model_name,token=api_token)`
`28`	`29`	`self.__temp=temp`
`29`	`30`
	`31`	`+@staticmethod`
	`32`	`+def__handle_response(response,prompt):`
	`33`	`+`
	`34`	`+# We attempt to crop the mentioned prompt.`
	`35`	`+ifpromptnotinresponse:`
	`36`	`+returnresponse`
	`37`	`+response=response[response.index(prompt)+len(prompt):]`
	`38`	`+`
	`39`	`+# We attempt to keep only the first response turn from the model.`
	`40`	`+response_turns=response.split("\nmodel\n")`
	`41`	`+iflen(response_turns)==0:`
	`42`	`+returnresponse`
	`43`	`+returnresponse_turns[1]`
	`44`	`+`
`30`	`45`	`defask(self,batch):`
`31`	`46`
`32`	`47`	`messages= [`
`@@ -39,16 +54,17 @@ def ask(self, batch):`
`39`	`54`
`40`	`55`	`inputs=self.__tokenizer.apply_chat_template(`
`41`	`56`	`messages,`
`42`		`-add_generation_prompt=False,`
	`57`	`+add_generation_prompt=True,`
`43`	`58`	`tokenize=True,`
`44`	`59`	`return_dict=True,`
`45`		`-return_tensors="pt",`
`46`		`-padding=True,`
	`60`	`+return_tensors="pt",`
	`61`	`+padding=True,`
`47`	`62`	`truncation=True)`
`48`	`63`	`inputs.to(self.__device)`
`49`	`64`
`50`	`65`	`withtorch.inference_mode():`
`51`	`66`	`outputs=self.__model.generate(**inputs,max_new_tokens=self.__max_new_tokens,`
`52`	`67`	`temperature=self.__temp,do_sample=True)`
`53`		`-`
`54`		`-returnself.__tokenizer.batch_decode(outputs,skip_special_tokens=True)`
	`68`	`+`
	`69`	`+return [self.__handle_response(response=r,prompt=batch[i])`
	`70`	`+fori,rinenumerate(self.__tokenizer.batch_decode(outputs,skip_special_tokens=True))]`

0 commit comments

Comments

(0)

Movatterモバイル変換

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Commit84d92db

File tree

1 file changed

1 file changed

`‎llm/transformers_gemma3.py‎`

0 commit comments