Commit597bd11

ixlmar

authored and

yufeiwu-nv

committed

[None][fix] restore list[list[list[int]]] in add_token (NVIDIA#8502)

Signed-off-by: ixlmar <206748156+ixlmar@users.noreply.github.com>Signed-off-by: yufeiwu-nv <230315618+yufeiwu-nv@users.noreply.github.com>

1 parent46fb72a commit597bd11Copy full SHA for 597bd11

File tree

4 files changed

+54

-23

lines changed

tensorrt_llm/_torch
- pyexecutor
  - sampler.py
- speculative
  - mtp.py
tests/unittest/_torch/speculative
- test_draft_token_tree_verification.py
- test_torch_rejection_sampling.py

4 files changed

+54

-23

lines changed

`‎tensorrt_llm/_torch/pyexecutor/sampler.py‎`

Lines changed: 44 additions & 19 deletions

Original file line number	Diff line number	Diff line change
`@@ -290,10 +290,13 @@ def _group_requests_by_strategy_key(`
`290`	`290`	`}`
`291`	`291`
`292`	`292`
`293`		`-defadd_token(request:LlmRequest,new_tokens:torch.Tensor,*,beam:int,step:int=0)->int:`
	`293`	`+defadd_token(`
	`294`	`+request:LlmRequest,new_tokens:list[list[list[int]]],*,beam:int,step:int=0`
	`295`	`+)->int:`
	`296`	`+# NB: Accessing nested lists faster than torch.Tensor or numpy.ndarray`
`294`	`297`	`seq_slot=request.py_seq_slot`
`295`	`298`	`assertseq_slotisnotNone`
`296`		`-new_token=cast(int,new_tokens[step][seq_slot][beam].item())`
	`299`	`+new_token=new_tokens[step][seq_slot][beam]`
`297`	`300`	`request.add_new_token(new_token,beam)`
`298`	`301`	`returnnew_token`
`299`	`302`
`@@ -700,7 +703,7 @@ def handle_logprobs(`
`700`	`703`	`def_process_draft_tokens_greedy(`
`701`	`704`	`self,`
`702`	`705`	`request:LlmRequest,`
`703`		`-new_tokens:torch.Tensor,`
	`706`	`+new_tokens:list[list[list[int]]],`
`704`	`707`	`)->int:`
`705`	`708`	`new_token=add_token(request,new_tokens,beam=self.BEAM)`
`706`	`709`	`stop=self._handle_stop_criteria(request,new_token)`
`@@ -722,7 +725,8 @@ def _process_draft_tokens_greedy(`
`722`	`725`	`def_process_draft_tokens_tree(`
`723`	`726`	`self,`
`724`	`727`	`request:LlmRequest,`
`725`		`-new_tokens:torch.Tensor,`
	`728`	`+new_tokens_tensor:torch.Tensor,`
	`729`	`+new_tokens_list:list[list[list[int]]],`
`726`	`730`	`spec_tree_manager:SpecTreeManager,`
`727`	`731`	`)->int:`
`728`	`732`	`"""Tree verification for draft token tree based speculative decoding.`
`@@ -757,7 +761,7 @@ def _process_draft_tokens_tree(`
`757`	`761`	`# TODO: For the last layer of the dynamic tree, we need to resampling all the draft tokens.`
`758`	`762`	`cur_layer_num_nodes=sum(spec_tree_manager.get_top_k_list(cur_draft_layer_idx))`
`759`	`763`	`foriinrange(cur_layer_num_nodes):`
`760`		`-new_token=add_token(request,new_tokens,beam=0,step=i)`
	`764`	`+new_token=add_token(request,new_tokens_list,beam=0,step=i)`
`761`	`765`	`return0`
`762`	`766`	`else:`
`763`	`767`	`# handle the target model request`
`@@ -767,7 +771,9 @@ def _process_draft_tokens_tree(`
`767`	`771`	`eagle_paths=spec_tree_manager.get_eagle_paths(seq_slot)`
`768`	`772`
`769`	`773`	`all_draft_tokens=request.py_draft_tokens# [max_total_draft_tokens]`
`770`		`-all_target_tokens=new_tokens[:,seq_slot, :].squeeze(-1)# [max_total_draft_tokens]`
	`774`	`+all_target_tokens=new_tokens_tensor[:,seq_slot, :].squeeze(`
	`775`	`+-1`
	`776`	`+ )# [max_total_draft_tokens]`
`771`	`777`	`assertall_target_tokens.shape[0]==spec_tree_manager.max_total_draft_tokens+1`
`772`	`778`
`773`	`779`	`longest_accepted_len=0`
`@@ -800,13 +806,15 @@ def _process_draft_tokens_tree(`
`800`	`806`	`iflongest_accepted_len==0:`
`801`	`807`	`# No draft tokens are accepted.`
`802`	`808`	`# Take the top-1 token of the first layer as the next new token.`
`803`		`-new_token=add_token(request,new_tokens,beam=0,step=0)`
	`809`	`+new_token=add_token(request,new_tokens_list,beam=0,step=0)`
`804`	`810`	`return0`
`805`	`811`	`else:`
`806`	`812`	`# Take the longest accepted path as the next new token.`
`807`	`813`	`num_accepted_draft_tokens=0`
`808`	`814`	`foridxineagle_paths[longest_match_path_idx][:longest_accepted_len]:`
`809`		`-new_token=add_token(request,new_tokens,beam=0,step=cast(int,idx.item()))`
	`815`	`+new_token=add_token(`
	`816`	`+request,new_tokens_list,beam=0,step=cast(int,idx.item())`
	`817`	`+ )`
`810`	`818`	`num_accepted_draft_tokens+=1`
`811`	`819`	`ifself._handle_stop_criteria(request,new_token):`
`812`	`820`	`break`
`@@ -876,8 +884,10 @@ def _tree_sampling_batch(`
`876`	`884`	`def_process_draft_tokens_rejection_sampling(`
`877`	`885`	`self,`
`878`	`886`	`request:LlmRequest,`
`879`		`-new_tokens:torch.Tensor,`
	`887`	`+new_tokens_list:list[list[list[int]]],`
	`888`	`+new_tokens_tensor:torch.Tensor,`
`880`	`889`	`)->int:`
	`890`	`+assertrequest.py_draft_logitsisnotNone`
`881`	`891`	`# FIXME: Passing a dummy vocab_size could result in unnecessary`
`882`	`892`	`# filtering of vocab_size logits, out of vocab_size in`
`883`	`893`	`# total. The 'sample' below should generally be avoided`
`@@ -893,7 +903,9 @@ def _process_draft_tokens_rejection_sampling(`
`893`	`903`	`request.py_draft_logits,`
`894`	`904`	`generator=generator,`
`895`	`905`	`)`
	`906`	`+assertdraft_probsisnotNone`
`896`	`907`	`target_probs=request.py_target_probs`
	`908`	`+asserttarget_probsisnotNone`
`897`	`909`	`d2t=getattr(request,"d2t",None)`
`898`	`910`	`ifd2tisnotNone:`
`899`	`911`	`vocab_d=draft_probs.shape[-1]`
`@@ -927,26 +939,27 @@ def _process_draft_tokens_rejection_sampling(`
`927`	`939`	`num_accepted=num_initially_accepted`
`928`	`940`	`foriinrange(num_accepted):`
`929`	`941`	`new_token=request.py_draft_tokens[i]`
`930`		`-new_tokens[i,request.seq_slot,self.BEAM]=new_token`
	`942`	`+new_tokens_tensor[i,request.seq_slot,self.BEAM]=new_token`
`931`	`943`	`request.add_new_token(new_token,self.BEAM)`
`932`	`944`	`stop=self._handle_stop_criteria(request,new_token)`
`933`	`945`	`ifstop:`
`934`	`946`	`num_accepted=i+1`
`935`	`947`	`returnnum_accepted`
`936`	`948`	`ifsample_last:`
`937`	`949`	`new_token=sample_rejected(draft_probs,target_probs,generator,num_accepted)`
`938`		`-new_tokens[num_accepted,request.seq_slot,self.BEAM]=new_token`
	`950`	`+new_tokens_tensor[num_accepted,request.seq_slot,self.BEAM]=new_token`
`939`	`951`	`request.add_new_token(new_token,self.BEAM)`
`940`	`952`	`else:`
`941`		`-new_token=add_token(request,new_tokens,beam=self.BEAM,step=num_accepted)`
	`953`	`+new_token=add_token(request,new_tokens_list,beam=self.BEAM,step=num_accepted)`
`942`	`954`	`stop=self._handle_stop_criteria(request,new_token)`
`943`	`955`
`944`	`956`	`returnnum_accepted`
`945`	`957`
`946`	`958`	`defprocess_draft_tokens(`
`947`	`959`	`self,`
`948`	`960`	`request:LlmRequest,`
`949`		`-new_tokens:torch.Tensor,`
	`961`	`+new_tokens_tensor:torch.Tensor,`
	`962`	`+new_tokens_list:list[list[list[int]]],`
`950`	`963`	`resource_manager:Optional[ResourceManager]=None,`
`951`	`964`	`)->int:`
`952`	`965`	`if (`
`@@ -957,14 +970,19 @@ def process_draft_tokens(`
`957`	`970`	`ifspec_tree_managerisnotNone:`
`958`	`971`	`num_accepted=self._process_draft_tokens_tree(`
`959`	`972`	`request,`
`960`		`-new_tokens=new_tokens,`
	`973`	`+new_tokens_tensor=new_tokens_tensor,`
	`974`	`+new_tokens_list=new_tokens_list,`
`961`	`975`	`spec_tree_manager=spec_tree_manager,`
`962`	`976`	`)`
`963`	`977`	`else:`
`964`		`-num_accepted=self._process_draft_tokens_greedy(request,new_tokens=new_tokens)`
	`978`	`+num_accepted=self._process_draft_tokens_greedy(`
	`979`	`+request,new_tokens=new_tokens_list`
	`980`	`+ )`
`965`	`981`	`returnnum_accepted`
`966`	`982`	`else:`
`967`		`-returnself._process_draft_tokens_rejection_sampling(request,new_tokens)`
	`983`	`+returnself._process_draft_tokens_rejection_sampling(`
	`984`	`+request,new_tokens_list=new_tokens_list,new_tokens_tensor=new_tokens_tensor`
	`985`	`+ )`
`968`	`986`
`969`	`987`	`@override`
`970`	`988`	`defupdate_requests(`
`@@ -976,15 +994,17 @@ def update_requests(`
`976`	`994`	`ifstate.sampler_event:`
`977`	`995`	`state.sampler_event.synchronize()`
`978`	`996`
	`997`	`+assertstate.hostisnotNone`
`979`	`998`	`new_tokens=state.host.new_tokens`
	`999`	`+new_tokens_list=new_tokens.tolist()`
`980`	`1000`
`981`	`1001`	`forreqinstate.scheduled_requests.context_requests:`
`982`	`1002`	`if (`
`983`	`1003`	`req.state==LlmRequestState.GENERATION_COMPLETE`
`984`	`1004`	`orreq.context_remaining_length!=0`
`985`	`1005`	`):`
`986`	`1006`	`continue`
`987`		`-new_token=add_token(req,new_tokens,beam=self.BEAM)`
	`1007`	`+new_token=add_token(req,new_tokens_list,beam=self.BEAM)`
`988`	`1008`	`self._handle_stop_criteria(req,new_token)`
`989`	`1009`	`self.handle_logprobs(req,state,beam=self.BEAM,count=1)`
`990`	`1010`	`req.py_decoding_iter+=1`
`@@ -993,7 +1013,12 @@ def update_requests(`
`993`	`1013`	`ifreq.state==LlmRequestState.GENERATION_COMPLETE:`
`994`	`1014`	`continue`
`995`	`1015`	`processed=1`
`996`		`-num_accepted=self.process_draft_tokens(req,new_tokens,resource_manager)`
	`1016`	`+num_accepted=self.process_draft_tokens(`
	`1017`	`+req,`
	`1018`	`+new_tokens_tensor=new_tokens,`
	`1019`	`+new_tokens_list=new_tokens_list,`
	`1020`	`+resource_manager=resource_manager,`
	`1021`	`+ )`
`997`	`1022`	`ifget_draft_token_length(req)>0:`
`998`	`1023`	`req.py_num_accepted_draft_tokens=num_accepted`
`999`	`1024`	`req.py_rewind_len=req.py_draft_pages_allocated-num_accepted`
`@@ -1911,7 +1936,7 @@ def update_requests_multiple_beams_or_drafting(`
`1911`	`1936`	`state:SampleStateTRTLLM,`
`1912`	`1937`	`beam_width:int,`
`1913`	`1938`	`):`
`1914`		`-new_tokens_host=state.host.new_tokens`
	`1939`	`+new_tokens_host=state.host.new_tokens.tolist()`
`1915`	`1940`	`finished_sum_host=state.host.finished_sum.tolist()`
`1916`	`1941`	`finish_reasons=state.host.finish_reasons.flatten().tolist()`
`1917`	`1942`	`sequence_lengths_host_data=state.host.sequence_lengths.flatten().tolist()`

`‎tensorrt_llm/_torch/speculative/mtp.py‎`

Lines changed: 1 addition & 1 deletion

Original file line number	Diff line number	Diff line change
`@@ -256,7 +256,7 @@ def update_requests(`
`256`	`256`	`assertisinstance(state,SampleStateMTP)`
`257`	`257`
`258`	`258`	`state.sampler_event.synchronize()`
`259`		`-new_tokens=state.host.new_tokens`
	`259`	`+new_tokens=state.host.new_tokens.tolist()`
`260`	`260`	`new_tokens_lens_list=state.host.new_tokens_lens.tolist()`
`261`	`261`	`next_draft_tokens_list=state.host.next_draft_tokens.tolist()`
`262`	`262`	`beam_idx=self.BEAM`

`‎tests/unittest/_torch/speculative/test_draft_token_tree_verification.py‎`

Lines changed: 3 additions & 1 deletion

Original file line number	Diff line number	Diff line change
`@@ -45,9 +45,11 @@ def run_test(eagle_model_dir, max_seq_len, beam_width, use_dynamic_tree,`
`45`	`45`	`max_beam_width=beam_width,`
`46`	`46`	`))`
`47`	`47`
	`48`	`+input_new_tokens_list=input_new_tokens.tolist()`
`48`	`49`	`num_accepted_draft_tokens=torch_sampler._process_draft_tokens_tree(`
`49`	`50`	`request=input_request,`
`50`		`-new_tokens=input_new_tokens,`
	`51`	`+new_tokens_tensor=input_new_tokens,`
	`52`	`+new_tokens_list=input_new_tokens_list,`
`51`	`53`	`spec_tree_manager=spec_tree_manager)`
`52`	`54`
`53`	`55`	`print(f"num_accepted_draft_tokens:{num_accepted_draft_tokens}")`

`‎tests/unittest/_torch/speculative/test_torch_rejection_sampling.py‎`

Lines changed: 6 additions & 2 deletions

Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,5 @@`
`1`	`1`	`importunittest`
	`2`	`+fromtypingimportcast`
`2`	`3`
`3`	`4`	`importnumpyasnp`
`4`	`5`	`importtorch`
`@@ -24,8 +25,11 @@ def test_get_rejected_indices():`
`24`	`25`	`sampled_regular= []`
`25`	`26`	`for_inrange(num_iter):`
`26`	`27`	`draft_tokens= [`
`27`		`-torch.multinomial(draft_probs,num_samples=1,`
`28`		`-generator=generator).item()`
	`28`	`+cast(`
	`29`	`+int,`
	`30`	`+torch.multinomial(draft_probs,`
	`31`	`+num_samples=1,`
	`32`	`+generator=generator).item())`
`29`	`33`	`]`
`30`	`34`	`rejected_indices=get_rejected_indices(draft_probs,target_probs,`
`31`	`35`	`generator,draft_tokens)`

0 commit comments

Comments

(0)

Movatterモバイル変換

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Commit597bd11

File tree

4 files changed

4 files changed

`‎tensorrt_llm/_torch/pyexecutor/sampler.py‎`

`‎tensorrt_llm/_torch/speculative/mtp.py‎`

`‎tests/unittest/_torch/speculative/test_draft_token_tree_verification.py‎`

`‎tests/unittest/_torch/speculative/test_torch_rejection_sampling.py‎`

0 commit comments