Commit572ae3f

committed

chunked generation logics

Signed-off-by: Yibin Li <109242046+yibinl-nvidia@users.noreply.github.com>

1 parent0c80d1d commit572ae3fCopy full SHA for 572ae3f

File tree

1 file changed

+25

-39

lines changed

tests/unittest/_torch/executor
- test_chunked_logits.py

1 file changed

+25

-39

lines changed

`‎tests/unittest/_torch/executor/test_chunked_logits.py‎`

Lines changed: 25 additions & 39 deletions

Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,3 @@`
`1`		`-#!/usr/bin/env python3`
`2`	`1`	`"""`
`3`	`2`	`Unit tests for chunked logits functionality in TensorRT-LLM.`
`4`	`3`
`@@ -30,7 +29,7 @@ def chunked_request():`
`30`	`29`	`sampling_config=SamplingConfig(),`
`31`	`30`	`is_streaming=False,`
`32`	`31`	`return_generation_logits=True,`
`33`		`-use_chunked_logits=True,`
	`32`	`+use_chunked_generation_logits=True,`
`34`	`33`	`logits_chunk_size=4)`
`35`	`34`
`36`	`35`
`@@ -43,7 +42,7 @@ def non_chunked_request():`
`43`	`42`	`sampling_config=SamplingConfig(),`
`44`	`43`	`is_streaming=False,`
`45`	`44`	`return_generation_logits=True,`
`46`		`-use_chunked_logits=False)`
	`45`	`+use_chunked_generation_logits=False)`
`47`	`46`
`48`	`47`
`49`	`48`	`# Test parameters`
`@@ -62,13 +61,13 @@ def test_initialization(self):`
`62`	`61`	`storage=LogitsStorage(seq_length=10,`
`63`	`62`	`use_device_memory=True,`
`64`	`63`	`should_exclude_last=False,`
`65`		`-use_chunked_logits=False,`
	`64`	`+use_chunked_generation_logits=False,`
`66`	`65`	`chunk_size=8)`
`67`	`66`
`68`	`67`	`assertstorage.seq_length==10`
`69`	`68`	`assertstorage.use_device_memoryisTrue`
`70`	`69`	`assertstorage._should_exclude_lastisFalse`
`71`		`-assertstorage.use_chunked_logitsisFalse`
	`70`	`+assertstorage.use_chunked_generation_logitsisFalse`
`72`	`71`	`assertstorage.chunk_size==8`
`73`	`72`	`assertstorage._logits_indices== []`
`74`	`73`	`assertstorage.beam_width==-1`
`@@ -77,10 +76,10 @@ def test_initialization(self):`
`77`	`76`	`deftest_initialization_chunked_mode(self):`
`78`	`77`	`"""Test LogitsStorage initialization in chunked mode"""`
`79`	`78`	`storage=LogitsStorage(seq_length=10,`
`80`		`-use_chunked_logits=True,`
	`79`	`+use_chunked_generation_logits=True,`
`81`	`80`	`chunk_size=4)`
`82`	`81`
`83`		`-assertstorage.use_chunked_logitsisTrue`
	`82`	`+assertstorage.use_chunked_generation_logitsisTrue`
`84`	`83`	`assertstorage.chunk_size==4`
`85`	`84`	`asserthasattr(storage,'_device_fragments')`
`86`	`85`	`asserthasattr(storage,'_current_position')`
`@@ -89,23 +88,23 @@ def test_initialization_chunked_mode(self):`
`89`	`88`
`90`	`89`	`deftest_append_3d_logits(self,sample_logits):`
`91`	`90`	`"""Test appending 3D logits"""`
`92`		`-storage=LogitsStorage(seq_length=10,use_chunked_logits=False)`
	`91`	`+storage=LogitsStorage(seq_length=10,use_chunked_generation_logits=False)`
`93`	`92`	`storage.append(sample_logits)`
`94`	`93`
`95`	`94`	`assertstorage.beam_width==1`
`96`	`95`	`assertstorage.vocab_size==1000`
`97`	`96`
`98`	`97`	`deftest_append_invalid_shape(self):`
`99`	`98`	`"""Test appending logits with invalid shape"""`
`100`		`-storage=LogitsStorage(seq_length=10,use_chunked_logits=False)`
	`99`	`+storage=LogitsStorage(seq_length=10,use_chunked_generation_logits=False)`
`101`	`100`
`102`	`101`	`withpytest.raises(AssertionError):`
`103`	`102`	`storage.append(torch.randn(1000))# 1D - should fail`
`104`	`103`
`105`	`104`	`deftest_append_chunked_mode_streaming(self,sample_logits):`
`106`	`105`	`"""Test append behavior in chunked streaming mode"""`
`107`	`106`	`storage=LogitsStorage(seq_length=10,`
`108`		`-use_chunked_logits=True,`
	`107`	`+use_chunked_generation_logits=True,`
`109`	`108`	`chunk_size=1)`
`110`	`109`	`storage.append(sample_logits)`
`111`	`110`
`@@ -116,7 +115,7 @@ def test_append_chunked_mode_streaming(self, sample_logits):`
`116`	`115`	`deftest_append_chunked_mode_non_streaming(self,sample_logits):`
`117`	`116`	`"""Test append behavior in chunked non-streaming mode"""`
`118`	`117`	`storage=LogitsStorage(seq_length=10,`
`119`		`-use_chunked_logits=True,`
	`118`	`+use_chunked_generation_logits=True,`
`120`	`119`	`chunk_size=2)`
`121`	`120`
`122`	`121`	`# Add first fragment`
`@@ -131,7 +130,7 @@ def test_append_chunked_mode_non_streaming(self, sample_logits):`
`131`	`130`	`deftest_finalize_transfer_chunked_mode(self,sample_logits):`
`132`	`131`	`"""Test finalize_transfer in chunked mode"""`
`133`	`132`	`storage=LogitsStorage(seq_length=10,`
`134`		`-use_chunked_logits=True,`
	`133`	`+use_chunked_generation_logits=True,`
`135`	`134`	`chunk_size=5)`
`136`	`135`	`storage.append(sample_logits)`
`137`	`136`
`@@ -145,14 +144,14 @@ def test_finalize_transfer_chunked_mode(self, sample_logits):`
`145`	`144`
`146`	`145`	`deftest_finalize_transfer_non_chunked_mode(self):`
`147`	`146`	`"""Test finalize_transfer in non-chunked mode (should be no-op)"""`
`148`		`-storage=LogitsStorage(seq_length=10,use_chunked_logits=False)`
	`147`	`+storage=LogitsStorage(seq_length=10,use_chunked_generation_logits=False)`
`149`	`148`
`150`	`149`	`# Should not raise any errors`
`151`	`150`	`storage.finalize_transfer()`
`152`	`151`
`153`	`152`	`deftest_storage_overflow(self,sample_logits):`
`154`	`153`	`"""Test storage overflow handling"""`
`155`		`-storage=LogitsStorage(seq_length=2,use_chunked_logits=False)`
	`154`	`+storage=LogitsStorage(seq_length=2,use_chunked_generation_logits=False)`
`156`	`155`	`storage.append(sample_logits)`
`157`	`156`	`storage.append(sample_logits)`
`158`	`157`
`@@ -173,7 +172,7 @@ def test_initialization(self):`
`173`	`172`	`return_context_logits=True,`
`174`	`173`	`return_generation_logits=True,`
`175`	`174`	`exclude_last_generation_logits=False,`
`176`		`-use_chunked_logits=True,`
	`175`	`+use_chunked_generation_logits=True,`
`177`	`176`	`chunk_size=4)`
`178`	`177`
`179`	`178`	`assertresult._streamingisFalse`
`@@ -198,7 +197,7 @@ def test_post_processing_transfer(self, sample_logits):`
`198`	`197`	`result=PyResult(prompt_len=5,`
`199`	`198`	`max_new_tokens=10,`
`200`	`199`	`return_generation_logits=True,`
`201`		`-use_chunked_logits=True)`
	`200`	`+use_chunked_generation_logits=True)`
`202`	`201`
`203`	`202`	`result.append_generation_logits(sample_logits)`
`204`	`203`	`result.post_processing_transfer()`
`@@ -210,7 +209,8 @@ def test_context_generation_logits_property(self, sample_logits):`
`210`	`209`	`result=PyResult(prompt_len=5,`
`211`	`210`	`max_new_tokens=10,`
`212`	`211`	`return_context_logits=True,`
`213`		`-use_chunked_logits=False)`
	`212`	`+return_generation_logits=True,`
	`213`	`+use_chunked_generation_logits=False)`
`214`	`214`
`215`	`215`	`result.append_context_logits(sample_logits)`
`216`	`216`	`context_logits=result.context_logits`
`@@ -225,20 +225,6 @@ def test_context_generation_logits_property(self, sample_logits):`
`225`	`225`	`assertgeneration_logits.shape== (1,1,1000`
`226`	`226`	`)# Should transpose dimensions`
`227`	`227`
`228`		`-deftest_generation_logits_property_streaming(self,sample_logits):`
`229`		`-"""Test generation_logits property in streaming mode"""`
`230`		`-result=PyResult(prompt_len=5,`
`231`		`-max_new_tokens=10,`
`232`		`-return_generation_logits=True,`
`233`		`-use_chunked_logits=False,`
`234`		`-streaming=True)`
`235`		`-`
`236`		`-result.append_generation_logits(sample_logits)`
`237`		`-generation_logits=result.generation_logits`
`238`		`-`
`239`		`-assertgeneration_logitsisnotNone`
`240`		`-assertgeneration_logits.shape== (1,1,1000)`
`241`		`-`
`242`	`228`
`243`	`229`	`classTestLlmRequest:`
`244`	`230`	`"""Unit tests for LlmRequest class"""`
`@@ -278,7 +264,7 @@ def test_chunked_vs_non_chunked_equivalence(self, sample_logits):`
`278`	`264`	`sampling_config=SamplingConfig(),`
`279`	`265`	`is_streaming=False,`
`280`	`266`	`return_generation_logits=True,`
`281`		`-use_chunked_logits=True,`
	`267`	`+use_chunked_generation_logits=True,`
`282`	`268`	`logits_chunk_size=2)`
`283`	`269`
`284`	`270`	`# Create non-chunked request`
`@@ -288,7 +274,7 @@ def test_chunked_vs_non_chunked_equivalence(self, sample_logits):`
`288`	`274`	`sampling_config=SamplingConfig(),`
`289`	`275`	`is_streaming=False,`
`290`	`276`	`return_generation_logits=True,`
`291`		`-use_chunked_logits=False)`
	`277`	`+use_chunked_generation_logits=False)`
`292`	`278`
`293`	`279`	`# Add same logits to both`
`294`	`280`	`for_inrange(5):`
`@@ -319,7 +305,7 @@ def test_streaming_vs_non_streaming_behavior(self, sample_logits):`
`319`	`305`	`sampling_config=SamplingConfig(),`
`320`	`306`	`is_streaming=True,`
`321`	`307`	`return_generation_logits=True,`
`322`		`-use_chunked_logits=True,`
	`308`	`+use_chunked_generation_logits=True,`
`323`	`309`	`logits_chunk_size=3)`
`324`	`310`
`325`	`311`	`# Create non-streaming request`
`@@ -329,7 +315,7 @@ def test_streaming_vs_non_streaming_behavior(self, sample_logits):`
`329`	`315`	`sampling_config=SamplingConfig(),`
`330`	`316`	`is_streaming=False,`
`331`	`317`	`return_generation_logits=True,`
`332`		`-use_chunked_logits=True,`
	`318`	`+use_chunked_generation_logits=True,`
`333`	`319`	`logits_chunk_size=3)`
`334`	`320`
`335`	`321`	`# Add logits one by one`
`@@ -375,7 +361,7 @@ def test_memory_management(self, sample_logits):`
`375`	`361`	`sampling_config=SamplingConfig(),`
`376`	`362`	`is_streaming=False,`
`377`	`363`	`return_generation_logits=True,`
`378`		`-use_chunked_logits=True,`
	`364`	`+use_chunked_generation_logits=True,`
`379`	`365`	`logits_chunk_size=2,`
`380`	`366`	`return_logits_device_memory=False# Use host memory`
`381`	`367`	`)`
`@@ -402,7 +388,7 @@ def test_large_sequence_handling(self):`
`402`	`388`	`sampling_config=SamplingConfig(),`
`403`	`389`	`is_streaming=False,`
`404`	`390`	`return_generation_logits=True,`
`405`		`-use_chunked_logits=True,`
	`391`	`+use_chunked_generation_logits=True,`
`406`	`392`	`logits_chunk_size=10)`
`407`	`393`
`408`	`394`	`# Add many logits`
`@@ -447,7 +433,7 @@ def get_memory_usage():`
`447`	`433`	`sampling_config=SamplingConfig(),`
`448`	`434`	`is_streaming=False,`
`449`	`435`	`return_generation_logits=True,`
`450`		`-use_chunked_logits=True,`
	`436`	`+use_chunked_generation_logits=True,`
`451`	`437`	`logits_chunk_size=5,`
`452`	`438`	`return_logits_device_memory=False)`
`453`	`439`
`@@ -464,7 +450,7 @@ def get_memory_usage():`
`464`	`450`	`sampling_config=SamplingConfig(),`
`465`	`451`	`is_streaming=False,`
`466`	`452`	`return_generation_logits=True,`
`467`		`-use_chunked_logits=False,`
	`453`	`+use_chunked_generation_logits=False,`
`468`	`454`	`return_logits_device_memory=False)`
`469`	`455`
`470`	`456`	`for_inrange(50):`

0 commit comments

Comments

(0)

Movatterモバイル変換

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Commit572ae3f

File tree

1 file changed

1 file changed

`‎tests/unittest/_torch/executor/test_chunked_logits.py‎`

0 commit comments