Commiteaf8bec

authored

fix: Disaggregate serving with attention DP (#4993)

Signed-off-by: Xiwen Yu <13230610+VALLIS-NERIA@users.noreply.github.com>

1 parentc8fa08d commiteaf8becCopy full SHA for eaf8bec

File tree

4 files changed

+15

-4

lines changed

cpp/tensorrt_llm/batch_manager
tensorrt_llm/_torch/pyexecutor
- py_executor.py

4 files changed

+15

-4

lines changed

`‎cpp/tensorrt_llm/batch_manager/cacheTransceiver.cpp‎`

Lines changed: 3 additions & 1 deletion

Original file line number	Diff line number	Diff line change
`@@ -517,7 +517,9 @@ void CacheTransceiver::checkGenTransferStatus(std::optional<int> const& atLeastR`
`517`	`517`	`// Gather the kv cache transfer time from all workers and update to leader rank`
`518`	`518`	`if (!common::getEnvKVCacheTransferOutputPath().empty())`
`519`	`519`	`{`
`520`		`-updateKVCacheTransferBW(*mMpiGroupComm, it->first);`
	`520`	`+auto syncComm`
	`521`	`+ =mCacheState->getParallelConfig().mEnableAttentionDP ?mMpiGroupDataComm.get() :mMpiGroupComm;`
	`522`	`+updateKVCacheTransferBW(*syncComm, it->first);`
`521`	`523`	`}`
`522`	`524`	`TLLM_LOG_DEBUG(mpi::MpiComm::world().getRank(),`
`523`	`525`	`"** it->first->mRequestId: %ld, context request ID: %ld **** get feature *",`

`‎cpp/tensorrt_llm/batch_manager/mlaCacheFormatter.cpp‎`

Lines changed: 9 additions & 2 deletions

Original file line number	Diff line number	Diff line change
`@@ -187,25 +187,28 @@ void MLACacheFormatter::formatOutput(LlmRequest const& llmRequest,`
`187`	`187`	`NVTX3_SCOPED_RANGE(sendBufferFun);`
`188`	`188`
`189`	`189`	`TLLM_CUDA_CHECK(cudaSetDevice(deviceId));`
	`190`	`+auto startTime =std::chrono::steady_clock::now();`
`190`	`191`	`auto cacheIdx = processIdx % pPDomainSize;`
	`192`	`+size_t size;`
`191`	`193`	`if (cacheIdx < bufferCoverTargetNum)`
`192`	`194`	`{`
`193`		`-`
	`195`	`+ size = outputSplitCaches.at(cacheIdx)->getSizeInBytes();`
`194`	`196`	`TransferHelper::sendBuffer(connections.at(processIdx), outputSplitCaches.at(cacheIdx), reqId);`
`195`	`197`	`}`
`196`	`198`	`elseif (bufferCoverTargetNum >0)`
`197`	`199`	`{`
`198`	`200`	`// copy buffer allocated by cudaMallocAsync to buffer allocated by cudaMalloc before sending`
`199`	`201`	`auto sendBufferIdx = cacheIdx % bufferCoverTargetNum;`
	`202`	`+ size = outputSplitCaches.at(sendBufferIdx)->getSizeInBytes();`
`200`	`203`	`bufferManager.copy(outputSplitCaches.at(cacheIdx), outputSplitCaches.at(sendBufferIdx));`
`201`	`204`	`bufferManager.getStream().synchronize();`
`202`	`205`	`TransferHelper::sendBuffer(connections.at(processIdx), outputSplitCaches.at(sendBufferIdx), reqId);`
`203`	`206`	`}`
`204`	`207`	`else`
`205`	`208`	`{`
`206`		`-`
`207`	`209`	`// bufferCoverTargetNum=0, mSendBuffer size < one outputSlice`
`208`	`210`	`// send multiple times`
	`211`	`+ size = targetBufferSize;`
`209`	`212`	`size_t remainSendSize = targetBufferSize;`
`210`	`213`	`while (remainSendSize >0)`
`211`	`214`	`{`
`@@ -222,6 +225,10 @@ void MLACacheFormatter::formatOutput(LlmRequest const& llmRequest,`
`222`	`225`	`remainSendSize -= sendSize;`
`223`	`226`	`}`
`224`	`227`	`}`
	`228`	`+auto endTime =std::chrono::steady_clock::now();`
	`229`	`+double cacheTransferTime`
	`230`	`+ =std::max(0.0, std::chrono::duration<double, std::milli>(endTime - startTime).count());`
	`231`	`+ kvCacheMeasureHelper.appendKVCacheTransfer(llmRequest.mRequestId, cacheTransferTime, size);`
`225`	`232`	`};`
`226`	`233`
`227`	`234`	`if (connections.size() >1)`

`‎cpp/tensorrt_llm/batch_manager/mlaCacheFormatter.h‎`

Lines changed: 1 addition & 0 deletions

Original file line number	Diff line number	Diff line change
`@@ -64,6 +64,7 @@ class MLACacheFormatter final : public BaseCacheFormatter`
`64`	`64`	`private:`
`65`	`65`	`BaseKVCacheManager*mCacheManager;`
`66`	`66`	`CacheTransBufferManager*mCacheTransBufferManager;`
	`67`	`+ KvCacheMeasureHelper kvCacheMeasureHelper{common::getEnvKVCacheTransferOutputPath()};`
`67`	`68`	`};`
`68`	`69`
`69`	`70`	`}// namespace tensorrt_llm::batch_manager::kv_cache_manager`

`‎tensorrt_llm/_torch/pyexecutor/py_executor.py‎`

Lines changed: 2 additions & 1 deletion

Original file line number	Diff line number	Diff line change
`@@ -911,7 +911,8 @@ def _executor_loop(self):`
`911`	`911`
`912`	`912`	`finished_requests= []`
`913`	`913`
`914`		`-ifscheduled_batch.batch_size>0:`
	`914`	`+ifscheduled_batch.batch_size>0or (`
	`915`	`+self.enable_attention_dpandself.dist.tp_size>1):`
`915`	`916`	`ifself.kv_cache_transceiver:`
`916`	`917`	`# For generation requests which have completed KV cache transfer`
`917`	`918`	`self._prepare_disagg_gen_transmission_complete(`

0 commit comments

Comments

(0)

Movatterモバイル変換

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Commiteaf8bec

File tree

4 files changed

4 files changed

`‎cpp/tensorrt_llm/batch_manager/cacheTransceiver.cpp‎`

`‎cpp/tensorrt_llm/batch_manager/mlaCacheFormatter.cpp‎`

`‎cpp/tensorrt_llm/batch_manager/mlaCacheFormatter.h‎`

`‎tensorrt_llm/_torch/pyexecutor/py_executor.py‎`

0 commit comments