久久av导航,成人国产精品久久,国产一区精品福利,久久精品av麻豆的观看方式

登錄
首頁 > 新車快報 > DeepSeek新論文來了!聯手清華、北大,優化智能體大模型推理

DeepSeek新論文來了!聯手清華、北大,優化智能體大模型推理

發布時間:2026-02-27 16:43:20

「DeepSeek V4 來了!」這樣的消息是不是已經聽煩了?

我們也是。

不過 DeepSeek V4 雖然遲遲未發,但今天我們等來了其與清華、北大合作撰寫的一篇新論文。

總結來說,這篇新論文介紹了一個名為「DualPath」的創新推理系統,專門針對智能體工作負載下的大語言模型(LLM)推理性能進行優化。具體來講,通過引入「雙路徑 KV-Cache 加載」機制,解決了在預填充 - 解碼(PD)分離架構下,KV-Cache 讀取負載不平衡的問題。

該推理系統帶來了顯著效果:在離線推理場景中實現了1.87 倍的吞吐量提升,在線服務場景下實現了1.96 倍的服務吞吐量提升。



 

  • 論文標題:DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference
  • arXiv 地址:https://arxiv.org/pdf/2602.21548

 

我們知道,如今智能體已經成為主流 AI 開發范式。但是,智能體范式下出現了全新的瓶頸,即存儲帶寬。

在多輪互動的智能體場景中,上下文信息會隨輪次迅速累積,導致其呈現出 「長上下文、短追加」 的特征。研究指出,這類負載的 KV-Cache 命中率通常高于 95%。這意味著系統性能的決定性因素已不再是純粹的計算能力,而是從存儲中加載 KV-Cache 的效率。



在現有的預填充 - 解碼分離(PD-disaggregated)架構中,所有的存儲 I/O 壓力都集中在預填充引擎(PE)的存儲網卡上,而解碼引擎(DE)的存儲帶寬則被閑置。這種帶寬利用的極度不平衡,成為了限制系統吞吐量的核心障礙。

針對這一痛點,DualPath 重新設計了數據加載路徑,核心創新在于引入了存儲到解碼(Storage-to-Decode)路徑,包括以下兩個特征:

一方面是雙路并行。KV-Cache 不僅可以直接讀入預填充引擎,還可以先加載到解碼引擎,隨后通過高帶寬 RDMA 計算網絡高效傳輸至預填充引擎。

另一方面是帶寬資源池化:通過動態分配兩條路徑的負載,DualPath 成功將集群中所有引擎的存儲網卡聚合為一個 全局容量池,徹底打破了單節點 I/O 的限制。



另外,為了確保大規模數據傳輸不干擾延遲極其敏感型的模型推理任務,DualPath 還采用了以下兩項關鍵技術:

一是以計算網卡(CNIC)為中心的流量管理:系統將所有 GPU 相關的流量(包括本地內存拷貝)統一通過計算網卡進行管理,同時利用網絡的服務質量(QoS)機制,將推理通信設為高優先級,確保加載 KV-Cache 的流量僅利用閑置帶寬,不影響延遲 SLO。

二是自適應請求調度:調度器實時監控各引擎的磁盤讀取隊列長度和計算負載,動態決定每個請求的最優路徑。同時,通過計算配額機制優化引擎內調度,最大限度減少 GPU 執行過程中的氣泡。

研究團隊在包含 1152 個 GPU 的大規模生產集群上對 DualPath 進行了評估,并驗證了離線與在線服務場景下吞吐量的顯著提升。

接下來解析 DualPath 系統細節。

DualPath 系統概覽

為了打破 Prefill 側存儲 I/O 的瓶頸,DeepSeek 提出了一種雙路徑加載架構,重新設計了在 Prefill–Decode 解耦(PD-disaggregated)推理架構中 KV-Cache 的讀取方式。傳統做法是所有 KV-Cache 都從存儲直接讀入 Prefill 側 GPU,導致 Prefill 側存儲網卡成為單點瓶頸。DualPath 則在此基礎上增加了一條新的加載路徑,從而緩解這一不平衡問題。

DualPath 仍然建立在兩項已有技術之上:

P/D 解耦(PD Disaggregation),將 prompt 處理與 decode 處理分離,以提高整體效率;

Layerwise Prefill,通過按層加載 KV-Cache,避免了 LayerKV 和 PrefillOnly 指出的 Prefill 引擎上的 HBM 顯存瓶頸問題,從而提升 GPU 利用率。

DualPath 整個系統由三部分組成:

 

  • 推理引擎(Inference Engines)。每個引擎管理一張 GPU。引擎分為兩類:用于執行 prefill 的 Prefill Engine(PE),以及用于執行 decode 的 Decode Engine(DE)。
  • 流量管理器(Traffic Manager)。每個引擎內部都包含一個流量管理器,負責:(1)主機與設備之間的內存拷貝(H2D 與 D2H);(2)PE 與 DE 之間的 KV-Cache 傳輸;(3)通過存儲網卡進行 KV-Cache 的讀寫操作。DeepSeek 采用以 CNIC 為中心的流量管理方案,以防止 KV-Cache 相關流量干擾模型推理過程中的通信。
  • 請求調度器(Request Scheduler)。一個中心化調度器,負責接收客戶端請求并將其分配到不同引擎。同時,它還負責在兩條加載路徑之間動態分配數據流量(如圖 4 所示)。

 



雙路徑加載(Dual-Path Loading)

傳統系統中,KV-Cache 只能從存儲直接讀入 Prefill 引擎,因此所有存儲帶寬壓力都集中在 Prefill 側,形成單點瓶頸。DualPath 在此基礎上增加了一條新的加載路徑:KV-Cache 可以先從存儲讀入 Decode 引擎,再通過高速 RDMA 計算網絡傳回 Prefill 引擎。這樣,系統就可以同時利用 Prefill 和 Decode 兩側的存儲網卡帶寬,而不是只依賴 Prefill 一側,從而消除帶寬不均衡問題。

為了實現雙路徑加載,DualPath 在每個 Prefill Engine(PE)和 Decode Engine(DE)上分配少量 DRAM 作為緩沖區,分別稱為 PE buffer 和 DE buffer。

Prefill 側讀取路徑。首先,將命中 token 的 KV-Cache 從持久化存儲中讀取到 PE buffer(如圖 4a 中標注 1 和 2)。在某一注意力層開始計算之前,該層對應的 KV-Cache 會從 PE buffer 傳輸到 PE 的 HBM(3 和 4),用于計算未命中(cache-miss)的 prompt token 的 KV-Cache。隨后,命中和未命中 token 的所有 KV-Cache 都會被傳輸到 DE buffer,以組成完整的 prompt KV-Cache( 5–7)。步驟 3–7 的流程會重復 n_layer 次。在 prefill 前向計算過程中,數據傳輸與計算是重疊執行的。

預填充 DE 讀取路徑。首先,命中 token 的 KV-Caches 會被讀取到 DE 緩沖區中(如圖 4b 中的標簽 1 和 2 )。在 PE 預填充期間,相應層的 KV-Cache 會從 DE 緩沖區中讀取,這同樣與計算過程相重疊( 3-5)。此過程會重復 n_layer 次。當每一層的計算完成后,只有缺失 token 的 KV-Caches 會被傳輸到 DE 緩沖區,并與現有的命中 token KV-Cache 進行合并。

解碼階段。在 DE 緩沖區接收到完整的提示 KV-Cache(包括通過 PE 讀取路徑加載的 KV-Cache 以及新追加 token 的 KV-Cache)后,解碼階段正式開始。DE 首先分配 HBM 并執行主機到設備(H2D)傳輸(如圖 4a 中的標簽 8 和 9;圖 4b 中的標簽 6 和 7 ),隨后在開始解碼前釋放 CPU 內存。

DE 緩沖區的設計雖然給 DRAM 和 CNIC 帶來了額外的帶寬壓力(因為增加了一次額外的 H2D 拷貝),這本可以通過 GPU Direct RDMA 直接繞過來避免。然而,由于在此類智能體場景下生成的長度通常較短,首 token 延遲在整個端到端請求時間中占據了不可忽視的比例。引入 DE 緩沖區有助于減少 GPU 內存占用。在解碼過程中,每當累積一個完整的 token 塊(例如 64 個 token)時,系統會立即將其持久化到磁盤中。

不同的數據塊布局。DualPath 采用了兩種不同的數據塊布局:完整塊和層級塊,它們分別包含所有層的信息和單個層的信息。對于所有與存儲系統的交互,均采用完整塊。在 PE 讀取的情況下,KV-Cache 加載到 PE HBM 以及傳輸到 DE 緩沖區的過程是以層級流式方式進行的,兩者都使用層級塊。同樣地,對于 DE 讀取路徑,從 DE 緩沖區到 PE HBM 的傳輸也使用層級塊。

無瓶頸(Bottleneck-Free)分析

比例(預填充 / 解碼比例)下證明了,該系統可以完全打滿所有存儲網卡(NIC)的帶寬,且不會引入計算網卡或 DRAM 的瓶頸。

假設 PCIe 拓撲配置良好(即每一對 GPU - NIC 都位于同一個 PCIe 交換機下)、任務調度負載均衡、計算網絡無擁塞,且存儲讀取帶寬得到了充分利用。

首先是 PE CNIC 帶寬分析。對于 PE CNIC,由于存在回環流量(即不經過交換機的 H2D 和 D2H 拷貝),因此無論讀或寫操作,PCIe 側的總流量始終大于或等于交換機方向的流量。因此,只需要計算 PCIe 側的壓力。讀取操作包括 PE 路徑 (3) 和 (5),其在所有配對上的總流量為:

Copyright 2018-2025 報紙迷 版權所有  京ICP備2018136890號
久久av导航,成人国产精品久久,国产一区精品福利,久久精品av麻豆的观看方式
aⅴ色国产欧美| 美女精品网站| 欧美日韩调教| 国产精品成人自拍| 久久这里只有| 日韩成人三级| 一区二区三区视频免费观看| 黑丝一区二区三区| 丝袜诱惑制服诱惑色一区在线观看| 老司机精品久久| 日韩精品一区二区三区中文| 久久丁香四色| 久久精品卡一| 中文字幕av一区二区三区人| 国产乱码精品一区二区亚洲| 国产精品激情电影| 欧美aa一级| 久久福利精品| 国产欧美日韩视频在线| 不卡一二三区| 亚洲资源av| 国产精品一线| 久久久久国产一区二区| 亚洲一二av| 精品国产日韩欧美精品国产欧美日韩一区二区三区 | 精品无人区麻豆乱码久久久| 一区二区精品伦理...| 99精品99| 欧美一级一区| 91精品国产成人观看| 日韩高清二区| 日韩和的一区二在线| 亚洲人成在线影院| 亚洲黄色免费av| 一区二区三区午夜视频| 国产中文在线播放| 日本成人在线一区| 秋霞影视一区二区三区| 亚洲精品第一| 色婷婷久久久| 欧美日韩亚洲一区| 九九综合九九| 国产一区2区| 久久国产精品99国产| 欧美1区二区| 蜜桃视频免费观看一区| 国产va在线视频| 日本在线一区二区三区| 99视频精品全国免费| 国产精品一区二区美女视频免费看| 欧美大黑bbbbbbbbb在线| 久久国产精品色av免费看| japanese国产精品| 精品视频自拍| 日韩黄色av| 国产一区导航| 日韩欧美一区二区三区免费看| 久久精品xxxxx| 99国产精品私拍| 私拍精品福利视频在线一区| 国产美女亚洲精品7777| 日韩在线a电影| 欧美亚洲国产一区| 国产一区二区三区精品在线观看| 少妇高潮一区二区三区99| 夜夜精品视频| 91高清一区| 中文另类视频| zzzwww在线看片免费| 国产黄色精品| 国产日韩欧美一区在线| 午夜久久av | 91午夜精品| 亚洲网址在线观看| 国产婷婷精品| 欧美午夜不卡影院在线观看完整版免费| 麻豆成人av在线| 日本中文字幕不卡| 免费在线看一区| 亚洲欧洲一区二区天堂久久| 日本精品不卡| 精品国产精品久久一区免费式| 欧美在线黄色| 日韩一区二区三区在线看| 亚洲一区欧美二区| 在线亚洲国产精品网站| 亚洲欧美日韩高清在线| 亚洲夜间福利| 欧美在线资源| 亚洲激情不卡| 亚洲一区国产| 亚洲一区二区三区在线免费| 亚洲三级精品| 日韩av不卡一区二区| 青青草国产成人99久久| 日本精品另类| 日韩av中文字幕一区二区| 日韩不卡在线观看日韩不卡视频| 日本va欧美va瓶| 国产日韩中文在线中文字幕| 国产精品1区在线| 卡一卡二国产精品| 国产精品成久久久久| 日韩免费一区| 日韩视频久久| 亚洲毛片在线免费| 国产剧情一区二区在线观看| 国产毛片久久久| 久久亚洲人体| 久久黄色影院| 三级在线观看一区二区| 蜜桃视频一区二区三区在线观看| 一区二区三区午夜视频| 日韩不卡在线观看日韩不卡视频| 国产亚洲久久| 成人国产精品| 五月精品视频| 日本a口亚洲| 97精品国产| 亚洲综合另类| 国产精品色在线网站| 国产成人久久精品麻豆二区 | 亚洲理论在线| 午夜视频一区二区在线观看| 欧美经典一区| 免费av一区二区三区四区| 亚洲免费婷婷| 国产九九精品| 日韩欧美另类一区二区| 日韩午夜黄色| 国产精品密蕾丝视频下载| 日韩大片在线观看| 一区二区三区四区日韩| 精品视频99| 午夜在线视频观看日韩17c| 国产日韩欧美一区二区三区在线观看 | 激情综合五月| 久久亚洲风情| 精品免费av一区二区三区| 亚洲大全视频| 欧美国产中文高清| 在线亚洲免费| 精品国产乱码| 亚洲综合小说| 亚洲伦乱视频| 日本午夜精品久久久久| 亚洲成人二区| 国产三级精品三级在线观看国产| 成人精品中文字幕| 日韩二区三区四区| 蜜桃精品在线| 日韩欧美四区| 黄色不卡一区| 美女毛片一区二区三区四区最新中文字幕亚洲| 亚洲伦乱视频| 国产精品一区二区三区美女 | 久久国产电影| 国产欧美自拍| 亚洲免费一区二区| 九九九精品视频| 在线精品视频一区| 欧美天堂视频| 国产精品一区二区av日韩在线| 欧美日韩国产免费观看 | 亚洲在线国产日韩欧美| 精品久久不卡| 欧美日韩亚洲一区二区三区在线| 1024精品一区二区三区| 麻豆久久一区| 亚洲精品自拍| 一区在线免费观看| 神马午夜在线视频| 国产精品一级在线观看| 中文字幕成人| 国产一区二区高清| 久久蜜桃精品| 国产精品毛片一区二区在线看| 日本亚洲不卡| 红桃视频国产一区| 久久精品免费一区二区三区 | а√天堂8资源中文在线| 国产一卡不卡| 日本成人中文字幕| 免费看的黄色欧美网站| 亚洲成人国产| 成人av三级| 国产不卡精品| 国产精品一区二区99| 日本a口亚洲| 色综合视频一区二区三区日韩 | 精品在线网站观看| 青草国产精品| 日本亚洲最大的色成网站www | 国产欧美二区| 777久久精品| 婷婷精品在线| 免费人成在线不卡| 麻豆久久精品| 亚洲一区欧美| 日韩精品视频网站|