在業(yè)界對(duì)新一代旗艦?zāi)P虳eepSeek V4的翹首期盼中,DeepSeek團(tuán)隊(duì)卻悄然放出了一篇新的學(xué)術(shù)論文。

這篇論文由DeepSeek聯(lián)合北大、清華共同撰寫(xiě),將研究方向投向了決定大模型實(shí)際應(yīng)用落地的關(guān)鍵一環(huán)——推理速度,為日益復(fù)雜的AI智能體,提供一套高效的底層系統(tǒng)解決方案。
具體來(lái)說(shuō),新論文介紹了一個(gè)名為DualPath的創(chuàng)新推理系統(tǒng),專(zhuān)門(mén)針對(duì)智能體工作負(fù)載下的大模型(LLM)推理性能進(jìn)行優(yōu)化。通過(guò)引入“雙路徑讀取KV-Cache(類(lèi)似記憶緩存)”機(jī)制,重新分配存儲(chǔ)網(wǎng)絡(luò)負(fù)載,將離線(xiàn)推理吞吐量最高提升 1.87 倍,在線(xiàn)服務(wù)的每秒智能體運(yùn)行數(shù)平均提升 1.96 倍。
論文在引言部分提到,大模型正從單輪對(duì)話(huà)機(jī)器人和獨(dú)立推理模型,快速演進(jìn)為智能體系統(tǒng) ——能夠自主規(guī)劃、調(diào)用工具,并通過(guò)多輪交互解決實(shí)際任務(wù)。這種應(yīng)用范式的轉(zhuǎn)變,推動(dòng)大模型推理工作負(fù)載發(fā)生重大變革:從傳統(tǒng)的人類(lèi)-大模型交互,轉(zhuǎn)向人類(lèi)-大模型-環(huán)境交互,交互輪次可達(dá)數(shù)十甚至數(shù)百輪。
上下文會(huì)跨輪次累積,最終長(zhǎng)度可能達(dá)到極值。此時(shí)模型不需要大量計(jì)算,反而需要頻繁從硬盤(pán)讀取歷史上下文的 KV-Cache;現(xiàn)有系統(tǒng)中,只有負(fù)責(zé)預(yù)處理的引擎會(huì)讀取KV-Cache,它的網(wǎng)卡帶寬被占滿(mǎn),而負(fù)責(zé)生成內(nèi)容的解碼引擎,網(wǎng)卡帶寬基本閑置,導(dǎo)致整個(gè)系統(tǒng)速度被卡脖子。
因此,論文提出的DualPath,針對(duì)智能體工作負(fù)載、重新設(shè)計(jì)現(xiàn)代推理架構(gòu)中 KV-Cache加載邏輯,解決大模型做智能體任務(wù)時(shí),速度被 “數(shù)據(jù)讀取”拖慢的核心問(wèn)題,重要的是把閑置的帶寬資源利用起來(lái),相當(dāng)于給數(shù)據(jù)讀取 “多開(kāi)了一條高速路”,實(shí)現(xiàn)速度的大幅提升。
這一論文成果延續(xù)了DeepSeek一貫的風(fēng)格,在工程化層面將性能優(yōu)化推向極致。有從業(yè)者認(rèn)為,DeepSeek做這類(lèi)優(yōu)化屬于缺顯卡的無(wú)奈之舉,屬于“臟活兒累活兒”,大家更期待團(tuán)隊(duì)在模型上做創(chuàng)新。
但也有人認(rèn)為,即便有足夠顯卡,這類(lèi)優(yōu)化在降低成本、降低token費(fèi)用方面也很有價(jià)值,因?yàn)橹挥凶銐虮阋?,AI才能走向大規(guī)模使用。
相比這篇“務(wù)實(shí)”的論文,外界顯然更關(guān)注DeepSeek新一代旗艦?zāi)P偷恼婷婺?。關(guān)于DeepSeek V4的發(fā)布時(shí)間,市場(chǎng)傳聞已幾經(jīng)更迭。從最初傳聞的2月春節(jié)前后,到外媒最新報(bào)道的“最快下周”,再到業(yè)內(nèi)人士預(yù)測(cè)的3月前后,傳聞鏈條愈發(fā)撲朔迷離。
就在近日,外網(wǎng)有網(wǎng)友爆料稱(chēng),DeepSeek 正在測(cè)試 V4 Lite 模型,代號(hào)為“Sealion-lite”,上下文窗口為 100萬(wàn)tokens,并原生支持多模態(tài)推理。也有消息提及,DeepSeek已在近期將重大更新版本V4向華為等國(guó)內(nèi)廠(chǎng)商提供提前訪(fǎng)問(wèn)權(quán),以支持其優(yōu)化處理器軟件,確保模型在硬件上高效運(yùn)行。然而,英偉達(dá)等廠(chǎng)商尚未獲得類(lèi)似權(quán)限。
面對(duì)傳聞,DeepSeek依舊保持其一貫的沉默,目前并未進(jìn)行任何回應(yīng)。但市場(chǎng)已進(jìn)入“嚴(yán)陣以待”狀態(tài),部分投資機(jī)構(gòu)擔(dān)憂(yōu),新一代模型的發(fā)布會(huì)如同去年的版本發(fā)布時(shí)那樣,引發(fā)市場(chǎng)的劇烈震蕩。