• 熱門
  • 地方
  • 生活
  • 產經
  • 綜合
  • 娛樂
  • 文教
  • 身心𩆜
  • 醫藥健康
  • 旅遊
  • 美食
  • 體育
  • 法律天地
  • 合作媒體
  • 熱門
  • 地方
  • 生活
  • 產經
  • 綜合
  • 娛樂
  • 文教
  • 身心𩆜
  • 醫藥健康
  • 旅遊
  • 美食
  • 體育
  • 法律天地
  • 合作媒體
最新新聞
黃世聰談遠見科技風暴:庫藏股若淪股價工具 恐傷害市場信任
全台「老婆」們注意了!國民男神許光漢化身AI暖男「許代樂」 霸氣宣示包辦你的精緻生活!
即日起至6月21日新光三越高雄左營店  「T368城鄉物產展」 一次網羅台灣美食、百年信仰 與職人文化的感官饗宴
羈押制度修法恐削弱偵查量能 學者示警:詐團、毒販恐成最大受益者
好市多線上618檔期登場數百款優惠商品 黑鑽會員搶先享雙重優惠
S__117071907
S__115499013
S__55287864
墨水映像數位行銷有限公司-w800xh98px
02.Banner_工作區域 1-F
165打詐儀錶版FOR墨新聞
979582
114污水banner
首頁 » 輝達新技術讓大語言模型記憶體用量銳減20倍
合作媒體

輝達新技術讓大語言模型記憶體用量銳減20倍

商傳媒
商傳媒
Published: 2026/03/18
Share
19 Min Read
輝達新技術讓大語言模型記憶體用量銳減20倍
輝達新技術讓大語言模型記憶體用量銳減20倍
圖/本報資料庫

商傳媒|何映辰/台北報導

Contents
  • AI多輪對話的記憶體瓶頸
  • 借鑒媒體壓縮技術提升效率
  • 效能卓越且準確度損耗極微
  • 加速AI普及並影響硬體發展

全球人工智慧(AI)晶片領導廠商輝達(Nvidia)昨日(17日)發表一項名為「KV快取轉換編碼」(KV Cache Transform Coding, KVTC)的嶄新技術,能大幅降低大型語言模型(LLM)處理對話歷史時的記憶體佔用,最高可達20倍,且不需更改模型權重。這項創新亦能將首個詞元(token)的生成時間加速達8倍,對企業級AI應用效率提升具關鍵意義。

AI多輪對話的記憶體瓶頸

在開發複雜的AI應用,如程式撰寫助理或聊天機器人時,LLM仰賴「鍵值(Key-Value, KV)快取」機制來儲存過往對話的隱藏數值表示,避免每次使用者輸入新提示時,都需重新計算整個對話歷史。然而,隨著對話輪次增加,此快取所佔用的記憶體空間會迅速擴大,成為延遲與基礎設施成本的嚴重瓶頸。輝達深度學習工程師 Adrian Lancucki 透過《VentureBeat》指出,由於LLM在推論期間高度受記憶體限制,同時服務多名使用者時,GPU記憶體耗盡而非運算時間,才是系統效能的最大限制。有效的KV快取管理因此成為關鍵,因為閒置的快取必須快速從GPU記憶體卸載,以容納其他使用者,並在對話恢復時迅速還原,這類基礎設施成本也反映在商業定價中。

市場上現有的壓縮解決方案往往無法全面解決問題。例如,為網路傳輸設計的壓縮工具壓縮率低;其他壓縮方法則需耗費大量資源進行即時運算;而量化(quantization)或稀疏化(sparsification)等熱門技術,則可能導致延遲增加、準確度下降,或必須修改模型權重,限制了其實用性。輝達研究人員發現,KV張量雖龐大複雜,其內含的資訊卻具有高度的「低秩結構」(low-rank structure),可透過更精簡的方式精確表示,KVTC技術正是以此為核心。

借鑒媒體壓縮技術提升效率

KVTC技術借鑒了傳統媒體壓縮領域的「轉換編碼」(transform coding)概念,此方法廣泛應用於JPEG等影像與視訊壓縮格式。該框架透過一系列快速的多步驟流程,在推論階段之間執行快取縮減,以避免拖慢詞元生成速度。Lancucki 強調,這種「媒體壓縮」方法具非侵入性,不需修改模型權重或程式碼,且靠近傳輸層運作,有利於企業部署。

KVTC流程首步驟是利用主成分分析(Principal Component Analysis, PCA),根據KV快取數據的重要性對特徵進行對齊。PCA是一種統計技術,透過分離數據最關鍵的特徵並消除冗餘,來提高模型效率。此校準步驟僅在每個模型初次使用時離線執行一次,其生成的對齊矩陣可重複使用,不影響後續壓縮過程。接著,系統透過動態規劃演算法,自動分配每個特定數據維度所需的記憶體預算,讓最重要的主成分獲得高精度,較不重要的部分則分配較少位元甚至完全捨棄。最後,經過優化和量化的數據會被打包成位元組陣列,並透過DEFLATE熵編碼器進行壓縮。此步驟利用輝達的nvCOMP函式庫在GPU上平行執行,確保極高的運算速度。

當使用者再次互動時,KVTC會以反向操作解壓縮數據。為加速此過程,系統會分區塊、分層級地執行大部分解壓縮工作,使AI模型能夠在背景解壓縮剩餘區塊的同時,利用首個解壓縮完成的區塊開始計算下一個回應,大幅提升反應速度。

效能卓越且準確度損耗極微

輝達研究人員對KVTC進行了廣泛測試,涵蓋了從15億到700億參數的各類模型,包括Llama 3系列、Mistral NeMo,以及注重推理的R1蒸餾版Qwen 2.5模型。測試基準包括MATH-500、LiveCodeBench等複雜數學與程式編寫挑戰,以及「大海撈針」(Needle In A Haystack)等密集型長上下文檢索任務。

結果顯示,在20倍有效壓縮率下,KVTC在大多數任務中,相較於未壓縮的原始模型,準確度損失始終保持在1個百分點以內。即使將壓縮率推升至32倍或64倍的極限,KVTC的表現依然出色。相比之下,KIVI和GEAR等主流基線技術在僅5倍壓縮率下,特別是在長上下文任務上,就出現了嚴重的準確度下降。而H2O和TOVA等標準快取驅逐方法作為通用壓縮器,在要求檢索深層上下文資訊時,則完全失效。

以15億參數的Qwen 2.5程式助理模型為例,其每個詞元通常需要29KB記憶體。透過8倍壓縮設定,KVTC將記憶體佔用縮減至約3.2KB,而程式編寫準確度僅微幅下降0.3個百分點。KVTC對於提升使用者體驗也助益良多,它顯著縮短了「首個詞元生成時間」(Time-to-First-Token, TTFT)。在處理8000個詞元的提示時,未經優化的12B模型在輝達H100 GPU上需約3秒才能重新計算歷史紀錄;而透過KVTC,系統只需380毫秒即可解壓縮快取,將首個詞元生成時間縮短達8倍。

加速AI普及並影響硬體發展

Lancucki 指出,KVTC技術最適合應用於長上下文、多輪次的AI情境,例如程式設計助理、疊代式代理推理工作流程,以及疊代式檢索增強生成(RAG)。輝達預計很快會將這項高度可移植的優化實作整合至Dynamo框架內的KV區塊管理器(KVBM)中,使其能與vLLM等主流開源推論引擎相容。這項技術透過降低LLM運行的記憶體需求與運算成本,可望加速AI技術的普及與大規模部署。

對於全球半導體產業,特別是台灣半導體供應鏈而言,KVTC技術的推出意味著AI硬體發展將更加注重效率與成本效益。台灣在全球先進製程與高頻寬記憶體(HBM)封裝領域佔有領先地位,例如台積電(TSMC)在製造輝達AI晶片及相關封裝技術中扮演關鍵角色。KVTC有助於最佳化AI模型的記憶體使用,這將可能引導未來AI晶片與硬體設計朝向更精巧、更具成本效益的方向發展,同時提高現有AI基礎設施的利用率,鞏固台灣在供應這些高效能AI解決方案上的核心地位,並進一步推動AI生態系的創新。

Previous Article 微軟重整Copilot領導團隊 蘇萊曼聚焦尖端AI模型開發 微軟重整Copilot領導團隊 蘇萊曼聚焦尖端AI模型開發
Next Article AI評分工具ZenMarker問世 助教師減輕負擔並深化學習 AI評分工具ZenMarker問世 助教師減輕負擔並深化學習

近期文章

  • 黃世聰談遠見科技風暴:庫藏股若淪股價工具 恐傷害市場信任
  • 全台「老婆」們注意了!國民男神許光漢化身AI暖男「許代樂」 霸氣宣示包辦你的精緻生活!
  • 即日起至6月21日新光三越高雄左營店  「T368城鄉物產展」 一次網羅台灣美食、百年信仰 與職人文化的感官饗宴
  • 羈押制度修法恐削弱偵查量能 學者示警:詐團、毒販恐成最大受益者
  • 短影音製作 傳統產業靠 AI 逆襲 

近期留言

尚無留言可供顯示。
  • 關於我們
  • 隱私權政策
  • 聯絡我們
  • 關於我們
  • 隱私權政策
  • 聯絡我們
Copyright©MORE News
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?

為了帶給你更好的瀏覽體驗我們的網站中有使用Cookie,幫助我們改善網站的結構和行銷分析。如果你同意使用請點擊了解,我們會權利提供你更完善的服務!