輝達新技術讓大語言模型記憶體用量銳減20倍

商傳媒｜何映辰／台北報導

Contents

AI多輪對話的記憶體瓶頸
借鑒媒體壓縮技術提升效率
效能卓越且準確度損耗極微
加速AI普及並影響硬體發展

全球人工智慧（AI）晶片領導廠商輝達（Nvidia）昨日（17日）發表一項名為「KV快取轉換編碼」（KV Cache Transform Coding, KVTC）的嶄新技術，能大幅降低大型語言模型（LLM）處理對話歷史時的記憶體佔用，最高可達20倍，且不需更改模型權重。這項創新亦能將首個詞元（token）的生成時間加速達8倍，對企業級AI應用效率提升具關鍵意義。

AI多輪對話的記憶體瓶頸

在開發複雜的AI應用，如程式撰寫助理或聊天機器人時，LLM仰賴「鍵值（Key-Value, KV）快取」機制來儲存過往對話的隱藏數值表示，避免每次使用者輸入新提示時，都需重新計算整個對話歷史。然而，隨著對話輪次增加，此快取所佔用的記憶體空間會迅速擴大，成為延遲與基礎設施成本的嚴重瓶頸。輝達深度學習工程師 Adrian Lancucki 透過《VentureBeat》指出，由於LLM在推論期間高度受記憶體限制，同時服務多名使用者時，GPU記憶體耗盡而非運算時間，才是系統效能的最大限制。有效的KV快取管理因此成為關鍵，因為閒置的快取必須快速從GPU記憶體卸載，以容納其他使用者，並在對話恢復時迅速還原，這類基礎設施成本也反映在商業定價中。

市場上現有的壓縮解決方案往往無法全面解決問題。例如，為網路傳輸設計的壓縮工具壓縮率低；其他壓縮方法則需耗費大量資源進行即時運算；而量化（quantization）或稀疏化（sparsification）等熱門技術，則可能導致延遲增加、準確度下降，或必須修改模型權重，限制了其實用性。輝達研究人員發現，KV張量雖龐大複雜，其內含的資訊卻具有高度的「低秩結構」（low-rank structure），可透過更精簡的方式精確表示，KVTC技術正是以此為核心。

借鑒媒體壓縮技術提升效率

KVTC技術借鑒了傳統媒體壓縮領域的「轉換編碼」（transform coding）概念，此方法廣泛應用於JPEG等影像與視訊壓縮格式。該框架透過一系列快速的多步驟流程，在推論階段之間執行快取縮減，以避免拖慢詞元生成速度。Lancucki 強調，這種「媒體壓縮」方法具非侵入性，不需修改模型權重或程式碼，且靠近傳輸層運作，有利於企業部署。

KVTC流程首步驟是利用主成分分析（Principal Component Analysis, PCA），根據KV快取數據的重要性對特徵進行對齊。PCA是一種統計技術，透過分離數據最關鍵的特徵並消除冗餘，來提高模型效率。此校準步驟僅在每個模型初次使用時離線執行一次，其生成的對齊矩陣可重複使用，不影響後續壓縮過程。接著，系統透過動態規劃演算法，自動分配每個特定數據維度所需的記憶體預算，讓最重要的主成分獲得高精度，較不重要的部分則分配較少位元甚至完全捨棄。最後，經過優化和量化的數據會被打包成位元組陣列，並透過DEFLATE熵編碼器進行壓縮。此步驟利用輝達的nvCOMP函式庫在GPU上平行執行，確保極高的運算速度。

當使用者再次互動時，KVTC會以反向操作解壓縮數據。為加速此過程，系統會分區塊、分層級地執行大部分解壓縮工作，使AI模型能夠在背景解壓縮剩餘區塊的同時，利用首個解壓縮完成的區塊開始計算下一個回應，大幅提升反應速度。

效能卓越且準確度損耗極微

輝達研究人員對KVTC進行了廣泛測試，涵蓋了從15億到700億參數的各類模型，包括Llama 3系列、Mistral NeMo，以及注重推理的R1蒸餾版Qwen 2.5模型。測試基準包括MATH-500、LiveCodeBench等複雜數學與程式編寫挑戰，以及「大海撈針」（Needle In A Haystack）等密集型長上下文檢索任務。

結果顯示，在20倍有效壓縮率下，KVTC在大多數任務中，相較於未壓縮的原始模型，準確度損失始終保持在1個百分點以內。即使將壓縮率推升至32倍或64倍的極限，KVTC的表現依然出色。相比之下，KIVI和GEAR等主流基線技術在僅5倍壓縮率下，特別是在長上下文任務上，就出現了嚴重的準確度下降。而H2O和TOVA等標準快取驅逐方法作為通用壓縮器，在要求檢索深層上下文資訊時，則完全失效。

以15億參數的Qwen 2.5程式助理模型為例，其每個詞元通常需要29KB記憶體。透過8倍壓縮設定，KVTC將記憶體佔用縮減至約3.2KB，而程式編寫準確度僅微幅下降0.3個百分點。KVTC對於提升使用者體驗也助益良多，它顯著縮短了「首個詞元生成時間」（Time-to-First-Token, TTFT）。在處理8000個詞元的提示時，未經優化的12B模型在輝達H100 GPU上需約3秒才能重新計算歷史紀錄；而透過KVTC，系統只需380毫秒即可解壓縮快取，將首個詞元生成時間縮短達8倍。

加速AI普及並影響硬體發展

Lancucki 指出，KVTC技術最適合應用於長上下文、多輪次的AI情境，例如程式設計助理、疊代式代理推理工作流程，以及疊代式檢索增強生成（RAG）。輝達預計很快會將這項高度可移植的優化實作整合至Dynamo框架內的KV區塊管理器（KVBM）中，使其能與vLLM等主流開源推論引擎相容。這項技術透過降低LLM運行的記憶體需求與運算成本，可望加速AI技術的普及與大規模部署。

對於全球半導體產業，特別是台灣半導體供應鏈而言，KVTC技術的推出意味著AI硬體發展將更加注重效率與成本效益。台灣在全球先進製程與高頻寬記憶體（HBM）封裝領域佔有領先地位，例如台積電（TSMC）在製造輝達AI晶片及相關封裝技術中扮演關鍵角色。KVTC有助於最佳化AI模型的記憶體使用，這將可能引導未來AI晶片與硬體設計朝向更精巧、更具成本效益的方向發展，同時提高現有AI基礎設施的利用率，鞏固台灣在供應這些高效能AI解決方案上的核心地位，並進一步推動AI生態系的創新。

日本腦炎今年首例死亡　7旬婦發病一週不治　住家旁有稻田、豬舍要當心

北捷通車30週年迎新里程碑　蔣萬安開箱新捷運列車

台南大員皇冠假日酒店煉瓦鐵板燒夏季限定「旬味鰻魚宴」登場

外傷後怎麼痛那麼久?郭醫院：談不可輕忽的骨挫傷

名間鄉員集路段5車連環事故釀3死4傷　肇事原因待警方調查釐清

輝達新技術讓大語言模型記憶體用量銳減20倍

AI多輪對話的記憶體瓶頸

借鑒媒體壓縮技術提升效率

效能卓越且準確度損耗極微

加速AI普及並影響硬體發展

日本腦炎今年首例死亡 7旬婦發病一週不治 住家旁有稻田、豬舍要當心

北捷通車30週年迎新里程碑 蔣萬安開箱新捷運列車

台南大員皇冠假日酒店 煉瓦鐵板燒夏季限定「旬味鰻魚宴」登場

外傷後怎麼痛那麼久?郭醫院：談不可輕忽的骨挫傷

名間鄉員集路段5車連環事故釀3死4傷 肇事原因待警方調查釐清

AI多輪對話的記憶體瓶頸

借鑒媒體壓縮技術提升效率

效能卓越且準確度損耗極微

加速AI普及並影響硬體發展

日本腦炎今年首例死亡　7旬婦發病一週不治　住家旁有稻田、豬舍要當心

北捷通車30週年迎新里程碑　蔣萬安開箱新捷運列車

台南大員皇冠假日酒店煉瓦鐵板燒夏季限定「旬味鰻魚宴」登場

名間鄉員集路段5車連環事故釀3死4傷　肇事原因待警方調查釐清