
商傳媒|葉安庭/綜合外電報導
根據《VentureBeat》報導,人工智慧晶片公司 Cerebras 於本週一(5月18日)宣布,其晶圓級晶片運算月之暗面(Moonshot AI)推出的兆參數開源權重模型 Kimi K2.6 時,能以每秒近 1,000 個 token 的速度服務企業客戶。
報導指出,Cerebras 測得的輸出速度為每秒 981 個 token。根據獨立評測機構 Artificial Analysis 的數據,這項速度比市場上最快的 GPU 雲端供應商快了 6.7 倍,更比平均速度快了 23 倍。在處理一個包含 10,000 個輸入 token 的標準代理式編碼請求時,Cerebras 的系統僅需 5.6 秒就能交付完整回應,相較於 Kimi 官方端點所需的 163.7 秒,效率提升了 29 倍。
Cerebras 產品行銷總監 James Wang 表示,Cerebras 能夠在其晶圓級架構上處理 Kimi K2.6 這類大型模型,並展現其聞名的驚人速度。Kimi K2.6 是 Cerebras 首次在生產環境中服務的兆參數開源權重模型。此宣布正值 Cerebras 完成 2026 年科技業規模最大的首次公開募股(IPO)之後。
由北京月之暗面於 4 月 20 日發布的 Kimi K2.6,是一個兆參數專家混合模型(Mixture-of-Experts model),其在 SWE-Bench Pro 測試中獲得 58.6 分,超越 Claude Opus 4.6 並與 GPT-5.4 表現持平。該模型採用 320 億個活躍參數,總參數達到 1 兆,並在 256,000 個 token 的內容視窗下運行。
Kimi K2.6 被視為 Anthropic 和 OpenAI 等公司高價且產能受限的閉源 API 的潛在替代方案,尤其適用於編碼和代理工作負載。James Wang 提到,企業對 Kimi K2.6 抱持濃厚興趣,以尋求 Anthropic 模型之外的替代方案,主要考量其成本效益與可用產能。
Cerebras 的 Wafer-Scale Engine 3 是一片矽晶圓大小的單一晶片,內建 44 GB 的 SRAM。為處理 Kimi K2.6,Cerebras 將模型權重儲存在原始的 4 位元精確度,並以 16 位元浮點運算。模型權重分布在約 20 個 CS-3 系統的叢集中的多個晶圓上,晶圓內網路結構提供的頻寬比 NVL72 的 NVLink 高出 200 倍以上。James Wang 形容,Cerebras 的單一單元容量更為龐大,相當於「20 個機架,而非 72 個 GPU」。
目前,財富美國 500 強企業中,包括軟體、金融服務和醫療保健領域的公司,正在生產雲端試用中測試 Cerebras 的兆參數推論能力。James Wang 強調,Cerebras 的成本與 GPU 雲端供應商大致相當,提供類似的每 token 成本但更快的交付速度。他指出,輝達(Nvidia)以 200 億美元收購 Groq 的行動,顯示其也意識到快速推論是一個極其重要的市場。Cerebras 與 OpenAI 也在 2026 年初達成一項價值逾 200 億美元的協議,用於提供運算容量及相關服務。