Google發表Gemini 3.1 Flash Live AI語音對談更自然且思路延續

商傳媒
8 Min Read
Google發表Gemini 3.1 Flash Live AI語音對談更自然且思路延續
Google發表Gemini 3.1 Flash Live AI語音對談更自然且思路延續

商傳媒|責任編輯/綜合外電報導

Google 今日發表最新人工智慧語音模型 Gemini 3.1 Flash Live,號稱是其至今最自然的語音與音訊 AI 模型,旨在提升即時語音對談的流暢度與真實感。這項新模型已於今日起陸續整合至多項 Google 產品中,包含 Gemini 應用程式的即時模式(live mode)以及 Google 搜尋即時功能(Search Live)。

新模型主打更快的反應速度與自然的語調,更能偵測語音的語氣與情緒,並在嘈雜環境中保持語音辨識的穩定性。根據《Ars Technica》報導,Gemini 3.1 Flash Live 能讓 AI 生成語音在語氣、停頓及反應上更接近人類,其語音延遲時間有望達到最佳語音感知所需的 300 毫秒門檻。此外,它解決了數位助理常在長時間對話中「失憶」的問題,能將對話思路延續長達兩倍時間,並有效濾除背景噪音,確保語音處理的準確性。

針對開發者,Gemini 3.1 Flash Live 提供可配置的「思考等級」,讓 AI 能依需求調整品質與反應速度。例如,在「高思考」模式下,其在 Big Bench Audio 基準測試中獲得 95.9% 的評分,反應時間約為 2.98 秒;若設定為「最小思考」,評分雖降至 70.5%,但反應時間可縮短至 0.96 秒。開發者可透過 Gemini Live API、Google AI Studio 以及 Gemini Enterprise for Customer Experience 存取此模型,用以打造更具互動性的語音應用程式。Google 亦強調,即使面對複雜指令或非預期的對話轉折,該模型在觸發外部工具時仍能保持高度準確性。

Gemini 3.1 Flash Live 已擴展至全球超過 200 個國家及地區,並支援逾 90 種語言,推動 Google 搜尋即時功能(Search Live)的全球部署。該模型的定價為每小時音訊輸入 0.35 美元、每小時音訊輸出 1.40 美元,使其成為市場上具成本效益的音訊 AI 模型之一。

值得一提的是,Gemini 3.1 Flash Live 所生成的所有音訊都將內嵌 SynthID 數位浮水印。這項技術能將人耳難以察覺的數位標籤直接編織到音訊輸出中,有助於辨識 AI 生成的內容。