谷歌近日在旗下擁有7.5億月活躍用戶的Gemini應用中推出AI音樂生成功能,用戶僅需輸入文字描述或上傳圖片,即可在數秒內獲得包含人聲、歌詞及封面的30秒完整歌曲。該功能基于DeepMind最新研發的Lyria 3模型,其訓練數據規模超過200萬首曲目,支持包括英語、日語、韓語在內的8種語言,目前以Beta版本向全球18歲以上用戶開放。
相較于前代模型,Lyria 3實現了多項技術突破。用戶無需手動編寫歌詞,模型可根據提示詞自動生成內容,同時對音樂風格、人聲類型及節奏速度的控制精度顯著提升。輸出音頻采用48kHz立體聲格式,人聲自然度與歌詞清晰度達到主流流媒體平臺標準,音頻位深升級至24-bit。配套的圖像生成模型Nano Banana可自動為歌曲創作封面,若用戶上傳照片或視頻,系統還能分析視覺情緒生成匹配的音樂。
在版權合規方面,谷歌采取多重防護措施。訓練階段嚴格遵循版權協議,輸出內容通過SynthID技術嵌入數字水印,并新增音頻鑒別功能——用戶可上傳音頻文件檢測是否為谷歌AI生成。官方聲明強調,模型設計旨在激發原創表達,當提示詞涉及特定藝術家時,僅將其作為風格參考而非聲音復制。目前該功能已集成至YouTube Dream Track,為全球短視頻創作者提供背景音樂生成服務。
行業分析指出,谷歌的入局將AI音樂競爭從技術層面推向生態級較量。盡管Suno等創業公司通過專業編輯功能占據細分市場,但其用戶規模與Gemini存在量級差距。測試用戶反饋顯示,該功能更適用于日常場景創新,例如將購物清單轉化為說唱歌曲或為旅行照片配樂。不過,30秒的時長限制與Beta階段的穩定性仍待優化,谷歌選擇此時推向海量用戶,凸顯其搶占AI音樂入口的戰略意圖。
隨著技術普及,音樂創作的門檻進一步降低。從專業錄音棚到手機應用,AI正在重塑人類與音樂的互動方式——當每個人都能隨時化身作曲家,音樂或許將更多成為情感即時傳遞的載體,而非精心打磨的藝術品。這場變革背后,技術倫理與版權邊界的博弈仍將持續,但用戶對便捷創作工具的需求已不可逆轉。








