近日,上海獨角獸企業(yè)MiniMax稀宇極智發(fā)布了新一代語音大模型Speech-02。這個大模型在兩份國際權威語音評測榜單Artificial Analysis(人工分析)和Hugging Face TTS Arena(抱抱臉文本轉語音競技場)上,力壓OpenAI、ElevenLabs等國際巨頭,排名雙榜榜首。這意味著我國在人工智能語音生成領域已躋身國際領先行列。國外網民說:“它是音頻領域游戲規(guī)則的改變者?!?/p>

MiniMax新一代語音大模型排名國際榜首,助32個語種全球傳播

據介紹,Speech-02在字錯率、相似度等語音模型的核心指標上取得了SOTA(在特定任務或領域中表現最佳)結果。用戶盲聽的主觀評價也很好,認為它生成的語音自然、真實。

與Seed-TTS、CosyVoice 2和真實音頻相比,這個語音大模型在中英文的零樣本語音克隆中均實現了更低的字錯率,表明其發(fā)音錯誤率更低,且更清晰穩(wěn)定。在相似度這個指標上,Speech-02在所有24種測試語言中均顯著優(yōu)于ElevenLabs的multilingual_v2模型,生成的語音更逼近真人輸出。

MiniMax新一代語音大模型排名國際榜首,助32個語種全球傳播

國際權威語音評測榜單Artificial Analysis

基于泛化的模型能力,這個國產大模型為用戶帶來了超擬人、個性化、多樣性的語音服務。通過“文生音”功能,它可根據自然語言文本描述,生成符合描述的音色;通過“聲音參考”功能,可對任意給定語音進行靈活控制,完成感情、語速、音高和語種等無縫切換;同時支持粵語、葡萄牙語、法語等32個語種,在同一段語音里也可以實現多個語種間的自如切換。

MiniMax新一代語音大模型排名國際榜首,助32個語種全球傳播

值得關注的是,Speech-02的商用定價僅為全球頭部語音模型ElevenLabs的四分之一。這大幅降低了企業(yè)采用先進語音AI技術的門檻,有望為智能客服、語音交互等領域帶來變革。

Hugging Face TTS Arena 評測榜單

目前,MiniMax已在文旅導覽、金融服務、語音助手和AI教育等領域提供應用服務,為AI玩具、教育學習機、汽車智能座艙等硬件場景打造了解決方案,與聲網、閱文集團旗下起點讀書、高途教育、香港電視臺以及Hedra等海外機構達成了深度合作。

MiniMax新一代語音大模型排名國際榜首,助32個語種全球傳播

這家上海企業(yè)今年1月發(fā)布的Speech-01語音模型,支持17種語言和上百種音色,已在北美、英國、意大利、澳大利亞、日韓、巴西等20多個國家和地區(qū)落地合作。

“在海外,我們已支持大量內容創(chuàng)作者通過低門檻的語音工具,用自己的聲音靈活接單,為廣告、短片進行聲音表演,賦能零工經濟。”MiniMax海外生態(tài)負責人林達介紹,“這次發(fā)布的Speech-02能輕松駕馭32個語種的不同口音和不同情緒,我們相信通過AI和對小語種的支持,會將多語種的聲音以當地最地道的發(fā)音傳向全世界,幫助全球每一種語言都被聽見、每一種文化都被理解。”

MiniMax新一代語音大模型排名國際榜首,助32個語種全球傳播

原標題:《MiniMax新一代語音大模型排名國際榜首,助32個語種全球傳播》

欄目主編:黃海華

來源:作者:解放日報 俞陶然

標題:MiniMax新一代語音大模型排名國際榜首,助32個語種全球傳播

地址:http://liuxuerexian.com/ranqizao/224949.html