近日,上海獨角獸企業(yè)MiniMax稀宇極智發(fā)布了新一代語音大模型Speech-02。這個大模型在兩份國際權(quán)威語音評測榜單Artificial Analysis(人工分析)和Hugging Face TTS Arena(抱抱臉文本轉(zhuǎn)語音競技場)上,力壓OpenAI、ElevenLabs等國際巨頭,排名雙榜榜首。這意味著我國在人工智能語音生成領(lǐng)域已躋身國際領(lǐng)先行列。國外網(wǎng)民說:“它是音頻領(lǐng)域游戲規(guī)則的改變者。”

MiniMax新一代語音大模型排名國際榜首,助32個語種全球傳播

據(jù)介紹,Speech-02在字錯率、相似度等語音模型的核心指標上取得了SOTA(在特定任務(wù)或領(lǐng)域中表現(xiàn)最佳)結(jié)果。用戶盲聽的主觀評價也很好,認為它生成的語音自然、真實。

與Seed-TTS、CosyVoice 2和真實音頻相比,這個語音大模型在中英文的零樣本語音克隆中均實現(xiàn)了更低的字錯率,表明其發(fā)音錯誤率更低,且更清晰穩(wěn)定。在相似度這個指標上,Speech-02在所有24種測試語言中均顯著優(yōu)于ElevenLabs的multilingual_v2模型,生成的語音更逼近真人輸出。

MiniMax新一代語音大模型排名國際榜首,助32個語種全球傳播

國際權(quán)威語音評測榜單Artificial Analysis

基于泛化的模型能力,這個國產(chǎn)大模型為用戶帶來了超擬人、個性化、多樣性的語音服務(wù)。通過“文生音”功能,它可根據(jù)自然語言文本描述,生成符合描述的音色;通過“聲音參考”功能,可對任意給定語音進行靈活控制,完成感情、語速、音高和語種等無縫切換;同時支持粵語、葡萄牙語、法語等32個語種,在同一段語音里也可以實現(xiàn)多個語種間的自如切換。

MiniMax新一代語音大模型排名國際榜首,助32個語種全球傳播

值得關(guān)注的是,Speech-02的商用定價僅為全球頭部語音模型ElevenLabs的四分之一。這大幅降低了企業(yè)采用先進語音AI技術(shù)的門檻,有望為智能客服、語音交互等領(lǐng)域帶來變革。

Hugging Face TTS Arena 評測榜單

目前,MiniMax已在文旅導(dǎo)覽、金融服務(wù)、語音助手和AI教育等領(lǐng)域提供應(yīng)用服務(wù),為AI玩具、教育學(xué)習(xí)機、汽車智能座艙等硬件場景打造了解決方案,與聲網(wǎng)、閱文集團旗下起點讀書、高途教育、香港電視臺以及Hedra等海外機構(gòu)達成了深度合作。

MiniMax新一代語音大模型排名國際榜首,助32個語種全球傳播

這家上海企業(yè)今年1月發(fā)布的Speech-01語音模型,支持17種語言和上百種音色,已在北美、英國、意大利、澳大利亞、日韓、巴西等20多個國家和地區(qū)落地合作。

“在海外,我們已支持大量內(nèi)容創(chuàng)作者通過低門檻的語音工具,用自己的聲音靈活接單,為廣告、短片進行聲音表演,賦能零工經(jīng)濟。”MiniMax海外生態(tài)負責(zé)人林達介紹,“這次發(fā)布的Speech-02能輕松駕馭32個語種的不同口音和不同情緒,我們相信通過AI和對小語種的支持,會將多語種的聲音以當(dāng)?shù)刈畹氐赖陌l(fā)音傳向全世界,幫助全球每一種語言都被聽見、每一種文化都被理解。”

MiniMax新一代語音大模型排名國際榜首,助32個語種全球傳播

原標題:《MiniMax新一代語音大模型排名國際榜首,助32個語種全球傳播》

欄目主編:黃海華

來源:作者:解放日報 俞陶然

標題:MiniMax新一代語音大模型排名國際榜首,助32個語種全球傳播

地址:http://www.sme-os.com/reshuiqi/254580.html