近日,上海獨(dú)角獸企業(yè)MiniMax稀宇極智發(fā)布了新一代語音大模型Speech-02。這個(gè)大模型在兩份國(guó)際權(quán)威語音評(píng)測(cè)榜單Artificial Analysis(人工分析)和Hugging Face TTS Arena(抱抱臉文本轉(zhuǎn)語音競(jìng)技場(chǎng))上,力壓OpenAI、ElevenLabs等國(guó)際巨頭,排名雙榜榜首。這意味著我國(guó)在人工智能語音生成領(lǐng)域已躋身國(guó)際領(lǐng)先行列。國(guó)外網(wǎng)民說:“它是音頻領(lǐng)域游戲規(guī)則的改變者。”
據(jù)介紹,Speech-02在字錯(cuò)率、相似度等語音模型的核心指標(biāo)上取得了SOTA(在特定任務(wù)或領(lǐng)域中表現(xiàn)最佳)結(jié)果。用戶盲聽的主觀評(píng)價(jià)也很好,認(rèn)為它生成的語音自然、真實(shí)。
與Seed-TTS、CosyVoice 2和真實(shí)音頻相比,這個(gè)語音大模型在中英文的零樣本語音克隆中均實(shí)現(xiàn)了更低的字錯(cuò)率,表明其發(fā)音錯(cuò)誤率更低,且更清晰穩(wěn)定。在相似度這個(gè)指標(biāo)上,Speech-02在所有24種測(cè)試語言中均顯著優(yōu)于ElevenLabs的multilingual_v2模型,生成的語音更逼近真人輸出。
國(guó)際權(quán)威語音評(píng)測(cè)榜單Artificial Analysis
基于泛化的模型能力,這個(gè)國(guó)產(chǎn)大模型為用戶帶來了超擬人、個(gè)性化、多樣性的語音服務(wù)。通過“文生音”功能,它可根據(jù)自然語言文本描述,生成符合描述的音色;通過“聲音參考”功能,可對(duì)任意給定語音進(jìn)行靈活控制,完成感情、語速、音高和語種等無縫切換;同時(shí)支持粵語、葡萄牙語、法語等32個(gè)語種,在同一段語音里也可以實(shí)現(xiàn)多個(gè)語種間的自如切換。
值得關(guān)注的是,Speech-02的商用定價(jià)僅為全球頭部語音模型ElevenLabs的四分之一。這大幅降低了企業(yè)采用先進(jìn)語音AI技術(shù)的門檻,有望為智能客服、語音交互等領(lǐng)域帶來變革。
Hugging Face TTS Arena 評(píng)測(cè)榜單
目前,MiniMax已在文旅導(dǎo)覽、金融服務(wù)、語音助手和AI教育等領(lǐng)域提供應(yīng)用服務(wù),為AI玩具、教育學(xué)習(xí)機(jī)、汽車智能座艙等硬件場(chǎng)景打造了解決方案,與聲網(wǎng)、閱文集團(tuán)旗下起點(diǎn)讀書、高途教育、香港電視臺(tái)以及Hedra等海外機(jī)構(gòu)達(dá)成了深度合作。
這家上海企業(yè)今年1月發(fā)布的Speech-01語音模型,支持17種語言和上百種音色,已在北美、英國(guó)、意大利、澳大利亞、日韓、巴西等20多個(gè)國(guó)家和地區(qū)落地合作。
“在海外,我們已支持大量?jī)?nèi)容創(chuàng)作者通過低門檻的語音工具,用自己的聲音靈活接單,為廣告、短片進(jìn)行聲音表演,賦能零工經(jīng)濟(jì)。”MiniMax海外生態(tài)負(fù)責(zé)人林達(dá)介紹,“這次發(fā)布的Speech-02能輕松駕馭32個(gè)語種的不同口音和不同情緒,我們相信通過AI和對(duì)小語種的支持,會(huì)將多語種的聲音以當(dāng)?shù)刈畹氐赖陌l(fā)音傳向全世界,幫助全球每一種語言都被聽見、每一種文化都被理解。”
原標(biāo)題:《MiniMax新一代語音大模型排名國(guó)際榜首,助32個(gè)語種全球傳播》
欄目主編:黃海華
來源:作者:解放日?qǐng)?bào) 俞陶然
標(biāo)題:MiniMax新一代語音大模型排名國(guó)際榜首,助32個(gè)語種全球傳播
地址:http://www.sme-os.com/reshuiqi/254580.html