IT之家 6 月 11 日消息,科技媒體 marktechpost 昨日(6 月 10 日)發(fā)布博文,報道稱 Meta 公司推出 LlamaRL 框架,采用全異步分布式設(shè)計,在 405B 參數(shù)模型上,LlamaRL 將強(qiáng)化學(xué)習(xí)步驟時間從 635.8 秒縮短至 59.5 秒,速度提升 10.7 倍。

IT之家注:強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)通過基于反饋調(diào)整輸出,讓模型更貼合用戶需求。隨著對模型精準(zhǔn)性和規(guī)則適配性的要求不斷提高,強(qiáng)化學(xué)習(xí)在訓(xùn)練后階段的重要性日益凸顯,持續(xù)優(yōu)化模型性能,成為許多先進(jìn)大語言模型系統(tǒng)的關(guān)鍵組成部分。

Meta推LlamaRL強(qiáng)化學(xué)習(xí)框架:訓(xùn)練AI模型提速10.7倍

將強(qiáng)化學(xué)習(xí)應(yīng)用于大語言模型,最大障礙在于資源需求。訓(xùn)練涉及海量計算和多組件協(xié)調(diào),如策略模型、獎勵評分器等。模型參數(shù)高達(dá)數(shù)百億,內(nèi)存使用、數(shù)據(jù)通信延遲和 GPU 閑置等問題困擾著工程師。

Meta 推出的 LlamaRL 框架,采用 PyTorch 構(gòu)建全異步分布式系統(tǒng),簡化協(xié)調(diào)并支持模塊化定制。通過獨(dú)立執(zhí)行器并行處理生成、訓(xùn)練和獎勵模型,LlamaRL 大幅減少等待時間,提升效率。

LlamaRL 通過分布式直接內(nèi)存訪問(DDMA)和 NVIDIA NVLink 技術(shù),實(shí)現(xiàn) 405B 參數(shù)模型權(quán)重同步僅需 2 秒。

在實(shí)際測試中,LlamaRL 在 8B、70B 和 405B 模型上分別將訓(xùn)練時間縮短至 8.90 秒、20.67 秒和 59.5 秒,速度提升最高達(dá) 10.7 倍。

MATH 和 GSM8K 基準(zhǔn)測試顯示,其性能穩(wěn)定甚至略有提升。LlamaRL 有效解決內(nèi)存限制和 GPU 效率問題,為訓(xùn)練大語言模型開辟了可擴(kuò)展路徑。

標(biāo)題:Meta推LlamaRL強(qiáng)化學(xué)習(xí)框架:訓(xùn)練AI模型提速10.7倍

地址:http://www.sme-os.com/anmoyi/285028.html