IT之家 5 月 21 日消息,英偉達(dá)打造了用于視頻搜索與總結(jié)(VSS)的 AI Blueprint,該藍(lán)圖由 NVIDIA Metropolis 平臺(tái)驅(qū)動(dòng),現(xiàn)已全面推出,可為開發(fā)者提供構(gòu)建和部署 AI 智能體的工具,用于分析大量實(shí)時(shí)和存檔視頻。
由視覺語言模型(VLM)驅(qū)動(dòng)的一系列視覺 AI 智能體和生產(chǎn)力助手即將上線。結(jié)合計(jì)算機(jī)視覺模型與超智能大語言模型(LLM),這些視頻分析 AI 智能體可幫助企業(yè)查看、搜索并總結(jié)海量視頻。通過實(shí)時(shí)分析視頻或處理 TB(terabytes)級(jí)錄制視頻,視頻分析 AI 智能體正在眾多行業(yè)釋放前所未有的價(jià)值和機(jī)遇。
IT之家附示例如下,該工具采用問答形式,可幫助讀者分析球賽、裝機(jī),甚至能找到視頻中的某個(gè)時(shí)間段提到了某個(gè)特定詞匯。
VSS 藍(lán)圖集成了 NVIDIA AI Enterprise 軟件平臺(tái),包括用于 VLM、LLM 的 NVIDIA NIM 微服務(wù),以及用于 RAG 的先進(jìn) AI 框架。通過 VSS 藍(lán)圖,用戶總結(jié)視頻的速度比實(shí)時(shí)觀看快 100 倍。例如,60 分鐘的視頻可在不到 1 分鐘的時(shí)間內(nèi)用文字總結(jié)出來。
它可以同時(shí)處理數(shù)百個(gè)實(shí)時(shí)視頻流或多組視頻片段。除了視覺理解,它還支持音頻轉(zhuǎn)錄。在音頻至關(guān)重要的場(chǎng)景中,將語音轉(zhuǎn)換為文本可增強(qiáng)理解,例如訓(xùn)練視頻、主題演講或團(tuán)隊(duì)會(huì)議等。
標(biāo)題:英偉達(dá)推出視頻搜索和總結(jié)工具AI Blueprint
地址:http://www.sme-os.com/kongdiao/262353.html