內(nèi)容簡介
+++
編者注:本文屬于《解碼 AI》系列欄目,該系列的目的是讓技術(shù)更加簡單易懂,從而解密 AI,同時向 RTX PC 用戶展示全新硬件、軟件、工具和加速特性。
隨著生成式 AI 技術(shù)不斷進步并在各行各業(yè)中得到廣泛應(yīng)用,在本地 PC 和工作站上運行生成式 AI 應(yīng)用的重要性越來越高。本地推理可讓用戶享受更低的延遲,不再依賴網(wǎng)絡(luò),并能夠更好地保護和管理自己的本地數(shù)據(jù)。
NVIDIA GeForce 和 NVIDIA RTX GPU 配備專用的 AI 硬件加速器 Tensor Core,可為在本地運行生成式 AI 提供強大動力。
NVIDIA TensorRT 軟件開發(fā)者套件現(xiàn)已針對 Stable Video Diffusion 進行優(yōu)化,該套件可在超過 1 億臺由 RTX GPU 提供支持的 Windows PC 和工作站上解鎖超高性能生成式 AI。優(yōu)化的 Stable Video Diffusion 1.1 Image-to-Video 模型可以在 Hugging Face 上下載。
適用于 Automatic1111 開發(fā)的熱門 Stable Diffusion WebUI 的 TensorRT 擴展程序現(xiàn)已添加對 ControlNet 的支持。ControlNet 是一種工具,可以讓用戶添加其他圖像作為指導(dǎo),以便更好地把控并優(yōu)化生成式內(nèi)容的輸出。
全新的 UL Procyon AI 圖像生成基準測試現(xiàn)已支持 TensorRT 加速,內(nèi)部測試表明該基準測試可以準確復(fù)現(xiàn)實際性能表現(xiàn)。與最快的非 TensorRT 加速狀態(tài)相比,TensorRT 加速可在 GeForce RTX 4080 SUPER GPU 上帶來 50% 的速度提升,比實力最接近的競品快 1 倍以上。
更高效、更精準的 AI
TensorRT 使開發(fā)者能夠得到完全優(yōu)化的 AI 硬件體驗。與在其他框架上運行應(yīng)用相比,AI 性能通常會翻倍。
TensorRT 還能加速非常熱門的生成式 AI 模型,例如 Stable Diffusion 和 SDXL。Stable Video Diffusion 是 Stability AI 的 Image-to-Video 生成式 AI 模型,在 TensorRT 的助力下,其速度可提升 40%。
此外,適用于 Stable Diffusion WebUI 的 TensorRT 擴展程序至高可將性能提升至原來的 2 倍,從而大幅加速 Stable Diffusion 工作流。
此擴展程序的最新更新使 TensorRT 的優(yōu)化可擴展至 ControlNet。ControlNet 是一組 AI 模型,可借助額外控制來引導(dǎo)擴散模型的輸出。在 TensorRT 的助力下,ControlNet 的速度可提高 40%。
用戶可以引導(dǎo)輸出的各個方面,使其與輸入圖像匹配,這使他們能夠加強對最終圖像的把控。他們還可以同時使用多個 ControlNet 來更好地把控輸出。ControlNet 可以使用深度圖、邊緣圖、法線圖或關(guān)鍵點檢測模型等。
立即在 GitHub 上下載適用于 Stable Diffusion WebUI 的 TensorRT 擴展程序。
由 TensorRT 加速的其他熱門應(yīng)用
Blackmagic Design 在 DaVinci Resolve 的 18.6 更新中采用了 NVIDIA TensorRT 加速。與 Mac 相比,DaVinci Resolve 的神奇遮罩、光流 (Speed Warp) 和 Super Scale 等 AI 工具在 RTX GPU 上的運行速度提高了 50% 以上,最高可達在 Mac 上的 2.3 倍。
此外,借助 TensorRT 集成,Topaz Labs 的 Photo AI 和 Video AI 應(yīng)用(例如照片降噪、銳化、照片超分辨率、視頻慢動作、視頻超分辨率、視頻防抖等)在 RTX 上運行時,性能至高可提升 60%。
將 Tensor Core 與 TensorRT 軟件結(jié)合后,本地 PC 和工作站可獲得卓越的生成式 AI 性能。此外,本地運行擁有以下優(yōu)勢:
● 性能增強:用戶將體驗到更低的延遲,因為當(dāng)整個模型在本地運行時,延遲不受網(wǎng)絡(luò)質(zhì)量影響。這對于游戲或視頻會議等實時用例非常重要。NVIDIA RTX 提供超快的 AI 加速器,可將 AI 運算速度擴展至超過 1300 萬億次運算/秒 (TOPS)。
● 成本降低:用戶無需承擔(dān)與大型語言模型推理相關(guān)的云服務(wù)、云托管 API 或基礎(chǔ)設(shè)施的成本。
● 隨時訪問:用戶可以隨時隨地訪問 LLM 功能,無需依賴高帶寬網(wǎng)絡(luò)連接。
● 數(shù)據(jù)隱私無虞:私人和專有數(shù)據(jù)可始終保留在用戶的設(shè)備上。
針對 LLM 優(yōu)化
了解 TensorRT 為深度學(xué)習(xí)帶來了哪些優(yōu)勢,以及 NVIDIA TensorRT-LLM 為最新的 LLM 帶來了哪些優(yōu)勢。
TensorRT-LLM 是一個可加速和優(yōu)化 LLM 推理的開源庫,包含對熱門社區(qū)模型(Phi-2、Llama2、Gemma、Mistral 和 Code Llama 等)的開箱即用支持。無論是開發(fā)者和創(chuàng)作者,還是企業(yè)員工和普通用戶,任何人都可以在 NVIDIA AI 游樂園中試用經(jīng) TensorRT-LLM 優(yōu)化的模型。此外,通過使用 NVIDIA ChatRTX 技術(shù)演示軟件,用戶可以了解在 Windows PC 上本地運行的各種模型的性能。ChatRTX 基于 TensorRT-LLM 構(gòu)建,可優(yōu)化 RTX GPU 上模型的性能。
借助新的封裝器,適用于 Windows 的 TensorRT-LLM 可與 OpenAI 的熱門聊天 API 兼容,您可以選擇在云端或是在本地 RTX 系統(tǒng)上運行 LLM 應(yīng)用,并在二者之間輕松切換。
NVIDIA 正在與開源社區(qū)合作,開發(fā)適用于熱門應(yīng)用框架(包括 LlamaIndex 和 LangChain)的原生 TensorRT-LLM 連接器。
這些創(chuàng)新使開發(fā)者能夠輕松將 TensorRT-LLM 與其應(yīng)用結(jié)合使用,并通過 RTX 體驗卓越 LLM 性能。
請訂閱《解碼 AI》時事通訊,我們每周都會將新鮮資訊直接投遞到您的收件箱。
###
0人已收藏
全部評論 0
更多評論