使用 NVIDIA NIM 即時部署生成式 AI

探索最新的社群構建 AI 模型，這些模型經由 NVIDIA 最佳化和加速的 API，並可透過 NVIDIA NIM™ 推論微服務隨處部署。

立即試用觀看影片

立即試用

立即體驗的開放式模型

整合

只需呼叫 API 即可加速人工智慧

使用常用的 API 快速開始執行。

與熱門函式庫順暢相容

只需三行程式碼，即可在現有工具和應用程式使用 NVIDIA API。

使用您喜愛的工具

運用您最愛的大型語言模型 (LLM) 程式設計框架 (包括 LangChain 和 LlamaIndex)，將最新人工智慧模型輕鬆整合至您的應用。

深入瞭解如何使用這些工具與 NVIDIA NIM 來建置

NIM Agent 藍圖

打造具影響力的生成式人工智慧應用所需的一切資源。每份藍圖都包括了 NVIDIA NIM 和合作夥伴微服務、樣本程式碼、自訂指令，以及部署適用的 Helm Chart。

深入瞭解

立即試用

隨處皆可執行

使用 NVIDIA NIM 加速人工智慧部署

NVIDIA NIM 是 NVIDIA AI Enterprise 的一部分，這套易於使用的微服務可提升基礎模型在任何雲端或資料中心的部署速度，且有助於保障資料安全。

Accelerate Your AI Deployment With NVIDIA NIM

深入瞭解 NVIDIA NIM

觀看如何於 5 分鐘內部署 NIM

部署 NIM

使用單一命令即可為模型部署 NIM。您也能用經微調的模型，輕鬆執行 NIM。

執行推論

根據 NVIDIA 加速基礎架構，透過最佳執行階段引擎執行 NIM。

建置

開發人員只需編寫幾行程式碼，就能整合自行託管的 NIM 端點。

Deploy

Run

Build

docker run nvcr.io/nim/publisher_name/model_name

 
 curl -X 'POST' \ 
  'http://0.0.0.0:8000/v1/completions' \ 
  -H 'accept: application/json' \ 
  -H 'Content-Type: application/json' \ 
  -d '{ 
  "model" : "model_name", 
  "prompt" : "Once upon a time", 
  "max_tokens" : 64 
 }' 

 
 import openai 
 client = openai.OpenAI( 
  base_url = "YOUR_LOCAL_ENDPOINT_URL", 
  api_key="YOUR_LOCAL_API_KEY" 
 ) 
 chat_completion = client.chat.completions.create( 
  model="model_name", 
  messages=[{"role" : "user" , "content" : "Write me a love song" }], 
  temperature=0.7 
 ) 

使用 Kubernetes 在本機啟動或進行擴充

從單一裝置到資料中心規模，在任何 NVIDIA 加速的基礎架構上，流暢地部署容器化人工智慧微服務。

安全部署

仰賴生產級執行階段 (包括持續進行的安全性更新)，並透過企業級支援的穩定 API 執行企業應用。

降低成本和碳足跡

在 NVIDIA 加速基礎架構上，有了持續針對低延遲度和高輸送量進行最佳化的人工智慧執行階段，便能降低在生產環境中執行模型的營運成本。

輸送量

NVIDIA NIM 提供開箱即用的最佳化輸送量和延遲度，實現 Token 生成最大化，支援尖峰時段並行作業的使用者，並提升反應能力。

Configuration: Llama3.1-8B-instruct, 1 x H100SXM; input 1000 tokens, output 1000 tokens. Concurrent requests: 200. NIM ON : FP8. throughput 6,354 tokens/s, TTFT 0.4s, ITL: 31ms. NIM OFF : FP8. throughput 2,265 tokens/s, TTFT 1.1s, ITL: 85ms

客製化