NVIDIA Triton 推論伺服器

為任何平台上的任何應用程式部署、執行和擴充人工智慧。

適用於所有人工智慧工作負載的推論

使用 NVIDIA Triton™ 在 GPU、CPU 或其他處理器上的任何架構，執行經過訓練的機器學習或深度學習模型推論。Triton 是 NVIDIA 人工智慧平台的一部分，可透過 NVIDIA AI Enterprise 使用，此開放原始碼軟體可將所有工作負載的人工智慧模型部署和執行標準化。

觀賞影片

探索 Triton 的優勢

支援所有訓練和推論框架

使用 Triton 在任何主要框架上部署人工智慧模型，包括 TensorFlow、PyTorch、Python、ONNX、NVIDIA® TensorRT™、RAPIDS™ cuML、XGBoost、scikit-learn RandomForest、OpenVINO，以及自訂 C++ 等。

適用於任何平台的高效能推論

透過動態批次處理、並行執行、最佳設定以及串流音訊和視訊，將輸送量和使用率提升到最高。Triton 支援所有 NVIDIA GPU、x86 和 Arm® CPU，以及 AWS Inferentia。

專為開發營運和機器學習作業設計的開放原始碼

將 Triton 整合至開發營運和機器學習作業解決方案，例如用於擴充的 Kubernetes 和用於監控的 Prometheus。也適用於所有主要雲端和本機的人工智慧和機器學習作業平台。

企業級安全性、管理性和 API 穩定性

NVIDIA AI Enterprise 包含 NVIDIA Triton 和 Triton 管理式服務，是一款安全且可立即生產的人工智慧軟體平台，專為加速實現價值的時間而設計，並提供支援、安全性和 API 穩定性。

立即開始使用 Triton

購買 NVIDIA AI Enterprise 搭配 Triton 進行生產部署

購買 NVIDIA AI Enterprise，其中包含用於生產推論的 NVIDIA Triton 和 Triton 管理式服務。

立即申請為期 90 天的 NVIDIA AI Enterprise 評估授權版

申請在 NVIDIA LaunchPad 上試用 Triton

聯絡我們以深入瞭解 Triton 的購買資訊

下載用於開發的容器和程式碼

Triton 容器可在 NVIDIA NGC™ 上取得，也可在 GitHub 上以開放原始碼的形式取得。

在 NGC 上下載

在 GitHub 上取得 Triton 的開放原始碼程式碼

探索更多開發資源

Triton 管理式服務

透過 GPU 和 CPU 上的資源效率模型協調，在 Kubernetes 中自動部署多個 Triton 推論伺服器執行個體。

深入瞭解

功能與工具

大型語言模型推論

TensorRT-LLM 可用於定義、最佳化及執行大型語言模型 (LLM) ，以進行生產環境下推論的開源庫。此平台在開放原始碼 Python API 中維持 FasterTransformer 的核心功能，並搭配 TensorRT 的深度學習編譯器，可以快速支援全新模型和自訂功能。

深入瞭解 TensorRT-LLM

模型集成

許多現代人工智慧工作負載需要執行多個模型，且每次查詢通常都需要預先與後製處理步驟。Triton 支援模型集成和流程，可以在 CPU 或 GPU 上執行集成的不同部分，並可以在集成中使用多個框架。

深入瞭解模型集成

樹狀模型

Triton 中的森林推論函式庫 (FIL) 後端支援在 CPU 和 GPU 上，對具有解釋性 (SHAP 值) 的樹狀模型提供高效能推論的支援。支援 XGBoost、LightGBM、scikit-learn RandomForest、RAPIDS cuML RandomForest 和其他 Treelite 格式的模型。

深入瞭解樹狀模型

NVIDIA PyTriton

PyTriton 提供簡單的介面，讓 Python 開發人員可以使用 Triton 提供任何服務，包括模型、簡單處理函數或完整推論流程。這種在 Python 中對 Triton 的原生支援可快速製作原型，並測試機器學習模型的效能和效率。單行程式碼就能開啟 Triton，並提供動態批次處理、並行模型執行以及 GPU 和 CPU 支援等優點。這樣就不需要設定模型儲存庫和轉換模型格式。無需修改即可使用現有的推論流程程式碼。

深入瞭解 PyTriton