NVIDIA Triton Inference Server

あらゆるプラットフォームであらゆるアプリケーションのために AI を展開、実行、拡張する。

あらゆる AI ワークロードのための推論

NVIDIA Triton™ なら、GPU や CPU など、あらゆるプロセッサのあらゆるフレームワークから、トレーニング済みの機械学習モデルやディープラーニングモデルで推論を実行できます。NVIDIA AI プラットフォームの一部であり、NVIDIA AI Enterprise でご利用いただける Triton は、AI モデルの展開と実行をあらゆるワークロードを対象に標準化するオープンソースソフトウェアです。

動画を見る

Triton のメリットを見る

あらゆるトレーニングフレームワークと推論フレームワークをサポート

Triton を利用すれば、TensorFlow、PyTorch、Python、ONNX、NVIDIA® TensorRT™、RAPIDS™ cuML、XGBoost、scikit-learn RandomForest、OpenVINO、カスタム C++ など、あらゆるメジャーフレームワークに AI モデルを展開できます。

あらゆるプラットフォームで高度な推論

動的バッチ処理、同時実行、最適構成、ストリーミングオーディオ/ビデオによりスループットと利用率を最大化します。Triton では、すべての NVIDIA GPU、x86 CPU、Arm® CPU、AWS Inferentia がサポートされています。

オープンソースであり、DevOps/MLOps 向けに設計

Triton は拡張用の Kubernetes や監視用の Prometheus のような DevOps/MLOps ソリューションに統合できます。また、すべての主要なクラウド、オンプレミス AI、MLOps プラットフォームで使用できます。

エンタープライズグレードのセキュリティ、管理性、安定した API

NVIDIA AI Enterprise (NVIDIA Triton や Triton 管理サービスなど) は、サポート、セキュリティ、安定した API で「価値創出までの時間」を短縮する、安全で運用環境対応の AI ソフトウェアプラットフォームです。

Triton から始める

NVIDIA AI Enterprise と Triton を購入し、運用環境に展開する

NVIDIA AI Enterprise をお買い求めください。運用環境推論のための NVIDIA Triton と Triton 管理サービスが含まれております。

90 日間の NVIDIA AI Enterprise 評価ライセンスを今すぐ申し込む

NVIDIA LaunchPad で Triton をお試しください

Triton 購入の詳細についてはお問い合わせください

開発用のコンテナーとコードをダウンロードする

Triton コンテナーは NVIDIA NGC™ で入手できます。また、GitHub でオープンソースコードとして入手できます。

NGC でダウンロードする

GitHub で Triton のオープンソースコードにアクセスする

開発向けのリソースを他にも探す

Triton 管理サービス

Kubernetes で複数の Triton Inference Server インスタンスの展開を自動化します。GPU と CPU でリソース効率に優れたモデルオーケストレーションを利用します。

詳細を見る

特長とツール

大規模言語モデル推論

TensorRT-LLM は、実運用における推論のための大規模言語モデル (LLM) を定義、最適化し、実行するためのオープンソースライブラリです。FasterTransformer のコア機能と TensorRT のディープラーニングコンパイラをオープンソースの Python API に収め、新しいモデルやカスタマイズに瞬時に対応します。

TensorRT-LLM の詳細を見る

モデルアンサンブル

現代の AI ワークロードの多くでは複数のモデルを実行する必要があり、しばしば、クエリごとに事前処理手順と事後処理手順がともないます。Triton はモデルアンサンブルとパイプラインをサポートし、CPU や GPU でアンサンブルのさまざまな部分を実行できます。また、アンサンブル内部で複数のフレームワークを許可します。

モデルアンサンブルの詳細を見る

ツリーベースモデル

Triton の Forest Inference Library (FIL) バックエンドは、CPU と GPU でツリーベースモデルのハイパフォーマンス推論を実行し、その推論を説明する (SHAP 値) ためのサポートを提供します。 XGBoost、LightGBM、scikit-learn RandomForest、RAPIDS cuML RandomForest のモデルと、Treelite 形式のその他のモデルがサポートされます。

ツリーベースモデルの詳細を見る

NVIDIA PyTriton

PyTriton のシンプルなインターフェイスでは、Python 開発者は Triton を利用し、モデル、単純な処理関数、インターフェイスパイプライン全体など、あらゆるものにサービスを提供できます。Python では Triton がネイティブサポートされることで、機械学習モデルを短時間で効果的かつ効率的に試作し、試験できます。1 行のコードで Triton が起動し、動的バッチ処理、同時モデル実行、GPU/CPU サポートなどのメリットが与えられます。そのため、モデルリポジトリを設定する必要も、モデルの形式を変換する必要もありません。既存の推論パイプラインコードを変更せずに使用できます。

PyTriton の詳細を見る

NVIDIA Triton Model Analyzer

Triton Model Analyzer は、バッチサイズ、精度、ターゲットプロセッサ上の同時実行インスタンスなど、Triton Inference Server のモデル展開構成を自動評価するツールです。レイテンシ、スループット、メモリ要件など、アプリケーションのサービス品質 (QoS) 制約を満たす最適な構成を選択する作業を助けます。最適な構成を見つけるまでの時間が短縮されます。このツールは、モデルアンサンブルとマルチモデル解析にも対応しています。

Triton Model Analyzer の詳細を見る