Serveur d’inférence NVIDIA Triton

Déployez, exécutez et faites évoluer l’IA pour n’importe quelle application sur n’importe quelle plateforme.

Exploitez l'inférence avec toutes vos charges de travail d’IA

Exécutez des procédures d’inférence sur des modèles entraînés d’apprentissage automatique ou de Deep Learning à partir de n’importe quel framework et sur tout type de processeur (GPU, CPU ou autre) grâce au serveur d’inférence NVIDIA Triton™. Composant de la plateforme d'IA de NVIDIA et disponible via NVIDIA AI Enterprise, le serveur d’inférence Triton est un logiciel open-source qui standardise le déploiement et l’exécution des modèles d’IA avec toutes les charges de travail.

Voir la vidéo

Découvrez les avantages du serveur d’inférence Triton

Compatibilité avec tous les frameworks d’entraînement et d’inférence

Déployez vos modèles d’IA sur n’importe quel framework majeur avec le serveur d’inférence Triton, notamment TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT ™, RAPIDS™ cuML, XGBoost, scikit-learn RandomForest, OpenVINO, custom C++ et bien plus encore.

Inférence à hautes performances sur toutes les plateformes

Maximisez le rendement et l’utilisation de vos ressources avec des fonctionnalités avancées de batching dynamique, d’exécution simultanée, de configuration optimale et de streaming audio ou vidéo. Le serveur d’inférence Triton prend en charge l’ensemble des GPU de NVIDIA, les CPU x86 et ARM® ainsi que AWS Inferentia.

Philosophie open-source et conception DevOps/MLOps

Intégrez le serveur d’inférence Triton à des solutions DevOps et MLOps telles que Kubernetes pour la mise à l’échelle et Prometheus pour la supervision. Vous pouvez également l’utiliser avec les principales plateformes d’IA et de MLOps sur site ou dans le Cloud.

Fonctionnalités de sécurité, de gestion et de stabilité d'API pour les entreprises

NVIDIA AI Enterprise, qui comprend le serveur d’inférence NVIDIA Triton et le service de gestion Triton, est une plateforme logicielle d’IA sécurisée et prête pour la production qui a été conçue pour accélérer le délai de retour sur investissement avec des fonctionnalités avancées d’assistance, de sécurité et de stabilité d’API.

Démarrez avec Triton

Achetez NVIDIA AI Enterprise avec Triton pour les déploiements de production

Faites l'acquisition de NVIDIA AI Enterprise, qui comprend le serveur d'inférence NVIDIA Triton et le service de gestion Triton, pour exécuter vos procédures d'inférence dédiées à la production.

Inscrivez-vous pour tester le serveur d'inférence Triton sur NVIDIA LaunchPad

Contactez-nous pour en savoir plus sur l’achat de Triton

Téléchargez du code et des conteneurs pour le développement

Les conteneurs du serveur d’inférence Triton sont disponibles sur NVIDIA NGC™ ou en tant que code open-source sur GitHub.

Téléchargez sur NGC

Accédez au code open-source du serveur d’inférence Triton sur GitHub

Découvrez d’autres ressources pour le développement

Service de gestion Triton

Automatisez le déploiement d’instances multiples du serveur d’inférence Triton dans Kubernetes avec une orchestration des modèles économe en ressources sur les GPU et CPU.

Fonctionnalités et outils

Inférence avec de grands modèles de langage

TensorRT-LLM, disponible en accès anticipé, est une bibliothèque open-source pour la définition, l’optimisation et l’exécution de grands modèles de langage (LLM) dans le cadre de l’inférence en production. Elle reprend les fonctionnalités-clés de FasterTransformer et du compilateur TensorRT pour le Deep Learning au sein d’une API Python open-source, ce qui permet de prendre en charge rapidement de nouveaux modèles et personnalisations.

Demande d’accès anticipé à TensorRT-LLM

Ensembles de modèles

De nombreuses charges de travail d’IA modernes requièrent l’exécution de plusieurs modèles, avec différentes étapes de pré et de post-traitement pour chaque requête. Triton, qui prend en charge les ensembles de modèles et les pipelines, est en mesure d'exécuter différentes parties de l’ensemble sur CPU ou GPU et autorise le recours à de multiples frameworks au sein d’un ensemble.

En savoir plus sur les ensembles de modèles

Modèles à arborescence

Le backend FIL (Forest Inference Library) intégré à Triton fournit un support avancé des inférences sur les modèles à arborescence avec des fonctionnalités d’explicabilité (valeurs SHAP) sur CPU et GPU. Il prend en charge les modèles XGBoost, LightGBM, scikit-learn RandomForest, RAPIDS cuML RandomForest et bien d’autres au format Treelite.

En savoir plus sur les modèles à arborescence

NVIDIA PyTriton

PyTriton propose une interface simple d'accès qui permet aux développeurs de Python d’utiliser Triton pour tout type de traitement : modèles, fonctions de traitement simples ou pipelines d’inférence entiers. Cette prise en charge native de Triton dans Python accélère le test et le prototypage des modèles d’apprentissage automatique en garantissant un maximum de performance et d’efficacité. Les fonctionnalités majeures de Triton peuvent être exploitées via une seule ligne de code, ce qui vous donne accès à de nombreux avantages comme le batching dynamique, l’exécution simultanée des modèles et la prise en charge des configurations GPU et CPU. Vous n’avez ainsi plus besoin de configurer des dépôts de modèles ni de convertir les formats de vos modèles. Le code existant du pipeline d’inférence peut en outre être utilisé sans la moindre modification.

En savoir plus sur PyTriton

Analyseur de modèles de NVIDIA Triton

L’analyseur de modèles Triton évalue automatiquement les configurations de déploiement des modèles dans le serveur d’inférence Triton, notamment la taille, la précision et le nombre d’instances d’exécution simultanées sur le processeur-cible. Cet outil vous aide à sélectionner la configuration optimale pour répondre aux différentes contraintes de qualité de service (QoS) de vos applications (telles que la latence, le rendement et la mémoire) tout en réduisant les délais de recherche de la configuration optimale. L'analyseur prend également en charge les ensembles de modèles et l’analyse multi-modèles.

En savoir plus sur l’analyseur de modèles Triton

Études de cas

Découvrez comment Amazon a amélioré la satisfaction de ses clients grâce aux solutions d'IA de NVIDIA en accélérant ses procédures d'inférence jusqu'à 5 fois.

Apprenez comment American Express a amélioré la détection des fraudes en analysant des dizaines de millions de transactions quotidiennes jusqu’à 50 fois plus vite.

Informez-vous sur la manière dont Siemens Energy a optimisé ses inspections en fournissant une surveillance à distance basée sur l'IA pour détecter les fuites, les bruits anormaux et bien plus encore.

Apprenez comment Microsoft Teams a utilisé le serveur d’inférence Triton pour optimiser le sous-titrage en direct et la transcription dans plusieurs langues avec une latence réduite.

Apprenez comment NIO a mis en œuvre un workflow d’inférence à faible latence en intégrant le serveur d’inférence NVIDIA Triton à son pipeline d’inférence pour les véhicules autonomes.

Intégrations d'écosystèmes

Triton est un choix incontournable pour mettre en œuvre des workflows d’inférence évolutifs à hautes performances. Il est disponible via Alibaba Cloud, Amazon Elastic Kubernetes Service (EKS), Amazon Elastic Container Service (ECS), Amazon SageMaker, Google Kubernetes Engine (GKE), Google Vertex AI, HPE Ezmeral, Microsoft Azure Kubernetes Service (AKS), Azure Machine Learning et la plateforme OCI (Oracle Cloud Infrastructure) pour la Data Science.

Autres ressources

Suivez une initiation

Découvrez les principales fonctionnalités du serveur d’inférence Triton qui vous aideront à déployer, exécuter et mettre à l’échelle des modèles d’IA en toute simplicité.

Lire le dossier

L'avis des experts

Suivez des sessions de la GTC sur l’inférence et découvrez comment bien démarrer avec le serveur d’inférence Triton.

Voir maintenant

Lisez des articles techniques

Consultez notre blog sur le serveur d’inférence Triton.

Lire des articles sur le serveur d’inférence NVIDIA Triton

Consultez notre eBook

Prenez connaissance des dernières avancées de l’inférence reposant sur l’IA, de différents cas d’utilisation en matière de mise en production, mais aussi des principaux défis et solutions de l’industrie.

Lire maintenant

Restez au courant des dernières nouveautés de NVIDIA en matière d'inférence de l'IA.

S'inscrire