Déployez, exécutez et faites évoluer l’IA pour n’importe quelle application sur n’importe quelle plateforme.
Exécutez des procédures d’inférence sur des modèles entraînés d’apprentissage automatique ou de Deep Learning à partir de n’importe quel framework et sur tout type de processeur (GPU, CPU ou autre) grâce au serveur d’inférence NVIDIA Triton™. Composant de la plateforme d'IA de NVIDIA et disponible via NVIDIA AI Enterprise, le serveur d’inférence Triton est un logiciel open-source qui standardise le déploiement et l’exécution des modèles d’IA avec toutes les charges de travail.
Déployez vos modèles d’IA sur n’importe quel framework majeur avec le serveur d’inférence Triton, notamment TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, scikit-learn RandomForest, OpenVINO, custom C++ et bien plus encore.
Maximisez le rendement et l’utilisation de vos ressources avec des fonctionnalités avancées de batching dynamique, d’exécution simultanée, de configuration optimale et de streaming audio ou vidéo. Le serveur d’inférence Triton prend en charge l’ensemble des GPU de NVIDIA, les CPU x86 et ARM® ainsi que AWS Inferentia.
Intégrez le serveur d’inférence Triton à des solutions DevOps et MLOps telles que Kubernetes pour la mise à l’échelle et Prometheus pour la supervision. Vous pouvez également l’utiliser avec les principales plateformes d’IA et de MLOps sur site ou dans le Cloud.
NVIDIA AI Enterprise, qui comprend le serveur d’inférence NVIDIA Triton et le service de gestion Triton, est une plateforme logicielle d’IA sécurisée et prête pour la production qui a été conçue pour accélérer le délai de retour sur investissement avec des fonctionnalités avancées d’assistance, de sécurité et de stabilité d’API.
Faites l'acquisition de NVIDIA AI Enterprise, qui comprend le serveur d'inférence NVIDIA Triton et le service de gestion Triton, pour exécuter vos procédures d'inférence dédiées à la production.
Les conteneurs du serveur d’inférence Triton sont disponibles sur NVIDIA NGC™ ou en tant que code open-source sur GitHub.
Automatisez le déploiement d’instances multiples du serveur d’inférence Triton dans Kubernetes avec une orchestration des modèles économe en ressources sur les GPU et CPU.
PyTriton propose une interface simple d'accès qui permet aux développeurs de Python d’utiliser Triton pour tout type de traitement : modèles, fonctions de traitement simples ou pipelines d’inférence entiers. Cette prise en charge native de Triton dans Python accélère le test et le prototypage des modèles d’apprentissage automatique en garantissant un maximum de performance et d’efficacité. Les fonctionnalités majeures de Triton peuvent être exploitées via une seule ligne de code, ce qui vous donne accès à de nombreux avantages comme le batching dynamique, l’exécution simultanée des modèles et la prise en charge des configurations GPU et CPU. Vous n’avez ainsi plus besoin de configurer des dépôts de modèles ni de convertir les formats de vos modèles. Le code existant du pipeline d’inférence peut en outre être utilisé sans la moindre modification.
L’analyseur de modèles Triton évalue automatiquement les configurations de déploiement des modèles dans le serveur d’inférence Triton, notamment la taille, la précision et le nombre d’instances d’exécution simultanées sur le processeur-cible. Cet outil vous aide à sélectionner la configuration optimale pour répondre aux différentes contraintes de qualité de service (QoS) de vos applications (telles que la latence, le rendement et la mémoire) tout en réduisant les délais de recherche de la configuration optimale. L'analyseur prend également en charge les ensembles de modèles et l’analyse multi-modèles.
Triton est un choix incontournable pour mettre en œuvre des workflows d’inférence évolutifs à hautes performances. Il est disponible via Alibaba Cloud, Amazon Elastic Kubernetes Service (EKS), Amazon Elastic Container Service (ECS), Amazon SageMaker, Google Kubernetes Engine (GKE), Google Vertex AI, HPE Ezmeral, Microsoft Azure Kubernetes Service (AKS), Azure Machine Learning et la plateforme OCI (Oracle Cloud Infrastructure) pour la Data Science.
Restez au courant des dernières nouveautés de NVIDIA en matière d'inférence de l'IA.