Distribuisci, esegui e scala l'IA per qualsiasi applicazione su qualsiasi piattaforma.
Esegui l'inferenza su modelli di machine learning o di deep learning addestrati partendo da qualsiasi framework su qualsiasi processore, GPU, CPU o altro, con NVIDIA Triton™ Inference Server. Incluso nella piattaforma NVIDIA AI e disponibile con NVIDIA AI Enterprise, Triton Inference Server è un software open source che standardizza la distribuzione e l'esecuzione dei modelli IA su ogni carico di lavoro.
Distribuisci modelli IA su uno dei principali framework con Triton Inference Server, inclusi TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, scikit-learn RandomForest, OpenVINO, custom C++, e non solo.
Massimizza il throughput e l'utilizzo con batch dinamici, esecuzione simultanea, configurazione ottimizzata e streaming di audio e video. Triton Inference Server supporta tutte le GPU NVIDIA, le CPU x86 e Arm® e AWS Inferentia.
Integra Triton Inference Server nelle soluzioni DevOps e MLOps come Kubernetes per la scalabilità e Prometheus per il monitoraggio. È possibile utilizzarlo anche in tutte le principali piattaforme IA e MLOps su cloud e in locale.
NVIDIA AI Enterprise, che include NVIDIA Triton Inference Server e Triton Management Service, è una piattaforma software IA sicura e pronta per la produzione, progettata per accelerare il time-to-value con supporto, sicurezza e stabilità delle API.
Acquista NVIDIA AI Enterprise, che include NVIDIA Triton Inference Server e il Triton Management Service per l'inferenza in ambienti di produzione.
I container Triton Inference Server sono disponibili su NVIDIA NGC™ e come codice open-source su GitHub.
Automatizza la distribuzione di più istanze di Triton Inference Server in Kubernetes con l'orchestrazione dei modelli efficiente in termini di risorse su GPU e CPU.
PyTriton fornisce un'interfaccia semplice che consente agli sviluppatori Python di utilizzare Triton per qualsiasi scopo: modelli, semplici funzioni di elaborazione o interi flussi di inferenza. Questo supporto nativo per Triton in Python consente la prototipazione rapida e il test di modelli di machine learning ad alte prestazioni ed efficienza. Triton è disponibile con una singola riga di codice e offre vantaggi come batch dinamici, esecuzione simultanea dei modelli e supporto per GPU e CPU. Questo elimina la necessità di configurare repository di modelli e convertirne i formati. Il codice del flusso di inferenza esistente può essere usato senza modifiche.
Triton Model Analyzer è uno strumento che valuta automaticamente le configurazioni di distribuzione dei modelli in Triton Inference Server, ad esempio le dimensioni del batch, la precisione e le istanze di esecuzione simultanee sul processore di destinazione. Aiuta a selezionare la configurazione ottimale per soddisfare i vincoli di qualità del servizio (QoS) delle applicazioni, come latenza, produttività e requisiti di memoria, e riduce i tempi necessari per trovare la configurazione ottimale. Questo strumento supporta anche analisi di insiemi di modelli e multi-modello.
Triton è la scelta migliore per l'inferenza scalabile e ad alte prestazioni. È disponibile in Alibaba Cloud, Amazon Elastic Kubernetes Service (EKS), Amazon Elastic Container Service (ECS), Amazon SageMaker, Google Kubernetes Engine (GKE), Google Vertex AI, HPE Ezmeral, Microsoft Azure Kubernetes Service (AKS), Azure Machine Learning e Oracle Cloud Infrastructure Data Science Platform.
Rimanete aggiornati sulle ultime novità di NVIDIA in materia di inferenza AI.