NVIDIA Triton Inference Server

Distribuisci, esegui e scala l'IA per qualsiasi applicazione su qualsiasi piattaforma.

Inferenza per ogni carico di lavoro IA

Esegui l'inferenza su modelli di machine learning o di deep learning addestrati partendo da qualsiasi framework su qualsiasi processore, GPU, CPU o altro, con NVIDIA Triton™ Inference Server. Incluso nella piattaforma NVIDIA AI e disponibile con NVIDIA AI Enterprise, Triton Inference Server è un software open source che standardizza la distribuzione e l'esecuzione dei modelli IA su ogni carico di lavoro.

Guarda il video

Scopri i vantaggi di Triton Inference Server

Supporta tutti i framework di training e inferenza

Distribuisci modelli IA su uno dei principali framework con Triton Inference Server, inclusi TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT ™, RAPIDS™ cuML, XGBoost, scikit-learn RandomForest, OpenVINO, custom C++, e non solo.

Inferenza ad alte prestazioni su qualsiasi piattaforma

Massimizza il throughput e l'utilizzo con batch dinamici, esecuzione simultanea, configurazione ottimizzata e streaming di audio e video. Triton Inference Server supporta tutte le GPU NVIDIA, le CPU x86 e Arm® e AWS Inferentia.

Open source e progettato per DevOps e MLOps

Integra Triton Inference Server nelle soluzioni DevOps e MLOps come Kubernetes per la scalabilità e Prometheus per il monitoraggio. È possibile utilizzarlo anche in tutte le principali piattaforme IA e MLOps su cloud e in locale.

Sicurezza di livello enterprise, gestibilità e stabilità delle API

NVIDIA AI Enterprise, che include NVIDIA Triton Inference Server e Triton Management Service, è una piattaforma software IA sicura e pronta per la produzione, progettata per accelerare il time-to-value con supporto, sicurezza e stabilità delle API.

Inizia subito con Triton

Acquista NVIDIA AI Enterprise con Triton per la distribuzione negli ambienti di produzione

Acquista NVIDIA AI Enterprise, che include NVIDIA Triton Inference Server e il Triton Management Service per l'inferenza in ambienti di produzione.

Richiedi una prova di Triton Inference Server su NVIDIA LaunchPad

Contattaci per saperne di più sull'acquisto di Triton

Scarica i container e il codice per lo sviluppo

I container Triton Inference Server sono disponibili su NVIDIA NGC™ e come codice open-source su GitHub.

Scarica su NGC

Accedi al codice open-source di Triton Inference Server su GitHub

Esplora altre risorse per lo sviluppo

Triton Management Service

Automatizza la distribuzione di più istanze di Triton Inference Server in Kubernetes con l'orchestrazione dei modelli efficiente in termini di risorse su GPU e CPU.

Scopri di più

Funzionalità e strumenti

Modelli linguistici di grandi dimensioni

TensorRT-LLM, disponibile per l'accesso anticipato, è una libreria open source per la definizione, l'ottimizzazione e l'esecuzione di modelli linguistici di grandi dimensioni (LLM) per l'inferenza in ambienti di produzione. Mantiene le funzionalità principali di FasterTransformer, insieme al compilatore di deep learning TensorRT, in un'API Python open source per supportare rapidamente nuovi modelli e personalizzazioni.

Richiedi l'accesso anticipato a TensorRT-LLM

Insiemi di modelli

Molti carichi di lavoro IA moderni richiedono l'esecuzione di più modelli, spesso con passaggi di pre e post-elaborazione per ogni query. Triton supporta insiemi e pipeline di modelli, può eseguire diverse parti dell'insieme su CPU o GPU e consente l'uso di più framework all'interno dell'insieme.

Scopri di più sugli insiemi di modelli

Modelli ad albero

Il backend FIL (Forest Inference Library) in Triton fornisce il supporto per l'inferenza ad alte prestazioni di modelli con struttura ad albero con definizioni (valori SHAP) su CPU e GPU. Supporta modelli XGBoost, LightGBM, scikit-learn RandomForest, RAPIDS cuML RandomForest e altri in formato Treelite.

Scopri di più sui modelli ad albero

NVIDIA PyTriton

PyTriton fornisce un'interfaccia semplice che consente agli sviluppatori Python di utilizzare Triton per qualsiasi scopo: modelli, semplici funzioni di elaborazione o interi flussi di inferenza. Questo supporto nativo per Triton in Python consente la prototipazione rapida e il test di modelli di machine learning ad alte prestazioni ed efficienza. Triton è disponibile con una singola riga di codice e offre vantaggi come batch dinamici, esecuzione simultanea dei modelli e supporto per GPU e CPU. Questo elimina la necessità di configurare repository di modelli e convertirne i formati. Il codice del flusso di inferenza esistente può essere usato senza modifiche.

Scopri di più su PyTriton

NVIDIA Triton Model Analyzer

Triton Model Analyzer è uno strumento che valuta automaticamente le configurazioni di distribuzione dei modelli in Triton Inference Server, ad esempio le dimensioni del batch, la precisione e le istanze di esecuzione simultanee sul processore di destinazione. Aiuta a selezionare la configurazione ottimale per soddisfare i vincoli di qualità del servizio (QoS) delle applicazioni, come latenza, produttività e requisiti di memoria, e riduce i tempi necessari per trovare la configurazione ottimale. Questo strumento supporta anche analisi di insiemi di modelli e multi-modello.

Scopri di più su Triton Model Analyzer

Testimonianze dei clienti

Scopri come Amazon ha migliorato la soddisfazione dei clienti con NVIDIA AI accelerando l'inferenza di 5 volte.

Scopri di più

Scopri come American Express ha migliorato il rilevamento delle frodi, analizzando decine di milioni di transazioni giornaliere con una velocità 50 volte superiore.

Scopri di più

Scopri come Siemens Energy ha potenziato le ispezioni con il monitoraggio remoto basato su IA per individuare perdite, rumori anomali e non solo.

Scopri di più

Scopri come Microsoft Teams ha utilizzato Triton Inference Server per ottimizzare i sottotitoli in tempo reale e la trascrizione in più lingue con latenza molto bassa.

Scopri di più

Scopri come NIO ha ottenuto un flusso di lavoro di inferenza a bassa latenza integrando NVIDIA Triton Inference Server nella pipeline per la guida autonoma.

Scopri di più

Integrazioni dell'ecosistema

Triton è la scelta migliore per l'inferenza scalabile e ad alte prestazioni. È disponibile in Alibaba Cloud, Amazon Elastic Kubernetes Service (EKS), Amazon Elastic Container Service (ECS), Amazon SageMaker, Google Kubernetes Engine (GKE), Google Vertex AI, HPE Ezmeral, Microsoft Azure Kubernetes Service (AKS), Azure Machine Learning e Oracle Cloud Infrastructure Data Science Platform.

Ulteriori risorse

Ottieni una panoramica

Scopri le funzionalità principali di Triton Inference Server che aiutano a distribuire, eseguire e scalare modelli IA in ambienti di produzione con facilità.

Leggi ora

Ascolta gli esperti

Esplora le sessioni della GTC sull'inferenza e inizia con Triton Inference Server.

Guarda ora

Esplora i blog tecnici

Leggi gli articoli dei blog su Triton Inference Server.

Esplora i blog dedicati a NVIDIA Triton Inference Server

Leggi un e-book

Scopri il panorama moderno dell'inferenza con IA, gli scenari di produzione nelle aziende, le sfide e le soluzioni dal mondo reale.

Leggi ora

Rimanete aggiornati sulle ultime novità di NVIDIA in materia di inferenza AI.