모든 플랫폼에서 모든 애플리케이션용 AI를 배포, 실행 및 확장하세요.
NVIDIA Triton™을 통해 GPU, CPU 또는 기타 모든 프로세서의 프레임워크에서 트레이닝된 머신 러닝 또는 딥 러닝 모델에 대한 추론을 실행하세요. NVIDIA AI 플랫폼의 일부이자 NVIDIA AI Enterprise와 함께 사용할 수 있는 Triton은 모든 워크로드에서 AI 모델의 배포 및 실행을 표준화하는 오픈 소스 소프트웨어입니다.
TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, scikit-learn RandomForest, OpenVINO, 맞춤형 C++ 등을 포함한 모든 주요 프레임워크에 Triton을 통해 AI 모델을 배포하세요.
동적 배치, 동시 실행, 최적 구성, 스트리밍 오디오 및 영상을 통해 처리량 및 활용률을 극대화합니다. Triton은 모든 NVIDIA GPU, x86 및 Arm® CPU, AWS Inferentia를 지원합니다.
Triton을 확장을 위한 Kubernetes 및 모니터링을 위한 Prometheus와 같은 DevOps 및 MLOps 솔루션에 통합합니다. 또한 모든 주요 클라우드 및 온프레미스 AI 및 MLOps 플랫폼에서 사용할 수 있습니다.
NVIDIA Triton 및 Triton Management Service를 포함한 NVIDIA AI Enterprise는 지원, 보안 및 API 안정성을 통해 가치 창출 시간을 가속화하도록 설계된 안전한 프로덕션 준비를 마친 AI 소프트웨어 플랫폼입니다.
프로덕션 추론을 위한 NVIDIA Triton 및 Triton Management Service가 포함된 NVIDIA AI Enterprise를 구매하세요.
GPU 및 CPU에서 리소스 효율적인 모델 오케스트레이션을 통해 Kubernetes에서 다중 Triton 추론 서버 인스턴스 배포를 자동화합니다.
PyTriton은 Python 개발자가 Triton을 사용하여 모델, 단순한 처리 함수 또는 전체 추론 파이프라인 등 모든 서비스를 제공할 수 있는 간단한 인터페이스를 제공합니다. Python의 Triton 기본 지원을 통해 성능 및 효율성을 갖춘 머신 러닝 모델의 프로토타입을 신속하게 제작하고 테스트할 수 있습니다. 한 줄의 코드로 Triton을 실행하고 동적 배치, 동시 모델 실행, GPU 및 CPU 지원과 같은 이점을 제공합니다. 따라서 모델 리포지토리를 설정하고 모델 형식을 변환할 필요가 없습니다. 기존의 추론 파이프라인 코드를 수정하지 않고 사용할 수 있습니다.
Triton 모델 분석기는 대상 프로세서의 배치 크기, 정밀도 및 동시 실행 인스턴스와 같은 Triton 추론 서버의 모델 배포 구성을 자동으로 평가하는 도구입니다. 지연 시간, 처리량 및 메모리 요구 사항과 같은 애플리케이션 서비스 품질(QoS) 제약 조건을 충족하는 최적의 구성을 선택할 수 있으며 최적의 구성을 찾는 데 필요한 시간을 줄여줍니다. 이 도구는 모델 앙상블 및 다중 모델 분석도 지원합니다.
Triton은 확장 가능한 고성능 추론을 위한 최고의 선택입니다. Alibaba Cloud, Amazon EKS(Elastic Kubernetes Service), Amazon ECS(Elastic Container Service), Amazon SageMaker, GKE(Google Kubernetes Engine ), Google Vertex AI, HPE Ezmeral, Microsoft AKS(Azure Kubernetes Service), Azure Machine Learning,및 Oracle Cloud Infrastructure Data Science Platform에서 사용할 수 있습니다.
NVIDIA 뉴스레터를 구독하고 최신 AI 추론 분야 뉴스를 받아보세요.