NVIDIA Triton 추론 서버

모든 플랫폼에서 모든 애플리케이션용 AI를 배포, 실행 및 확장하세요.

모든 AI 워크로드를 위한 추론

NVIDIA Triton™을 통해 GPU, CPU 또는 기타 모든 프로세서의 프레임워크에서 트레이닝된 머신 러닝 또는 딥 러닝 모델에 대한 추론을 실행하세요. NVIDIA AI 플랫폼의 일부이자 NVIDIA AI Enterprise와 함께 사용할 수 있는 Triton은 모든 워크로드에서 AI 모델의 배포 및 실행을 표준화하는 오픈 소스 소프트웨어입니다.

영상 보기

Triton의 이점 살펴보기

모든 트레이닝 및 추론 프레임워크 지원

TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, scikit-learn RandomForest, OpenVINO, 맞춤형 C++ 등을 포함한 모든 주요 프레임워크에 Triton을 통해 AI 모델을 배포하세요.

모든 플랫폼에서의 고성능 추론

동적 배치, 동시 실행, 최적 구성, 스트리밍 오디오 및 영상을 통해 처리량 및 활용률을 극대화합니다. Triton은 모든 NVIDIA GPU, x86 및 Arm® CPU, AWS Inferentia를 지원합니다.

오픈 소스이며 DevOps 및 MLOps용으로 설계

Triton을 확장을 위한 Kubernetes 및 모니터링을 위한 Prometheus와 같은 DevOps 및 MLOps 솔루션에 통합합니다. 또한 모든 주요 클라우드 및 온프레미스 AI 및 MLOps 플랫폼에서 사용할 수 있습니다.

엔터프라이즈급 보안, 관리 용이성 및 API 안정성

NVIDIA Triton 및 Triton Management Service를 포함한 NVIDIA AI Enterprise는 지원, 보안 및 API 안정성을 통해 가치 창출 시간을 가속화하도록 설계된 안전한 프로덕션 준비를 마친 AI 소프트웨어 플랫폼입니다.

Triton 시작하기

프로덕션 배포를 위해 Triton과 함께 NVIDIA AI Enterprise 구매하기

프로덕션 추론을 위한 NVIDIA Triton 및 Triton Management Service가 포함된 NVIDIA AI Enterprise를 구매하세요.

지금 90일 NVIDIA AI 엔터프라이즈 평가 라이선스 신청하기

NVIDIA LaunchPad에서 Triton 체험 신청하기

Triton을 구매하는 방법에 대해 자세히 알고 싶으시다면 여기에 문의하세요

개발용 컨테이너 및 코드 다운로드

Triton 컨테이너는 NVIDIA NGC™ 및 GitHub에서 오픈 소스 코드로 사용할 수 있습니다.

NGC에서 다운로드

GitHub에서 Triton 오픈 소스 코드에 액세스

더 많은 개발 리소스 살펴보기

Triton 관리 서비스

GPU 및 CPU에서 리소스 효율적인 모델 오케스트레이션을 통해 Kubernetes에서 다중 Triton 추론 서버 인스턴스 배포를 자동화합니다.

자세히 알아보기

기능 및 도구

대규모 언어 모델 추론

TensorRT-LLM은 프로덕션에서 추론을 위한 대규모 언어 모델(LLM)을 정의, 최적화 및 실행하기 위한 오픈 소스 라이브러리입니다. TensorRT의 딥 러닝 컴파일러와 결합된 FasterTransformer의 핵심 기능을 오픈 소스 Python API에서 유지하여 새로운 모델과 맞춤화를 빠르게 지원합니다.

TensorRT-LLM에 대해 자세히 알아보기

모델 앙상블

많은 최신 AI 워크로드는 다중 모델을 실행해야 하며, 종종 각 쿼리에 대한 전처리 및 후처리 단계가 필요합니다. Triton은 모델 앙상블 및 파이프라인을 지원하고, CPU 또는 GPU에서 앙상블의 다른 부분을 실행할 수 있으며, 앙상블 내부의 다중 프레임워크를 허용합니다.

모델 앙상블에 대해 자세히 알아보기

트리 기반 모델

Triton의 포레스트 추론 라이브러리(FIL) 백엔드는 CPU 및 GPU에서 설명 가능성(SHAP 값)을 갖춘 트리 기반 모델의 고성능 추론을 지원합니다. XGBoost, LightGBM, scikit-learn RandomForest, RAPIDS cuML RandomForest 등의 모델을 Treelite 형식으로 지원합니다.

트리 기반 모델에 대해 자세히 알아보기

NVIDIA PyTriton

PyTriton은 Python 개발자가 Triton을 사용하여 모델, 단순한 처리 함수 또는 전체 추론 파이프라인 등 모든 서비스를 제공할 수 있는 간단한 인터페이스를 제공합니다. Python의 Triton 기본 지원을 통해 성능 및 효율성을 갖춘 머신 러닝 모델의 프로토타입을 신속하게 제작하고 테스트할 수 있습니다. 한 줄의 코드로 Triton을 실행하고 동적 배치, 동시 모델 실행, GPU 및 CPU 지원과 같은 이점을 제공합니다. 따라서 모델 리포지토리를 설정하고 모델 형식을 변환할 필요가 없습니다. 기존의 추론 파이프라인 코드를 수정하지 않고 사용할 수 있습니다.

PyTriton에 대해 자세히 알아보기

NVIDIA Triton 모델 분석기

Triton 모델 분석기는 대상 프로세서의 배치 크기, 정밀도 및 동시 실행 인스턴스와 같은 Triton 추론 서버의 모델 배포 구성을 자동으로 평가하는 도구입니다. 지연 시간, 처리량 및 메모리 요구 사항과 같은 애플리케이션 서비스 품질(QoS) 제약 조건을 충족하는 최적의 구성을 선택할 수 있으며 최적의 구성을 찾는 데 필요한 시간을 줄여줍니다. 이 도구는 모델 앙상블 및 다중 모델 분석도 지원합니다.

Triton 모델 분석기에 대해 자세히 알아보기