Inference
Implante, execute e dimensione IA para qualquer aplicação em qualquer plataforma.
Execute inferência em modelos treinados de machine learning ou deep learning a partir de qualquer framework e em qualquer processador (GPU, CPU ou outro) com o Servidor de Inferência NVIDIA Triton™. Parte da plataforma de IA da NVIDIA e disponível com o NVIDIA AI Enterprise, o Servidor de Inferência Triton é um software de código aberto que padroniza a implantação e execução de modelos de IA em todas as cargas de trabalho.
Implante modelos de IA em qualquer framework importante com o Servidor de Inferência Triton, incluindo TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, scikit-learn RandomForest, OpenVINO, C++ personalizado e muito mais.
Maximize o rendimento e a utilização com lotes dinâmicos, execução simultânea, configuração ideal e streaming de áudio e vídeo. O Servidor de Inferência Triton oferece suporte a todas as GPUs NVIDIA, CPUs x86 e Arm e AWS Inferentia.
Integre o Servidor de Inferência Triton em soluções DevOps e MLOps, como Kubernetes para escalonamento e Prometheus para monitoramento. Ele também pode ser usado em todas as principais plataformas de IA e MLOps na nuvem e no local.
NVIDIA AI Enterprise, incluindo o Servidor de Inferência NVIDIA Triton, é uma plataforma de software de IA segura e pronta para produção, projetada para acelerar o tempo de obtenção de valor com suporte, segurança e estabilidade de API.
Triton oferece baixa latência e alto rendimento para inferência de grandes modelos de linguagem (LLM). Ele oferece suporte ao TensorRT-LLM, uma biblioteca de código aberto para definir, otimizar e executar LLMs para inferência na produção.
Os Conjuntos de Modelos do Triton permitem executar cargas de trabalho de IA com vários modelos, pipelines e etapas de pré e pós-processamento. Ele permite a execução de diferentes partes do conjunto na CPU ou GPU e oferece suporte a vários frameworks dentro do conjunto.
PyTriton permite que os desenvolvedores Python criem o Triton com uma única linha de código e o usem para servir modelos, funções de processamento simples ou pipelines de inferência inteiros para acelerar a prototipagem e os testes.
O Analisador de Modelos reduz o tempo necessário para encontrar a configuração ideal de implantação do modelo, como tamanho do lote, precisão e instâncias de execução simultâneas. Ele ajuda a selecionar a configuração ideal para atender aos requisitos de latência, taxa de transferência e memória da aplicação.
Use as ferramentas certas para implantar, executar e dimensionar IA para qualquer aplicação em qualquer plataforma.
Para pessoas que desejam acessar o código-fonte aberto e os contêineres do Triton para desenvolvimento, há duas opções para começar gratuitamente:
Para empresas que desejam experimentar o Triton antes de adquirir o NVIDIA AI Enterprise para produção, há duas opções para começar gratuitamente:
Use as ferramentas certas para implantar, executar e dimensionar IA para qualquer aplicativo em qualquer plataforma ou explore mais recursos de desenvolvimento.
Fale com um especialista em produtos da NVIDIA sobre como passar da fase de testes para a produção com a segurança, a estabilidade da API e o suporte do NVIDIA AI Enterprise.
Inscreva-se para receber as últimas notícias, atualizações e muito mais da NVIDIA.