Inference
Implemente, ejecute y escale IA para cualquier aplicación en cualquier plataforma.
Ejecute inferencias en modelos de machine learning entrenados o de deep learning desde cualquier framework en cualquier procesador (GPU, CPU u otro) con el Servidor de Inferencia NVIDIA Triton™. Parte de la plataforma de IA de NVIDIA y disponible con NVIDIA AI Enterprise, el Servidor de Inferencia Triton es un software de código abierto que estandariza la implementación y ejecución del modelo de IA en cada carga de trabajo.
Implemente modelos de IA en cualquier framework importante con el Servidor de Inferencia Triton, incluidos TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, scikit-learn RandomForest, OpenVINO, C++ personalizado y más.
Maximice el rendimiento y la utilización con procesamiento por lotes dinámico, ejecución simultánea, configuración óptima y transmisión de audio y video. El Servidor de Inferencia Triton es compatible con todas las GPU NVIDIA, CPU x86 y Arm, y AWS Inferentia.
Integre el Servidor de Inferencia Triton en soluciones DevOps y MLOps como Kubernetes para escalamiento y Prometheus para monitoreo. También se puede utilizar en todas las principales plataformas de IA y MLOps locales y en la nube.
NVIDIA AI Enterprise, incluido el Servidor de Inferencia NVIDIA Triton, es una plataforma de software de IA segura y lista para producción diseñada para acelerar la generación de valor con soporte, seguridad y estabilidad de API.
Triton ofrece baja latencia y alto rendimiento para la inferencia de grandes modelos de lenguaje (LLM). Es compatible con TensorRT-LLM, una biblioteca de código abierto para definir, optimizar y ejecutar LLM para inferencia en producción.
Los Conjutos de Modelos de Triton le permiten ejecutar cargas de trabajo de IA con múltiples modelos, pipelines y pasos de pre y posprocesamiento. Permite la ejecución de diferentes partes del conjunto en CPU o GPU y admite múltiples frameworks dentro del conjunto.
PyTriton permite a los desarrolladores de Python crear Triton con una sola línea de código y usarlo para servir modelos, funciones de procesamiento simples o procesos de inferencia completos para acelerar la creación de prototipos y las pruebas.
El Analizador de Modelos reduce el tiempo necesario para encontrar la configuración óptima de implementación del modelo, como el tamaño del lote, la precisión y las instancias de ejecución simultáneas. Ayuda a seleccionar la configuración óptima para cumplir con los requisitos de latencia, rendimiento y memoria de las aplicaciones.
Utilice las herramientas adecuadas para implementar, ejecutar y escalar la IA para cualquier aplicación en cualquier plataforma.
Para las personas que buscan acceder al código fuente abierto y a los contenedores de desarrollo de Triton, existen dos opciones para comenzar de forma gratuita:
Para las empresas que quieran probar Triton antes de comprar NVIDIA AI Enterprise para producción, existen dos opciones para comenzar de forma gratuita:
Utilice las herramientas adecuadas para implementar, ejecutar y escalar la IA para cualquier aplicación en cualquier plataforma, o explore más recursos de desarrollo.
Hable con un especialista en productos de NVIDIA sobre cómo pasar de la fase de pruebas a la producción con la seguridad, la estabilidad de API y el soporte de NVIDIA AI Enterprise.
Regístrate para recibir las últimas noticias, actualizaciones y más de NVIDIA.