NVIDIA Triton 推理服务器
NVIDIA Triton™ 推理服务器,它是 NVIDIA AI 平台的一部分,并且可以通过 NVIDIA AI Enterprise 使用。Triton 推理服务器是一款开源软件,可面向各类工作负载来标准化 AI 模型的部署和执行。
如何开始使用 NVIDIA Triton 推理服务器
查找正确的授权许可,从而为在各类平台上的各种应用,来部署、运行和扩展其 AI 推理。
购买 NVIDIA AI Enterprise
购买 NVIDIA AI Enterprise,它提供适用于生产级推理的 Triton 推理服务器。
NVIDIA AI Enterprise 评估许可证 申请在 NVIDIA LaunchPad 上
试用 Triton 推理服务器 联系我们了解
如何购买 Triton
下载容器和不同版本
在 NVIDIA NGC™上下载适用于 x86 和 Arm® 架构的、基于 Linux 的 Triton 推理服务器容器。
GitHub 上提供客户端库以及适用于 Windows 和 NVIDIA Jetson JetPack 的二进制版 Triton 推理服务器。
内容资料包
查看有关推理主题的技术内容,如大语言模型云上部署和模型集成。
大语言模型
大语言模型 (LLM) 是一种日益重要的深度学习模型类型,它们需要独特的特征来更大限度地加速。这份资料包将介绍 Triton 推理服务器基于 LLM 构建的特征,以及如何利用它们。
- 使用 NVIDIA NeMo™ 框架部署一个 13 亿参数的 GPT-3 模型
- 使用 NVIDIA Triton 推理服务器加速大型 Transformer 模型的推理
- 如何使用 PyTriton 在 Python 中部署 AI 模型
- 利用 Triton 推理服务器部署、优化和基准测试大语言模型
云上部署
Triton 推理服务器包含许多功能和工具,可帮助云上的大规模深度学习部署。借助此资料包,您可以探索如何在不同的云环境和编排环境中部署 Triton 推理服务器。
- 使用 Amazon SageMaker 运行多个 AI 模型
- 在 Azure 机器学习平台上提升 AI 模型推理性能
- 借助 MIG 和 Kubernetes 大规模部署 NVIDIA Triton
- 一键部署 NVIDIA Triton 推理服务器 GKE
- 利用云上就绪的 AI 推理解决方案的强大功能
- 使用 Stable Diffusion XL 生成令人惊叹的图像
模型集成
现代深度学习系统通常需要在开发管道中使用多个模型,并需要加速预处理和后处理步骤。了解如何在 Triton 推理服务器中使用模型集成和业务逻辑脚本高效实施这些步骤。
- 使用集成模型在 NVIDIA Triton 推理服务器为机器学习模型管道提供服务
- 使用 NVIDIA Triton 推理服务器和 NVIDIA DALI 加速推理
- 基于 NVIDIA Triton Inference Server 端到端部署 LLM serving
在线自主培训
只需一台联网的计算机,即可随时随地学习 AI 推理相关主题的在线自主培训课程。
NVIDIA 的平台和应用程序框架使开发者能够构建各种 AI 应用程序。在选择或创建部署的模型时,请考虑算法偏差的潜在影响。与模型的开发者合作,确保模型符合相关行业和用例的要求;提供必要的指令和文档,以便了解错误率、置信区间和结果;并确保模型按照预期的条件和方式使用。