网页标题: 探索 AI 推理解决方案 | NVIDIA

网页链接: https://www.nvidia.cn/solutions/ai/inference/

AI 推理解决方案

# 更出色的 AI 性能，复利式收益提升

更智能的思考方式，选择 NVIDIA 推理。

[开始使用](#next-steps)

[下载电子书](https://www.nvidia.cn/solutions/ai/inference/balancing-cost-latency-and-performance-ebook/)   |     [性能基准测试](https://developer.nvidia.com/deep-learning-performance-training-inference/ai-inference)    |    [开发者学习资料](https://developer.nvidia.cn/topics/ai/ai-inference/)

### 概览

## 如何高效扩展 AI 推理能力？

随着[推理思考模型](https://www.nvidia.com/en-us/glossary/ai-reasoning/)生成的 [AI token](https://blogs.nvidia.com/blog/ai-tokens-explained/) 数量呈指数级增长，算力需求激增。为了应对这一挑战，各行各业都需要 [AI 工厂](https://www.nvidia.cn/solutions/ai-factories/) (基于 NVIDIA Blackwell 架构构建、针对大规模推理进行优化的专用基础设施) 实现性能、效率以及投资回报率的提升。

[全栈推理优化](https://blogs.nvidia.com/blog/ai-factory-inference-optimization/)是确保您在 AI 工厂规模下实现智能扩展 AI 的关键。

### 什么是 AI 推理？

一个提示词 (prompt)。一组用于回答问题的 token。这就是 [AI 推理](https://www.nvidia.cn/glossary/ai-inference/)。随着模型规模和复杂性不断增加，企业需采用全栈方法和端到端工具，才能在这个 [AI 扩展规律](https://blogs.nvidia.cn/blog/ai-scaling-laws/)的新时代取得成功。

[观看网络研讨会](https://www.nvidia.com/en-us/lp/ai-data-science/how-to-get-started-with-ai-inference-series/)

### 大规模推理：AI 和 ROI 的前沿

在本视频中，我们分析了现代 AI 推理中性能、功耗和盈利能力之间的微妙平衡。了解更智能的推理和全栈基础设施如何推动未来 AI 工厂的经济效益。

[观看视频](https://images.nvidia.cn/cn/youtube-replicates/LMxemZtQ0LI.mp4)

## 探索大规模 AI 背后的故事

有没有想过复杂的 AI 权衡如何转化为实际成果？探索下方性能曲线中的不同点，亲身体验硬件和部署配置方面的创新如何影响数据中心效率和用户体验。

Explore with TJ!

TPS / user

–

TPS / MW

–

Simulated Chat Experience

DeepSeek R1 ISL = 32K, OSL = 8K，在 \*GB300 NVL72 上使用 FP4 和 Dynamo 做 P/D 分离部署。在 \*H100 上使用 FP8 实时批处理 (in-flight batching)。
 \*该数据仅作为技术探讨和参考使用，上述推理性能将随实际的生产环境而改变。

想知道不同配置如何影响真实的用户体验？您可独立调整参数观察曲线变化，或跟随 TJ 的交互式引导，右侧模拟对话区域将实时呈现效果差异。

[进一步了解 NVIDIA Dynamo AI Configurator](https://images.nvidia.cn/cn/youtube-replicates/KuZXeol0fKk.mp4)

### 优势

## 了解采用 NVIDIA AI 加速推理的优势

### 经过优化的全栈部署

跨应用、AI 框架、各种开放和专有模型架构和规模以及平台，实现 [AI 模型](https://developer.nvidia.cn/ai-models)部署的标准化。

### 轻松集成和扩展

轻松与公有云、本地数据中心和边缘上的工具和平台集成。

### 降低成本，最大化收益

通过 AI 基础设施实现高吞吐量和利用率，从而降低成本。这就是[推理经济学实现 AI 价值最大化](https://blogs.nvidia.cn/blog/ai-inference-economics/)的方式。

### 软件

该平台在领先的 AI 行业[基准测试](https://developer.nvidia.cn/zh-cn/blog/tag/llm-benchmarking/)—[MLPerf 中持续创下多项记录](https://www.nvidia.cn/data-center/resources/mlperf-benchmarks/)，让您体验行业领先的[推理性能](https://developer.nvidia.com/deep-learning-performance-training-inference/ai-inference)。

### 软件

## 了解 NVIDIA AI 推理软件

NVIDIA AI 推理包括 [NVIDIA Dynamo 平台](https://www.nvidia.cn/ai-data-science/products/triton-inference-server/)、[TensorRT](https://developer.nvidia.cn/tensorrt)™-LLM、[NVIDIA NIM™](https://www.nvidia.cn/ai/#referrer=ai-subdomain) 和其他工具，可简化 AI 应用的构建、共享和部署。NVIDIA 的推理平台集成了顶级开源工具，可加速性能，并支持跨企业级基础设施、软件和生态系统进行可扩展、可信的部署。

### 借助分布式推理动态扩展和提供 AI 服务

NVIDIA Dynamo 是一款开源推理软件，用于加速 AI 工厂规模的 AI 模型部署。借助 P/D 分离服务，Dynamo 可将推理任务分解为更小的组件，将工作负载动态路由并重定向到当时可用的最优计算资源。

[详细了解 NVIDIA Dynamo](https://www.nvidia.cn/ai-data-science/products/triton-inference-server/)

### 借助 NIM 加速 AI 部署

NVIDIA NIM™ 提供经过优化的预构建推理微服务，可在任何 NVIDIA 加速的基础设施 (云、数据中心、工作站或边缘) 上快速部署最新的 AI 模型。

[详细了解 NVIDIA NIM](https://www.nvidia.cn/ai/#referrer=ai-subdomain)

### TensorRT-LLM 提供行业领先推理性能的 SDK

TensorRT-LLM 是一个开源库，用于在 NVIDIA GPU 上进行高性能实时 LLM 推理。借助模块化 Python 运行时、PyTorch 原生创作和稳定的生产 API，它经过优化，可更大限度地提高吞吐量、降低成本并提供快速的用户体验。

[详细了解 TensorRT-LLM](https://developer.nvidia.cn/tensorrt)

### NVIDIA DGX Cloud 无服务器计算 (serverless) 推理

高性能、无服务器的 AI 推理解决方案，具有自动扩展、经济高效的 GPU 利用率、多云灵活性和无缝可扩展性，可加速 AI 创新。

[详细了解 DGX Cloud serverless 推理](https://developer.nvidia.cn/dgx-cloud/serverless-inference)

### 硬件

### 探索我们的 AI 推理基础设施

借助针对 [NVIDIA 加速基础设施](https://www.nvidia.cn/data-center/products/)优化的 NVIDIA AI 推理软件，能够获得出色的 AI 性能。NVIDIA Blackwell 和 NVIDIA RTX™ 技术为数据中心、云和工作站中的 AI 推理工作负载提供了出色的速度和效率。

### NVIDIA Blackwell 平台

NVIDIA Blackwell 架构凭借无与伦比的性能、效率和可扩展能力，打开了生成式 AI 和加速计算领域的新篇章。Blackwell 的六项变革性技术将有助于在数据处理、电子设计自动化、计算机辅助工程和量子计算方面的突破。

[详细了解 Blackwell](https://www.nvidia.cn/data-center/technologies/blackwell-architecture/)

### NVIDIA Tensor Core GPU

NVIDIA H200 Tensor Core GPU 以颠覆性的性能和内存能力，为生成式 AI 和高性能计算 (HPC) 工作负载提供强大助力。作为第一款采用 HBM3e 的 GPU，H200 更大更快的内存使生成式 AI 和大型语言模型 (LLM) 进一步加速，同时提升 HPC 工作负载的科学计算能力。

[详细了解 H200](https://www.nvidia.com/en-us/data-center/h200/)

### NVIDIA L40S GPU

将 NVIDIA 的全栈推理服务软件与 L40S GPU 相结合，为准备进行推理的训练模型提供了一个强大的平台。凭借对结构化稀疏的支持和广泛的精度，L40S 的推理性能比 NVIDIA A100 Tensor Core GPU 提升多达 1.7 倍。

[详细了解 L40S](https://www.nvidia.com/en-us/data-center/l40s/)

### NVIDIA RTX AI 工作站

NVIDIA RTX 工作站擅长 AI 推理，它通过可扩展的解决方案为 AI 增强型专业工作流程提供支持。该工作站是部署较小参数规模、或精度较低 AI 模型的理想选择，可为工作组或部门实现高效的本地 AI 推理。

[详细了解 RTX AI 工作站](https://www.nvidia.cn/ai-data-science/workstations/)

### 客户案例

## 行业领导者如何利用 AI 推理推动创新

[更多客户案例](https://www.nvidia.com/en-us/case-studies/)

Amdocs

### 提升生成式 AI 的性能并降低成本

了解 Amdocs 如何使用 NVIDIA DGX™ Cloud 和 NVIDIA NIM 预构建容器工具，来构建 amAIz，这是一个面向电信行业的专用生成式 AI 平台，旨在降低延迟、提高准确性并降低成本。

[阅读成功案例](https://developer.nvidia.cn/zh-cn/blog/amdocs-accelerates-generative-ai-performance-and-lowers-costs-with-nvidia-nim/)

Snapchat

### 利用 AI 增强服装购物体验

了解 Snapchat 如何利用 Triton 推理服务器增强服装购物体验和感知表情符号的光学字符识别功能，从而实现扩展规模、降低成本并加速产品上市时间。

[阅读成功案例](https://developer.nvidia.cn/zh-cn/blog/enhancing-the-apparel-shopping-experience-with-ai-emoji-aware-ocr-and-snapchats-screenshop/)

Amazon

### 提高客户满意度

了解 Amazon 如何使用 TensorRT 将推理加速到 5 倍来提高客户满意度。

[阅读成功案例](https://aws.amazon.com/blogs/machine-learning/how-amazon-music-uses-sagemaker-with-nvidia-to-optimize-ml-training-and-inference-performance-and-cost/)

### 资源

## 最新 AI 推理相关的学习资源

1. 博客
2. 会议
3. 培训
4. 视频

[查看更多博客](https://blogs.nvidia.cn/blog/tag/inference/)

[查看更多会议](https://www.nvidia.cn/on-demand/search/?facet.mimetype%5B%5D=event%20session&layout=list&page=1&q=inference&sort=relevance&sortDir=desc)

### 探索生成式 AI 和 大语言模型的学习路径

通过我们全面的学习路径提升您在生成式 AI 和大语言模型方面的技术能力。

[立即探索](https://www.nvidia.cn/training/learning-path/generative-ai-llm/)

[查看更多培训](https://www.nvidia.cn/training/)

[查看更多视频](https://space.bilibili.com/1320140761)

### 在生产环境中使用 NVIDIA NIM 部署生成式 AI

利用 NVIDIA NIM 释放生成式 AI 的潜力。视频深入介绍了 NVIDIA NIM 如何将 AI 部署转变为生产就绪的强大引擎。

[观看视频](https://images.nvidia.cn/cn/youtube-replicates/bpOvayHifNQ.mp4)

### Triton 推理服务器简化推理的五大原因

Triton 推理服务器旨在简化在生产环境中大规模部署 AI 模型的流程。这款开源的推理服务化软件，能够帮助团队在任何基于 GPU 或 CPU 的基础设施上，从本地存储或云平台，部署使用任何框架训练的 AI 模型。

[观看视频](https://images.nvidia.cn/cn/youtube-replicates/1kOaYiNVgFs.mp4)

UneeQ

### NVIDIA 推出 NIM

有没有想过 NVIDIA 的 NIM 技术有哪些功能？深入探索令人兴奋的数字人和机器人世界，了解 NIM 的强大功能。

[观看视频 (13:42)](https://images.nvidia.cn/cn/youtube-replicates/NJl660hIVKo.mp4)

### 后续步骤

## 准备好开始了吗？

探索您启动开发 AI 应用所需的一切资源，包括最新的文档、教程、技术博客等。

[上手开发](https://developer.nvidia.cn/topics/ai/ai-inference)
[开始体验](https://www.nvidia.com/en-us/solutions/ai/inference/#next-steps)

## 为推理工作负载找到合适的硬件

NVIDIA 数据中心解决方案通过精选的 NVIDIA 合作伙伴网络 (NPN) 合作伙伴提供。通过我们的合作伙伴网络，探索灵活且经济实惠的方案，以获取最新的 NVIDIA 数据中心技术。

[浏览 NVIDIA 合作伙伴](https://www.nvidia.cn/data-center/products/ai-enterprise/contact-sales/)

## 获取 NVIDIA AI 推理的最新动态

注册获取 NVIDIA 最新的 AI 推理新闻、动态等内容。

[随时了解最新动态](#sign-up-form)