NVIDIA GeForce RTX 4090 GPU 提供比笔记本电脑 CPU 高达 15 倍的 AI 吞吐量

NVIDIA 展示了其 GeForce RTX 40 GPU 的令人印象深刻的数据，其中包括 Llama 和 Mistral 等 AI 模型中的旗舰 RTX 4090。

NVIDIA 的 GeForce RTX 40 GPU 在新的 Llama 和 Mistral AI 基准测试中超越笔记本电脑 CPU 和 NPU，并通过 TensorRT-LLM 进一步加速

NVIDIA 的Windows 版 TensorRT-LLM 加速为Windows PC 平台带来了一些惊人的性能提升。我们已经看到 NVIDIA RTX“AI PC”功能集中增加了一些令人印象深刻的改进和新功能，而且随着该公司通过其旗舰产品 GeForce RTX 4090 GPU 展示了一些巨大的性能数据，情况正在变得更好。

在一篇新的 AI-Decoded 博客中，NVIDIA 分享了其现有的 GPU 产品线如何超越整个 NPU 生态系统，而后者在 2024 年仅达到 50 TOPS。与此同时，NVIDIA 的 RTX AI GPU 具有数百 TOPS，使用 GeForce RTX 4090 可达到 1321 TOPS，使其成为运行 LLM 等的最快桌面 AI 解决方案。它也是地球上最快的游戏显卡。

NVIDIA 的 GeForce RTX GPU 提供高达 24 GB 的 VRAM，而 NVIDIA RTX GPU 提供高达 48 GB 的 VRAM，这使得它们在处理 LLM(大型语言模型)时非常强大，因为这些工作负载需要大量视频内存。NVIDIA 的 RTX 硬件不仅配备专用视频内存，还通过 Tensor Cores(硬件)和前面提到的 TensorRT-LLM(软件)提供 AI 专用加速。

NVIDIA 的 GeForce RTX 4090 GPU 上所有批次大小生成的令牌数量非常快，但启用 TensorRT-LLM 加速后，生成令牌的数量会显著提高，超过 4 倍。