NVIDIA Nemotron Nano 2 – 英伟达推出的高效推理模型

发布人：鲸弘科技

发布时间：2025-08-20

浏览量：154 次

本文由广东鲸弘科技有限公司提供惠州小程序开发 / 网站建设专业分享。

NVIDIA Nemotron Nano 2是什么

NVIDIA Nemotron Nano 2 是英伟达推出的高效推理模型，参数量为9B。模型基于混合Mamba-Transformer架构，在20万亿个token上预训练，支持128k上下文长度。相比Qwen3-8B，推理速度提升6倍，准确率相当或更高。模型具备思考预算控制功能，用户能指定推理token数量。英伟达开源了基础模型和大部分预训练数据集，助力开发者进一步研究与应用。

NVIDIA Nemotron Nano 2的主要功能

高吞吐量：NVIDIA Nemotron Nano 2 在复杂推理任务中表现出色，吞吐量比 Qwen3-8B 高达 6 倍。
长上下文支持：支持 128k 的上下文长度，能在单个 NVIDIA A10G GPU 上进行推理，适合处理长文本和复杂任务。
推理过程支持：模型在生成最终答案前生成推理过程（reasoning trace），用户能指定模型的“思考”预算。
灵活的输出模式：用户能选择跳过中间推理步骤，直接获取最终答案。
多语言能力：预训练数据集包含多种语言的数据，支持强大的多语言推理能力。
多领域覆盖：涵盖数学、代码、学术、STEM 等多个领域的数据，适合多种应用场景。

NVIDIA Nemotron Nano 2的技术原理

混合 Mamba-Transformer 架构：用 Mamba-2 层替代传统 Transformer 中的大部分自注意力层，显著提升推理速度，特别是在生成长推理链时。Transformer 层保留部分自注意力层，保持模型的灵活性和准确性。
预训练过程：在 20 万亿个 token 上进行预训练，用 FP8 精度和 Warmup-Stable-Decay 学习率调度。通过持续预训练长上下文扩展阶段，使模型能处理 128k 的上下文长度，不降低其他基准测试的性能。
后训练优化：监督微调（SFT）对模型进行监督微调，提升其在特定任务上的表现。通过策略优化提升模型的指令遵循能力。优化模型的偏好，让模型更符合人类的偏好。通过人类反馈进行强化学习，提升模型的对话能力和指令遵循能力。
模型压缩：基于剪枝和知识蒸馏技术，将 12B 参数的基础模型压缩到 9B 参数，同时保持模型的性能。优化模型支持在单个 NVIDIA A10G GPU 上进行 128k token 的上下文推理，显著降低推理成本。
推理预算控制：基于截断训练，模型能根据用户指定的“思考”预算进行推理，避免不必要的计算。用户能灵活控制模型的推理过程，选择是否展示推理过程或直接获取最终答案。

NVIDIA Nemotron Nano 2的项目地址

项目官网：https://research.nvidia.com/labs/adlr/NVIDIA-Nemotron-Nano-2/
HuggingFace模型库：https://huggingface.co/collections/nvidia/nvidia-nemotron-689f6d6e6ead8e77dd641615
技术论文：https://research.nvidia.com/labs/adlr/files/NVIDIA-Nemotron-Nano-2-Technical-Report.pdf
在线体验Demo：https://build.nvidia.com/nvidia/nvidia-nemotron-nano-9b-v2