NVIDIA Nemotron Nano 2 – 英伟达推出的高效推理模型
NVIDIA Nemotron Nano 2是什么
NVIDIA Nemotron Nano 2 是英伟达推出的高效推理模型,参数量为9B。模型基于混合Mamba-Transformer架构,在20万亿个token上预训练,支持128k上下文长度。相比Qwen3-8B,推理速度提升6倍,准确率相当或更高。模型具备思考预算控制功能,用户能指定推理token数量。英伟达开源了基础模型和大部分预训练数据集,助力开发者进一步研究与应用。
NVIDIA Nemotron Nano 2的主要功能
高吞吐量:NVIDIA Nemotron Nano 2 在复杂推理任务中表现出色,吞吐量比 Qwen3-8B 高达 6 倍。
长上下文支持:支持 128k 的上下文长度,能在单个 NVIDIA A10G GPU 上进行推理,适合处理长文本和复杂任务。
推理过程支持:模型在生成最终答案前生成推理过程(reasoning trace),用户能指定模型的“思考”预算。
灵活的输出模式:用户能选择跳过中间推理步骤,直接获取最终答案。
多语言能力:预训练数据集包含多种语言的数据,支持强大的多语言推理能力。
多领域覆盖:涵盖数学、代码、学术、STEM 等多个领域的数据,适合多种应用场景。
NVIDIA Nemotron Nano 2的技术原理
混合 Mamba-Transformer 架构:用 Mamba-2 层替代传统 Transformer 中的大部分自注意力层,显著提升推理速度,特别是在生成长推理链时。Transformer 层保留部分自注意力层,保持模型的灵活性和准确性。
预训练过程:在 20 万亿个 token 上进行预训练,用 FP8 精度和 Warmup-Stable-Decay 学习率调度。通过持续预训练长上下文扩展阶段,使模型能处理 128k 的上下文长度,不降低其他基准测试的性能。
后训练优化:监督微调(SFT)对模型进行监督微调,提升其在特定任务上的表现。通过策略优化提升模型的指令遵循能力。优化模型的偏好,让模型更符合人类的偏好。通过人类反馈进行强化学习,提升模型的对话能力和指令遵循能力。
模型压缩:基于剪枝和知识蒸馏技术,将 12B 参数的基础模型压缩到 9B 参数,同时保持模型的性能。优化模型支持在单个 NVIDIA A10G GPU 上进行 128k token 的上下文推理,显著降低推理成本。
推理预算控制:基于截断训练,模型能根据用户指定的“思考”预算进行推理,避免不必要的计算。用户能灵活控制模型的推理过程,选择是否展示推理过程或直接获取最终答案。
NVIDIA Nemotron Nano 2的项目地址
项目官网:https://research.nvidia.com/labs/adlr/NVIDIA-Nemotron-Nano-2/
HuggingFace模型库:https://huggingface.co/collections/nvidia/nvidia-nemotron-689f6d6e6ead8e77dd641615
技术论文:https://research.nvidia.com/labs/adlr/files/NVIDIA-Nemotron-Nano-2-Technical-Report.pdf
在线体验Demo:https://build.nvidia.com/nvidia/nvidia-nemotron-nano-9b-v2
NVIDIA Nemotron Nano 2的应用场景
教育领域:在教育领域,帮助学生解决复杂的数学和科学问题。通过逐步推理的方式解释复杂的数学公式或物理定律,帮助学生更好地理解和掌握知识。
学术研究:研究人员进行学术研究,生成详细的推理过程和分析报告,辅助论文撰写和实验设计。
软件开发:开发者生成高质量的代码片段,帮助快速开发和优化代码。
编程教育:在编程教育中,模型提供代码示例和解释,帮助初学者更好地理解编程语言和算法。
客户服务:在客户服务领域,作为多语言聊天机器人,提供高效且准确的客户支持。
-
Apertus:瑞士开源大模型的破局之作,以多语言与透明性重塑 AI 生态
2025-09-06
35 -
ChatGPT 重磅升级:迈向支持第三方应用的 “新型操作系统”,订酒店叫外卖一键搞定
2025-10-10
26 -
美团 LongCat-Flash-Chat 开源:560B 参数 MoE 模型引领高效 AI,100+tokens/s 推理 + 5 元 / 百万 token 低成本落地
2025-09-01
191 -
程序员必藏:15 个免费 AI 编程工具,智能编写代码超省心
2025-11-10
19 -
Manus 1.5 重磅发布:AI 智能体提速 4 倍,一键打通 Web 应用开发全流程
2025-10-20
45 -
ChatGPT 网页端重磅更新:GPT-5 Thinking 时长可调节,满足多元使用需求
2025-09-21
65 -
百度智能云百舸 AI 计算平台 5.0 上线:突破效率瓶颈,赋能企业 AI 降本增效
2025-08-29
34 -
Sora AI 重磅更新:宠物分身功能开放,安卓版开启预注册,OpenAI 引爆视频创作新热潮
2025-10-28
58 -
阿里巴巴瓴羊发布首个数据分析 Agent:智能小 Q 升级超级 AI 分析师
2025-08-30
105 -
Figure 03:喊出“全球最强”的人形机器人,真能帮你搞定家务吗?
2025-10-12
45

咨询热线:
联系电话
联系邮箱
联系QQ
方案获取
