重磅连发:Meta 推出 SAM 3D+SAM 3,计算机视觉迈入 “精准交互 + 实景重建” 新时代

近日,Meta AI 重磅发布 SAM 系列两大新品 ——3D 重建模型 SAM 3D 与视觉分割模型 SAM 3,以 “实景 3D 重建突破 + 可提示概念分割” 的双重创新,重新定义计算机视觉技术边界。两款模型均达到业界领先(SOTA)性能,不仅实现从 2D 图像到 3D 场景的高效转化、文本与视觉元素的精准匹配,更同步开放模型权重、推理代码及专属体验平台,彻底降低技术使用门槛,一场席卷 AR/VR、设计、影视等领域的视觉革命正式开启。
一、SAM 3D:打破真实世界 3D 重建壁垒,一张照片解锁全场景建模
SAM 3D 以 “双模型分工” 模式,攻克传统 3D 重建局限于合成场景的核心痛点,首次实现真实复杂环境的高精度建模:
SAM 3D Objects:场景级物体重建利器
无需专业设备与复杂操作,用户仅需上传一张日常照片,选择目标物体即可生成带姿态信息的 3D 模型,精准还原物体形状、纹理与场景布局。其核心突破在于创新的数据引擎与多阶段训练范式:
数据瓶颈破解:通过 “标注人员评分 + 专业艺术家补漏” 的分级标注机制,高效生成 314 万个 3D 网格(基于近 100 万张真实世界图像),突破高质量 3D 数据稀缺的行业难题;
跨场景适配能力:借助上下文理解弥补像素缺失,轻松应对小物体、侧视角、遮挡等真实场景常见问题,摆脱传统模型对 “简单背景、受控光照” 的依赖;
数据集赋能:联合专业艺术家打造 SA-3DAO 数据集,性能显著超越现有 3D 重建方法。
SAM 3D Body:精准可控的人体重建方案
针对人体姿态复杂、易遮挡等建模难点,提供稳健且可交互的 3D 重建能力:
全场景适配:即使面对罕见姿态、多人同框、服装遮挡等复杂情况,仍能精准还原人体三维姿态与形体;
可提示交互设计:支持分割掩码、2D 关键点等输入提示,用户可直接引导模型预测,大幅提升建模精度与可控性;
技术架构创新:基于 Transformer 编解码器与 Meta 开源 3D 网格格式 MHR(骨骼与软组织分离建模),兼顾高分辨率细节捕捉与模型可解释性,训练数据集规模达 800 万张图像,覆盖各类服装与场景。
二、SAM 3:文本驱动视觉分割,实现 “所想即所得” 的精准交互
SAM 3 以 “可提示概念分割” 技术,解决计算机视觉中长期存在的 “细粒度识别” 难题,让文本描述与视觉元素实现精准对应:
突破传统局限:不再局限于 “人、车” 等通用类别分割,可精准识别 “红色条纹雨伞”“带花纹的陶瓷杯” 等细分概念,支持文本提示、示例图像等多种交互方式;
性能跨越式提升:在 Meta 全新构建的 SA-Co 基准测试(涵盖超大词汇量概念)中,图像分割 cgF1 分数较现有模型翻倍,视频分割性能同样领先,超越 Gemini 2.5 Pro、GLEE 等主流模型;
极速推理能力:在 H200 GPU 上,单张含 100 + 目标的图像分割仅需 30 毫秒,视频场景下 5 个并发目标可保持近实时处理,满足工业级应用需求。
架构传承与创新:整合 Meta Perception Encoder(文本 - 图像编码)、DETR 检测模块、SAM 2 的跟踪记忆机制,通过开源组件协同优化,构建高效稳定的技术底座。
三、生态全面开源:全民皆可玩转前沿视觉 AI
Meta 此次以 “开放普惠” 为核心,构建全链条技术生态:
核心资源开放:同步释放 SAM 3D 与 SAM 3 的模型权重、推理代码,开发者可直接基于底层技术二次创新;
可视化体验平台:推出 Segment Anything Playground,普通用户无需编程基础,即可通过界面交互体验 3D 重建与精准分割功能,加速技术普及;
多场景适配:支持 AR/VR 内容制作、影视特效生成、工业设计、运动分析等多元场景,1300 万 SAM 系列开发者生态将进一步扩容。
四、行业影响:视觉 AI 从 “工具化” 迈向 “平民化”
SAM 3D 与 SAM 3 的发布,不仅在技术层面实现三大突破:
以创新数据引擎解决 3D 重建的真实世界适配问题;
打通文本与视觉的细粒度交互通道;
实现高性能与低门槛的平衡;
更在行业层面重塑竞争格局:Meta 通过开源策略,将前沿视觉技术推向大众,倒逼行业从 “闭源技术竞赛” 转向 “生态共建”,加速 AR/VR、数字孪生等产业的落地进程。相较于传统 3D 建模需专业技能与高昂成本的现状,SAM 3D 让 “人人都是 3D 创作者” 成为可能;而 SAM 3 的文本驱动能力,更将推动智能搜索、视频编辑、无障碍交互等场景的革新。
结语:开源赋能,视觉智能的下一个十年
从 SAM 1 的通用分割突破,到 SAM 2 的视频跟踪升级,再到如今 SAM 3D+SAM 3 的 “3D 重建 + 精准交互” 双爆发,Meta 以持续迭代构建起计算机视觉的技术护城河。此次全面开源的策略,不仅降低了技术使用门槛,更将激发全球开发者的创新潜力。随着谷歌 Gemini 在多模态领域的发力、Meta 在视觉赛道的深耕,AI 行业正进入 “细分领域突破 + 生态开放竞争” 的新阶段,最终将推动视觉智能融入生活的方方面面,开启 “所见即所得、所想即所建” 的全新体验。
-
百度智能云百舸 AI 计算平台 5.0 上线:突破效率瓶颈,赋能企业 AI 降本增效
2025-08-29
34 -
美团 LongCat-Flash-Chat 开源:560B 参数 MoE 模型引领高效 AI,100+tokens/s 推理 + 5 元 / 百万 token 低成本落地
2025-09-01
191 -
阿里通义正式发布:Qwen3-Next-80B-A3B 双模型!
2025-09-13
46 -
阿里重磅推出 AI 编程工具 Qoder:解锁 10 倍开发效率,预览期全功能免费开放,重构工程师工作流
2025-08-23
290 -
30秒做应用、实时写图文,「灵光」想用AI重塑创造力边界
2025-11-18
10 -
阿里巴巴瓴羊发布首个数据分析 Agent:智能小 Q 升级超级 AI 分析师
2025-08-30
105 -
美团 AI 生活小秘书 “小美”:解锁便捷生活新方式
2025-09-13
62 -
Manus 1.5 重磅发布:AI 智能体提速 4 倍,一键打通 Web 应用开发全流程
2025-10-20
45 -
腾讯开源混元图像 3.0:80B 参数的多模态巨兽,能否改写文生图格局?
2025-10-01
106 -
RealDevWorld:MetaGPT 打造的 AI 自动化测试工具,以多智能体重构软件开发测试流程
2025-09-06
46
咨询热线:
联系电话
联系邮箱
联系QQ
方案获取
