搜索
鲸奇世界,弘创无限
与我们取得联系
请拨打电话或者扫描下方微信二维码联系我们。
24小时电话
188-2547-1709
微信 王经理
建站、SEO业务
微信 王经理
小程序、系统定制业务

鲸奇世界,弘创无限

重磅连发:Meta 推出 SAM 3D+SAM 3,计算机视觉迈入 “精准交互 + 实景重建” 新时代

鲸弘科技
2025-11-21
0 次

640 (1).gif

近日,Meta AI 重磅发布 SAM 系列两大新品 ——3D 重建模型 SAM 3D 与视觉分割模型 SAM 3,以 “实景 3D 重建突破 + 可提示概念分割” 的双重创新,重新定义计算机视觉技术边界。两款模型均达到业界领先(SOTA)性能,不仅实现从 2D 图像到 3D 场景的高效转化、文本与视觉元素的精准匹配,更同步开放模型权重、推理代码及专属体验平台,彻底降低技术使用门槛,一场席卷 AR/VR、设计、影视等领域的视觉革命正式开启。

一、SAM 3D:打破真实世界 3D 重建壁垒,一张照片解锁全场景建模

SAM 3D 以 “双模型分工” 模式,攻克传统 3D 重建局限于合成场景的核心痛点,首次实现真实复杂环境的高精度建模:

  • SAM 3D Objects:场景级物体重建利器

无需专业设备与复杂操作,用户仅需上传一张日常照片,选择目标物体即可生成带姿态信息的 3D 模型,精准还原物体形状、纹理与场景布局。其核心突破在于创新的数据引擎与多阶段训练范式:

    • 数据瓶颈破解:通过 “标注人员评分 + 专业艺术家补漏” 的分级标注机制,高效生成 314 万个 3D 网格(基于近 100 万张真实世界图像),突破高质量 3D 数据稀缺的行业难题;

    • 跨场景适配能力:借助上下文理解弥补像素缺失,轻松应对小物体、侧视角、遮挡等真实场景常见问题,摆脱传统模型对 “简单背景、受控光照” 的依赖;

    • 数据集赋能:联合专业艺术家打造 SA-3DAO 数据集,性能显著超越现有 3D 重建方法。

  • SAM 3D Body:精准可控的人体重建方案

针对人体姿态复杂、易遮挡等建模难点,提供稳健且可交互的 3D 重建能力:

    • 全场景适配:即使面对罕见姿态、多人同框、服装遮挡等复杂情况,仍能精准还原人体三维姿态与形体;

    • 可提示交互设计:支持分割掩码、2D 关键点等输入提示,用户可直接引导模型预测,大幅提升建模精度与可控性;

    • 技术架构创新:基于 Transformer 编解码器与 Meta 开源 3D 网格格式 MHR(骨骼与软组织分离建模),兼顾高分辨率细节捕捉与模型可解释性,训练数据集规模达 800 万张图像,覆盖各类服装与场景。

二、SAM 3:文本驱动视觉分割,实现 “所想即所得” 的精准交互

SAM 3 以 “可提示概念分割” 技术,解决计算机视觉中长期存在的 “细粒度识别” 难题,让文本描述与视觉元素实现精准对应:

  • 突破传统局限:不再局限于 “人、车” 等通用类别分割,可精准识别 “红色条纹雨伞”“带花纹的陶瓷杯” 等细分概念,支持文本提示、示例图像等多种交互方式;

  • 性能跨越式提升:在 Meta 全新构建的 SA-Co 基准测试(涵盖超大词汇量概念)中,图像分割 cgF1 分数较现有模型翻倍,视频分割性能同样领先,超越 Gemini 2.5 Pro、GLEE 等主流模型;

  • 极速推理能力:在 H200 GPU 上,单张含 100 + 目标的图像分割仅需 30 毫秒,视频场景下 5 个并发目标可保持近实时处理,满足工业级应用需求。

  • 架构传承与创新:整合 Meta Perception Encoder(文本 - 图像编码)、DETR 检测模块、SAM 2 的跟踪记忆机制,通过开源组件协同优化,构建高效稳定的技术底座。

三、生态全面开源:全民皆可玩转前沿视觉 AI

Meta 此次以 “开放普惠” 为核心,构建全链条技术生态:

  • 核心资源开放:同步释放 SAM 3D 与 SAM 3 的模型权重、推理代码,开发者可直接基于底层技术二次创新;

  • 可视化体验平台:推出 Segment Anything Playground,普通用户无需编程基础,即可通过界面交互体验 3D 重建与精准分割功能,加速技术普及;

  • 多场景适配:支持 AR/VR 内容制作、影视特效生成、工业设计、运动分析等多元场景,1300 万 SAM 系列开发者生态将进一步扩容。

四、行业影响:视觉 AI 从 “工具化” 迈向 “平民化”

SAM 3D 与 SAM 3 的发布,不仅在技术层面实现三大突破:

  1. 以创新数据引擎解决 3D 重建的真实世界适配问题;

  1. 打通文本与视觉的细粒度交互通道;

  1. 实现高性能与低门槛的平衡;

更在行业层面重塑竞争格局:Meta 通过开源策略,将前沿视觉技术推向大众,倒逼行业从 “闭源技术竞赛” 转向 “生态共建”,加速 AR/VR、数字孪生等产业的落地进程。相较于传统 3D 建模需专业技能与高昂成本的现状,SAM 3D 让 “人人都是 3D 创作者” 成为可能;而 SAM 3 的文本驱动能力,更将推动智能搜索、视频编辑、无障碍交互等场景的革新。

结语:开源赋能,视觉智能的下一个十年

从 SAM 1 的通用分割突破,到 SAM 2 的视频跟踪升级,再到如今 SAM 3D+SAM 3 的 “3D 重建 + 精准交互” 双爆发,Meta 以持续迭代构建起计算机视觉的技术护城河。此次全面开源的策略,不仅降低了技术使用门槛,更将激发全球开发者的创新潜力。随着谷歌 Gemini 在多模态领域的发力、Meta 在视觉赛道的深耕,AI 行业正进入 “细分领域突破 + 生态开放竞争” 的新阶段,最终将推动视觉智能融入生活的方方面面,开启 “所见即所得、所想即所建” 的全新体验。

  • 稳定
    多年经验,服务稳定
  • 贴心
    全国7*24小时客服热线
  • 专业
    产品经理在线技术支持
  • 快速
    快速评估,快速执行
  • 承诺
    有目共睹,我们选声誉
复制成功

微信号:kaxiO_o

添加微信好友,免费获取方案及报价

我知道了
联系
扫码添加技术微信
1V1在线技术支持
联系电话
188-2547-1709建站、seo业务
电话若占线或未接到、就加下微信
联系邮箱
frank@vi23.com企业邮箱