开云(中国)Kaiyun·体育官方网站-登录入口 SfM）等时候来汇集这些数据-开云(中国)Kaiyun·体育官方网站-登录入口

发布日期：2025-05-29 05:33 点击次数：77

近日，著明 AI 学者、斯坦福大学熏陶李飞飞团队 WorldLabs 推出首个「空间智能」模子，仅输入单张图片，即可生成一个传神的 3D 宇宙开云(中国)Kaiyun·体育官方网站-登录入口，这被觉得是迈向空间智能的第一步。

的确同期，国内智源商榷院推出了首个期骗大界限无标注的互联网视频学习的 3D 生成模子See3D— See Video, Get 3D。

△See3D 救济从文本、单视图和稀薄视图到 3D 的生成，同期还可救济 3D 剪辑与高斯渲染

不同于传统依赖相机参数（pose-condition）的 3D 生成模子，See3D 接收全新的视觉条目（visual-condition）时候，仅依赖视频中的视觉踪迹，生成相机场地可控且几何一致的多视角图像。

这一步调不依赖于不菲的 3D 或相机标注，大约高效地从各样化、易获取的互联网视频中学习 3D 先验。

See3D 不仅救济零样本和通达宇宙的 3D 生成，还无需微调即可实施 3D 剪辑、名义重建等任务，展现出在多种 3D 创作应用中的世俗适用性。

关连的模子、代码、Demo 均已开源，更多时候细节请参考 See3D 论文。

论文地址 :

https://arxiv.org/abs/2412.06699

技俩地址 :

https://vision.baai.ac.cn/see3d

后果展示

1. 解锁 3D 互动宇宙：输入图片，生成千里浸式可交互 3D 场景，及时探索的确空间结构。

‍

（备注：为了结束及时交互式渲染，现时对 3D 模子和渲染过程进行了简化，离线渲染的确后果更佳。）

‍

‍△及时 3D 交互

‍

2. 基于稀薄图片的 3D 重建：输入稀薄的 ( 3-6 张 ) 图片，模子可生成一个缜密化的 3D 场景。

△基于 6 张视图的 3D 重建

△基于 3 张视图的 3D 重建

3. 通达宇宙 3D 生成：凭证文本领导，生成一副艺术化的图片，基于此图片，模子可生成一个凭空化的 3D 场景。

△通达宇宙 3D 生成样例

4. 基于单视图的 3D 生成：输入一张的确场景图片，模子可生成一个传神的 3D 场景。

△基于单张图片的 3D 生成商榷动机

3D 数据具有无缺的几何结构和相机信息，大约提供丰富的多视角信息，是熏陶 3D 模子最奏凯的选拔。但是，现存步调时常依赖东说念主工瞎想（designed artists）、立体匹配（stereo matching）或通顺规复结构（Structure from Motion, SfM）等时候来汇集这些数据。

尽管经过多年发展，现时 3D 数据的积存界限还是有限，举例 DLV3D ( 0.01M ) 、RealEstate10K ( 0.08M ) 、MVImgNet ( 0.22M ) 和 Objaverse ( 0.8M ) 。这些数据的汇注过程不仅耗时且资本昂然，还可能难以实施，导致其数据界限难以延迟，无法餍足大界限应用的需求。

与此不同，东说念主类视觉系统无需依赖特定的 3D 表征，仅通过相连多视角的不雅察即可配置对 3D 宇宙的意会。单帧图像难以结束这少量，而视频因其自然包含多视角关联性和相机通顺信息，具备揭示 3D 结构的后劲。

更紧要的是，视频开端世俗且易于获取，具有高度的可延迟性。基于此，See3D 提倡" SeeVideo,Get3D "的理念，旨在通过视频中的多视图信息，让模子像东说念主类相似，学习并推理物理宇宙的三维结构，而非奏凯建模其几何情势。

步调先容

为了结束可延迟的 3D 生成，See3D 提供了一套系统化的处治决策，具体包括：

1）数据集：团队提倡了一个视频数据筛选经由，自动去除源视频中多视角不一致或不雅察视角不充分的视频，构建了一个高质地、各样化的大界限多视角图像数据集 WebVi3D。该数据集涵盖来自 1600 万个视频片断的 3.2 亿帧图像，可通过自动化经由随互联网视频量的增长而络续推论。

△WebVi3D 数据集样本展示

2）模子：标注大界限视频数据的相机信息资本极高，且在缺少显式 3D 几何或相机标注的情况下，从视频中学习通用 3D 先验是更具挑战的任务。为处治这一问题，See3D 引入了一种新的视觉条目——通过向掩码视频数据添加时刻依赖噪声，生成一种贞洁的 2D 归纳视觉信号。这一视觉信号救济可延迟的多视图扩散模子（MVD）熏陶，幸免对相机条目的依赖，结束了"仅通过视觉赢得 3D "的策动，绕过了不菲的 3D 标注。

△See3D 步调展示

3）3D 生成框架：See3D 学到的 3D 先验大约使一系列 3D 创作应用成为可能，包括基于单视图的 3D 生成、稀薄视图重建以及通达宇宙场景中的 3D 剪辑等，救济在物体级与场景级复杂相机轨迹下的长序列视图的生成。

△基于 See3D 的多视图生成

上风

a ) 数据延迟性：模子的熏陶数据源自海量互联网视频，相较于传统 3D 数据集，构建的多视图数据集 ( 16M ) 在界限上结束了数目级的进步。跟着互联网的捏续发展，该数据集可捏续推论，进一步增强模子才气的遮掩范围。

b ) 相机可控性：模子可救济在职意复杂的相机轨迹下的场景生成，既不错结束场景级别的漫游，也能聚焦于场景内特定的物体细节，提供生动各样的视角操控才气。

c ) 几何一致性：模子可救济长序列新视角的生成，保捏前后帧视图的几何一致性，并解任的确三维几何的物理礼貌。即使视角轨迹发生变化，复返时场景还是保捏高传神和一致性。

回想

通过扩大数据集界限，See3D 为冲突 3D 生成的时候瓶颈提供了新的念念路，所学习到的 3D 先验为一系列 3D 创作应用提供了救济。但愿这项责任大约激励 3D 商榷社区对大界限无相机标注数据的热心，幸免昂然的 3D 数据汇注资本，同期减弱与现存高大闭源 3D 处治决策之间的差距。

* 本文系量子位获授权刊载，不雅点仅为作家所有。

— 完 —

量子位 QbitAI

վ ' ᴗ ' ի 跟踪 AI 时候和产物新动态

一键三连「共享」、「点赞」和「在看」

科技前沿施展日日相遇 ~

友情链接：

开云(中国)Kaiyun·体育官方网站-登录入口 SfM）等时候来汇集这些数据-开云(中国)Kaiyun·体育官方网站-登录入口

热点资讯

相关资讯