宝运宝运莱官方游戏网

搜索猫眼电影 融媒体矩阵

山东手机报
猫眼电影
大众网官方微信
大众网官方微博
抖音
人民号
全国党媒平台
央视频
百家号
快手
头条号
哔哩哔哩

首页 >新闻 >社会新闻

零训练实现3D场景生成SOTA：英伟达&康奈尔提出文本驱动新流程

2025-06-20 18:32:17

来源：

猫眼电影

作者：

英拉·西那瓦

手机查看

　　猫眼电影记者马雯报道P6F3X2M7T9QJ8L1B4WZR

本文第一作者顾泽琪是康奈尔大学计算机科学四年级博士生，导师为 Abe Davis 教授和 Noah Snavely 教授，研究方向专注于生成式 AI 与多模态大模型。本项目为作者在英伟达实习期间完成的工作。

想象一下，你是一位游戏设计师，正在为一个奇幻 RPG 游戏搭建场景。你需要创建一个 "精灵族树屋村落"—— 参天古木和树屋、发光的蘑菇路灯、半透明的纱幔帐篷... 传统工作流程中，这可能需要数周时间：先手工建模每个 3D 资产，再逐个调整位置和材质，最后反复测试光照效果…… 总之就是一个字，难。

这种困境正是当前 3D 内容创作领域的缩影。传统 3D 设计软件如 Blender、Maya 虽然功能强大，但学习曲线陡峭。近年来兴起的文本生成 3D 技术让用户可以通过文字描述生成 3D 内容，但这些方法要么依赖有限的 3D 训练数据，遇到新场景类型或风格就容易翻车，要么在预测完场景中的物体信息后，要从特定的 3D 模型池中寻找并调用出与预测特征最相近的，因此最后的场景质量非常依赖于模型池中到底有什么，很容易导致风格不统一。

与此同时，文本生成 2D 图像技术（如 GPT-4o、Flux）却突飞猛进。这些模型通过海量互联网图像训练，已经能生成布局合理、风格统一的复杂场景图。这引发了一个关键思考：能否让 2D 图像充当 "中间商"，先把用户输入文字转化为高质量场景图，再从中提取 3D 信息？NVIDIA 与康奈尔大学联合团队的最新研究 ArtiScene，正是基于这一 insight 提出的全新解决方案。

文章链接：https://arxiv.org/abs/2506.00742文章网站：https://artiscene-cvpr.github.io/（代码即将开源）英伟达网站：https://research.nvidia.com/labs/dir/artiscene/

图一：ArtiScene 生成的 3D 结果。从左到右的文字输入分别是，第一行：(1) a Barbie-styled clinic room, (2) a space-styled bedroom, (3) a teenager-styled bathroom。第二行：(1) a cute living room, (2) a garage, (3) a operating room.

核心贡献：无需训练的智能 3D 场景工厂

ArtiScene 的核心创新在于构建了一个完全无需额外训练的自动化流水线，将文本生成图像的前沿能力与 3D 重建技术巧妙结合。它一共包含五步：

1. 2D 图像作为 "设计蓝图"

系统首先用扩散模型生成等轴测视角的场景图。这种视角常用于建筑设计示意图，因为它能同时呈现物体的长、宽、高信息，且不受场景位置影响。相比直接生成 3D，这种方法能利用更成熟的 2D 生成技术确保布局合理性和视觉美感。

图二：和其他任意的相机视角（左二、三）比，让文生图模型输出等轴测图（左一）更可靠，因为等轴测图默认相机参数是固定的，且没有透视形变。

2. 物体检测与修复

采用两阶段检测策略：先用 GroundedDINO 识别场景中的家具和装饰品，对遮挡部分用补全修复（Remove Anything 模型），再次检测确保完整性，最后得到每个物品的分割掩码。

3. 3D 空间定位

通过 Depth-Anything-2 模型估计深度信息，配合自定义投影公式将 2D 坐标转换为 3D 位置。团队发现传统相机投影公式需要调整，于是采用去除深度缩放影响后的公式。

4. 模块化 3D 资产生成

传统方法通常从现有数据库检索 3D 模型，导致美观度受限。ArtiScene 则对场景图中的每个物体分别生成定制化 3D 模型：在得到分割物体图像后，让 ChatGPT 描述其几何特征，再输入单视图 3D 生成模型，为每件家具、装饰品单独建模。

5. 场景组装

通过单目深度估计，系统将 2D 边界框转换为 3D 空间坐标。并使用 "渲染 - 比对" 的姿势估测机制，生成 8 个旋转角度的物体渲染图，用 Stable Diffusion+DINO-v2 融合模型提取特征，选择与原始场景图最匹配的姿势。后处理阶段还会自动修正物体重叠，确保物理上足够合理，比如椅子不会嵌进餐桌里，花瓶能稳稳立在柜子上。

图三：系统流程图

这种设计带来三个显著优势：

零训练成本：完全利用现成模型，无需针对新场景类型微调

风格无限：每个物体都按需生成，不受预制模型库限制

可编辑性强：单独修改某个物体不会影响整体场景

实验结果：全面超越现有方案

团队在三个维度进行了系统评估：

1. 布局合理性测试

对比当时最强的 LayoutGPT，在卧室和客厅场景中：

物体重叠率降低 6-10 倍（卧室 6.48% vs 37.26%）用户调研显示，72.58% 的参与者更青睐 ArtiScene 的布局生成家具数量更多（卧室平均 6.97 件 vs 4.30 件），且分布更自然

2. 风格一致性测试

相比当时效果最好的文生 3D 场景方法 Holodeck，在包含 29 种场景种类和风格的测试集中：

CLIP 分数提高 10%（29.45 vs 26.73）GPT-4 评估中，95.46% 案例认为 ArtiScene 更符合描述用户调研显示，82.96% 认为风格还原更准确

图四：和之前的 SOTA Holodeck 的比较。

3. 应用灵活性展示

系统支持多种实用功能：

物体编辑：单独修改某个模型（如把普通汽车变成黄色保时捷）多场景适配：通过调整参数支持户外场景生成人工引导：允许直接输入手绘设计图替代 AI 生成场景图

图五：左：物体编辑；右：跳过最开始的文生图环节，直接用人工画的图生成场景。

展望

对于更复杂的多房间场景（如整个博物馆、医院），或者要求特定家具间的位置关系和个数等用户输入，由于文生图模型在训练时就缺乏相关数据，ArtiScene 在最开始就会受限于不够优质的二维图像。然而，这一模块是可更换的，ArtiScene 不依赖于某一特定模型，未来如果有性能更好的同功能模型，我们也可以很容易把它们替换进来。

本项目创新地采用二维图像来引导三维场景生成，并用 LLM、VLM 等大模型构成了一个鲁棒的系统，在生成结果的美观度、多样性和物理合理性上都远超之前的同类型方法。作者希望他们的工作可以启发未来更多关于具身智能、AR/VR、室内 / 室外设计的思考。

??时事1：PORNO💋1000

??06月20日,【理响中国】扩大高水平对外开放的实现途径,

　　柳树枝干焦黑，十几根绿莹莹的嫩芽飘舞，霞光灿烂，与树干形成鲜明对比，生机勃勃，一片祥和与神圣。

,人与物动交ⅩXXXB。

??06月20日,“以节为媒”激活乡村旅游山东邀八方客品“鲁味”年,

　　4、加强领导干部道德建设，是转变社会道德风尚的需要。

,老阿姨泻火吧今天更新,周于希被摄影师捏奶头,99在线无码精品㊙️一起草。

??时事2：强行扒开腿❌狂揉❌玩视频

??06月20日,国际移民组织发出首个“全球年度呼吁” 望2024年筹资79亿美元,

　　“那四族可都是狠茬子，竟然在初始地大败，无人能抗衡那个皮孩子？”

,裸体裸乳被韩国无码,丝袜人妻熟女XXXXX网站,班长别摸了～要尿了～的视频动漫。

??06月20日,持续深入抓好整改整治把“问题清单”变为“成果清单”,

　　一道冷芒飞来，蛟鹏松开了弓弦，铁箭扑向小不点的咽喉，迅疾而可怕，“呜呜”啸声划破长空。

,国产乱婬AV麻豆精东视频小说,男人生殖图片真人,鞠婧祎裸被❌AI换脸。

??时事3：性欧美

??06月20日,资深恩爱夫妻传授“爱情保鲜秘诀” “甜爱沙龙”助青年钟爱一生,

　　新班子成立后，学校领导针对硬件设施不足的状况，多次召开领导班子会，研究如何改善办学条件。

,动漫❌c🐻,精品国产乱码久久久久久动漫,原神芙宁娜裸体❌开腿照片。

??06月20日,“复兴之路”展览将回归，武王墩大墓展露真容，2025年国博重磅展览计划公布,

　　为了班级，我能行。

,Zoo Sex woman HD,小舞被爆❌AV羞羞视频,国产又爽❌又黄❌免费鸣人樱桃。

??时事4：白丝校花粉嫩小泬喷潮抽搐

??06月20日,农业农村部：2023年农村网络零售额达到2.49万亿元,

　　铁箭划破长空，呜呜作响，像是九幽的鬼音，粗长的箭杆散发着让人心悸的金属冷光，极速飞来，骇人之极。

,蒂法3D被❌18禁同人,俄把瓷按在床上生孩子,玖辛奈裸体被羞羞网站。

??06月20日,新疆阿克苏地区乌什县7.1级地震已造成3人遇难 5人受伤,

　　广大企业界的朋友。在此，我谨代表银行，对莅临开业仪式现场的各位领导和来宾表示最热烈的欢迎!并向多年来关心和支持银行发展的各界朋友表示最诚挚的谢意!

,❌❌❌美女裸体免费视频,女警察被❌吸乳羞羞视频,老板娘乳头内裤摸。

【国家是香港金融业发展的强大后盾（香江观察）】

【【百万庄小课堂】围炉煮茶要小心？医生：警惕一氧化碳中毒】

责编：王彩法

审核：孙永军

责编：张永红

相关推荐换一换

宝运宝运莱官方游戏网宝运宝运莱官方游戏网最新版本（官网）下载

<tfoot id='mLGWw'></tfoot>

<legend id='KjjS'><style id='lYERZ'><dir id='OJbHvq'><q id='KVUGRi'></q></dir></style></legend>

<i id='5waR4'><tr id='Me0xID'><dt id='lEa2uK'><q id='SnUn'><span id='U61rdv5'><b id='grG2c'><form id='faEWO'><ins id='ZMKiC4'></ins><ul id='q1C3'></ul><sub id='fs8Iot'></sub></form><legend id='o38PdS'></legend><bdo id='2Ecli'><pre id='GndsrE'><center id='KYBZ0zP'></center></pre></bdo></b><th id='qjM3E'></th></span></q></dt></tr></i><div id='Cbm1NQQ'><tfoot id='gz5o'></tfoot><dl id='G7Xz2'><fieldset id='UC23'></fieldset></dl></div>

<sup id='yCPL0U'><pre id='y8Tb7m'></pre></sup><em id='n18riwK'></em>

<li id='BYqlRJ'><abbr id='rHyjXS'></abbr></li>