VAST联合浙大等高校开源LegoACE:让AI从数据中自学3D乐高搭建规则

2026/05/29 10:42阅读量 4

传统方法依赖人工标注连接点和显式规则,难以扩展至丰富零件。LegoACE将乐高搭建转化为自回归序列生成问题,基于大规模数据集LegoVerse(5.5万个模型、9314种砖块),采用位置-旋转-类型三种token编码,让模型从数据中隐式学习组合规律。实验表明,该方法支持文字和图像条件生成,能直接使用车轮、门窗等专用零件,生成质量与效率优于现有方案,为分子、电路等结构化生成任务提供新思路。当前局限在于罕见组合仍可能无法拼接,后续可结合显式约束优化。

事件概述

VAST联合浙江大学、清华大学、KAUST、香港大学等机构在SIGGRAPH Asia 2025上开源了LegoACE,一种无需人工显式规则即可让AI学会搭建3D乐高模型的方法。核心突破在于将乐高结构生成转化为自回归序列预测问题,让模型从大量真实LEGO数据中隐式学习砖块组合的规律,而非依赖人工标注连接点或编写拼接规则。

核心信息

  • 核心难点:生成式AI擅长生成“看起来合理”的文本、图像,但乐高模型要求砖块位置、朝向、连接、稳定性等物理规则全部成立,属于受约束的离散结构生成。
  • 传统方案瓶颈:基于体素的方法需为每种砖块人工标注连接点,砖块类型增加时成本急剧上升;基于自然语言序列的方法(如BrickGPT)只能处理规则方块类零件,难以扩展至异形、专用零件。
  • LegoACE方案
    • 放弃显式规则,采用自回归序列生成框架。
    • 构建大规模数据集LegoVerse:含55,000个LEGO模型、9,314种砖块类型,覆盖建筑、车辆、人物等多类别,支持48种轴对齐旋转变换。
    • 提出LEGO Native Tokenization:每块砖编码为位置token、旋转token、类型token三个token,整个模型按固定空间顺序转换为序列。
    • 基于decoder-only Transformer实现自回归生成,支持文字条件生成(CLIP提取语义)和多视角法线图条件生成(DINOv2提取视觉特征)。
    • 训练中引入数据增强(随机截取子序列)和DPO对齐优化(以Chamfer Distance为偏好标准)。
  • 效果对比:相比基于体素扩散的方法,LegoACE训练和推理效率更高;相比BrickGPT,可直接使用车轮、门窗、装饰件等专用零件,生成结果在整体形态和局部细节上更贴近目标;在法线图条件生成任务上,无需先转为mesh再转换,端到端生成更优。

值得关注

  • 通用意义:LegoACE证明了对于分子设计、电路设计、模块化建筑、机械结构等由离散单元在复杂约束下组合的对象,AI可以不依赖人工逐条编写规则,而从数据中学习组合规律。这是生成式AI从“内容生成”走向“物理世界结构生成”的有益探索。
  • 当前局限:由于缺少显式结构约束,在训练数据不足或遇到罕见组合时,LegoACE仍可能生成无法实际拼接的结构。后续可通过扩大数据规模、结合显式几何检查与物理约束验证来提升可靠性。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。