VAST联合浙大等高校开源LegoACE：让AI从数据中自学3D乐高搭建规则

2026/05/29 10:42阅读量 4

传统方法依赖人工标注连接点和显式规则，难以扩展至丰富零件。LegoACE将乐高搭建转化为自回归序列生成问题，基于大规模数据集LegoVerse（5.5万个模型、9314种砖块），采用位置-旋转-类型三种token编码，让模型从数据中隐式学习组合规律。实验表明，该方法支持文字和图像条件生成，能直接使用车轮、门窗等专用零件，生成质量与效率优于现有方案，为分子、电路等结构化生成任务提供新思路。当前局限在于罕见组合仍可能无法拼接，后续可结合显式约束优化。

事件概述

VAST联合浙江大学、清华大学、KAUST、香港大学等机构在SIGGRAPH Asia 2025上开源了LegoACE，一种无需人工显式规则即可让AI学会搭建3D乐高模型的方法。核心突破在于将乐高结构生成转化为自回归序列预测问题，让模型从大量真实LEGO数据中隐式学习砖块组合的规律，而非依赖人工标注连接点或编写拼接规则。

核心信息

核心难点：生成式AI擅长生成“看起来合理”的文本、图像，但乐高模型要求砖块位置、朝向、连接、稳定性等物理规则全部成立，属于受约束的离散结构生成。
传统方案瓶颈：基于体素的方法需为每种砖块人工标注连接点，砖块类型增加时成本急剧上升；基于自然语言序列的方法（如BrickGPT）只能处理规则方块类零件，难以扩展至异形、专用零件。
LegoACE方案：
- 放弃显式规则，采用自回归序列生成框架。
- 构建大规模数据集LegoVerse：含55,000个LEGO模型、9,314种砖块类型，覆盖建筑、车辆、人物等多类别，支持48种轴对齐旋转变换。
- 提出LEGO Native Tokenization：每块砖编码为位置token、旋转token、类型token三个token，整个模型按固定空间顺序转换为序列。
- 基于decoder-only Transformer实现自回归生成，支持文字条件生成（CLIP提取语义）和多视角法线图条件生成（DINOv2提取视觉特征）。
- 训练中引入数据增强（随机截取子序列）和DPO对齐优化（以Chamfer Distance为偏好标准）。
效果对比：相比基于体素扩散的方法，LegoACE训练和推理效率更高；相比BrickGPT，可直接使用车轮、门窗、装饰件等专用零件，生成结果在整体形态和局部细节上更贴近目标；在法线图条件生成任务上，无需先转为mesh再转换，端到端生成更优。

值得关注

通用意义：LegoACE证明了对于分子设计、电路设计、模块化建筑、机械结构等由离散单元在复杂约束下组合的对象，AI可以不依赖人工逐条编写规则，而从数据中学习组合规律。这是生成式AI从“内容生成”走向“物理世界结构生成”的有益探索。
当前局限：由于缺少显式结构约束，在训练数据不足或遇到罕见组合时，LegoACE仍可能生成无法实际拼接的结构。后续可通过扩大数据规模、结合显式几何检查与物理约束验证来提升可靠性。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？