GLM-5V-Turbo上线:草图直出前端,多模态编程能力超越Claude Opus
2026/04/02 14:28阅读量 2
智谱AI发布多模态Coding基座模型GLM-5V-Turbo,支持将草图、设计稿或截图直接转化为可运行的前端工程,并具备解读复杂图表与论文的能力。该模型在原生多模态融合、30+任务协同强化学习及Agent数据构建上进行了架构升级,基准测试中在多模态Coding及GUI操控任务上表现优于Claude Opus 4.6。目前模型已接入AutoClaw(澳龙)和Z.ai平台,并提供API调用服务。
事件概述
智谱AI正式发布多模态Coding基座模型 GLM-5V-Turbo。该模型主打“视觉编程”(Vision Coding),能够理解草图、设计稿或网页截图,直接生成完整且可运行的前端代码,同时具备深度解析复杂图表、公式及文档的能力。
核心功能与实测表现
1. 草图转前端(Vision Coding)
- 输入:用户手绘的简单草图(如音乐播放器界面)或设计稿。
- 输出:在十几秒内生成包含HTML和CSS的完整代码,准确还原版式、配色及交互逻辑。
- 实测案例:
- 根据草图生成的音乐播放器页面,左侧为播放控制,右侧为推荐列表,点击播放键可实现唱片旋转效果,切歌功能基本可用。
- 支持多轮交互优化,用户可要求调整细节(如风格、布局),模型能即时响应修改。
- 注:部分非核心交互按钮(如随机播放逻辑)可能仍需进一步指令完善。
2. 复杂内容解读
- 论文分析:针对包含大量公式和图表的学术论文(如马萨诸塞大学经济学实证研究),模型可拆解结构,提炼核心发现与结论,并生成图文并茂的报告。
- 金融图表分析:配合 AutoClaw 的“股票分析师”Skill,模型可识别K线走势、估值区间图及研报图表,输出包含基本面分析和操作建议的详细报告。
3. 性能基准对比
- 综合排名:在多模态Coding、Agentic任务及纯文本Coding领域,实现对 Claude Opus 4.6 的超越。
- 专项能力:
- 在设计稿还原、视觉代码生成、多模态检索问答等基准上表现领先。
- 在衡量真实GUI环境操控能力的 AndroidWorld 和 WebVoyager 基准上表现突出。
- 引入视觉能力后,纯文本编程与推理能力保持同等高水平。
技术架构升级
官方披露了四大层面的技术改进:
- 原生多模态融合:预训练阶段即同步训练文本与图像能力,采用新视觉编码器 CogViT 增强物体识别与空间关系理解,结合更适合多模态推理的结构 MTP 提升效率。
- 30+ 任务协同强化学习:覆盖STEM推理、图像定位(grounding)、视频理解、GUI操作等多个方向,避免单一领域“偏科”,确保感知、推理、执行的整体均衡。
- Agent专用数据构建:搭建从“看懂元素”到“预测动作序列”的训练体系,利用合成环境大规模生成可控、可验证数据,并在预训练阶段加入GUI操作数据以减少幻觉。
- 工具链升级:新增多模态搜索、画框、截图、读网页等工具,实现“看懂环境→规划步骤→动手执行”的闭环,与 Claude Code、AutoClaw 等工具适配性更强。
体验方式
- AutoClaw(澳龙):https://autoglm.zhipuai.cn/auto claw/
- Z.ai:https://chat.z.ai
- API接入:https://docs.bigmodel.cn/cn/gui de/models/vlm/glm-5v-turbo
