智谱唐杰全球征集GLM-5.3意见，开发者齐呼：补上视觉能力

2026/06/30 16:46阅读量 2

清华教授、智谱首席科学家唐杰在社交平台公开征集GLM-5.3版本功能建议，推文浏览量超40万。评论区呼声最高的是“视觉”能力，用户希望旗舰模型能看图和生成图像。GLM-5.2为纯文本模型，虽在编程评测中位居开源第一，但因缺乏视觉而在多模态竞争中落后于Fable-5、Kimi K2.5和Qwen3.5-Omni等竞品。智谱实际已具备视觉能力（如GLM-5V-Turbo），但此前未整合进旗舰模型。

事件概述

清华教授、智谱首席科学家唐杰在社交平台公开征集GLM-5.3版本功能意见，推文浏览量迅速突破40万。此前GLM-4.6开源时，唐杰也曾通过类似方式收集了用户需求，并在后续版本中逐步落地。本次征集再次引发开发者热烈响应，评论区中出现最多的关键词是“视觉”。

核心信息

用户诉求：评论区内，多位开发者列出了对GLM-5.3的期望，包括更强的Agent能力、超长上下文质量保持、更灵活的API等，但“视觉”（图像理解与生成）成为最一致的需求。
痛点背景：两周前开源的GLM-5.2在代码评测中表现强劲（开源第一、全球第二），但它是纯文本模型，缺乏视觉编码器，无法处理图像和生成视觉内容。而直接对标的神级模型Fable-5则是原生多模态架构。
并非技术短板：智谱并非不具备视觉能力。今年4月发布的GLM-5V-Turbo已是原生多模态的编程基座，能理解设计稿、截图并生成代码。此外，CogVLM视觉编码器也出自智谱团队，唐杰本人也有大量视觉相关研究。问题在于此前未将视觉能力整合到旗舰模型中。
产品策略：唐杰曾坦言，多模态是未来，但目前对提升AGI智能上界帮助有限，更有效的方式可能是文本、多模态、多模态生成分开发展。这体现了科学家与用户视角的差异：用户关注当下能用，而团队更关注模型智能天花板。
竞争压力：竞争对手已纷纷布局。Kimi K2.5（今年1月）、Qwen3.5-Omni（3月）均为原生多模态模型，Google Gemini 3更是文图音视频统一处理。GLM旗舰需要补上视觉才具有竞争力。

值得关注

唐杰的公开征集和用户集中诉求，反映出大模型竞争中产品思路与用户需求的碰撞。GLM-5.3是否会整合视觉能力，将在未来版本中揭晓。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？