智谱唐杰全球征集GLM-5.3意见,开发者齐呼:补上视觉能力

2026/06/30 16:46阅读量 2

清华教授、智谱首席科学家唐杰在社交平台公开征集GLM-5.3版本功能建议,推文浏览量超40万。评论区呼声最高的是“视觉”能力,用户希望旗舰模型能看图和生成图像。GLM-5.2为纯文本模型,虽在编程评测中位居开源第一,但因缺乏视觉而在多模态竞争中落后于Fable-5、Kimi K2.5和Qwen3.5-Omni等竞品。智谱实际已具备视觉能力(如GLM-5V-Turbo),但此前未整合进旗舰模型。

事件概述

清华教授、智谱首席科学家唐杰在社交平台公开征集GLM-5.3版本功能意见,推文浏览量迅速突破40万。此前GLM-4.6开源时,唐杰也曾通过类似方式收集了用户需求,并在后续版本中逐步落地。本次征集再次引发开发者热烈响应,评论区中出现最多的关键词是“视觉”。

核心信息

  • 用户诉求:评论区内,多位开发者列出了对GLM-5.3的期望,包括更强的Agent能力、超长上下文质量保持、更灵活的API等,但“视觉”(图像理解与生成)成为最一致的需求。
  • 痛点背景:两周前开源的GLM-5.2在代码评测中表现强劲(开源第一、全球第二),但它是纯文本模型,缺乏视觉编码器,无法处理图像和生成视觉内容。而直接对标的神级模型Fable-5则是原生多模态架构。
  • 并非技术短板:智谱并非不具备视觉能力。今年4月发布的GLM-5V-Turbo已是原生多模态的编程基座,能理解设计稿、截图并生成代码。此外,CogVLM视觉编码器也出自智谱团队,唐杰本人也有大量视觉相关研究。问题在于此前未将视觉能力整合到旗舰模型中。
  • 产品策略:唐杰曾坦言,多模态是未来,但目前对提升AGI智能上界帮助有限,更有效的方式可能是文本、多模态、多模态生成分开发展。这体现了科学家与用户视角的差异:用户关注当下能用,而团队更关注模型智能天花板。
  • 竞争压力:竞争对手已纷纷布局。Kimi K2.5(今年1月)、Qwen3.5-Omni(3月)均为原生多模态模型,Google Gemini 3更是文图音视频统一处理。GLM旗舰需要补上视觉才具有竞争力。

值得关注

唐杰的公开征集和用户集中诉求,反映出大模型竞争中产品思路与用户需求的碰撞。GLM-5.3是否会整合视觉能力,将在未来版本中揭晓。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。