HiDream-O1-Image-1.5 登顶中国图像生成模型榜首,原生全模态架构进入生产验证

2026/06/10 23:43阅读量 2

智象未来(HiDream.ai)发布商用版图像生成模型 HiDream-O1-Image-1.5,在 Artificial Analysis 文生图榜单上以 1265 ELO 成为中国图像生成模型第一,超越 Google、NVIDIA 和字节跳动的竞品。该模型基于原生全模态架构 UiT,在文字渲染、复杂排版、多主体一致性和分镜叙事等任务中表现出色,已从技术验证进入生产验证阶段。

事件概述

智象未来(HiDream.ai)近期推出商用版图像生成模型 HiDream-O1-Image-1.5。该模型在独立评测平台 Artificial Analysis 的 Text to Image Leaderboard 上,以 1265 ELO(基于超4000个样本的匿名对比与用户投票)位列中国图像生成模型第一,总排名仅次于 OpenAI,超越 Google Nano Banana 2(Gemini 3.1 Flash Image Preview)、NVIDIA Cosmos3-Super-Text2Image 和字节跳动 Seedream 4.0 等主流模型。此前其开源版本 HiDream-O1-Image-Dev-2604 已登顶开源模型全球第一。

核心能力

HiDream-O1-Image-1.5 在以下方面展示了强化的生成能力:

  • 人像与动物生成:摄影级画质,皮肤纹理、肢体结构、运动形态和复杂光照(如水下折射)下保持真实感。
  • 自然风光与艺术风格:精准控制空间层次与光影,能在日系插画、国风武侠、动漫战斗等风格间切换。
  • 电商海报与文字渲染:将商品、版式、多语言文字(中英文混排、数字公式)自然融合,保持高可读性和商业质感。
  • IP形象与分镜设计:支持多视角一致的角色生成和连续叙事分镜(多宫格),适用于漫画、广告脚本、教育内容等。
  • 多层次复杂文字:可生成海报、计划书、数据看板等包含复杂排版和图文关系的场景。

架构创新:原生全模态 Unified Transformer(UiT)

HiDream-O1 系列采用不同于传统“文本编码器 + VAE + DiT/扩散模型”的路径。其 Unified Transformer(UiT) 架构将图像像素、文本 token、视频体素等多种模态映射至共享 token 空间,在统一表征中完成理解、生成与推理,避免了模块间信息转换带来的细节损耗和语义错位。该架构是模型在复杂图文融合、多主体一致性等任务上持续进步的关键,并从“技术验证”推进到“生产验证”。

意义与展望

HiDream-O1-Image-1.5 的表现表明,基于像素级原生全模态的路线正在将图像生成竞争从参数规模和画面质量,推向架构能力与工作流价值相结合的新阶段。智象未来表示将继续沿此路线推进图像、视频、动作等多模态融合,构建下一代内容生产与智能交互基础设施。

(注:原文中的体验链接、开源模型地址等已整合至信息摘要,本文不再重复。)

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。