HiDream-O1-Image 登顶开源文生图第一，实测褒贬不一背后：UiT 架构探路，Pro 版才是底牌

2026/07/01 11:48阅读量 2

智象未来开源文生图模型 HiDream-O1-Image（8B）以 Elo 1187 登顶 Artificial Analysis 开源模型第一，力压 Qwen Image（27B）和 FLUX.2 dev。该模型采用创新的 UiT 架构，将像素、文本、条件统一到同一 token space，提升效率并原生支持多任务。但实际测试显示，其在复杂指令遵循、中文文本渲染、常识一致性等方面仍有明显短板，与 GPT Image 2 差距显著。业内认为，当前 8B 版本主要是技术验证，后续 200B+ 参数的 Pro 版本才是真正的竞技者。

事件概述

2026 年 5 月，智象未来开源了文生图模型 HiDream-O1-Image（8B），在 Artificial Analysis 盲测榜单中以 Elo 1187 的分数登顶开源模型全球第一，也是前十中唯一的开源模型。但社区反应两极分化：一部分人认为“实至名归”，另一部分人则直指生成质量不佳。

核心创新：UiT 架构

HiDream-O1-Image 的核心创新是 UiT 架构。与主流方案（VAE + T5/CLIP + DiT）不同，UiT 将像素、文本、任务条件全部映射到同一个 token space 进行端到端处理，砍掉 VAE 和独立的文本编码器，减少跨模块信息损耗。这使得 8B 参数模型在多个指标上不逊于 27B 的 Qwen Image。同时，UiT 原生支持文生图、指令编辑、主题驱动个性化等多任务，而 Stable Diffusion 3.5 需加装 ControlNet 才能编辑图像，Qwen-Image 则不支持指令编辑。

代价是原生架构不兼容现有生态。SD 3.5 有成熟 LoRA 和 ControlNet，而 HiDream 的 ComfyUI 刚实现支持，LoRA 稀缺，checkpoint 格式不通用。与 GPT Image 2 相比，开箱即用的体验差距明显。

五维实测表现

电商海报：能生成 1:1/3:4/16:9/9:16 四种比例，画面清爽，文字渲染清晰（“0糖也好喝”“第二件半价”堪称亮点）。但缺乏商业要素（logo、价格标签），对语境理解不如 GPT Image 2 和 Midjourney。
漫画生成：多镜头测试中，角色一致性保持良好（红色围巾跨画面不变）。但模型无法主动理解“漫画包含文字”，需手动加入“加入中文对白”。
科普图解：复杂指令遵循测试（水循环流程+中文标签），五张图中一张出现地下渗透方向颠倒的常识错误。闭源模型在复杂排版和常识一致性上更稳定。
街景生成：巴黎咖啡馆、新加坡牛车水、广州骑楼等场景建筑形态合理，空间逻辑在线。但文字渲染出现“伪汉语”、无意义字母组合（如“OAMER”），文字缺乏语义。
UI 页面：界面结构看似合理，但文字系统崩坏（热量单位出现“kcal / kcl / kcs / kal”四种写法），中英文排版不统一，信息层级混乱，人脸破碎。模型不理解文字语义，仅将其作为视觉纹理。

值得关注

HiDream-O1-Image 8B 开源版本质上是一个技术验证者，证明了 UiT 架构的可行性。它的评价争议源于预期错位：若直接对标 GPT Image 2，8B 版本必然落败。其真实价值在于为后续 200B+ 参数的 Pro 版本铺路。

生态建设方面：GitHub 两周 443 stars，ComfyUI 支持，Ostris 训练工具就绪，技术报告已上线 arXiv。但中文支持、LoRA、ControlNet 等高阶玩法仍需等待。

阅读原文详情

事件概述

核心创新：UiT 架构

五维实测表现

值得关注

准备好启动您的定制项目了吗？