HiDream-O1-Image 登顶开源文生图第一,实测褒贬不一背后:UiT 架构探路,Pro 版才是底牌
智象未来开源文生图模型 HiDream-O1-Image(8B)以 Elo 1187 登顶 Artificial Analysis 开源模型第一,力压 Qwen Image(27B)和 FLUX.2 dev。该模型采用创新的 UiT 架构,将像素、文本、条件统一到同一 token space,提升效率并原生支持多任务。但实际测试显示,其在复杂指令遵循、中文文本渲染、常识一致性等方面仍有明显短板,与 GPT Image 2 差距显著。业内认为,当前 8B 版本主要是技术验证,后续 200B+ 参数的 Pro 版本才是真正的竞技者。
事件概述
2026 年 5 月,智象未来开源了文生图模型 HiDream-O1-Image(8B),在 Artificial Analysis 盲测榜单中以 Elo 1187 的分数登顶开源模型全球第一,也是前十中唯一的开源模型。但社区反应两极分化:一部分人认为“实至名归”,另一部分人则直指生成质量不佳。
核心创新:UiT 架构
HiDream-O1-Image 的核心创新是 UiT 架构。与主流方案(VAE + T5/CLIP + DiT)不同,UiT 将像素、文本、任务条件全部映射到同一个 token space 进行端到端处理,砍掉 VAE 和独立的文本编码器,减少跨模块信息损耗。这使得 8B 参数模型在多个指标上不逊于 27B 的 Qwen Image。同时,UiT 原生支持文生图、指令编辑、主题驱动个性化等多任务,而 Stable Diffusion 3.5 需加装 ControlNet 才能编辑图像,Qwen-Image 则不支持指令编辑。
代价是原生架构不兼容现有生态。SD 3.5 有成熟 LoRA 和 ControlNet,而 HiDream 的 ComfyUI 刚实现支持,LoRA 稀缺,checkpoint 格式不通用。与 GPT Image 2 相比,开箱即用的体验差距明显。
五维实测表现
-
电商海报:能生成 1:1/3:4/16:9/9:16 四种比例,画面清爽,文字渲染清晰(“0糖也好喝”“第二件半价”堪称亮点)。但缺乏商业要素(logo、价格标签),对语境理解不如 GPT Image 2 和 Midjourney。
-
漫画生成:多镜头测试中,角色一致性保持良好(红色围巾跨画面不变)。但模型无法主动理解“漫画包含文字”,需手动加入“加入中文对白”。
-
科普图解:复杂指令遵循测试(水循环流程+中文标签),五张图中一张出现地下渗透方向颠倒的常识错误。闭源模型在复杂排版和常识一致性上更稳定。
-
街景生成:巴黎咖啡馆、新加坡牛车水、广州骑楼等场景建筑形态合理,空间逻辑在线。但文字渲染出现“伪汉语”、无意义字母组合(如“OAMER”),文字缺乏语义。
-
UI 页面:界面结构看似合理,但文字系统崩坏(热量单位出现“kcal / kcl / kcs / kal”四种写法),中英文排版不统一,信息层级混乱,人脸破碎。模型不理解文字语义,仅将其作为视觉纹理。
值得关注
HiDream-O1-Image 8B 开源版本质上是一个技术验证者,证明了 UiT 架构的可行性。它的评价争议源于预期错位:若直接对标 GPT Image 2,8B 版本必然落败。其真实价值在于为后续 200B+ 参数的 Pro 版本铺路。
生态建设方面:GitHub 两周 443 stars,ComfyUI 支持,Ostris 训练工具就绪,技术报告已上线 arXiv。但中文支持、LoRA、ControlNet 等高阶玩法仍需等待。
