视觉大模型倒逼边缘AI硬件重新设计:TOPS指标失效,架构围绕真实工作负载重构

2026/06/01 16:00阅读量 2

视觉大语言模型(Vision LLMs)正在推动边缘AI硬件从依赖TOPS算力竞争转向架构创新。传统NPU基于CNN设计,在注意力机制、内存带宽和异构计算等方面暴露出瓶颈。Expedera提出基于数据包(packet)的Origin架构,通过碎片化执行和专用资源调度提升实际利用率,以减少内存搬移并提升多阶段推理效率。

事件概述

随着视觉大语言模型(Vision LLMs)逐步向设备端部署,传统边缘AI硬件的设计思路面临根本性挑战。过去十年,大部分边缘AI芯片专为卷积网络(CNN)优化,但在多模态视觉-语言模型融合下,单一指标TOPS(每秒万亿次运算)已无法反映真实部署性能。

核心瓶颈

  • 模型规模膨胀:基于Transformer的视觉大模型参数达数十亿,多模态系统需将图像/视频转换为Token,导致权重、激活值和键值(KV)缓存对内存容量和带宽的需求激增。
  • 注意力机制的计算压力:缩放点积注意力的复杂度随上下文长度呈二次增长,长提示、多模态上下文的Token数量快速耗尽边缘内存带宽。
  • 工作负载异构性:典型Vision LLM流水线包含视觉编码器、Transformer层、前馈网络、归一化、向量运算等不同形状和复用模式的算子,固定执行模式会导致严重的利用率下降。

传统NPU的局限

现有NPU多按CNN的规则设计,假设规律的分层形状、可预测的平铺行为以及权重/激活/片上内存的平衡。但在Vision LLM上,逐层执行会导致激活频繁溢出到外部内存,且当计算图在视觉编码、注意力、前馈和向量密集型操作之间切换时,固定执行模式效率骤降。外部内存搬移成为功耗和延迟的主要来源。

硬件-软件协同的优化方向

  • 模型层面:采用混合或非Transformer架构、蒸馏变体、低参数化模型以降低开销。
  • 软件层面:通过量化、FlashAttention类的分块方法、推测解码降低内存压力。
  • 硬件层面:需要设计能维持高利用率并控制外部内存流量、适应多模态计算图不规则性的加速器。

新型架构探索:基于数据包的执行

Expedera的Origin架构采用了数据包(packet) 作为执行单元。数据包是网络中带有依赖关系的小型片段,它垂直穿过计算图而非逐层执行,可路由到专用处理资源(如前馈单元、注意力单元、向量单元)并实现低开销上下文切换。这种策略通过提前消费并释放中间激活,减少外部内存搬移,同时提高不同计算阶段间的持续利用率。它不改变模型语义,仅作为执行策略,因此对网络精度无影响。

总结

Vision LLMs对边缘硬件提出了融合视觉编码、序列推理与输出生成的异构负载挑战。未来的边缘AI芯片需要从单一TOPS指标转向针对真实多模态推理图的利用率、内存流量和异构调度设计,数据包化架构是应对这一需求的一个具体方向。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。