视觉大模型倒逼边缘AI硬件重新设计：TOPS指标失效，架构围绕真实工作负载重构

2026/06/01 16:00阅读量 2

视觉大语言模型（Vision LLMs）正在推动边缘AI硬件从依赖TOPS算力竞争转向架构创新。传统NPU基于CNN设计，在注意力机制、内存带宽和异构计算等方面暴露出瓶颈。Expedera提出基于数据包（packet）的Origin架构，通过碎片化执行和专用资源调度提升实际利用率，以减少内存搬移并提升多阶段推理效率。

事件概述

随着视觉大语言模型（Vision LLMs）逐步向设备端部署，传统边缘AI硬件的设计思路面临根本性挑战。过去十年，大部分边缘AI芯片专为卷积网络（CNN）优化，但在多模态视觉-语言模型融合下，单一指标TOPS（每秒万亿次运算）已无法反映真实部署性能。

核心瓶颈

模型规模膨胀：基于Transformer的视觉大模型参数达数十亿，多模态系统需将图像/视频转换为Token，导致权重、激活值和键值（KV）缓存对内存容量和带宽的需求激增。
注意力机制的计算压力：缩放点积注意力的复杂度随上下文长度呈二次增长，长提示、多模态上下文的Token数量快速耗尽边缘内存带宽。
工作负载异构性：典型Vision LLM流水线包含视觉编码器、Transformer层、前馈网络、归一化、向量运算等不同形状和复用模式的算子，固定执行模式会导致严重的利用率下降。

传统NPU的局限

现有NPU多按CNN的规则设计，假设规律的分层形状、可预测的平铺行为以及权重/激活/片上内存的平衡。但在Vision LLM上，逐层执行会导致激活频繁溢出到外部内存，且当计算图在视觉编码、注意力、前馈和向量密集型操作之间切换时，固定执行模式效率骤降。外部内存搬移成为功耗和延迟的主要来源。

硬件-软件协同的优化方向

模型层面：采用混合或非Transformer架构、蒸馏变体、低参数化模型以降低开销。
软件层面：通过量化、FlashAttention类的分块方法、推测解码降低内存压力。
硬件层面：需要设计能维持高利用率并控制外部内存流量、适应多模态计算图不规则性的加速器。

新型架构探索：基于数据包的执行

Expedera的Origin架构采用了数据包（packet） 作为执行单元。数据包是网络中带有依赖关系的小型片段，它垂直穿过计算图而非逐层执行，可路由到专用处理资源（如前馈单元、注意力单元、向量单元）并实现低开销上下文切换。这种策略通过提前消费并释放中间激活，减少外部内存搬移，同时提高不同计算阶段间的持续利用率。它不改变模型语义，仅作为执行策略，因此对网络精度无影响。

总结

Vision LLMs对边缘硬件提出了融合视觉编码、序列推理与输出生成的异构负载挑战。未来的边缘AI芯片需要从单一TOPS指标转向针对真实多模态推理图的利用率、内存流量和异构调度设计，数据包化架构是应对这一需求的一个具体方向。

阅读原文详情

事件概述

核心瓶颈

传统NPU的局限

硬件-软件协同的优化方向

新型架构探索：基于数据包的执行

总结

准备好启动您的定制项目了吗？