STMicroelectronics 推出 HSP 硬件加速器:将超低功耗 STM32U3 转化为 AI 处理核心
意法半导体(STMicroelectronics)正式发布硬件信号处理器(HSP),作为内置于 STM32U3 系列微控制器的专用加速单元,旨在解决超低功耗设备运行复杂算法的瓶颈。实测数据显示,HSP 在傅里叶变换等 DSP 任务上性能可达传统 Cortex-M33 核心的 13 倍,且相比高功耗的 Cortex-M55 核心提供约 3 倍的能效优势。该架构通过简化开发流程并支持 TensorFlow Lite for MCU,使原本无法运行边缘 AI 应用的超低功耗设备具备了实现关键词识别、图像分类等能力。
事件概述
意法半导体(STMicroelectronics)正式推出硬件信号处理器(Hardware Signal Processor, HSP)。这是一款集成在微控制器内部的专用硬件加速单元,首批应用于配备 2MB Flash 的新款 STM32U3B5/C5 设备。HSP 的设计初衷是在不牺牲超低功耗特性的前提下,显著提升设备的计算能力,使其能够直接运行复杂的数字信号处理(DSP)和轻量级人工智能(AI)算法。
核心性能数据
根据 ST 内部基准测试,HSP 在特定算法上的表现如下:
- 对比 Cortex-M33:在运行 32 位定点/浮点复数快速傅里叶变换(FFT)及实数 FFT 时,HSP 性能最高提升 13 倍。
- 对比 Cortex-M55 (含 MVE/Helium):在相同算法下,HSP 提供约 3 倍 的性能优势,同时保持更低的功耗。
- 对比无 HSP 的 STM32U3:整体能效提升 3 倍。
- 对比 STM32U5:能效提升 9 倍。
- AI 应用加速:运行关键词检测、图像分类或视觉唤醒词算法时,相比使用 TensorFlow Lite for MCU 的 Cortex-M33,性能提升 6 至 9 倍;相比同核心但使用 STM32Cube AI Studio 的设备,提升 3 倍。
技术优势与特性
- 无需外部组件:与传统方案不同,HSP 无需额外的外部 DSP 芯片,减少了 PCB 布局复杂度、物料成本(BoM)及潜在的故障点。
- 开发简化:通过 ST 的硬件抽象层(HAL),开发者仅需调用少量 API 即可使用 HSP,无需像传统 DSP 那样进行繁琐的固件迭代和底层配置。同时兼容 CMSIS-DSP API,确保代码在不同搭载 HSP 的 MCU 间具有可移植性。
- 能效优化:虽然启用 HSP 会略微增加绝对功耗,但由于其极高的运算速度大幅缩短了任务执行时间,整体系统能耗显著降低。部分边缘 AI 应用场景的能效甚至翻倍。
应用场景与演示
HSP 使得原本因算力不足而无法运行 AI 的超低功耗设备成为可能。在 Embedded World 2026 展会上,ST 展示了基于环境光供电的“无电池”演示系统:
- 系统由有机光伏模块供电,驱动两块 STM32U3 板卡。
- 一块板卡搭载摄像头,利用 HSP 运行人体检测算法。
- 另一块板卡仅负责显示检测结果。
- 这是首次展示仅依靠环境光能量即可运行机器学习算法的系统。
未来,ST 计划将 HSP 集成到更多系列的 MCU 中,以进一步拓展边缘 AI 的应用边界。
