硅仙人Jim Keller的Tenstorrent芯片：以RISC-V、以太网与显式SRAM重构AI计算范式

2026/03/24 18:41阅读量 51

Tenstorrent在Jim Keller主导下摒弃传统GPU的SIMT架构，采用基于RISC-V指令核的Tensix网格化计算单元，通过显式SRAM管理消除缓存不确定性。该方案利用标准化400Gbps以太网替代昂贵的私有互连协议，实现了从单卡到机架级的低成本高扩展性互联。尽管编程模型要求开发者深度参与数据流管理，但其确定性架构为深度学习提供了更高的能效比和计算密度。

事件概述

由传奇芯片架构师Jim Keller加入的初创公司Tenstorrent，推出了一款颠覆传统GPU设计路径的AI芯片。该芯片放弃堆叠核心与显存的传统路线，转而采用网格化计算结构、RISC-V指令控制、显式SRAM管理及以太网互联技术，旨在通过确定性架构换取更高的能效与可扩展性。

核心架构创新

1. 网格化计算单元取代SIMT

拓扑结构：采用NoC（片上网络）网格结构，每个节点包含一个Tensix计算单元。节点间通过双向2D环面拓扑连接，实现低功耗与高带宽通信。
Tensix核心构成：
- 5个小型RISC-V CPU：仅负责指令分发，不参与实际计算。
- 向量单元与矩阵/张量单元：执行具体计算任务。
- 2个NoC接口：支持单向相反方向的数据传输，可并发读取以实现带宽翻倍。
- 1.5MB SRAM：用于本地数据存储。
同步机制：摒弃软件同步，采用基于硬件互斥锁和SRAM的循环缓冲区，确保数据就绪即通知，提升同步效率。

2. 显式SRAM管理：消除性能不确定性

手动数据搬运：程序员需手动管理数据在DRAM与SRAM间的搬运，彻底消除传统缓存置换带来的性能波动（“玄学”）。
分片存储优化：支持分片存储策略，默认交错访问以降低NoC拥塞风险。
原生矩阵计算：硬件原生支持32x32分块计算，专为深度学习优化。相比GPU依赖软件分块，Tenstorrent的方案显著提升了计算密度。

3. 以太网互联：低成本高扩展性

互连协议：多芯片扩展直接采用现成的400Gbps以太网，成本远低于NVLink等私有互连协议。
计算交换一体化：芯片集成计算与交换功能，支持从单卡到8颗、32颗甚至更多集群的灵活拓扑扩展（如QuietBox 8芯片拓扑），无需额外专用交换机。

编程模型与挑战

SDK与工具链

tt-Metalium：官方主推SDK，提供类似OpenCL的C++接口，涵盖设备初始化、缓存分配、内核编写及执行流程。
LLK（低层内核）：自动适配不同代际硬件的向量单元宽度差异（如Grayskull的64位至Wormhole的32位），实现代码向前兼容。
TTNN库：基于Metal之上的神经网络库，提供PyTorch风格API，但存在“泄漏抽象”风险。

潜在陷阱

内存搬运开销：由于采用分块存储，转置、切片等操作可能触发真实的物理内存搬运，导致性能显著劣化，需开发者谨慎处理。
资源管理：Python接口中需手动释放SRAM，否则可能因垃圾回收不及时引发OOM（内存溢出）错误。

核心价值总结

Tenstorrent通过放弃缓存层次结构、采用标准化以太网互联及硬件级分块计算，实现了性能与能效的确定性提升。虽然该架构要求开发者更深入地参与底层数据流管理，但换来了对资源的完全控制权，为AI芯片行业提供了一种跳出GPU思维定势的新路径。

阅读原文详情