硅仙人Jim Keller的Tenstorrent芯片:以RISC-V、以太网与显式SRAM重构AI计算范式

Tenstorrent在Jim Keller主导下摒弃传统GPU的SIMT架构,采用基于RISC-V指令核的Tensix网格化计算单元,通过显式SRAM管理消除缓存不确定性。该方案利用标准化400Gbps以太网替代昂贵的私有互连协议,实现了从单卡到机架级的低成本高扩展性互联。尽管编程模型要求开发者深度参与数据流管理,但其确定性架构为深度学习提供了更高的能效比和计算密度。

事件概述

由传奇芯片架构师Jim Keller加入的初创公司Tenstorrent,推出了一款颠覆传统GPU设计路径的AI芯片。该芯片放弃堆叠核心与显存的传统路线,转而采用网格化计算结构、RISC-V指令控制、显式SRAM管理及以太网互联技术,旨在通过确定性架构换取更高的能效与可扩展性。

核心架构创新

1. 网格化计算单元取代SIMT

  • 拓扑结构:采用NoC(片上网络)网格结构,每个节点包含一个Tensix计算单元。节点间通过双向2D环面拓扑连接,实现低功耗与高带宽通信。
  • Tensix核心构成
    • 5个小型RISC-V CPU:仅负责指令分发,不参与实际计算。
    • 向量单元与矩阵/张量单元:执行具体计算任务。
    • 2个NoC接口:支持单向相反方向的数据传输,可并发读取以实现带宽翻倍。
    • 1.5MB SRAM:用于本地数据存储。
  • 同步机制:摒弃软件同步,采用基于硬件互斥锁和SRAM的循环缓冲区,确保数据就绪即通知,提升同步效率。

2. 显式SRAM管理:消除性能不确定性

  • 手动数据搬运:程序员需手动管理数据在DRAM与SRAM间的搬运,彻底消除传统缓存置换带来的性能波动(“玄学”)。
  • 分片存储优化:支持分片存储策略,默认交错访问以降低NoC拥塞风险。
  • 原生矩阵计算:硬件原生支持32x32分块计算,专为深度学习优化。相比GPU依赖软件分块,Tenstorrent的方案显著提升了计算密度。

3. 以太网互联:低成本高扩展性

  • 互连协议:多芯片扩展直接采用现成的400Gbps以太网,成本远低于NVLink等私有互连协议。
  • 计算交换一体化:芯片集成计算与交换功能,支持从单卡到8颗、32颗甚至更多集群的灵活拓扑扩展(如QuietBox 8芯片拓扑),无需额外专用交换机。

编程模型与挑战

SDK与工具链

  • tt-Metalium:官方主推SDK,提供类似OpenCL的C++接口,涵盖设备初始化、缓存分配、内核编写及执行流程。
  • LLK(低层内核):自动适配不同代际硬件的向量单元宽度差异(如Grayskull的64位至Wormhole的32位),实现代码向前兼容。
  • TTNN库:基于Metal之上的神经网络库,提供PyTorch风格API,但存在“泄漏抽象”风险。

潜在陷阱

  • 内存搬运开销:由于采用分块存储,转置、切片等操作可能触发真实的物理内存搬运,导致性能显著劣化,需开发者谨慎处理。
  • 资源管理:Python接口中需手动释放SRAM,否则可能因垃圾回收不及时引发OOM(内存溢出)错误。

核心价值总结

Tenstorrent通过放弃缓存层次结构、采用标准化以太网互联及硬件级分块计算,实现了性能与能效的确定性提升。虽然该架构要求开发者更深入地参与底层数据流管理,但换来了对资源的完全控制权,为AI芯片行业提供了一种跳出GPU思维定势的新路径。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。