SambaNova的RDU(Reconfigurable Data Flow Unit)是一种创新的AI加速器架构,采用数据流处理方式,不同于传统的指令处理流水线设计。我们来了解下,或许对我们做芯片的有一定的启发。
其最新一代产品SN40L具有以下主要特点:
核心架构特征
1. 数据流处理架构
采用静态配置的计算单元,无需传统的指令获取、解码和执行流水线
通过数据流动触发计算,提高处理效率
2. 三级内存系统
片上SRAM: ~0.5GB/芯片
HBM: 64GB/芯片
DDR: 1.5TB直接访问存储
3. 计算单元组织
PCU(Pattern Compute Unit): 主要负责计算处理
PMU(Pattern Memory Unit): 负责内存管理和地址计算
采用二维网格结构组织,通过可编程交换机互连
技术规格
制程工艺: 5nm
计算核心: ~1000个核心
计算性能: 638 BF16 TFLOPS
支持数据类型: BF16、FP32、INT32、INT8等
创新特性与优势
高效的算子融合
RDU最显著的创新在于其高效的算子融合能力:
可将整个Transformer Decoder作为单个kernel调用执行
通过编译器自动实现算子融合,无需手动编写底层代码
显著提升数据局部性和计算密度
Loop转换优化
通过Loop转换技术优化执行效率:
将重复的Decoder调用合并为单一函数调用
大幅减少kernel调用开销
提高计算资源利用率
灵活的内存系统
三级内存架构带来独特优势:
直接连接DDR实现快速模型切换
相比传统GPU可实现高达15倍的模型切换速度
更高效地支持多模型部署场景
性能表现
LLM推理性能
在16芯片配置下的Llama模型推理性能:
Llama-8B: 1100 tokens/秒
Llama-70B: 380 tokens/秒
Llama-405B: 114 tokens/秒
这些性能数据均基于BF16精度,未进行模型量化。
规模扩展能力
在16芯片系统配置下可提供:
8GB SRAM总容量
1TB HBM内存
24TB DDR存储空间
25.6TB/s的HBM带宽
应用场景
RDU架构特别适合以下场景:
大规模语言模型推理
多模型混合部署
需要频繁模型切换的应用
训练和推理一体化部署