$CBRS
BULLISH2026-05-13$CBRS 假设 Cerebras 跟 CPO 结合起来,能否成为一台为极致推理而生的性能巨兽? Cerebras WSE-3 的片上 SRAM 带宽是 21 PB/s,这个数字只对已经在片上的数据有效。一旦模型大到装不进单台 CS-3 的 44GB SRAM,就需要多台 CS-3 协同,activation 在机器之间流动。这段片间互联走的是 SwarmX 以太网 fabric,12 条 100GbE 链路,总带宽约 150 GB/s,跟片上 21 PB/s 差了超过十万倍。这是 Cerebras 部署 frontier model 时性能出现断崖的根本原因,也是 OpenAI 选择蒸馏小模型而不用 weight streaming 跑完整 GPT-5.3 的底层逻辑。 如果把 CPO引入 CS 系统,把光引擎直接封装到 WSE 的 package 上,片间互联带宽有望从现在的 150 GB/s 跳到几十 TB/s,提升两个数量级。电信号不用走长距离 PCB trace 再到外挂光模块,直接在芯片旁边完成电光转换,延迟更低,功耗更低,信号完整性更好。 跑一个万亿参数模型可能需要 20 到 30 台 CS 系统,权重全部常驻在各台机器的片上 SRAM 里不动,activation 通过 CPO 在机器之间高速流动。每台 CS 内部是 21 PB/s 的片上带宽处理几十层计算,跨机传一个几 MB 的 activation tensor 在几十 TB/s 的 CPO 下只需要亚微秒级延迟,基本可以被藏在计算延迟后面。系统的有效带宽会非常接近"全部在片上"的体验。 这种配置下 Cerebras 对 GPU 方案的带宽优势是碾压级的,NVIDIA 再怎么升级 HBM 也追不上 SRAM + CPO 的组合。对比 NVIDIA 刚收购的 Groq 多芯片方案也有数量级优势,C
View on X ↗