NVIDIA Just Broke the Simulation: Is CUDA Tile the End of Traditional GPU Programming?
英伟达刚刚打破模拟:CUDA Tile会终结传统GPU编程吗?

developer.nvidia.com
CUDA 13.1 isn't just an update—it's a full-scale reimagining of what GPU computing can be. The big news? CUDA Tile. This tile-based programming model abstracts away the SIMT layer and lets you define computation on chunks of data called 'tiles'. No more manually managing thread hierarchies; now, you declare what math should run, and the system figures out how to distribute it across threads and tensor cores. It's like going from assembly to Python for GPUs.
CUDA 13.1不只是个更新,而是对GPU计算可能性的全面重构。最大亮点?CUDA Tile。这种基于‘块’(tile)的编程模型将SIMT层抽象掉,让你直接在名为‘tiles’的数据块上定义计算。再也不用手动管理线程层级了;你现在只需声明‘要算什么’,系统自动决定‘怎么分配到线程和张量核心上’。这就像让GPU编程从汇编语言跃迁到了Python。
But it's not all sunshine. CUDA Tile is currently only supported on Blackwell GPUs—meaning most of us are locked out for now. And while the new green contexts and deterministic reductions sound powerful, this feels like NVIDIA is optimizing for AI giants, not the indie dev or academic researcher. Is this progress, or just another walled garden?
但并非一片光明。CUDA Tile目前仅支持Blackwell系列GPU——意味着我们大多数人现在还用不上。尽管新推出的绿色上下文和确定性归约听起来很强大,但这感觉像是英伟达在为AI巨头优化,而非独立开发者或学术研究者。这是进步,还是又一个封闭花园?
我花了好几年才精通线程同步和warp优化。现在他们却让我忘掉这一切去写tile代码?这感觉就像刚学会弹钢琴,就被人要求忘掉指法,去用合成器。没错,合成器可能更强大,但我的肌肉记忆去哪了?
你们都搞错重点了。这不只是替换旧代码,而是为了规模化释放AI潜力。Tile编程抽象了张量核心,你的核函数会自动为其优化。绿色上下文?那是自动驾驶系统的实时计算基石。如果你不搞大模型或自动驾驶,可能看不到价值。但未来已经到了。
我理解这份雄心,但CUDA Tile仅支持Blackwell,感觉像是种背叛。许多大学仍在使用Pascal或Turing架构的硬件。我们无法一夜之间升级到Blackwell。这再次将产业置于学术之上。
说得有理。硬件差距确实存在。但看看CUB里新的确定性归约功能——这或许能提升研究中的可复现性。虽不完美,但聊胜于无。
绿色上下文对GPU上的微服务是颠覆性的。终于,我们能让低延迟推理与批量训练互不争抢资源。这才是生产级的理智设计。
所以我得先花3万美元买GPU才能试用新tile功能?英伟达真说:‘给你一辆酷炫新车…但你得先买下整座工厂。’
真正的赢家是GPU到GPU的确定性归约。对科学计算而言,可复现性不是奢侈品,而是基石。英伟达终于听进去了。
我们已将MoE核函数迁移到CUDA Tile。理论上快4倍,实测3.7倍。如果你还在写SIMT循环,那你就是白白浪费性能。