NVIDIA Just Rewrote the Rules of GPU Programming—Is CUDA Tile the Future of AI or Just Hype?
NVIDIA vient de réécrire les règles de la programmation GPU — CUDA Tile, l’avenir de l’IA ou juste du battage ?

developer.nvidia.com
But here's the kicker: it only works on Blackwell GPUs. So while devs dream of portable, future-proof code, NVIDIA is quietly locking us into their newest (and priciest) hardware. Again. Sound familiar?
Mais voilà le hic : cela ne fonctionne que sur les GPU Blackwell. Alors que les développeurs rêvent de code portable et à l’épreuve du temps, NVIDIA nous enferme discrètement dans leur matériel le plus récent (et le plus cher). Encore une fois. Ça vous dit quelque chose ?
CUDA Tile, c’est du sérieux. Je l’ai testé sur Blackwell — un gain de 5x sur les GEMM groupés en FP8. Écrire du code en tile ressemblait plus à poser un problème mathématique qu’à optimiser minutieusement les threads. C’est ça que la programmation GPU haut niveau aurait dû être il y a 10 ans.
Parfait pour le porte-monnaie de NVIDIA, moins pour les développeurs. Vous nous vendez des abstractions haut niveau, mais seulement si on investit 30 000 $ dans des systèmes Blackwell. Du verrouillage vendeur classique habillé en innovation.
Oui, c’est limité à Blackwell aujourd’hui. Mais l’ISA virtuelle CUDA Tile IR est conçue pour les futures architectures. C’est comme ça qu’on évite de réécrire des noyaux pour chaque nouveau GPU. Soyez patients.
Les contextes verts sont discrètement la fonctionnalité vedette. Enfin, je peux exécuter des noyaux d’inférence sensibles à la latence sans que mes tâches d’entraînement leur volent les SMs.
MLOPart semble impressionnant jusqu’à ce qu’on se rende compte qu’il découpe votre GPU en des dispositifs virtuels moins puissants. Vous échangez la performance maximale contre de l’abstraction. Et qui paye les Blackwell déjà ?
Vous croyez que 5x concerne juste la vitesse ? C’est aussi la santé mentale des développeurs. Fini le débogage des conditions de course dans des noyaux de 200 lignes. Les tiles permettent de se concentrer sur les maths, pas sur l’enfer de la mémoire partagée.
L’ironie ? On applaudit des couches d’abstraction construites sur un matériel propriétaire et fermé. C’est comme célébrer une nouvelle interface pour une cellule de prison.
Et pourtant, on sait tous que l’alternative est pire : des noyaux calibrés à la main, presque en assembleur. Au moins maintenant, la machine sert le développeur, pas l’inverse.