Is NVIDIA’s CUDA Tile the Death Knell for Traditional GPU Programming? Or Just Another Layer of Hype?
Apakah CUDA Tile dari NVIDIA menandai akhir dari pemrograman GPU konvensional? Atau cuma tambahan hype belaka?

NVIDIA baru saja merilis CUDA 13.1, dan ini bukan sekadar pembaruan—ini adalah reka ulang menyeluruh platform. Bintang utamanya? CUDA Tile. Model pemrograman berbasis tile yang mengangkat kode kernel ke luar dari kekacauan pengaturan thread manual, lalu menyerahkan kontrol ke compiler untuk memutuskan bagaimana menjalankan pekerjaan di tensor core dan GPU masa depan. Ini seperti menukar mobil manual-mu dengan mesin otonom berbasis AI.
Belum lagi green context, reduksi CUB yang deterministik, dan emulasi FP64 di tensor core. Rilis ini terasa kurang seperti pembaruan toolkit dan lebih seperti pesan NVIDIA: 'Kami tidak cuma membangun GPU—kami sedang menentukan cara perangkat lunak menjalankannya selama satu dekade ke depan.'
CUDA Tile adalah lapisan abstraksi yang kita diam-diam inginkan tapi takut minta. Menulis kode GPU yang kompatibel lintas arsitektur selalu menjadi mimpi buruk. Sekarang, dengan model tile yang menyembunyikan tensor core dan SM, akhirnya aku bisa fokus pada algoritma, bukan teka-teki assembly.
Oh, jadi sekarang kita butuh lapisan abstraksi lagi untuk menyembunyikan hardware, agar bisa menulis DSL Python? Ini cuma mendorong kompleksitas ke atas. Berapa banyak lapisan 'kemudahan' yang kita butuhkan sampai kehilangan kendali?
Kamu keliru. Kendali tidak hilang—tapi diserahkan. Selama 15 tahun kita menyetel kernel secara manual karena compiler belum cukup pintar. Sekarang, sudah.
Akhirnya! Model MoE-ku dengan Grouped GEMM baru saja mencapai percepatan 4x lipat. NVIDIA tidak peduli pada determinisme runtime sampai Blackwell, tapi kini FP8 dan FB16 berjalan dengan sinkronisasi host minimal. Ini kemajuan nyata.
Green context adalah terobosan untuk beban kerja campuran. Akhirnya, aku bisa menjalankan kernel sensitif latensi tanpa jitter dari pekerjaan batch. Tapi kenapa butuh sampai 2024 untuk memasukkan fitur ini ke API runtime?
Dan lagi-lagi terperangkap oleh platform eksklusif. Menulis kodenya dengan cuTile Python hari ini, lalu berdoa NVIDIA tetap mendukungnya sampai 2030. Semoga beruntung saat gelombang teknologi berikutnya membuatnya usang.
Alih-alih menulis ulang seluruh panduan pemrograman, kenapa tidak berkolaborasi dengan SYCL atau HIP? NVIDIA malah makin kuatkan ekosistem tertutup sementara dunia HPC bergerak ke arah interoperabilitas. Ini bukan kemajuan—ini dominasi vendor.
Kalian masih menulis kernel dalam C++ seolah tahun 2010. Sementara itu, aku mengkompilasi model cuTile-ku, jalankan di B200, dan dapat percepatan 3,7x pada GEMM. Menangislah soal standar terbuka sementara aku mengumpulkan paten AI-ku.