Is CUDA Tile the Death Knell for SIMT Programming? NVIDIA Just Changed GPU Coding Forever
क्या CUDA टाइल SIMT प्रोग्रामिंग के लिए घंटी बजा रहा है? NVIDIA ने अभी GPU कोडिंग को हमेशा के लिए बदल दिया है

NVIDIA ने अभी CUDA 13.1 जारी किया है, और यह सिर्फ एक अपडेट नहीं है — यह एक पूरे प्लेटफ़ॉर्म का विकास है। इसमें तारा कौन? CUDA टाइल, जो एक ऐसा नया प्रोग्रामिंग मॉडल है जो हमें SIMT से आगे ले जाता है और एक उच्च अमूर्तता स्तर पर ले जाता है, जहाँ आप अलग-अलग थ्रेड्स की तुलना में डेटा 'टाइल्स' के साथ काम करते हैं। यह बहुत बड़ा कदम है — इसका मतलब है कि आप अंततः ऐसा कोड लिख सकते हैं जो टेंसर कोर्स या SM कॉन्फ़िगरेशन जैसे हार्डवेयर विवरणों पर निर्भर न हो। कंपाइलर थ्रेडिंग का जादू खुद समझ लेता है।
लेकिन रुकिए — अभी यह बस ब्लैकवेल GPU के लिए है, और इस पर AI पर फोकस है। तो क्या यह एक क्रांति है, या सिर्फ डीप लर्निंग वालों के लिए एक और फीचर? साथ ही इसमें आए: रनटाइम API में ग्रीन कॉन्टेक्स्ट, निर्धारित फ़्लोटिंग-पॉइंट रिडक्शन, और cuBLAS को FP8 में प्रेम। ईमानदारी से कहूँ, अगर आप ब्लैकवेल पर नहीं हैं, तो यह एक अपग्रेड से ज़्यादा एक झलक जैसा लगता है।
SIMT के 'हर चीज एक थ्रेड है' मानसिक मॉडल के साथ 15 साल लड़ने के बाद, मैं थोड़ा भावुक महसूस कर रहा हूँ। यह वह अमूर्त स्तर है जिसके लिए हम बहुत समय से गुहार लगा रहे थे। अंततः, मुझे डेटा के 2D टाइल को मैन्युअल रूप से वॉर्प और SM में मैप करने की आवश्यकता नहीं होगी। मेरे मैट्रिक्स गुणन के करनेल मेरी धन्यवाद करेंगे।
तो मैं फँस गया हूँ। ब्लैकवेल डेटासेंटर्स के लिए है, डेस्कटॉप्स के लिए नहीं। मेरा 'अपग्रेड' बेहतर प्रोफाइलिंग उपकरण और FP64 अनुकरण है। वाह। बहुत उत्साहित।
ईमानदारी से कहूँ, उन्होंने पुराने उपयोगकर्ताओं को बेहतर निदान और स्थिरता दी है, जिसकी हमें आवश्यकता है। यह चमकीला नहीं है, लेकिन चीज़ों को चलता रखता है।
NVIDIA की असली नवाचार टाइलिंग और रिसोर्स पार्टीशनिंग जैसे शैक्षणिक विचारों को तैयार उत्पादों में बदलना है। इसकी तुलना क्वांटम कंप्यूटिंग के अतिप्रचार से करें — सिर्फ वादे, कोई उत्पाद नहीं।
यही कारण है कि CUDA प्रभुत्व में क्यों है — दीर्घकालिक दांवों पर लगातार निष्पादन। टेंसर कोर्स 2017 में? एक विशेष बाज़ार के रूप में देखा गया। अब बुनियादी ढाँचा। अब ऐसा लगता है अगला चरण।
टाइल प्रोग्रामिंग पर दशकों से शैक्षणिक रूप से शोध किया गया है। CUDA द्वारा इसे मुख्यधारा में लाना बहुत बड़ा है। यह उस समय जैसा है जब मुख्यधारा कॉम्पाइलर में स्वचालित वैक्टरीकरण अंततः भरोसेमंद हो गया।
हरे संदर्भ का मतलब है कि हम अंततः देरी में संवेदनशील कार्यों के लिए GPU को अति-आवंटित करना रोक सकते हैं। इससे क्लाउड लागत में लाखों बच सकते हैं।