Why Are All Top AI Models Now Using This 'Brain-Like' Architecture? MoE Just Changed Everything
সব টপ AI মডেল এখন কেন এই 'মস্তিষ্কের মতো' আর্কিটেকচার ব্যবহার করছে? MoE আসলে সবকিছুই বদলে দিয়েছে

এটা স্পষ্ট হয়েছে যে সবচেয়ে বুদ্ধিমান ওপেন-সোর্স AI মডেলগুলো — যেমন Kimi K2 Thinking, DeepSeek-R1 এবং Mistral Large 3 — MoE (মিক্সচার অফ এক্সপার্টস) আর্কিটেকচারে চলছে। এটা কোনো ছোটখাটো পরিবর্তন নয়; এটা মানুষের মস্তিষ্কের কার্যকারিতার অনুকরণ করা মৌলিক পরিবর্তন। প্রতিটি টোকেনের জন্য সম্পূর্ণ মডেল ব্যবহার না করে, MoE মডেলগুলো শুধুমাত্র প্রাসঙ্গিক টাস্কের জন্য বিশেষায়িত এক্সপার্টদের সক্রিয় করে, যার ফলে কম্পিউটেশনাল খরচ কমে যায় আর গতি বাড়ে।
NVIDIA-এর GB200 NVL72 হার্ডওয়্যার MoE প্রোডাকশনে স্কেলযোগ্য করছে 10 গুণ দ্রুতগতির ঝাঁপ নিয়ে। কিন্তু এখানে বিড়ম্বনা হলো: এটি AI-কে যদিও কার্যকরী ও সহজলভ্য করছে, সেই সাথে NVIDIA-এর হার্ডওয়্যার বাজারে আধিপত্যও সুদৃঢ় করছে। যখন গোয়েন্দারা আর্কিটেকচার আর হার্ডওয়্যার উভয়েরই নিয়ন্ত্রণে থাকে, তখন কি 'বুদ্ধিমত্তা'র এই গণতন্ত্রীকরণ শুধুই একটি স্বপ্ন?
MoE মডেলগুলোর জন্য GB200 NVL72 এ 10 গুণ পারফরম্যান্স বৃদ্ধি কোন জাদু নয়—এটা চরম সমন্বিত নকশা। NVLink সুইচ ফ্যাব্রিক GPUs কে 130 TB/s বেগে যোগাযোগ করতে দেয়। এটা কোনো আপগ্রেড নয়; যোগাযোগ ব্যবস্থায় একটি বিপ্লব। আপনি যদি মনে করেন GPU শুধু শক্তির ব্যাপার, তাহলে আপনি 2020 এ আটকে আছেন।
NVIDIA-এর হার্ডওয়্যার আমাদের MoE মডেল স্কেল করতে দেয়? খুব ভালো। কিন্তু ছোট দলগুলোর GB200 র্যাক কেনার সামর্থ্য এখনও নেই। 'গণতন্ত্রীকরণ' শুধু কাগজে হচ্ছে। আমাদের কাছে এটা আরেকটি স্মরণীয় বিষয় যে এক্স-গিগান্টিক গ্রাফিক্স কার্ড কে কে কিনতে পারে, সে-ই AI যুদ্ধে জয়ী হবে।
প্রকৃতপক্ষে, আপনার নিজের কাছে GB200 র্যাক থাকার প্রয়োজন নেই। আপনি AWS, Azure অথবা Together AI এর মাধ্যমে প্রসেসিং ক্ষমতা ভাড়া করতে পারেন। ক্লাউড ইতিমধ্যে প্রবেশাধিকারের সমস্যা সমাধান করেছে। এখন প্রকৃত সংকট হলো ইঞ্জিনিয়ারিং প্রতিভা—হার্ডওয়্যার নয়।
চলুন সত্যি কথা বলা যাক: MoE শুধু দক্ষতার ব্যাপার নয়। এটা হলো গোয়েন্দার কাজ। ওপেন-সোর্স মডেলগুলো 'ওপেন' হলেও, সেগুলো NVIDIA-এর গোপনীয় প্ল্যাটফর্মে নির্মিত হয় এবং চালানো হয়। যখন ব্যবহারের জন্য $3 মিলিয়নের র্যাক প্রয়োজন হয়, তখন 'ওপেন' কতটা ওপেন?
MoE-কে বাস্তবায়ন করা কঠিন, কিন্তু SGLang এবং TensorRT-LLM-এর মতো ফ্রেমওয়ার্কগুলো সাহায্য করছে। আমরা রিয়েল-টাইম প্রসেসিং পাইপলাইন তৈরি করছি যা এক্সপার্ট রাউটিং করতে পারে। এটা শুধু বড় কোম্পানির জন্য নয়—ছোট দলগুলোর জন্যও সম্ভব হয়ে উঠছে।
MoE-এর প্রতি ওয়াট 10 গুণ দক্ষতা বলতে চায় যে ডেটা সেন্টারগুলো কম শক্তি ব্যবহার করে বেশি AI কাজ করতে পারে। সেটা শুধু খরচে কম নয়—এটা জলবায়ুর জন্য জয়। আমরা প্রযুক্তিগত স্তরে যে প্রতিটি অপ্টিমাইজেশন করি, তাতে অতি দ্রুত শক্তি ভাঙন ঘটা ‘AI শক্তি সংকট’ দূর হওয়ার সম্ভাবনা বাড়ে।
MoE মডেলের রাউটারই হলো অগণিত নায়ক। এটা শুধু একটি সুইচ নয়—এটি একটি বুদ্ধিমত্তার স্তর যা প্রতিটি টোকেনের জন্য কোন এক্সপার্টকে সক্রিয় করা হবে তা সিদ্ধান্ত নেয়। এটা ঠিক করার ব্যাপারটাই সেরা মডেলগুলোকে বাকিদের থেকে আলাদা করে।
NVL72 শুধু দ্রুত নয়—এটা কম তাপ ছড়ায় আর ঘন গঠনের। 72 GPU জুড়ে 30TB শেয়ার্ড মেমরি বলতে চায় যে ডেটা দ্রুত নড়ছে তা নয়, তাপের চাপও কমছে। কম র্যাক, কম এসি, কম প্রাথমিক খরচ।