ChatGPT Voice Just Got a Brain Upgrade — Why Are We Still Muting an Animated Circle?
চ্যাটজিপিটি ভয়েস এখন আরও বুদ্ধিমান হয়েছে — আমরা এখনও কেন একটি ঘূর্ণায়মান নীল বৃত্তকে মিউট করছি?

অবশেষে ওপেনএআই বুঝেছে যে ‘ভয়েস মোড’-এ পরিবর্তন করা এমন ছিল যেন কথা বলতে আপনাকে বাড়ির আরেকটি ঘরে যেতে হচ্ছে। এখন আপনি চ্যাট করতে পারবেন, শুনতে পারবেন, কিন্তু পাঠ্যটি দেখতেও পারবেন—ছবি ও মানচিত্রসহ—এবং আপনার জায়গা হারাবেন না। বিপ্লবী? না। বুদ্ধিমান সিদ্ধান্ত? অবশ্যই।
সবচেয়ে আনন্দদায়ক অংশ কী? আপনি আর মিস করা উত্তর পুনরায় পড়ার জন্য ভয়েস মোড থেকে বেরোবেন না। আর নেই, 'ওহ, আগে কী বলল?' এ ধরনের মুহূর্ত। তবু, আপনাকে এখনও হাতে করে 'শেষ' বাটন চাপতে হবে আবার টেক্সটে ফিরতে। ওপেনএআই, আমার আঙুল কোনো মাইক বাটন নয়।
মাল্টিমোডাল ইউজার এক্সপেরিয়েন্সের ক্ষেত্রে এটি আসলেই একটি বড় জয়। প্রধান চ্যাটে ভয়েস যুক্ত করে কথোপকথনের ধারাবাহিকতা বজায় রাখা হয়। ভিজ্যুয়াল কনটেক্সট (ছবি, মানচিত্র) অডিও উত্তরের সময় দৃশ্যমান থাকা সহায়তা এবং বাস্তব ব্যবহারের জন্য খুব গুরুত্বপূর্ণ। অনেক দেরি হয়েছিল আসলে। আর যদি তারা কথা বলা শেষ হওয়া অটো ধরতে পারত, না চেপে 'শেষ' করার জন্য বাধ্য করা হত।
আমি এখনও এআই-এর সাথে কথা বলতে বিশ্বাস করি না। যদি সে আমার কথা ভুল বুঝে কোয়েটো নয়, কিয়েভে সফরের টিকিট বুক করে দেয়? আরও ভয়ঙ্কর—অর্ধেক বাক্য শুনে আইনি পরামর্শ দেয়?
কম দৃষ্টিশক্তি বা মোটর সমস্যা আছে এমন মানুষদের জন্য ভয়েস চ্যাটের সময় রিয়েল-টাইম ভিজ্যুয়াল শুধু সাহায্যকারী নয়—অপরিহার্য। এই একীভূতকরণের অর্থ হলো স্ক্রিন রিডার এবং ভয়েস উভয়ের উপর নির্ভরশীল কেউ তথ্য নিজে থেকে যাচাই করতে পারেন। এটা এগিয়ে যাওয়ার বড় লাফ।
দেডিকেটেড ভয়েস মোডটি তারা ছেড়ে দিচ্ছে—এটি ভবিষ্যৎ কোথায় চলছে তা বলে দেয়। একীভূত চ্যাট অভিজ্ঞতা প্রাধান্য পাবে। টেক্সট, ভয়েস এবং ভিজ্যুয়ালের মধ্যে ভাগ মুছে যাচ্ছে—এবং এটা এমনই ডিজাইন করা।
আমি কেবল সোফায় শুয়ে ফোনকে ঝাঁপিয়ে পড়ার আদেশ দিতে চাই। এখন পারি। জীবন = আপগ্রেড।
সম্মত। অটো স্পিচ ডিটেকশন পরবর্তী সীমানা। এখনো মনে হয় আমরা নিজে হাত দিয়ে কারের দরজা বন্ধ করছি—তাও একটি সম্পূর্ণ স্বয়ংচালিত দুনিয়ায়।
আমি আধ-ঘুমিয়ে কানে ইয়ারবাড লাগানো অবস্থায় কোনো বিদ্রোহী এআই কী কথা বললে, 'ওহ, তুমি মা-কে হতাশ করো বলে মনে করে' এমন কিছু বলে ফেললে?
মাল্টিমোডাল ইন্টারফেসে বিশ্বাস তৈরি করা শুধু ইঞ্জিনিয়ারিং নয়—মনস্তত্ত্বও। আমাদের কেবল ফিচার নয়, আরও বেশি নিরাপত্তার ব্যবস্থা দরকার।