Artificial Intelligence অনেক বড় রিসার্চ এবং ডেভেলপমেন্ট ফিল্ড। এটার টার্গেটও অনেক বড়। স্বাভাবিকভাবেই এত বড় টার্গেট একসাথে এচিভ করা সম্ভব না। এ কারণে শুরুতে ছোট ছোট ফিল্ডেই মূলত ফোকাস করে কাজ করা হয়েছে। যেমন শুধুমাত্র Natural Language Processing একটা রিসার্চ ফিল্ড যেটা কিনা AI এর একটা sub-field বলা যেতে পারে। একই রকমভাবে Sound/Speech Recognition, Computer Vision নামে আলাদা ফিল্ডে একেকটা স্পেসিফিক প্রব্লেমের উপর ফোকাস করে কাজ করা হয়। আবার এই ফিল্ডগুলোর কম্বাইন্ড নলেজকে কাজে লাগিয়েই চেষ্টা করা হচ্ছে Autonomous Agent/System বানানোর। যেমন আপনি যদি Self-driven Car বা AI Robot দেখে থাকেন, সেখানে কিন্তু AI এর অনেকগুলো ফিল্ডের নলেজকে কাজে লাগানো হয় একটা Autonomous সিস্টেম বানানোর জন্য।
স্পেসিফিক একেকটা কাজে এক্সপার্ট AI কে অনেক সময় Narrow AI বা Artificial Narrow Intelligence (ANI) বলা হয়। আমরা এখন পর্যন্ত যত AI টুল দেখছি সেগুলো মূলত এরকম একেকটা স্পেসিফিক ফিল্ডের এক্সপার্ট AI। যেমন Github Co-pilot এর মত টুলগুলো কোড কমপ্লিশন বা কোড জেনারেট করতে এক্সপার্ট। আবার একই রকমভাবে ইমেজ রিকগনিশন, স্প্যাম ইমেইল ফিল্টারিং এর জন্য ব্যবহৃত AI গুলো শুধু ওই কাজেই এক্সপার্ট। বেশীরভাগ ক্ষেত্রে এই AI গুলো এই রকম স্পেসিফিক কাজে মানুষের থেকেও অনেক দ্রুত এবং দক্ষতা দেখাতে সক্ষম। তবে এদের দূর্বলতা হচ্ছে এরা একটা স্পেসিফিক কাজেই পারদর্শী। যেই স্পেসিফিক কাজের জন্য এদের ট্রেইন করা হয়েছে, তাঁর বাইরে এদের কোনো কিছু করার সুযোগ নেই।
কথা প্রসঙ্গে আরেকটা টার্ম জেনে রাখা দরকার। Unimodal এবং Multimodal AI.
এখানে Modality বলতে মূলত বোঝানো হচ্ছে input বা data source কে। অর্থাৎ যে AI গুলো একটা সিংগেল ইনপুট সোর্স থেকে ডাটা নিয়ে প্রসেস করে কাজ করতে পারে সেগুলো হচ্ছে Unimodal AI, আরে যেগুলো একাধিক ইনপুট সোর্সকে কাজে লাগাতে পারে সেগুলো Multimodal AI.
ইনপুট সোর্স হতে পারে Text, Audio, Image, Video ইত্যাদি।

যেমন কোনো Speech to Text conversion AI কে বলা যায় Unimodal AI। কারণ এটা কেবলমাত্র Audio ইনপুটকে প্রসেস করে এবং পরে নির্দিস্ট টেক্সট ডাটার সাথে ম্যাপ করে রেজাল্ট দেয়। কিন্তু যেই AI টুলে আমরা হয়তো একটা ইমেজ দিয়ে জিজ্ঞেস করলাম 'এই ইমেজে কি আছে বলো?' বা এরকম কোনো প্রশ্নের উত্তর চাইলে সেটা যদি দিতে পারে তাহলে একে বলা যাবে MultiModal AI। কারণে এক্ষেত্রে AI কে শুধু image ডাটা দিয়ে ট্রেইন করলেই হচ্ছে না, বরং পর্যাপ্ত পরিমাণ টেক্সট ডাটা দিয়েও ট্রেইন করানো লাগবে যাতে করে সে ইমেজ থেকে কি বুঝতে পারলো, সেটা আবার সুন্দরভাবে বলতে পারে। একইরকমভাবে কোনো AI টুল যদি একটা Video থেকে ভিডিওতে যা দেখানো হচ্ছে সেটার সেন্টিমেন্ট এনালাইসিস করা বা Summary বের করতে পারে তাহলে সেটাও Multimodal AI।
চোখ কান খোলা রাখলে আপনি হয়তো অলরেডি আরেকটা টার্ম শুনে থাকবেন, AGI (Artificial General Intelligence) বা SuperIntelligence, যেটা বানানোর জন্য বড় বড় টেক জায়ান্টগুলোতে তুমুল কম্পিটিশন চলছে। যারাই আগে এটা বানিয়ে ফেলতে পারবে বর্তমান AI এর রেইসে তাঁরাই এগিয়ে যাবে। এই AGI বলতে বোঝানো হয় সাইন্স ফিকশন মুভির মত 'আসল AI’ যেটা কিনা সত্যিকার অর্থেই মানুষের মত শিখতে, চিন্তা করতে এবং ইনটেলিজেন্টলি আচরণ করতে পারবে। এই AGI নির্দিস্ট একটা ডোমেইনে বা স্পেসিফিক কাজে সীমাবদ্ধ থাকবে না। একসাথে অনেক কাজের এক্সপার্ট হবে। তবে এখনো কোম্পানিগুলো এর ধারেকাছেও যেতে পারেনি।
AGI বা SuperIntelligence কি আসলেই বানানো সম্ভব?
এটা নিয়ে বিভিন্নরকমের মত আছে। থিওরেটিক্যাল বা টেকনিক্যাল পয়েন্ট অফ ভিউ থেকে আলোচনা করে কেউ কেউ দেখানোর চেষ্টা করেছেন এটা সম্ভব না। খুব সহজ উদাহরণ হিসেবে বলা যায় Swiss army knife এর কথা। এটা দিয়ে অনেক কাজ করা যায়, যেমন কাটাকাটি করা, স্ক্রু ড্রাইভিং ইত্যাদি। কিন্তু সেটা খুব ব্যাসিক বা স্মল স্কেলে। সাধারণ একটা ছুরি দিয়ে এর চাইতে যেমন ভালো কাটাকুটি করা যায় আবার একটু বড় মাপের স্ক্রু সামনে পড়লে আর Swiss army knife দিয়ে কাজ হবে না। অর্থাৎ কোনো একটা স্পেসিফিক কাজের জন্য টুল অবশ্যই জেনারালাইজড টুল থেকে ঐ কাজে ভালো পারফর্ম করবে। আমরা কিন্তু AI এর ক্ষেত্রেও এই মুহুর্তে সেরকমই দেখতে পাই। Claude, Github Copilot এর মত টুলগুলো যেমন স্পেসিফিক্যালি কোডিং রিলেটেড কাজের জন্য চমৎকার পারফর্ম করে, Gemini আবার সেই তুলনায় কোডিং এ তেমন ভালো না কিন্তু ভিডিও জেনারেশন বা ডিপ রিসার্চে ভালো রেজাল্ট দেয়।
এই রিলেটেড একটা চমৎকার আলোচনা পাওয়া যাবে এই ভিডিওতেঃ
https://www.youtube.com/watch?v=4bmpdrP5kI0
তবে AGI বানানো আসলেই সম্ভব কিনা সেটা নিয়ে তর্ক না করে প্রশ্নটা ভবিষ্যতের জন্যই তোলা থাক।
Note:
ANI, AGI এর সাথে Unimodal, Multimodal টা একটু প্যাচ লাগতে পারে। সহজভাবে পার্থক্য বুঝতে হলে এভাবে চিন্তা করা যায়ঃ
Unimodal, Multimodal এর ক্ষেত্রে মূলত 'types of data' এর ভিত্তি করে ভাগ করা হয়। অর্থাৎ এক বা একাধিক রকমের ডাটা নিয়ে কাজ করতে পারে কিনা তাঁর উপর বলা হবে এটা Unimodal নাকি Multimodal.
আর ANI, AGI তে 'scope of intelligence' এর উপর। অর্থাৎ এক বা একাধিক ভিন্ন ভিন্ন ডোমেইনে কাজের এক্সপার্টাইজ আছে কিনা তাঁর উপর এটাকে বলা হবে ANI বা AGI.
এ কারণে Unimodal ANI এর উদাহরণ হতে পারে এমন একটা AI যেটাকে ইমেজ দিলে সেটা কি 'Cat’ নাকি ‘Dog’ এই ক্লাসিফিকেশন করতে পারে। আবার Multimodal ANI হতে পারে এরকম যেটাকে কোনো একটা UI ডিজাইন স্ক্রিনশট দিয়ে সাথে যদি বলে দেয়া হয়, ‘Build a similar UI with tailwind CSS’ এবং মডেলটা সেটা করতে পারে।
এখনকার সময়ে AI টুলগুলো Multimodal ANI কেই আরও বেশী কাজে লাগানোর চেষ্টা করছে।
No Comments Yet