জেমা ৪ মডেলের সংক্ষিপ্ত বিবরণ

জেমা হলো জেনারেটিভ কৃত্রিম বুদ্ধিমত্তা মডেলের একটি পরিবার এবং আপনি এগুলোকে প্রশ্নোত্তর, সারসংক্ষেপ তৈরি এবং যুক্তিনির্মাণ সহ বিভিন্ন ধরণের জেনারেশন টাস্কে ব্যবহার করতে পারেন। জেমা মডেলগুলো ওপেন ওয়েট সহ সরবরাহ করা হয় এবং দায়িত্বশীল বাণিজ্যিক ব্যবহারের অনুমতি দেয়, যা আপনাকে আপনার নিজস্ব প্রজেক্ট এবং অ্যাপ্লিকেশনে এগুলো টিউন ও ডেপ্লয় করার সুযোগ দেয়।

জেমা ৪ মডেল পরিবারটি তিনটি স্বতন্ত্র স্থাপত্যশৈলী নিয়ে গঠিত, যা নির্দিষ্ট হার্ডওয়্যারের প্রয়োজনীয়তা অনুসারে তৈরি করা হয়েছে:

  • ছোট আকার: আলট্রা-মোবাইল, এজ এবং ব্রাউজারে (যেমন, পিক্সেল, ক্রোম) স্থাপনের জন্য নির্মিত ২বি এবং ৪বি কার্যকরী প্যারামিটার মডেল।
  • ডেন্স: একটি শক্তিশালী ৩১ বিলিয়ন প্যারামিটার বিশিষ্ট ডেন্স মডেল যা সার্ভার-গ্রেড পারফরম্যান্স এবং লোকাল এক্সিকিউশনের মধ্যেকার ব্যবধান পূরণ করে।
  • বিশেষজ্ঞদের মিশ্রণ: উচ্চ-ক্ষমতাসম্পন্ন ও উন্নত যুক্তির জন্য ডিজাইন করা একটি অত্যন্ত কার্যকর ২৬বি MoE মডেল।

আপনি Kaggle এবং Hugging Face থেকে Gemma 4 মডেলগুলি ডাউনলোড করতে পারেন। Gemma 4 সম্পর্কে আরও প্রযুক্তিগত বিবরণের জন্য, মডেল কার্ডটি দেখুন। Gemma কোর মডেলগুলির পূর্ববর্তী সংস্করণগুলিও ডাউনলোডের জন্য উপলব্ধ। আরও তথ্যের জন্য, পূর্ববর্তী Gemma মডেলগুলি দেখুন।

Kaggle-এ এটি পান, Hugging Face-এ এটি পান।

সক্ষমতা

  • যুক্তি: এই সিরিজের সমস্ত মডেলই কনফিগারযোগ্য চিন্তন পদ্ধতিসহ অত্যন্ত সক্ষম যুক্তিবাদী হিসেবে ডিজাইন করা হয়েছে।
  • বর্ধিত মাল্টিমোডালিটি: টেক্সট, পরিবর্তনশীল অ্যাস্পেক্ট রেশিও ও রেজোলিউশন সাপোর্টসহ ইমেজ (সকল মডেলে), ভিডিও এবং অডিও প্রসেস করে (যা E2B এবং E4B মডেলে নেটিভভাবে অন্তর্ভুক্ত)।
  • বর্ধিত কনটেক্সট উইন্ডো: ছোট মডেলগুলিতে একটি ১২৮কেবি কনটেক্সট উইন্ডো থাকে, যেখানে মাঝারি মডেলগুলি ২৫৬কেবি সমর্থন করে।
  • উন্নত কোডিং ও এজেন্টিক সক্ষমতা: অন্তর্নির্মিত ফাংশন-কলিং সমর্থনের পাশাপাশি কোডিং বেঞ্চমার্কে উল্লেখযোগ্য উন্নতি সাধন করে, যা অত্যন্ত সক্ষম স্বায়ত্তশাসিত এজেন্টদের শক্তি জোগায়।
  • নেটিভ সিস্টেম প্রম্পট সাপোর্ট: জেমা ৪-এ সিস্টেম রোলের জন্য বিল্ট-ইন সাপোর্ট চালু করা হয়েছে, যা আরও সুসংগঠিত এবং নিয়ন্ত্রণযোগ্য কথোপকথন সম্ভব করে তোলে।

প্যারামিটারের আকার এবং কোয়ান্টাইজেশন

জেমা ৪ মডেলগুলো ৪টি প্যারামিটার সাইজে পাওয়া যায়: E2B, E4B, 31B এবং 26B A4B। মডেলগুলো তাদের ডিফল্ট প্রিসিশন (১৬-বিট) সহ অথবা কোয়ান্টাইজেশন ব্যবহার করে আরও কম প্রিসিশনে ব্যবহার করা যায়। এই বিভিন্ন সাইজ এবং প্রিসিশনগুলো আপনার এআই অ্যাপ্লিকেশনের জন্য কিছু সুবিধা-অসুবিধার সুযোগ তৈরি করে। বেশি প্যারামিটার এবং বিট সংখ্যার (উচ্চতর প্রিসিশন) মডেলগুলো সাধারণত বেশি সক্ষম, কিন্তু প্রসেসিং সাইকেল, মেমরি খরচ এবং বিদ্যুৎ খরচের দিক থেকে এগুলো চালানো বেশি ব্যয়বহুল। কম প্যারামিটার এবং বিট সংখ্যার (নিম্নতর প্রিসিশন) মডেলগুলোর সক্ষমতা কম, কিন্তু আপনার এআই কাজের জন্য তা যথেষ্ট হতে পারে।

জেমা ৪ অনুমানের জন্য প্রয়োজনীয় মেমরি

নিম্নলিখিত সারণিতে জেমা ৪ মডেল সংস্করণগুলির প্রতিটি আকারের সাথে ইনফারেন্স চালানোর জন্য প্রয়োজনীয় আনুমানিক জিপিইউ বা টিপিইউ মেমরির বিবরণ দেওয়া হয়েছে।

প্যারামিটার বিএফ১৬ (১৬-বিট) SFP8 (৮-বিট) Q4_0 (৪-বিট)
জেমা ৪ ই২বি ৯.৬ জিবি ৪.৬ জিবি ৩.২ জিবি
জেমা ৪ ই৪বি ১৫ জিবি ৭.৫ জিবি ৫ জিবি
জেমা ৪ ৩১বি ৫৮.৩ জিবি ৩০.৪ জিবি ১৭.৪ জিবি
জেমা ৪ ২৬বি এ৪বি ৪৮ জিবি ২৫ জিবি ১৫.৬ জিবি

সারণি ১. প্যারামিটার সংখ্যা এবং কোয়ান্টাইজেশন লেভেলের উপর ভিত্তি করে জেমা ৪ মডেল লোড করার জন্য প্রয়োজনীয় আনুমানিক জিপিইউ বা টিপিইউ মেমরি।

স্মৃতি পরিকল্পনার জন্য মূল বিবেচ্য বিষয়সমূহ

  • দক্ষ আর্কিটেকচার (E2B এবং E4B): "E" বলতে "কার্যকরী" প্যারামিটার বোঝায়। ছোট মডেলগুলোতে ডিভাইসে স্থাপনের সময় প্যারামিটারের কার্যকারিতা সর্বোচ্চ করার জন্য পার-লেয়ার এমবেডিংস (PLE) অন্তর্ভুক্ত করা হয়। মডেলে আরও লেয়ার যোগ করার পরিবর্তে, PLE প্রতিটি ডিকোডার লেয়ারকে প্রতিটি টোকেনের জন্য নিজস্ব একটি ছোট এমবেডিং দেয়। এই এমবেডিং টেবিলগুলো আকারে বড় হলেও শুধুমাত্র দ্রুত অনুসন্ধানের জন্য ব্যবহৃত হয়, যে কারণে স্ট্যাটিক ওয়েট লোড করার জন্য প্রয়োজনীয় মোট মেমরি কার্যকরী প্যারামিটার সংখ্যার চেয়ে বেশি হয়।
  • MoE আর্কিটেকচার (26B A4B): 26B হলো একটি মিক্সচার অফ এক্সপার্টস মডেল। যদিও এটি জেনারেশনের সময় প্রতি টোকেনে মাত্র ৪ বিলিয়ন প্যারামিটার সক্রিয় করে, দ্রুত রাউটিং এবং ইনফারেন্স গতি বজায় রাখার জন্য সমস্ত ২৬ বিলিয়ন প্যারামিটার অবশ্যই মেমরিতে লোড করতে হয়। এই কারণেই এর বেসলাইন মেমরির প্রয়োজনীয়তা একটি 4B মডেলের চেয়ে একটি ডেন্স 26B মডেলের অনেক বেশি কাছাকাছি।
  • শুধুমাত্র বেস ওয়েট: পূর্ববর্তী সারণীর অনুমানগুলিতে শুধুমাত্র স্ট্যাটিক মডেল ওয়েট লোড করার জন্য প্রয়োজনীয় মেমরি অন্তর্ভুক্ত করা হয়েছে। এগুলিতে সাপোর্টিং সফটওয়্যার বা কনটেক্সট উইন্ডোর জন্য প্রয়োজনীয় অতিরিক্ত VRAM অন্তর্ভুক্ত করা হয়নি।
  • কন্টেক্সট উইন্ডো (কেভি ক্যাশে): আপনার প্রম্পট এবং তৈরি হওয়া রেসপন্সে থাকা মোট টোকেনের সংখ্যার উপর ভিত্তি করে মেমোরি খরচ গতিশীলভাবে বৃদ্ধি পাবে। বেস মডেল ওয়েটের উপরে বড় কন্টেক্সট উইন্ডোগুলোর জন্য উল্লেখযোগ্যভাবে বেশি ভিআরএএম প্রয়োজন হয়।
  • ফাইন-টিউনিং ওভারহেড: জেমা মডেল ফাইন-টিউনিং করার জন্য প্রয়োজনীয় মেমরি স্ট্যান্ডার্ড ইনফারেন্সের চেয়ে অনেক বেশি। আপনার সঠিক মেমরি ফুটপ্রিন্ট মূলত ডেভেলপমেন্ট ফ্রেমওয়ার্ক, ব্যাচ সাইজ এবং আপনি ফুল-প্রিসিশন টিউনিং ব্যবহার করছেন নাকি লো-র‍্যাঙ্ক অ্যাডাপটেশন (LoRA)-এর মতো কোনো প্যারামিটার-এফিশিয়েন্ট ফাইন-টিউনিং (PEFT) পদ্ধতি ব্যবহার করছেন, তার উপর নির্ভর করবে।

পূর্ববর্তী জেমা মডেলগুলি

আপনি জেমা মডেলের পূর্ববর্তী প্রজন্মগুলো নিয়েও কাজ করতে পারেন, যেগুলো ক্যাগল এবং হাগিং ফেস- এও পাওয়া যায়। পূর্ববর্তী জেমা মডেলগুলো সম্পর্কে আরও প্রযুক্তিগত বিবরণের জন্য, নিম্নলিখিত মডেল কার্ড পৃষ্ঠাগুলো দেখুন:

নির্মাণ শুরু করতে প্রস্তুত? জেমা মডেল দিয়ে শুরু করুন !