যখন আপনি একটি জেমা মডেল চালাতে চান, তখন দুটি গুরুত্বপূর্ণ সিদ্ধান্ত নিতে হয়: ১) আপনি জেমার কোন সংস্করণটি চালাতে চান, এবং ২) এটি চালানোর জন্য আপনি কোন এআই এক্সিকিউশন ফ্রেমওয়ার্ক ব্যবহার করবেন? এই দুটি সিদ্ধান্ত নেওয়ার ক্ষেত্রে একটি মূল বিষয় হলো, মডেলটি চালানোর জন্য আপনার এবং আপনার ব্যবহারকারীদের কাছে কী ধরনের হার্ডওয়্যার উপলব্ধ আছে।
এই সংক্ষিপ্ত বিবরণটি আপনাকে এই সিদ্ধান্তগুলো নিতে এবং জেমা মডেল নিয়ে কাজ শুরু করতে সাহায্য করে। একটি জেমা মডেল চালানোর সাধারণ ধাপগুলো নিম্নরূপ:
একটি কাঠামো বেছে নিন
জেমা মডেলগুলো বিভিন্ন ধরনের ইকোসিস্টেম টুলের সাথে সামঞ্জস্যপূর্ণ। সঠিকটি বেছে নেওয়া নির্ভর করে আপনার উপলব্ধ হার্ডওয়্যার (ক্লাউড জিপিইউ বনাম লোকাল ল্যাপটপ) এবং আপনার ইন্টারফেস পছন্দের (পাইথন কোড বনাম ডেস্কটপ অ্যাপ্লিকেশন) উপর।
আপনার প্রয়োজনের জন্য সেরা টুলটি দ্রুত শনাক্ত করতে নিচের সারণিটি ব্যবহার করুন:
| আপনি যদি চান... | প্রস্তাবিত কাঠামো | সেরা |
|---|---|---|
| চ্যাট UI দিয়ে স্থানীয়ভাবে চালান | - এলএম স্টুডিও - ওলামা | নতুন ব্যবহারকারী, অথবা যাঁরা নিজেদের ল্যাপটপে ‘জেমিনি-সদৃশ’ অভিজ্ঞতা চান। |
| Edge-এ দক্ষতার সাথে চালান | - LiteRT-LM - llama.cpp মিডিয়াপাইপ এলএলএম ইনফারেন্স এপিআই - এমএলএক্স | ন্যূনতম সম্পদ ব্যবহার করে উচ্চ-কর্মক্ষমতাসম্পন্ন স্থানীয় অনুমান। |
| পাইথনে তৈরি/প্রশিক্ষণ দিন | JAX-এর জন্য জেমা লাইব্রেরি - হাগিং ফেস ট্রান্সফর্মার্স - কেরাস পাইটর্চ - অলসতা | গবেষক এবং ডেভেলপাররা কাস্টম অ্যাপ্লিকেশন তৈরি করছেন বা মডেলগুলোকে সূক্ষ্মভাবে সমন্বয় করছেন। |
| প্রোডাকশন / এন্টারপ্রাইজে স্থাপন করুন | - গুগল ক্লাউড কুবারনেটিস ইঞ্জিন (GKE) গুগল ক্লাউড রান - ভার্টেক্স এআই - ভিএলএলএম | এন্টারপ্রাইজ নিরাপত্তা ও এমএলওপিএস সমর্থন সহ পরিবর্ধনযোগ্য ও পরিচালিত ক্লাউড ডেপ্লয়মেন্ট। |
ফ্রেমওয়ার্কের বিবরণ
আপনার ডেপ্লয়মেন্ট এনভায়রনমেন্ট অনুযায়ী শ্রেণীবদ্ধ করা জেমা মডেল চালানোর নির্দেশিকা নিচে দেওয়া হলো।
১. ডেস্কটপ ও লোকাল ইনফারেন্স (উচ্চ দক্ষতা)
এই টুলগুলো আপনাকে অপ্টিমাইজড ফরম্যাট (যেমন GGUF) বা নির্দিষ্ট হার্ডওয়্যার অ্যাক্সিলারেটর ব্যবহার করে সাধারণ হার্ডওয়্যারে (ল্যাপটপ, ডেস্কটপ) জেমা চালানোর সুযোগ দেয়।
- এলএম স্টুডিও : একটি ডেস্কটপ অ্যাপ্লিকেশন যা আপনাকে একটি ব্যবহার-বান্ধব ইন্টারফেসের মাধ্যমে জেমা মডেল ডাউনলোড করতে এবং তাদের সাথে চ্যাট করতে দেয়। কোনো কোডিংয়ের প্রয়োজন নেই।
- llama.cpp : Llama (এবং Gemma)-এর একটি জনপ্রিয় ওপেন-সোর্স C++ পোর্ট, যা সিপিইউ এবং অ্যাপল সিলিকনে অবিশ্বাস্যভাবে দ্রুত চলে।
- LiteRT-LM : LiteRT (পূর্বের নাম TFLite) দ্বারা চালিত, এটি ডেস্কটপে (Windows, Linux, macOS) অপ্টিমাইজ করা
.litertlmGemma মডেল চালানোর জন্য একটি কমান্ড-লাইন ইন্টারফেস ( CLI ) প্রদান করে। MLX : অ্যাপল সিলিকনে মেশিন লার্নিংয়ের জন্য বিশেষভাবে ডিজাইন করা একটি ফ্রেমওয়ার্ক, যা সেইসব ম্যাক ব্যবহারকারীদের জন্য আদর্শ যারা বিল্ট-ইন পারফরম্যান্স চান।
ওলামা : স্থানীয়ভাবে খোলা এলএলএম (LLM) চালানোর একটি টুল, যা প্রায়শই অন্যান্য অ্যাপ্লিকেশন চালনা করতে ব্যবহৃত হয়।
২. পাইথন উন্নয়ন (গবেষণা ও পরিমার্জন)
এআই ডেভেলপারদের অ্যাপ্লিকেশন, পাইপলাইন বা প্রশিক্ষণ মডেল তৈরির জন্য আদর্শ কাঠামো।
- হাগিং ফেস ট্রান্সফর্মার : মডেল এবং পাইপলাইনে দ্রুত অ্যাক্সেসের জন্য ইন্ডাস্ট্রির সেরা মানদণ্ড।
- আনস্লথ (Unsloth ): এলএলএম (LLM) ফাইন-টিউনিং করার জন্য একটি অপ্টিমাইজড লাইব্রেরি। এটি আপনাকে উল্লেখযোগ্যভাবে কম মেমরি ব্যবহার করে ২-৫ গুণ দ্রুত জেমা (Gemma) মডেল প্রশিক্ষণ দিতে সাহায্য করে, যার ফলে কনজিউমার জিপিইউ-তে (যেমন, গুগল কোলাবের ফ্রি টিয়ার) ফাইন-টিউনিং করা সম্ভব হয়।
- কেরাস / জেএএক্স / পাইটর্চ : ডিপ লার্নিং গবেষণা এবং কাস্টম আর্কিটেকচার বাস্তবায়নের জন্য মূল লাইব্রেরিসমূহ।
৩. মোবাইল ও এজ ডেপ্লয়মেন্ট (ডিভাইসে)
ইন্টারনেট সংযোগ ছাড়াই ব্যবহারকারীর ডিভাইসে (অ্যান্ড্রয়েড, আইওএস, ওয়েব) সরাসরি এলএলএম চালানোর জন্য ডিজাইন করা ফ্রেমওয়ার্ক, যা প্রায়শই এনপিইউ (নিউরাল প্রসেসিং ইউনিট) ব্যবহার করে।
- LiteRT-LM : ডিভাইসে LLM ডেভেলপমেন্টের জন্য একটি সম্পূর্ণ ওপেন-সোর্স ফ্রেমওয়ার্ক, যা সর্বোচ্চ পারফরম্যান্স ও সূক্ষ্ম নিয়ন্ত্রণ প্রদান করে এবং অ্যান্ড্রয়েড ও আইওএস-এ সিপিইউ, জিপিইউ ও এনপিইউ অ্যাক্সিলারেশনের জন্য সরাসরি সমর্থন দেয়।
- মিডিয়াপাইপ এলএলএম ইনফারেন্স এপিআই : ক্রস-প্ল্যাটফর্ম অ্যাপে জেমা ইন্টিগ্রেট করার সবচেয়ে সহজ উপায়। এটি একটি উচ্চ-স্তরের এপিআই প্রদান করে যা অ্যান্ড্রয়েড, আইওএস এবং ওয়েব জুড়ে কাজ করে।
৪. ক্লাউড ও প্রোডাকশন ডেপ্লয়মেন্ট
আপনার অ্যাপ্লিকেশনকে হাজার হাজার ব্যবহারকারীর জন্য সম্প্রসারণ করতে অথবা বিপুল পরিমাণ কম্পিউটিং শক্তি ব্যবহারের জন্য পরিচালিত পরিষেবা।
- ভার্টেক্স এআই : গুগল ক্লাউডের সম্পূর্ণভাবে পরিচালিত এআই প্ল্যাটফর্ম। এসএলএ (SLAs) এবং স্কেলিং প্রয়োজন এমন এন্টারপ্রাইজ অ্যাপ্লিকেশনগুলির জন্য সর্বোত্তম।
- গুগল ক্লাউড কুবারনেটিস ইঞ্জিন (GKE) : আপনার নিজস্ব সার্ভিং ক্লাস্টার অর্কেস্ট্রেট করার জন্য।
- vLLM : একটি উচ্চ-থ্রুপুট এবং মেমরি-সাশ্রয়ী ইনফারেন্স ও সার্ভিং ইঞ্জিন, যা প্রায়শই ক্লাউড ডেপ্লয়মেন্টে ব্যবহৃত হয়।
নিশ্চিত করুন যে আপনার উদ্দিষ্ট ডেপ্লয়মেন্ট জেমা মডেল ফরম্যাট, যেমন কেরাসের বিল্ট-ইন ফরম্যাট, সেফটেনসর বা জিজিইউএফ, আপনার নির্বাচিত ফ্রেমওয়ার্ক দ্বারা সমর্থিত।
জেমা ভ্যারিয়েন্ট নির্বাচন করুন
জেমা মডেলগুলো বিভিন্ন ভ্যারিয়েন্ট ও আকারে পাওয়া যায়, যার মধ্যে রয়েছে ভিত্তি বা কোর জেমা মডেল, এবং পালি-জেমা ও ডেটা-জেমার মতো আরও বিশেষায়িত মডেল ভ্যারিয়েন্ট, এবং ক্যাগল ও হাগিং ফেস-এর মতো সাইটে এআই ডেভেলপার কমিউনিটি দ্বারা তৈরি করা অনেক ভ্যারিয়েন্ট। আপনি কোন ভ্যারিয়েন্ট দিয়ে শুরু করবেন সে সম্পর্কে অনিশ্চিত থাকলে, সর্বনিম্ন সংখ্যক প্যারামিটারসহ সর্বশেষ জেমা কোর ইনস্ট্রাকশন-টিউনড (IT) মডেলটি বেছে নিন। এই ধরনের জেমা মডেলের কম্পিউটিং ক্ষমতা কম এবং এটি অতিরিক্ত ডেভেলপমেন্ট ছাড়াই বিভিন্ন ধরনের প্রম্পটে সাড়া দিতে সক্ষম।
জেমা ভ্যারিয়েন্ট বেছে নেওয়ার সময় নিম্নলিখিত বিষয়গুলো বিবেচনা করুন:
- জেমা কোর এবং পালি জেমা, কোড জেমা-র মতো অন্যান্য ভ্যারিয়েন্ট ফ্যামিলির ক্ষেত্রে জেমা (কোর) ব্যবহারের পরামর্শ দেওয়া হয়। কোর ভার্সনের বাইরের জেমা ভ্যারিয়েন্টগুলোর আর্কিটেকচার কোর মডেলের মতোই, এবং এগুলো নির্দিষ্ট কিছু কাজে আরও ভালো পারফর্ম করার জন্য প্রশিক্ষিত। যদি আপনার অ্যাপ্লিকেশন বা লক্ষ্য কোনো নির্দিষ্ট জেমা ভ্যারিয়েন্টের বিশেষত্বের সাথে না মেলে, তবে জেমা কোর বা বেস মডেল দিয়ে শুরু করাই শ্রেয়।
- ইনস্ট্রাকশন-টিউনড (IT), প্রি-ট্রেইনড (PT), ফাইন-টিউনড (FT), মিক্সড (mix) : IT সুপারিশ করুন।
- ইনস্ট্রাকশন-টিউনড (আইটি) জেমা ভ্যারিয়েন্ট হলো এমন মডেল, যেগুলোকে মানুষের ভাষায় বিভিন্ন ধরনের নির্দেশ বা অনুরোধে সাড়া দেওয়ার জন্য প্রশিক্ষণ দেওয়া হয়েছে। এই মডেল ভ্যারিয়েন্টগুলো দিয়ে শুরু করা সবচেয়ে ভালো, কারণ এগুলো অতিরিক্ত মডেল প্রশিক্ষণ ছাড়াই প্রম্পটে সাড়া দিতে পারে।
- প্রি-ট্রেইনড (পিটি) জেমা ভ্যারিয়েন্ট হলো এমন মডেল, যেগুলোকে ভাষা বা অন্যান্য ডেটা সম্পর্কে অনুমান করার জন্য প্রশিক্ষণ দেওয়া হয়েছে, কিন্তু মানুষের নির্দেশ অনুসরণ করার জন্য প্রশিক্ষণ দেওয়া হয়নি। এই মডেলগুলোকে কার্যকরভাবে কাজ সম্পাদন করতে অতিরিক্ত প্রশিক্ষণ বা টিউনিংয়ের প্রয়োজন হয় এবং এগুলো সেইসব গবেষক বা ডেভেলপারদের জন্য তৈরি, যারা মডেলটির সক্ষমতা ও এর আর্কিটেকচার নিয়ে গবেষণা বা উন্নয়ন করতে চান।
- ফাইন-টিউনড (FT) জেমা ভ্যারিয়েন্টগুলোকে আইটি ভ্যারিয়েন্ট হিসেবে বিবেচনা করা যেতে পারে, কিন্তু এগুলোকে সাধারণত একটি নির্দিষ্ট কাজ সম্পাদন করার জন্য, অথবা একটি নির্দিষ্ট জেনারেটিভ এআই বেঞ্চমার্কে ভালো পারফর্ম করার জন্য প্রশিক্ষণ দেওয়া হয়। পালি-জেমা ভ্যারিয়েন্ট পরিবারে বেশ কিছু FT ভ্যারিয়েন্ট অন্তর্ভুক্ত রয়েছে।
- মিক্সড (মিক্স) জেমা ভ্যারিয়েন্টগুলো হলো পালি-জেমা মডেলের এমন সংস্করণ, যেগুলোকে বিভিন্ন নির্দেশাবলী দিয়ে টিউন করা হয়েছে এবং যা সাধারণ ব্যবহারের জন্য উপযুক্ত।
- প্যারামিটার : সর্বনিম্ন সংখ্যক প্যারামিটার ব্যবহারের পরামর্শ দেওয়া হচ্ছে । সাধারণত, একটি মডেলে যত বেশি প্যারামিটার থাকে, সেটি তত বেশি সক্ষম হয়। তবে, বড় মডেল চালানোর জন্য বৃহত্তর এবং আরও জটিল কম্পিউটিং রিসোর্সের প্রয়োজন হয় এবং এটি সাধারণত একটি এআই অ্যাপ্লিকেশনের ডেভেলপমেন্টের গতি কমিয়ে দেয়। যদি না আপনি ইতিমধ্যেই নির্ধারণ করে থাকেন যে একটি ছোট জেমা মডেল আপনার চাহিদা মেটাতে পারবে না, তাহলে কম সংখ্যক প্যারামিটারযুক্ত একটি মডেল বেছে নিন।
- কোয়ান্টাইজেশন লেভেল: টিউনিং ছাড়া হাফ প্রিসিশন (১৬-বিট) ব্যবহার করার পরামর্শ দেওয়া হয় । কোয়ান্টাইজেশন একটি জটিল বিষয়, যা মূলত ডেটার আকার ও প্রিসিশন এবং ফলস্বরূপ একটি জেনারেটিভ এআই মডেল গণনা ও প্রতিক্রিয়া তৈরির জন্য কতটা মেমরি ব্যবহার করে, তার উপর নির্ভর করে। একটি মডেলকে উচ্চ-প্রিসিশনের ডেটা, যা সাধারণত ৩২-বিট ফ্লোটিং পয়েন্ট ডেটা, দিয়ে প্রশিক্ষণ দেওয়ার পর জেমার মতো মডেলগুলোকে ১৬, ৮ বা ৪-বিটের মতো নিম্ন-প্রিসিশনের ডেটা ব্যবহার করার জন্য পরিবর্তন করা যেতে পারে। এই কোয়ান্টাইজড জেমা মডেলগুলো কাজের জটিলতার উপর নির্ভর করে ভালো পারফর্ম করতে পারে এবং একই সাথে উল্লেখযোগ্যভাবে কম কম্পিউট ও মেমরি রিসোর্স ব্যবহার করে। তবে, কোয়ান্টাইজড মডেল টিউন করার টুল সীমিত এবং আপনার নির্বাচিত এআই ডেভেলপমেন্ট ফ্রেমওয়ার্কের মধ্যে উপলব্ধ নাও থাকতে পারে। সাধারণত, আপনাকে জেমার মতো একটি মডেলকে ফুল প্রিসিশনে ফাইন-টিউন করতে হবে, তারপর প্রাপ্ত মডেলটিকে কোয়ান্টাইজ করতে হবে।
গুগল কর্তৃক প্রকাশিত প্রধান জেমা মডেলগুলির তালিকার জন্য, " জেমা মডেলগুলির সাথে শুরু করা" (Getting started with Gemma models) অংশের "জেমা মডেল তালিকা" (Gemma model list) দেখুন।
রান জেনারেশন এবং অনুমান অনুরোধ
একটি এআই এক্সিকিউশন ফ্রেমওয়ার্ক এবং একটি জেমা ভ্যারিয়েন্ট নির্বাচন করার পর, আপনি মডেলটি চালানো শুরু করতে পারেন এবং এটিকে কন্টেন্ট তৈরি করতে বা কাজ সম্পন্ন করতে নির্দেশ দিতে পারেন। একটি নির্দিষ্ট ফ্রেমওয়ার্কের সাথে কীভাবে জেমা চালাতে হয় সে সম্পর্কে আরও তথ্যের জন্য, 'একটি ফ্রেমওয়ার্ক নির্বাচন করুন' বিভাগে লিঙ্ক করা গাইডগুলি দেখুন।
প্রম্পট ফরম্যাটিং
সমস্ত নির্দেশনা-সমন্বিত জেমা ভ্যারিয়েন্টের নির্দিষ্ট প্রম্পট ফরম্যাটিং আবশ্যকতা রয়েছে। এই ফরম্যাটিং আবশ্যকতাগুলোর কিছু অংশ আপনি জেমা মডেল চালানোর জন্য যে ফ্রেমওয়ার্ক ব্যবহার করেন, তা স্বয়ংক্রিয়ভাবে সামলে নেয়, কিন্তু যখন আপনি সরাসরি একটি টোকেনাইজারে প্রম্পট ডেটা পাঠান, তখন আপনাকে অবশ্যই নির্দিষ্ট ট্যাগ যোগ করতে হবে, এবং এই ট্যাগিংয়ের আবশ্যকতা আপনার ব্যবহৃত জেমা ভ্যারিয়েন্টের উপর নির্ভর করে পরিবর্তিত হতে পারে। জেমা ভ্যারিয়েন্টের প্রম্পট ফরম্যাটিং এবং সিস্টেম নির্দেশনা সম্পর্কিত তথ্যের জন্য নিম্নলিখিত গাইডগুলো দেখুন: