Gemma, जनरेटिव आर्टिफ़िशियल इंटेलिजेंस मॉडल का एक परिवार है. इनका इस्तेमाल, जनरेटिव एआई से जुड़े कई कामों के लिए किया जा सकता है. जैसे, सवालों के जवाब देना, खास जानकारी देना, और तर्क करना. Gemma मॉडल, ओपन वेट के साथ उपलब्ध कराए जाते हैं. साथ ही, इन्हें कारोबारी तौर पर इस्तेमाल करने की अनुमति होती है. इससे आपको अपने प्रोजेक्ट और ऐप्लिकेशन में इन्हें ट्यून और डिप्लॉय करने की सुविधा मिलती है.
Gemma 4 मॉडल फ़ैमिली में तीन अलग-अलग आर्किटेक्चर शामिल हैं. इन्हें हार्डवेयर की खास ज़रूरतों के हिसाब से बनाया गया है:
- छोटे साइज़: 2B और 4B पैरामीटर वाले मॉडल, जिन्हें अल्ट्रा-मोबाइल, एज, और ब्राउज़र पर डिप्लॉय करने के लिए बनाया गया है. जैसे, Pixel, Chrome.
- डेंस: यह 3100 करोड़ पैरामीटर वाला एक पावरफ़ुल डेंस मॉडल है. यह सर्वर-ग्रेड परफ़ॉर्मेंस और लोकल एक्ज़ीक्यूशन के बीच के अंतर को कम करता है.
- Mixture-of-Experts: यह 26B MoE मॉडल, ज़्यादा थ्रूपुट और ऐडवांस रीज़निंग के लिए डिज़ाइन किया गया है. इसे बहुत कारगर माना जाता है.
Gemma 4 मॉडल को Kaggle और Hugging Face से डाउनलोड किया जा सकता है. Gemma 4 के बारे में ज़्यादा तकनीकी जानकारी के लिए, मॉडल कार्ड देखें. Gemma के कोर मॉडल के पुराने वर्शन भी डाउनलोड किए जा सकते हैं. ज़्यादा जानकारी के लिए, Gemma के पिछले मॉडल देखें.
इसे Kaggle पर पाएं इसे Hugging Face पर पाएं
क्षमताएं
- वजह: इस फ़ैमिली के सभी मॉडल को, तर्क करने की बेहतर क्षमता के साथ डिज़ाइन किया गया है. इनमें सोचने के मोड को कॉन्फ़िगर किया जा सकता है.
- मल्टीमॉडल की बेहतर सुविधाएं: टेक्स्ट, अलग-अलग आसपेक्ट रेशियो और रिज़ॉल्यूशन वाली इमेज (सभी मॉडल), वीडियो, और ऑडियो (E2B और E4B मॉडल में यह सुविधा पहले से मौजूद है) को प्रोसेस करता है.
- बढ़ी हुई कॉन्टेक्स्ट विंडो: छोटे मॉडल में 1,28,000 टोकन वाली कॉन्टेक्स्ट विंडो होती है, जबकि मीडियम मॉडल में 2,56,000 टोकन वाली कॉन्टेक्स्ट विंडो होती है.
- बेहतर कोडिंग और एजेंट की क्षमताएं: इसमें कोडिंग के बेंचमार्क में काफ़ी सुधार किया गया है. साथ ही, इसमें फ़ंक्शन-कॉलिंग की सुविधा पहले से मौजूद है. इससे, ज़्यादा क्षमता वाले ऑटोनॉमस एजेंट को बेहतर तरीके से काम करने में मदद मिलती है.
- सिस्टम प्रॉम्प्ट के लिए नेटिव सपोर्ट: Gemma 4 में सिस्टम रोल के लिए बिल्ट-इन सपोर्ट की सुविधा दी गई है. इससे बातचीत को ज़्यादा व्यवस्थित और कंट्रोल किया जा सकता है.
पैरामीटर के साइज़ और क्वांटाइज़ेशन
Gemma 4 मॉडल, पैरामीटर के चार साइज़ में उपलब्ध हैं: E2B, E4B, 31B, और 26B A4B. इन मॉडल का इस्तेमाल, डिफ़ॉल्ट तौर पर उपलब्ध सटीक जानकारी (16-बिट) के साथ किया जा सकता है. इसके अलावा, क्वांटाइज़ेशन का इस्तेमाल करके, कम सटीक जानकारी के साथ भी इनका इस्तेमाल किया जा सकता है. अलग-अलग साइज़ और सटीक जानकारी, आपके एआई ऐप्लिकेशन के लिए ट्रेड-ऑफ़ का एक सेट दिखाती है. ज़्यादा पैरामीटर और बिट काउंट (ज़्यादा सटीक) वाले मॉडल आम तौर पर ज़्यादा बेहतर होते हैं. हालांकि, प्रोसेसिंग साइकल, मेमोरी की लागत, और बिजली की खपत के मामले में इन्हें चलाना ज़्यादा महंगा होता है. कम पैरामीटर और बिट काउंट (कम सटीक) वाले मॉडल में कम सुविधाएं होती हैं. हालांकि, ये आपके एआई टास्क के लिए काफ़ी हो सकती हैं.
Gemma 4 के लिए अनुमान लगाने की मेमोरी से जुड़ी ज़रूरी शर्तें
यहां दी गई टेबल में, Gemma 4 मॉडल के हर साइज़ के वर्शन के साथ अनुमान लगाने की प्रोसेस को चलाने के लिए, GPU या TPU की मेमोरी की ज़रूरी शर्तों के बारे में जानकारी दी गई है.
| पैरामीटर | BF16 (16-बिट) | SFP8 (8-बिट) | Q4_0 (4-बिट) |
|---|---|---|---|
| Gemma 4 E2B | 9.6 जीबी | 4.6 जीबी | 3.2 जीबी |
| Gemma 4 E4B | 15 जीबी | 7.5 जीबी | पांच जीबी |
| Gemma 4 31B | 58.3 जीबी | 30.4 जीबी | 17.4 जीबी |
| Gemma 4 26B A4B | 48 जीबी | 25 जीबी | 15.6 जीबी |
पहली टेबल. पैरामीटर की संख्या और क्वांटाइज़ेशन लेवल के आधार पर, Gemma 4 मॉडल लोड करने के लिए ज़रूरी जीपीयू या टीपीयू मेमोरी का अनुमान.
मेमोरी प्लान करने के लिए ध्यान रखने वाली मुख्य बातें
- बेहतर आर्किटेक्चर (E2B और E4B): "E" का मतलब "इफ़ेक्टिव" पैरामीटर से है. छोटे मॉडल में, पर-लेयर एम्बेडिंग (पीएलई) को शामिल किया जाता है, ताकि डिवाइस पर डिप्लॉयमेंट के दौरान पैरामीटर की क्षमता को ज़्यादा से ज़्यादा किया जा सके. मॉडल में ज़्यादा लेयर जोड़ने के बजाय, PLE हर डिकोडर लेयर को हर टोकन के लिए अपनी छोटी एम्बेडिंग देता है. ये एम्बेडिंग टेबल बड़ी होती हैं, लेकिन इनका इस्तेमाल सिर्फ़ तुरंत लुकअप के लिए किया जाता है. इसलिए, स्टैटिक वेट लोड करने के लिए ज़रूरी कुल मेमोरी, पैरामीटर की गिनती से ज़्यादा होती है.
- MoE आर्किटेक्चर (26B A4B): 26B, Mixture of Experts मॉडल है. हालांकि, जनरेशन के दौरान यह हर टोकन के लिए सिर्फ़ चार अरब पैरामीटर चालू करता है, लेकिन तेज़ राउटिंग और अनुमान लगाने की स्पीड बनाए रखने के लिए, सभी 26 अरब पैरामीटर को मेमोरी में लोड करना ज़रूरी है. इसलिए, इसकी बेसलाइन मेमोरी की ज़रूरत, 400 करोड़ पैरामीटर वाले मॉडल की तुलना में 2600 करोड़ पैरामीटर वाले मॉडल के ज़्यादा करीब है.
- सिर्फ़ बेस वेट: ऊपर दी गई टेबल में दिए गए अनुमान, स्टैटिक मॉडल के वेट लोड करने के लिए ज़रूरी मेमोरी के बारे में सिर्फ़ जानकारी देते हैं. इनमें सॉफ़्टवेयर या कॉन्टेक्स्ट विंडो के साथ काम करने के लिए ज़रूरी अतिरिक्त वीआरएएम शामिल नहीं होता.
- कॉन्टेक्स्ट विंडो (केवी कैश): मेमोरी का इस्तेमाल, डाइनैमिक तरीके से बढ़ेगा. यह आपके प्रॉम्प्ट में मौजूद टोकन की कुल संख्या और जनरेट किए गए जवाब पर आधारित होगा. बड़ी कॉन्टेक्स्ट विंडो के लिए, बेस मॉडल के वेट के अलावा काफ़ी ज़्यादा वीआरएएम की ज़रूरत होती है.
- फ़ाइन-ट्यूनिंग का ओवरहेड: Gemma मॉडल को फ़ाइन-ट्यून करने के लिए, स्टैंडर्ड इन्फ़रेंस की तुलना में बहुत ज़्यादा मेमोरी की ज़रूरत होती है. आपका सटीक फ़ुटप्रिंट, डेवलपमेंट फ़्रेमवर्क, बैच साइज़, और इस बात पर निर्भर करेगा कि फ़ुल-प्रिसिज़न ट्यूनिंग का इस्तेमाल किया जा रहा है या पैरामीटर-इफ़िशिएंट फ़ाइन-ट्यूनिंग (पीईएफ़टी) के तरीके का इस्तेमाल किया जा रहा है. जैसे, लो-रैंक अडैप्टेशन (लोरा).
Gemma के पिछले मॉडल
Gemma मॉडल की पिछली जनरेशन के साथ काम किया जा सकता है. ये मॉडल Kaggle और Hugging Face पर भी उपलब्ध हैं. Gemma के पिछले मॉडल के बारे में ज़्यादा तकनीकी जानकारी के लिए, मॉडल कार्ड वाले ये पेज देखें:
- Gemma 3 मॉडल कार्ड
- Gemma 2 मॉडल कार्ड
- Gemma 1 मॉडल कार्ड
क्या आप इंटिग्रेट करने के लिए तैयार हैं? Gemma मॉडल का इस्तेमाल शुरू करें!