[go: up one dir, main page]

Skip to main content

‫Gemini ایپ کا ایک مجموعی جائزہ

ہم نے طویل عرصے سے لوگوں کے لیے معلومات اور کمپیوٹنگ کو مزید قابل رسائی اور مفید بنانے کے لیے AI کی صلاحیت کو دیکھا ہے۔ ہم نے ڈیٹا کی بڑی مقدار پر تربیت یافتہ زبان کے ماڈلز (LLMs) پر اہم پیشرفت کی ہے اور پورے Google اور اس فیلڈ میں عمومی طور پر بڑی پیشرفت دیکھی ہے۔ کئی سالوں سے، ہم نے اپنے بہت سے پروڈکٹس کو بہتر بنانے کے لیے پس منظر میں LLMs کا اطلاق کیا ہے، جیسے کہ ‏Gmail میں جملوں کی خودکار طریقے سے تکمیل کرنا‏، ‏Google ترجمہ کو بہتر بنانا اور Google تلاش میں استفسارات کو بہتر طور پر سمجھنے میں ہماری مدد کرنا۔ ہم بہت سی Google سروسز کے ساتھ ساتھ ‏Gemini ایپ کو طاقت دینے کے لیے LLMs کا استعمال جاری رکھتے ہیں، جس سے لوگ تخلیق کر سکنے والے AI کے ساتھ براہ راست اکٹھے کام کر سکتے ہیں۔ ہم چاہتے ہیں کہ Gemini ایپ سب سے زیادہ مددگار اور ذاتی AI اسسٹنٹ بنے، جو صارفین کو Google کے جدید ترین AI ماڈلز تک براہ راست رسائی فراہم کرے۔

جب کہ ہم ایک اہم موڑ پر ہیں اور تخلیق کر سکنے والے AI سے متعلق بڑے پیمانے پر جوش و خروش سے حوصلہ افزا ہیں، اس ٹیکنالوجی کے لیے ابھی ابتدائی دن ہیں۔ یہ وضاحت کنندہ اس بات کا خاکہ پیش کرتا ہے کہ ہم Gemini ایپ ("Gemini") پر اپنے کام کو کیسے انجام دے رہے ہیں، بشمول اس کے موبائل اور ویب تجربات — یہ کیا ہے، یہ کیسے کام کرتا ہے اور اس کی موجودہ صلاحیتیں اور حدود۔ جیسے جیسے Gemini کی بنیادی ٹیکنالوجی تیار ہوگی اور جیسے جیسے ہم جاری تحقیق، تجربے اور صارف کے تاثرات سے سیکھیں گے ویسے ویسے Gemini کو تیار کرنے کے ہمارے طریقہ کار میں بہتری پیدا ہوگی۔

‫Gemini کیا ہے

‫Gemini ملٹی ماڈل LLM کا انٹرفیس ہے (ٹیکسٹ، آڈیو، تصاویر اور بہت کچھ کو ہینڈل کرنا)۔ ‫Gemini‏ LLMs میں Google کی جدید تحقیق پر مبنی ہے، جس کا آغاز 2013 میں Word2Vec پیپر سے ہوا تھا جس میں ایسے ناول ماڈل آرکیٹیکچرز کی تجویز پیش کی گئی تھی جس میں الفاظ کو ریاضیاتی تصورات کے طور پر میپ کیا گیا تھا، اس کے بعد < 2015 میں href="https://research.google/pubs/a-neural-conversational-model/">اعصابی گفتگو کا ماڈل متعارف کرایا گیا۔ اس فریم ورک نے یہ ظاہر کیا کہ ماڈلز پچھلے جملے یا جملوں کی بنیاد پر گفتگو میں اگلے جملے کی پیشین گوئی کیسے کر سکتے ہیں، جس سے مکالماتی تجربات زیادہ قدرتی ہوتے ہیں۔ اس کے بعد 2017 میں ٹرانسفارمر اور 2020 میں ملٹی ٹرن چیٹ صلاحیتوں سے متعلق میں تعلیمی پیشرفت ہوئی، جس نے اور بھی زبردست تخلیقی زبان کی ترقی کا مظاہرہ کیا۔

ہم نے ابتدائی طور پر اپنے ‏AI اصولوں کے مطابق مارچ 2023 میں ایک تجربے کے طور پر Gemini (جسے اس وقت Bard کہا گیا) لانچ کیا۔ اس کے بعد سے، صارفین نے زبردست ای میلز لکھنے، مشکل کوڈنگ کے مسائل کو ڈیبگ کرنے، آنے والے ایونٹس کے لیے آئیڈیاز پر سوچ بچار کرنے، مشکل تصورات کو سیکھنے میں مدد حاصل کرنے اور بہت کچھ کرنے کے لیے Gemini کی مدد لی ہے۔ آج، Gemini ایک ورسٹائل AI ٹول ہے جو آپ کی کئی طریقوں سے مدد کر سکتا ہے۔ ہم پہلے ہی دیکھتے ہیں کہ Gemini لوگوں کی زیادہ پروڈکٹیو، زیادہ تخلیقی اور زیادہ متجسس بننے میں مدد کرتا ہے اور ہم باقاعدگی سے نئی فعالیت اور اختراعات شامل کرتے ہیں۔

پروڈکٹیوٹی

شروع کرنے والوں کے لیے، Gemini آپ کا وقت بچا سکتا ہے۔ مثال کے طور پر، فرض کریں کہ آپ ایک طویل تحقیقی دستاویز کا خلاصہ کرنا چاہتے ہیں؛ Gemini کی مدد سے آپ اسے اپ لوڈ کر سکتے ہیں اور آپ کو ایک مفید خلاصہ مل سکتا ہے۔ ‫Gemini کوڈنگ کے ٹاسکس میں بھی مدد کر سکتا ہے، اور کوڈنگ تیزی سے اس کی مقبول ترین ایپلیکیشنز میں سے ایک بن گئی ہے۔

تخلیقی صلاحیت

‫Gemini آپ کے آئیڈیاز کو عملی صورت دینے اور آپ کی تخلیقی صلاحیتوں کو نکھارنے میں بھی مدد کر سکتا ہے۔ مثال کے طور پر، اگر آپ ایک بلاگ پوسٹ لکھ رہے ہیں تو Gemini ایک خاکہ بنا سکتا ہے اور ایسی تصاویر بنا سکتا ہے جو آپ کی پوسٹ کو واضح کرنے میں مدد کرتی ہیں۔ اور جلد ہی Gems کے ساتھ، آپ مخصوص ہدایات کے ساتھ Gemini کو حسب ضرورت بنانے کے قابل ہو جائیں گے اور اسے اپنے ذاتی اہداف کو حاصل کرنے میں آپ کی مدد کرنے کے لیے موضوع کے ماہر کے طور پر کام کرنے کے قابل ہوں گے۔

تجسس

‫Gemini آپ کے آئیڈیاز اور ان چیزوں کو دریافت کرنے کے لیے ایک نقطہ آغاز ہو سکتا ہے جن کے بارے میں آپ مزید جاننا چاہتے ہیں۔ مثال کے طور پر، یہ کسی پیچیدہ تصور کی سادہ وضاحت کر سکتا ہے یا کسی موضوع یا تصویر پر متعلقہ بصیرتوں کو سامنے لا سکتا ہے۔ اور جلد ہی، یہ مخصوص موضوعات کے بارے میں مزید جاننے کے لیے ان بصیرتوں کو پورے ویب کے تجویز کردہ مواد کے ساتھ جوڑا بنا دے گا۔

‫Gemini کی صلاحیتیں تیزی سے پھیل رہی ہیں -- جلد ہی، آپ اپنے فون کے کیمرا کو کسی چیز کی طرف پوائنٹ کر سکیں گے، مثال کے طور پر، گولڈن گیٹ برج اور Gemini سے پوچھیں گے کہ وہ آپ کو اس کے پینٹ کے رنگ کے بارے میں بتائے (اگر آپ سوچ رہے ہیں کہ یہ "بین الاقوامی اورنج" ہے)۔ آپ Gemini سے کسی ریستوراں کے مینیو کو دوسری زبان میں نیویگیٹ کرنے اور ایسی ڈش تجویز کرنے کے لیے بھی کہہ سکیں گے جس سے آپ لطف اندوز ہو سکیں گے۔ ‫Gemini میں جلد آنے والی نئی صلاحیتوں کی یہ صرف دو مثالیں ہیں۔

یقیناً ہم Gemini کی سخت ٹریننگ اور نگرانی کرتے ہیں تاکہ اس کے ریسپانسز قابل اعتماد اور آپ کی توقعات کے مطابق ہوں۔ ہم انڈسٹری کے ماہرین، معلمین، پالیسی سازوں، کاروباری رہنماؤں، شہری اور انسانی حقوق کے رہنماؤں اور مواد کے تخلیق کاروں سے بھی بات کرتے ہیں تاکہ اس ابھرتی ہوئی ٹیکنالوجی کی نئی ایپلیکیشنز، خطرات اور حدود کو تلاش کریں۔

‫Gemini کیسے کام کرتا ہے

1

پری ٹریننگ

2

پوسٹ ٹریننگ

3

صارف کے پرامپٹس کے ریسپانسز

4

انسانی تاثرات اور تشخیص

‫Gemini جیسے LLM پر مبنی انٹرفیس کی معلوم حدود

‫Gemini‏ LLMs کو ذمہ داری سے تیار کرنے کی ہماری مسلسل کوششوں کا صرف ایک حصہ ہے۔ اس پورے کام کے دوران، ہم نے کئی ‏LLMs سے وابستہ حدود کو دریافت کیا اور ان پر تبادلہ خیال کیا۔ یہاں، ہم مسلسل تحقیق کے چھ ایریاز پر توجہ مرکوز کرتے ہیں:

  • درستگی: ‏Gemini کے ریسپانسز غلط ہو سکتے ہیں، خاص طور پر جب اس سے پیچیدہ یا حقائق پر مبنی موضوعات کے بارے میں پوچھا جائے۔

  • طرفداری: ‏Gemini کے ریسپانسز اس کے ٹریننگ ڈیٹا میں موجود طرفداریوں کی عکاسی کر سکتے ہیں۔

  • متعدد تناظر: ‏Gemini کے ریسپانسز مختلف نظریات دکھانے میں ناکام ہو سکتے ہیں۔

  • پرسونا: ‏Gemini کے ریسپانسز غلط طریقے سے تجویز کر سکتے ہیں کہ اس کی ذاتی رائے یا احساسات ہیں۔

  • جھوٹے مثبت اور غلط منفیات: ‏Gemini کچھ مناسب پرامپٹس کا جواب نہیں دے سکتا اور دوسروں کو نامناسب جوابات فراہم کر سکتا ہے۔

  • معاندانہ پرامپٹ کا خطرہ: صارفین غیر منطقی پرامپٹس یا حقیقی دنیا میں شاذ و نادر ہی پوچھے گئے سوالات کے ذریعے Gemini کو ٹیسٹ کرنے کے طریقے تلاش کریں گے۔

ہم ان ایریاز میں سے ہر ایک میں بہتر کارکردگی کے لیے نئے طریقوں اور ایریاز کی تلاش جاری رکھتے ہیں۔

درستگی

‫Gemini‏ Google کی مستند معلومات کی سمجھ پر مبنی ہے اور اسے ایسے ریسپانسز تخلیق کرنے کی ٹریننگ دی جاتی ہے جو آپ کے پرامپٹ کے سیاق و سباق سے متعلق ہوں اور آپ جس چیز کی تلاش کر رہے ہیں اس کے مطابق ہوں۔ لیکن تمام LLMs کی طرح، Gemini بعض اوقات اعتماد کے ساتھ اور یقین کے ساتھ ایسے ریسپانسز تخلیق کر سکتا ہے جن میں غلط یا گمراہ کن معلومات ہوتی ہیں۔

چونکہ LLMs اگلے لفظ یا الفاظ کی ترتیب کی پیشین گوئی کر کے کام کرتے ہیں، اس لیے وہ ابھی تک اپنے طور پر درست اور غلط معلومات میں فرق کرنے کے مکمل اہل نہیں ہیں۔ ہم نے Gemini کے ایسے ریسپانسز دیکھے ہیں جو غلط معلومات پر مشتمل ہیں یا اس کی ایجاد بھی کرتے ہیں (مثال کے طور پر، غلط ترجمانی کرنا کہ اس کی ٹریننگ کیسے کی گئی یا کسی ایسی کتاب کا نام تجویز کرنا جو موجود نہیں ہے)۔ ریسپانس میں ہم نے "دوبارہ چیک کریں" جیسی خصوصیات تخلیق کی ہیں، جو Google تلاش کا استعمال کرتے ہوئے ایسے مواد کو تلاش کرتی ہے جو آپ کو Gemini کے ریسپانسز کا اندازہ لگانے میں مدد کرتا ہے اور آپ کو Gemini سے حاصل ہونے والی معلومات کی تصدیق کرنے میں مدد کرنے کے لیے ذرائع کے لنکس فراہم کرتا ہے۔

طرفداری

ٹریننگ ڈیٹا، بشمول عوامی طور پر دستیاب ذرائع سے، تناظر اور آراء کے تنوع کی عکاسی کرتا ہے۔ ہم تحقیق کرتے رہتے ہیں کہ اس ڈیٹا کو اس طریقے سے کیسے استعمال کیا جائے جو اس بات کو یقینی بنائے کہ LLM کے ریسپانس میں وسیع پیمانے پر نقطہ نظر کو شامل کیا جائے، جبکہ غلط حد سے زیادہ عمومیت اور طرفداریوں کو کم کیا جائے۔

ٹریننگ ڈیٹا میں خلاء، طرفداری اور حد سے زیادہ عمومیت کی عکاسی ماڈل کی آؤٹ پٹس میں کی جا سکتی ہے کیونکہ یہ فوری طور پر ممکنہ ریسپانسز کی پیش گوئی کرنے کی کوشش کرتا ہے۔ ہم دیکھتے ہیں کہ یہ مسائل کئی طریقوں سے ظاہر ہوتے ہیں (مثلاً، ایسے ریسپانسز جو صرف ایک ثقافت یا ڈیموگرافک کی عکاسی کرتے ہیں، مسائل پیدا کرنے والی زیادہ عمومیتوں کا حوالہ دیتے ہیں، صنفی، مذہبی یا نسلی طرفداریوں کو ظاہر کرتے ہیں یا صرف ایک نقطہ نظر کو فروغ دیتے ہیں)۔ کچھ عنوانات کے لیے، ڈیٹا درست نہیں ہوتے ہیں — دوسرے لفظوں میں، LLM کے لیے کسی دیے گئے مضمون کے بارے میں جاننے اور پھر اچھی پیش گوئیاں کرنے کے لیے کافی قابل اعتماد معلومات نہیں ہوتی ہیں — جس کے نتیجے میں کم معیار یا غلط ریسپانسز تخلیق ہو سکتے ہیں۔ ہم Google سے باہر گہری مہارت حاصل کرنے کے لیے ڈومین کے ماہرین اور مختلف کمیونٹیز کے ساتھ کام کرتے رہتے ہیں۔

متعدد تناظر

سبجیکٹیو موضوعات کے لیے، Gemini کو صارفین کو متعدد نقطہ نظر فراہم کرنے کے لیے ڈیزائن کیا گیا ہے اگر صارف کسی مخصوص نقطہ نظر کی درخواست نہیں کرتا ہے۔ مثال کے طور پر، اگر کسی ایسی چیز کے بارے میں معلومات کا پرامپٹ کیا جائے جس کی تصدیق بنیادی ماخذ حقائق یا مستند ذرائع سے نہیں کی جا سکتی ہے — جیسے کہ "بہترین" یا "بدترین" پر سبجیکٹیو رائے — Gemini کو اس طرح جواب دینا چاہیے جو مختلف خیالات کی عکاسی کرے۔ لیکن چونکہ Gemini کی طرح LLMs کو انٹرنیٹ پر عوامی طور پر دستیاب مواد پر ٹرین کیا جاتا ہے، وہ مخصوص سیاست دانوں، مشہور شخصیات یا دیگر عوامی شخصیات کے مثبت یا منفی خیالات کی عکاسی کر سکتے ہیں یا یہاں تک کہ متنازعہ سماجی یا سیاسی مسائل کے صرف ایک رخ پر خیالات کو شامل کر سکتے ہیں۔ ‫Gemini کو اس طرح سے جواب نہیں دینا چاہیے جو ان موضوعات پر کسی خاص نقطہ نظر کی تائید کرتا ہو اور ہم اس قسم کے ریسپانسز کے بارے میں تاثرات کا استعمال Gemini کو ٹرین کرنے کے لیے کریں گے۔

پرسونا

‫Gemini بعض اوقات ایسے ریسپانسز پیدا کر سکتا ہے جن سے ایسا لگ سکتا ہے جیسے یہ آراء یا جذبات رکھتا ہے، جیسے محبت یا اداسی، کیونکہ اس نے اس زبان پر ٹریننگ حاصل کی ہے جسے لوگ انسانی تجربے کی عکاسی کرنے کے لیے استعمال کرتے ہیں۔ ہم نے اس بارے میں گائیڈلائنز کا ایک سیٹ تیار کیا ہے کہ Gemini کس طرح اپنی نمائندگی کر سکتا ہے (یعنی اس کی پرسونا) اور آبجیکٹیوں ریسپانسز فراہم کرنے کے لیے ماڈل کو بہتر بنانا جاری رکھیں۔

غلط مثبت / منفی

ہم نے پالیسی گائیڈلائنز کا ایک سیٹ نافذ کیا ہے تاکہ Gemini کو ٹرین کرنے اور مشکل ریسپانسز تخلیق کرنے سے بچنے میں مدد ملے۔ ‫Gemini بعض اوقات ان گائیڈلائنز کی غلط تشریح کر سکتا ہے، جو "غلط مثبت" اور "غلط منفی" تخلیق کرتا ہے۔ ایک "غلط مثبت" میں، Gemini ممکن ہے ایک مناسب پرامپٹ کا جواب نہ دے پائے، فوری طور پر نامناسب کے طور پر غلط تشریح کرے۔ اور "غلط منفی" میں، Gemini ممکن ہے ہدایات موجود ہونے کے باوجود، نامناسب ریسپانس تخلیق کرے۔ بعض اوقات، غلط مثبت یا غلط منفی کا ہونا یہ تاثر دے سکتا ہے کہ Gemini متعصب ہے: مثال کے طور پر، غلط مثبت کی وجہ سے Gemini کسی مسئلے کے ایک رخ کے بارے میں سوال کا جواب نہیں دے سکتا، جبکہ یہ دوسرے پہلو کے بارے میں اسی سوال کا جواب دے گا۔ ہم ان ماڈلز کو بہتر طور پر سمجھنے اور ان پٹ اور آؤٹ پٹس کی درجہ بندی کرنے کے لیے جاری رکھتے ہیں کیونکہ زبان، ایونٹس اور معاشرے تیزی سے ترقی کرتے ہیں۔

معاندانہ پرامپٹ کا خطرہ

ہم صارفین سے Gemini جو کچھ کر سکتا ہے اس کی حدود کو جانچنے اور اس کے تحفظات کو نظر انداز کرنے کی توقع کرتے ہیں، بشمول اس کے ٹریننگ پروٹوکولز یا دیگر معلومات کو حاصل کرنے کی کوشش کرنا یا اس کے حفاظتی طریقہ کار کو حاصل کرنے کی کوشش کرنا۔ ہم نے Gemini کو سختی سے جانچا ہے اور اسے جانچنا جاری رکھیں گے، لیکن ہم جانتے ہیں کہ صارفین اس پر مزید دباؤ ڈالنے کے لیے منفرد، پیچیدہ طریقے تلاش کریں گے۔ یہ Gemini کو بہتر بنانے کا ایک اہم حصہ ہے اور ہم صارفین کے سامنے آنے والے نئے پرامپٹس سیکھنے کے منتظر ہیں۔ درحقیقت، 2023 میں Gemini کے آغاز کے بعد سے، ہم نے دیکھا ہے کہ صارفین اسے فلسفیانہ سے لے کر بے ہودہ تک کے پرامپٹس کے ساتھ چیلنج کرتے ہیں – اور کچھ معاملات میں، ہم نے Gemini کو ایسے جوابات کے ساتھ جواب دیتے ہوئے دیکھا ہے جو یکساں طور پر بے ہودہ ہیں یا ہمارے بیان کردہ نقطہ نظر سے ہم آہنگ نہیں ہیں۔ Gemini کو اس قسم کے پرامپٹس پر جواب دینے میں مدد کرنے کے طریقوں کا پتہ لگانا ایک جاری چیلنج ہے اور ہم نے درستگی اور آبجیکٹیویٹی اور اہمیت میں مسلسل بہتری کی طرف کوشش کرنے کے لیے اپنے داخلی جائزوں اور نیٹ سرخ ٹیمنگ کو بڑھانا جاری رکھا ہے۔

ہم Gemini کو کس طرح مسلسل تیار کر رہے ہیں

ہمارے Gemini نقطہ نظر کا اطلاق

اپنے ‏AI اصولوں کے ساتھ، ہم نے حال ہی میں Gemini پر اپنے کام کے لیے اپنا طریقہ کار بیان کیا ہے: Gemini کو آپ کی ہدایات پر عمل کرنا چاہیے، آپ کی ضروریات کو اپنانا چاہیے اور آپ کے تجربے کی حفاظت کرنی چاہیے۔ ہمارے طریقہ کار کا مرکز ذمہ داری اور حفاظت پر توجہ مرکوز کرنا ہے۔ ‫Gemini کی پالیسی کی گائیڈلائنز کا مقصد کچھ مخصوص قسم کے مسئلہ پیدا کرنے والے آؤٹ پٹس سے گریز کرنا ہے۔ ہم اندرونی "سرخ ٹیم" کے اراکین کے ساتھ جاری معاندانہ جانچ میں مشغول ہیں — پروڈکٹ کے ماہرین اور سماجی سائنس دان جو جان بوجھ کر ایک ماڈل کی جانچ پر زور دیتے ہیں تاکہ ان پالیسی کی گائیڈلائنز اور Gemini کے لیے ہمارے نارتھ اسٹار طریقہ کار کے موافق بنانے میں آنے والے مسائل کی جانچ کی جا سکے — تاکہ وہ جو کچھ سیکھتے ہیں ہم اس کا اطلاق کر سکیں اور Gemini کو مسلسل بہتر بنا سکیں۔

جب ہم Gemini کو تیار کرتے ہیں تو رازداری بھی ایک اہم چیز ہے۔ ‫‏Gemini ایپس کے رازداری ہب میں اس بارے میں مزید معلومات ہے کہ ہم کس طرح Gemini کو بالارادہ رازداری کے ساتھ اور آپ کے کنٹرول دیتے ہوئے تیار کرتے ہیں۔

صارف اور ناشر کے کنٹرول کو فعال کرنا

ہم نے آپ کے Gemini ڈیٹا کا جائزہ لینے، اپ ڈیٹ کرنے، اس کا نظم کرنے، برآمد کرنے اور حذف کرنے کے لیے آسانی سے قابل رسائی Gemini صارف کنٹرولز کی مختلف قسم تیار کی ہے۔ آپ Gemini ایپس کے سرگرمی کنٹرولز کے ذریعے اپنے Gemini پرامپٹس، ریسپانسز اور تاثرات تک رسائی اور جائزہ لے سکتے ہیں۔ اس کے علاوہ، آپ اپنی Gemini ایپس کی سرگرمی کی ترتیب کو آف کر کے اپنی مستقبل کی Gemini چیٹس کو Google مشین لرننگ ٹیکنالوجیز کو بہتر بنانے کے لیے استعمال ہونے سے روک سکتے ہیں۔ اور Google کی دیگر سروسز کی طرح، آپ Google کے ‏Takeout ٹول کے ذریعے بھی اپنی معلومات ڈاؤن لوڈ اور ایکسپورٹ کر سکتے ہیں۔ ہمارے پاس ایسے کنٹرول بھی ہیں جو آپ کو اپنے Gemini تھریڈز کے لیے بنائے گئے عوامی لنکس کا نظم کرنے کی اجازت دیتے ہیں اور ایسے کنٹرول جو آپ کو ایکسٹینشنز تک رسائی کو آن/آف کرنے کی اجازت دیتے ہیں (جیسے، Workspace, Maps, YouTube)۔ ہم آپ کو Gemini کے ریسپانسز پر مزید کنٹرول دینے کے لیے نئے طریقے بھی تلاش کر رہے ہیں، بشمول ریسپانسز کی وسیع رینج کو فعال کرنے کے لیے فلٹرز کو ایڈجسٹ کرنا۔

ناشرین کے لیے، ہم نے ‏Google-Extended شروع کیا ہے، ایک ایسا کنٹرول جسے ویب ناشرین اس بات کا نظم کرنے کے لیے استعمال کر سکتے ہیں کہ آیا ان کی سائٹس Gemini اور ‏Vertex AI تخلیقی APIs کو بہتر بنانے میں مدد کرتی ہیں۔ سائٹس کے مواد تک Google کی توسیعی رسائی کی اجازت دینے سے AI ماڈلز کو وقت کے ساتھ ساتھ زیادہ درست اور قابل بننے میں مدد مل سکتی ہے۔ ماڈل ٹریننگ کے لیے آپٹ آؤٹ کردہ URLs سے مواد استعمال نہ کرنے کے علاوہ، Gemini ایسے مواد کو گراؤنڈنگ کے لیے بھی استعمال نہیں کرے گا۔ جیسے جیسے AI ایپلیکیشنز میں توسیع ہوتی جائے گی، ویب ناشرین کو مختلف استعمالات کا بڑے پیمانے پر نظم کرنے کی بڑھتی ہوئی پیچیدگی کا سامنا کرنا پڑے گا اور ہم انتخاب اور کنٹرول کے لیے مزید مشین کے پڑھنے کے قابل طریقوں کو تلاش کرنے کے لیے ویب اور AI کمیونٹیز کے ساتھ مشغول ہونے کے لیے پرعزم ہیں۔

Improving Gemini together

ہم تیزی سے تبدیلیاں کرنے اور دنیا کو Gemini کا بہترین ورژن فراہم کرنے میں یقین رکھتے ہیں۔ صارف کے تاثرات نے ہمارے ماڈلز میں بہتری کو تیز کیا ہے۔ مثال کے طور پر، ہم اپنے ماڈلز کو زیادہ بدیہی اور تخیلاتی ہونے کی ٹریننگ دینے اور اس سے بھی زیادہ معیار اور درستگی کے ساتھ جواب دینے کے لیے جدید ترین ازسرِنو سیکھنے کی تکنیکس کا استعمال کرتے ہیں۔ ہم LLMs کے تکنیکی، سماجی اور اخلاقی چیلنجز اور مواقع کے بارے میں مزید جاننے کے لیے تحقیق میں وقت صرف کرتے رہتے ہیں، دونوں Gemini کی ماڈل ٹریننگ اور ٹیوننگ کی تکنیکس کو بہتر بنانے کے ساتھ ساتھ محققین کے ساتھ اپنے سیکھنے کا اشتراک کرنے کے لیے، جیسا کہ ‏اعلی درجے کی AI اسسٹنٹس کی اخلاقیات پر یہ حالیہ مقالہ۔ ہم ذمہ داری کے ساتھ اس جگہ میں اختراع کرنے کے لیے پرعزم ہیں، صارفین، معتبر ٹیسٹرز اور محققین کے ساتھ تعاون کرتے ہوئے اس نئی ٹیکنالوجی کے ذریعے پورے ایکو سسٹم کو فائدہ پہنچانے کے طریقے تلاش کر رہے ہیں۔

شفافیت اہم ہے اور ہم Gemini کے ترقیاتی عمل اور حدود کے بارے میں کھلے رہنے کے لیے پرعزم ہیں۔ ‫Gemini جادوئی بلیک باکس نہیں ہے؛ یہ مسلسل تیار ہو رہا ہے اور ہم اپنی پیشرفت پر اپ ڈیٹس کا اشتراک کرتے رہیں گے۔ ہم نے ایک ریلیز اپ ڈیٹس صفحہ شروع کیا ہے تاکہ آپ Gemini کی تازہ ترین خصوصیات، بہتری اور بگ کی اصلاحات دیکھ سکیں اور ہم اس مجموعی جائزہ کو مناسب طور پر اپ ڈیٹ کریں گے۔ ہم دونوں کی نشاندہی کریں گے جہاں Gemini مفید اور مددگار ہے اور جہاں ہمیں اعادہ کرتے رہنا اور اسے بہتر بنانے کی ضرورت ہے۔ ہم فعال طور پر نئی صلاحیتیں شامل کر رہے ہیں اور جاری تحقیق، جانچ اور صارف کے تاثرات کے ذریعے، ہم Gemini کو ایک ساتھ بہتر بنانے کے منتظر ہیں۔

اظہار تشکر

ہم Gemini ایپ ٹیم، Google DeepMind، ٹرسٹ اور حفاظت اور Google ریسرچ پر اپنے ساتھیوں کے ناقابل یقین کام کی تعریف اور اعتراف کرتے ہیں۔

تحریر کردہ بذریعہ

James Manyika
SVP, تحقیق، ٹیکنالوجی اور سوسائٹی

Sissie Hsiao
نائب صدر اور جنرل منیجر، Google اسسٹنٹ اور Gemini App

ایڈیٹر کا نوٹ

یہ ایک زندہ دستاویز ہے اور اسے وقتاً فوقتاً اپ ڈیٹ کیا جاتا رہے گا کیونکہ ہم Gemini ایپ کی صلاحیتوں کو تیزی سے بہتر بنانے کے ساتھ ساتھ LLMs کی موروثی حدود کو دور کرتے رہتے ہیں۔ اس مجموعی جائزہ کو آخری بار 25 جولائی 2024 کو اپ ڈیٹ کیا گیا تھا۔ ‫Gemini ایپ پر تازہ ترین اپ ڈیٹس کے لیے، ریلیز اپ ڈیٹس‏Google Keyword بلاگ کو لاگ کریں یا اس پر مزید پڑھیں۔

‫Gemini کیسے کام کرتا ہے

1 پیشگی ٹریننگ

‫Gemini‏ Google کے سب سے زیادہ قابل AI ماڈلز سے تقویت یافتہ ہے، جو‎ ‎مختلف صلاحیتوں اور استعمال کے معاملات کے ساتھ ڈیزائن کیا گیا ہے۔ آج کے بیشتر LLMs کی طرح، ان ماڈلز کو عوامی طور پر دستیاب ماخذات کے مختلف ڈیٹا پر پہلے سے تربیت دی گئی ہے۔ ہم دونوں طرح کے اصولوں اور ماڈل پر مبنی درجہ بندی کا استعمال کرتے ہوئے تمام ڈیٹاسیٹس پر معیار کے فلٹرز لاگو کرتے ہیں۔ ہم ایسے مواد کو ہٹانے کے لیے حفاظتی فلٹر بھی لگاتے ہیں جو ممکنہ طور پر پالیسی کی خلاف ورزی کرنے والے آؤٹ پٹ پیدا کر سکتے ہیں۔ ماڈل کی تشخیصات کی سالمیت کو برقرار رکھنے کے لیے، ہم کسی بھی تشخیصی ڈیٹا کو تلاش کرتے اور ہٹاتے ہیں جو ٹریننگ کے لیے ڈیٹا استعمال کرنے سے پہلے ہمارے ٹریننگ کارپس میں موجود ہو سکتا ہے۔ حتمی ڈیٹا کے مرکب اور وزن کا تعین چھوٹے ماڈلز پر ابلیشنز کے ذریعے کیا جاتا ہے۔ ہم ٹریننگ کے دوران مرکب کے کمپوزیشن کو تبدیل کرنے کے لیے مرحلہ وار ٹریننگ کرتے ہیں - تربیت کے اختتام تک ڈومین سے متعلقہ ڈیٹا کی اہمیت کو بڑھاتے ہیں۔ ڈیٹا کے معیار کو اعلیٰ کارکردگی والے ماڈلز کے لیے ایک اہم فیکٹر سمجھا جا سکتا ہے، اور ہمارا ماننا ہے کہ پیشگی ٹریننگ کے لیے موزوں ترین ڈیٹاسیٹ کی تقسیم تلاش کرنے کے حوالے سے اب بھی کئی دلچسپ سوالات باقی ہیں۔

یہ پیشگی ٹریننگ ماڈل کو زبان میں نمونوں کو حاصل کرنا سیکھنے اور اگلے ممکنہ لفظ یا الفاظ کی ترتیب میں پیشین گوئی کرنے کے لیے استعمال کرنے کی اجازت دیتی ہے۔ مثال کے طور پر، جیسا کہ ایک LLM سیکھتا ہے، یہ پیشین گوئی کر سکتا ہے کہ "مونگ پھلی کا مکھن اور ___" میں اگلا لفظ "جوتی کے تسمے" سے زیادہ "جیلی" ہونے کا امکان ہے۔ تاہم، اگر LLM صرف سب سے زیادہ ممکنہ اگلا لفظ چنتا ہے تو یہ کم تخلیقی ردعمل کا باعث بنے گا۔ لہذا LLMs کو زیادہ دلچسپ ریسپانسز تخلیق کرنے کے لیے اکثر معقول، اگرچہ قدرے کم امکان، انتخابات (مثلاً، "کیلا") میں سے انتخاب کرنے کی لچک فراہم کی جاتی ہے۔ یہ بات قابل غور ہے کہ جب کہ LLMs حقائق پر مبنی پرامپٹس پر اچھی کارکردگی کا مظاہرہ کر سکتے ہیں اور معلومات کی بازیافت کا تاثر پیدا کر سکتے ہیں وہ نہ تو معلوماتی ڈیٹا بیس ہیں اور نہ ہی تعیینی معلومات کی بازیافت کے سسٹمز ہیں۔ لہذا جب آپ ڈیٹا بیس کے استفسار کے مستقل ریسپانس کی توقع کر سکتے ہیں (ایک جو ڈیٹا بیس میں اسٹور شدہ متعین معلومات کی لٹرل بازیافت ہے)، اسی پرامپٹ پر LLM کا ریسپانس ہر بار ایک جیسا نہیں ہوگا (اور نہ ہی یہ لٹرل طور پر اس معلومات کو بازیافت کرے گا جس پر اسے ٹرین کیا گیا تھا)۔ یہ بھی ایک اہم وجہ ہے کہ LLMs قابل فہم ریسپانسز تخلیق کر سکتے ہیں جن میں بعض اوقات حقائق پر مبنی غلطیاں بھی ہو سکتی ہیں — جب حقیقت کی اہمیت ہو تو یہ مثالی نہیں لیکن تخلیقی یا غیر متوقع آؤٹ پٹس تخلیق کرنے کے لیے ممکنہ طور پر مفید ہیں۔

2 پوسٹ ٹریننگ

ابتدائی ٹریننگ کے بعد، LLMs اپنے ریسپانسز کو بہتر بنانے کے لیے اضافی مراحل سے گزرتے ہیں۔ ان میں سے ایک کو سپروائزڈ فائن ٹیوننگ (SFT) کہا جاتا ہے، جو ماڈل کو بہترین جوابات کی احتیاط سے منتخب کردہ مثالوں پر ٹرین کرتا ہے۔ یہ بچوں کو اچھی طرح سے لکھی ہوئی کہانیاں اور مضامین دکھا کر لکھنا سکھانے جیسا ہے۔

اس کے بعد انسانی تاثرات سے براہِ راست ازسرِنو سیکھنا (RLHF) مرحلہ آتا ہے۔ یہاں، ماڈل ایک خاص انعامی ماڈل کے اسکورز یا تاثرات کی بنیاد پر اور بھی بہتر ریسپانسز تخلیق کرنا سیکھتا ہے۔ اس انعامی ماڈل کو انسانی ترجیحی ڈیٹا پر تربیت دی جاتی ہے، جہاں ریسپانسز کو ایک دوسرے کے مقابلے میں درجہ بند کیا گیا ہے، یہ سکھایا جاتا ہے کہ لوگ کسے پسند کرتے ہیں۔ ترجیحی ڈیٹا میں بعض اوقات جارحانہ یا غلط ڈیٹا ماڈلز کو شامل اور ظاہر کر سکتا ہے تاکہ وہ اسے پہچاننے اور اس سے بچنے کا طریقہ سیکھیں۔ آپ ترجیحی ڈیٹا کے بارے میں سوچ سکتے ہیں جیسے کسی بچے کو اچھے کام کے لیے انعام دینا؛ ماڈل کو ایسے جوابات بنانے کے لیے انعام دیا جاتا ہے جو لوگ پسند کرتے ہیں۔

ان تمام مراحل کے دوران، اعلیٰ معیار کے ٹریننگ ڈیٹا کا استعمال کرنا ضروری ہے۔ ‫SFT کے لیے استعمال ہونے والی مثالیں عام طور پر یا تو ماہرین لکھتے ہیں یا کوئی ماڈل انہیں تیار کرتا ہے اور ماہرین ان کا جائزہ لیتے ہیں۔

اگرچہ یہ تکنیکیں طاقتور ہیں، لیکن ان کی حدود بھی ہیں۔ مثال کے طور پر، ریوارڈ ماڈل کی مدد سے بھی، دیا گیا ریسپانس ہمیشہ کامل نہیں ہو سکتا۔ پھر بھی، LLM کو موصول ہونے والے تاثرات کی بنیاد پر سب سے زیادہ ترجیحی ریسپانسز تخلیق کرنے کے لیے بہتر بنایا گیا ہے، جیسا کہ طلباء اپنے اساتذہ کے تبصروں سے سیکھتے ہیں۔

3 صارف کے پرامپٹس کے ریسپانسز

ریسپانس کی تخلیق کا عمل ایسا ہی ہے جس طرح انسان کسی سوال کا جواب دینے کے لیے مختلف طریقوں پر سوچ بچار کر سکتا ہے۔ جب کوئی صارف پرامپٹ فراہم کرتا ہے تو Gemini پوسٹ ٹرینڈ LLM، پرامپٹ میں سیاق و سباق اور جواب کے متعدد ورژن تیار کرنے کے لیے صارف کے ساتھ تعامل کا استعمال کرتا ہے۔ یہ اپنے ریسپانسز تخلیق کرنے کے لیے بیرونی ذرائع جیسے کہ Google تلاش اور/یا اپنی متعدد ایکسٹینشنز میں سے ایک اور حال ہی میں اپ لوڈ کردہ فائلز (صرف Gemini Advanced) پر بھی انحصار کرتا ہے۔ اس عمل کو بازیافت اضافہ کے نام سے جانا جاتا ہے۔ پرامپٹ کیے جانے پر Gemini ان بیرونی ذرائع سے انتہائی متعلقہ معلومات بازیافت کرنے (جیسے، ‫Google تلاش) اور اس کے ریسپانس میں درست طریقے سے ان کی نمائندگی کرنے کی کوشش کرتا ہے۔ بیرونی ٹولز کے ساتھ LLMs کی صلاحیتوں میں اضافہ کرنا تحقیق کا ایک فعال ایریا ہے۔ غلطیاں مختلف طریقوں سے سرزد ہو سکتی ہیں، جن میں وہ استفسار جو Gemini ان بیرونی ٹولز کو استعمال کرنے کے لیے استعمال کرتا ہے، Gemini ٹولز کے ذریعے حاصل کردہ نتائج کی تشریح کیسے کرتا ہے اور جس طریقے سے ان حاصل کردہ نتائج کو حتمی ریسپانس تخلیق کرنے کے لیے استعمال کیا جاتا ہے۔ اس کی وجہ سے، Gemini کے تخلیق کردہ ریسپانسز کو انفرادی ٹولز کی کارکردگی کی عکاسی نہیں کرنی چاہیے جو اس ریسپانس کو تخلیق کرنے کے لیے استعمال کیے جاتے ہیں۔

آخر میں، حتمی ریسپانس ظاہر ہونے سے پہلے، ہر ممکنہ ریسپانس کو حفاظتی سیفٹی چیک سے گزرنا پڑتا ہے تاکہ یہ یقینی بنایا جا سکے کہ یہ پہلے سے طے شدہ پالیسی کی گائیڈلائنز پر عمل کرتا ہے۔ یہ پروسیس نقصان دہ یا جارحانہ معلومات کو فلٹر کرنے کے لیے دوہری جانچ فراہم کرتا ہے۔ اس کے بعد باقی ریسپانسز کو ان کے معیار کی بنیاد پر درجہ بند کیا جاتا ہے، جس میں سب سے زیادہ اسکور کرنے والا ورژن صارف کو واپس پیش کیا جاتا ہے۔

ہم  SynthID‎‏ ‫AI کے ذریعے تخلیق کردہ مواد کو واٹر مارکنگ کرنے کے لیے ہماری انڈسٹری کی معروف ڈیجیٹل ٹول کٹ کا استعمال کرتے ہوئے Gemini ٹیکسٹ اور تصویر آؤٹ پٹس کو بھی واٹر مارک کرتے ہیں۔ تخلیق کردہ تصاویر کے لیے، SynthID ایک ڈیجیٹل واٹر مارک (جو انسانی آنکھ کے لیے ناقابل فہم ہے) کو براہ راست پکسلز میں شامل کرتا ہے۔ ‫SynthID زیادہ قابل اعتماد AI شناختی ٹولز تیار کرنے کے لیے ایک اہم بلڈنگ بلاک ہے اور لوگوں کو باخبر فیصلے کرنے میں مدد کر سکتا ہے کہ وہ AI کے ذریعے تخلیق کردہ مواد کے ساتھ کیسے تعامل کرتے ہیں۔

4 انسانی تاثرات اور تشخیص

یہاں تک کہ سیفٹی چیکس کے باوجود، کچھ غلطیاں ہو سکتی ہیں۔ اور ممکن ہے Gemini کے ریسپانسز ہمیشہ آپ کی توقعات پر پورا نہ اتریں۔ یہی وہ جگہ ہے جہاں انسانی تاثرات آتے ہیں۔ جائزہ لینے والے جوابات کے معیار کا جائزہ لیتے ہیں، ان جگہوں کی نشاندہی کرتے ہیں جہاں بہتری ہو سکتی ہے اور حل تجویز کرتے ہیں۔ یہ تاثرات Gemini کے سیکھنے کے عمل کا حصہ بن جاتے ہیں، جسے اوپر "پوسٹ ٹریننگ" سیکشن میں بیان کیا گیا ہے۔