هنگام فراخوانی Gemini API از برنامه خود با استفاده از Firebase AI Logic SDK، میتوانید از مدل Gemini بخواهید متنی را بر اساس ورودی چندوجهی، مانند تصاویر، ویدیو، و صدا، و اسناد (مانند PDF) تولید کند.
شما باید از انواع فایل های پشتیبانی شده استفاده کنید، نوع MIME پشتیبانی شده را مشخص کنید، و مطمئن شوید که فایل ها و درخواست های چندوجهی شما الزامات را برآورده می کنند و بهترین شیوه ها را دنبال می کنند.
این صفحه مخصوص استفاده از GenerativeModel
است و موارد زیر را شرح می دهد:
جزئیات مربوط به انواع MIME پشتیبانی شده، بهترین شیوه ها و محدودیت ها برای ورودی های فایل زیر:
تصاویر | ویدیو | صوتی | اسناد (مانند PDF) .
ارائه دهنده API Gemini خود را برای مشاهده محتوای ارائه دهنده خاص در این صفحه انتخاب کنید |
در هر درخواست چند وجهی، همیشه باید موارد زیر را ارائه دهید:
mimeType
فایل. انواع MIME پشتیبانی شده هر فایل ورودی را در بخش مربوطه این صفحه ببینید.فایل. میتوانید فایل را بهعنوان داده درون خطی ارائه کنید یا با استفاده از URL آن فایل را ارائه دهید .
اندازه و تعداد فایلهایی که میتوانید در درخواست ارائه دهید، بر اساس نوع فایل ورودی، نحوه ارائه فایل، و مدل استفاده شده تعیین میشود (برای جزئیات، بخش هر نوع فایل ورودی را در این صفحه ببینید).
در مورد فایل های ارائه شده به عنوان داده های درون خطی به موارد زیر توجه کنید:
فقط فایل های کوچک را می توان به عنوان داده های درون خطی ارسال کرد زیرا محدودیت حجم کل درخواست 20 مگابایت است.
فایل در حال انتقال به base64 کدگذاری می شود (که باعث افزایش اندازه فایل می شود).
برای مثالی که نحوه گنجاندن یک فایل را به عنوان داده درون خطی نشان می دهد، به ایجاد متن از ورودی متن و فایل (چند وجهی) مراجعه کنید. توجه داشته باشید که SDK برای پلتفرمهای اندروید و اپل میتوانند بدون نیاز به تعیین نوع MIME، تصاویر درون خطی را در درخواستها مدیریت کنند. بیشتر بدانید.
در اینجا انواع URL های قابل قبول هنگام استفاده از Gemini Developer API آمده است:
URL ویدیوی YouTube : ویدیوی YouTube باید عمومی یا فهرست نشده باشد.
برای هر درخواست می توانید یک URL ویدیوی YouTube را مشخص کنید.
در این بخش، با انواع MIME پشتیبانی شده و محدودیت های هر درخواست برای تصاویر آشنا شوید.
مدلهای چند وجهی Gemini از انواع MIME تصویر زیر پشتیبانی میکنند:
- PNG -
image/png
- JPEG -
image/jpeg
- WebP -
image/webp
محدودیت خاصی برای تعداد پیکسل های یک تصویر وجود ندارد. با این حال، تصاویر بزرگتر کوچکتر میشوند و برای قرار دادن حداکثر وضوح 3072×3072 در حالی که نسبت تصویر اصلی خود را حفظ میکنند، بالشتک میشوند.
حداکثر فایل در هر درخواست: 3000 فایل تصویری
در اینجا نحوه محاسبه نشانه ها برای تصاویر آمده است:
- اگر هر دو بعد یک تصویر کمتر یا مساوی 384 پیکسل باشد، از 258 توکن استفاده می شود.
- اگر یک بعد یک تصویر بزرگتر از 384 پیکسل باشد، آنگاه تصویر به کاشی برش داده می شود. هر اندازه کاشی به طور پیش فرض کوچکترین بعد (عرض یا ارتفاع) تقسیم بر 1.5 است. در صورت لزوم، هر کاشی طوری تنظیم می شود که کوچکتر از 256 پیکسل و بزرگتر از 768 پیکسل نباشد. سپس اندازه هر کاشی به 768x768 تغییر می کند و از 258 توکن استفاده می کند.
هنگام استفاده از تصاویر، از بهترین شیوه ها و اطلاعات زیر برای بهترین نتایج استفاده کنید:
- اگر میخواهید متن را در یک تصویر تشخیص دهید، از دستورات با یک تصویر استفاده کنید تا نتایج بهتری نسبت به پیامهای چند تصویری ایجاد کنید.
- اگر درخواست شما حاوی یک تصویر واحد است، تصویر را قبل از درخواست متنی در درخواست خود قرار دهید.
- اگر درخواست شما حاوی چندین تصویر است، و میخواهید بعداً در درخواست خود به آنها مراجعه کنید یا مدل را در پاسخ مدل به آنها ارجاع دهید، میتوانید به هر تصویر یک شاخص قبل از تصویر بدهید. استفاده کنید
a
b
c
یاimage 1
image 2
image 3
برای نمایه شما. مثال زیر نمونه ای از استفاده از تصاویر ایندکس شده در یک اعلان است:image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - استفاده از تصاویر با وضوح بالاتر. آنها نتایج بهتری می دهند.
- چند مثال را در اعلان قرار دهید.
- قبل از افزودن تصاویر به دستور، آنها را در جهت مناسب خود بچرخانید.
- از تصاویر تار خودداری کنید.
در حالی که مدلهای چندوجهی Gemini در بسیاری از موارد استفاده چندوجهی قدرتمند هستند، درک محدودیتهای مدلها مهم است:
- تعدیل محتوا : مدلها از ارائه پاسخ به تصاویری که خطمشیهای ایمنی ما را نقض میکنند، خودداری میکنند.
- استدلال فضایی : مدل ها در مکان یابی متن یا اشیاء در تصاویر دقیق نیستند. آنها فقط ممکن است تعداد تقریبی اشیاء را برگردانند.
- کاربردهای پزشکی : مدل ها برای تفسیر تصاویر پزشکی (مثلاً اشعه ایکس و سی تی اسکن) یا ارائه توصیه های پزشکی مناسب نیستند.
- تشخیص افراد : این مدلها برای شناسایی افرادی که افراد مشهور نیستند در تصاویر استفاده نمیشوند.
- دقت : مدلها ممکن است هنگام تفسیر تصاویر با کیفیت پایین، چرخانده یا بسیار کم وضوح دچار توهم شوند یا اشتباه کنند. این مدل ها همچنین ممکن است هنگام تفسیر متن دست نویس در اسناد تصویری دچار توهم شوند.
در این بخش، با انواع MIME پشتیبانی شده و محدودیتهای هر درخواست برای ویدیو آشنا شوید.
مدلهای چندوجهی Gemini از انواع MIME ویدیویی زیر پشتیبانی میکنند:
- FLV -
video/x-flv
- MOV -
video/quicktime
- MPEG -
video/mpeg
- MPEGPS -
video/mpegps
- MPG -
video/mpg
- MP4 -
video/mp4
- WEBM -
video/webm
- WMV -
video/wmv
- 3GPP -
video/3gpp
حداکثر فایل در هر درخواست: 10 فایل ویدئویی
در اینجا نحوه محاسبه توکن ها برای ویدیو آمده است:
- تراک صوتی با فریم های ویدئویی کدگذاری شده است. تراک صوتی نیز به
ترانک های 1 ثانیه ای تقسیم می شود که هر کدام 32 توکن را تشکیل می دهند. قاب های ویدئویی و نشانه های صوتی با مهرهای زمانی خود در هم آمیخته می شوند. مهرهای زمانی به صورت 5 توکن نشان داده می شوند. - برای ویدیوهایی که با
سرعت 1 فریم در ثانیه (fps) یا کمتر از آنها نمونه برداری می شود، مهرهای زمانی برای ساعت اول ویدیو به عنوان 5 نشانه در هر فریم ویدیو نشان داده می شود. مُهرهای زمانی باقیمانده به صورت 7 توکن در هر فریم ویدیو نشان داده میشوند. - برای ویدیوهایی که بالاتر از
1 فریم در ثانیه (fps) نمونه برداری می شوند، مهرهای زمانی برای ساعت اول ویدیو به عنوان 9 نشانه در هر فریم ویدیو نشان داده می شود. مهرهای زمانی باقیمانده به صورت 11 توکن در هر فریم ویدیو نشان داده می شود.
هنگام استفاده از ویدئو، از بهترین روش ها و اطلاعات زیر برای بهترین نتایج استفاده کنید:
- اگر درخواست شما حاوی یک ویدیو است، ویدیو را قبل از درخواست متنی قرار دهید.
- اگر به محلیسازی مهر زمانی در ویدیویی همراه با صدا نیاز دارید، از مدل بخواهید مهر زمانی ایجاد کند که از قالبی که در «قالب مهر زمانی» توضیح داده شده است پیروی کند.
در حالی که مدلهای چندوجهی Gemini در بسیاری از موارد استفاده چندوجهی قدرتمند هستند، درک محدودیتهای مدلها مهم است:
- تعدیل محتوا : مدلها از ارائه پاسخ در مورد ویدیوهایی که خطمشیهای ایمنی ما را نقض میکنند، خودداری میکنند.
- تشخیص صدای غیرگفتاری : مدلهایی که از صدا پشتیبانی میکنند ممکن است در تشخیص صدایی که گفتار نیست اشتباه کنند.
در این بخش، با انواع MIME پشتیبانی شده و محدودیت های هر درخواست برای صدا آشنا شوید.
مدلهای چند وجهی Gemini از انواع MIME صوتی زیر پشتیبانی میکنند:
- AAC -
audio/aac
- FLAC -
audio/flac
- MP3 -
audio/mp3
- MPA -
audio/m4a
- MPEG -
audio/mpeg
- MPGA -
audio/mpga
- MP4 -
audio/mp4
- OPUS -
audio/opus
- PCM -
audio/pcm
- WAV -
audio/wav
- WEBM -
audio/webm
در حالی که مدلهای چندوجهی Gemini در بسیاری از موارد استفاده چندوجهی قدرتمند هستند، درک محدودیتهای مدلها مهم است:
- تشخیص صدای غیرگفتاری : مدلهایی که از صدا پشتیبانی میکنند ممکن است در تشخیص صدایی که گفتار نیست اشتباه کنند.
- مهرهای زمانی فقط صوتی : برای ایجاد دقیق مهر زمانی برای فایلهای فقط صوتی، باید پارامتر
audio_timestamp
را درgeneration_config
پیکربندی کنید.
در این بخش، با انواع MIME پشتیبانی شده و محدودیتهای هر درخواست برای اسناد (مانند فایلهای PDF) آشنا شوید.
مدلهای چندوجهی Gemini از انواع سند MIME زیر پشتیبانی میکنند:
- PDF -
application/pdf
- متن -
text/plain
PDFها به عنوان تصویر در نظر گرفته می شوند، بنابراین یک صفحه از یک PDF به عنوان یک تصویر در نظر گرفته می شود. تعداد صفحات مجاز در یک درخواست محدود به تعداد تصاویری است که مدل های چندوجهی Gemini می توانند پشتیبانی کنند.
- حداکثر فایل در هر درخواست: 3000 فایل
- حداکثر صفحات در هر فایل: 1000 صفحه در هر فایل
- حداکثر حجم هر فایل: 50 مگابایت در هر فایل
توکن سازی PDF
فایلهای PDF بهعنوان تصویر در نظر گرفته میشوند، بنابراین هر صفحه از یک پیدیاف به روشی مشابه یک تصویر توکنسازی میشود.
همچنین، هزینه فایل های PDF از قیمت گذاری تصویر Gemini تبعیت می کند. به عنوان مثال، اگر یک PDF دو صفحه ای را در تماس Gemini API قرار دهید، هزینه ورودی پردازش دو تصویر را متحمل خواهید شد.
هنگام استفاده از PDF، از بهترین روش ها و اطلاعات زیر برای بهترین نتایج استفاده کنید:
- اگر درخواست شما حاوی یک PDF واحد است، PDF را قبل از درخواست متنی در درخواست خود قرار دهید.
- اگر سند طولانی دارید، برای پردازش آن، آن را به چندین فایل PDF تقسیم کنید.
- به جای استفاده از متن در تصاویر اسکن شده از فایل های PDF ایجاد شده با متن ارائه شده به عنوان متن استفاده کنید. این قالب تضمین میکند متن قابل خواندن توسط ماشین است، بنابراین ویرایش، جستجو و دستکاری مدل در مقایسه با فایلهای PDF تصویر اسکن شده آسانتر است. این عمل هنگام کار با اسناد متن سنگین مانند قراردادها نتایج بهینه را ارائه می دهد.
در حالی که مدلهای چندوجهی Gemini در بسیاری از موارد استفاده چندوجهی قدرتمند هستند، درک محدودیتهای مدلها مهم است:
- استدلال فضایی : مدل ها در مکان یابی متن یا اشیاء در فایل های PDF دقیق نیستند. آنها فقط ممکن است تعداد تقریبی اشیاء را برگردانند.
- دقت : ممکن است مدل ها هنگام تفسیر متن دست نویس در اسناد PDF دچار توهم شوند.