All Gemini 1.0 and Gemini 1.5 models are now retired.
To avoid service disruption, update to a newer model (for example, gemini-2.5-flash-lite). Learn more.

این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.

فایل های ورودی و الزامات پشتیبانی شده

هنگام فراخوانی Gemini API از برنامه خود با استفاده از Firebase AI Logic SDK، می‌توانید از مدل Gemini بخواهید متنی را بر اساس ورودی چندوجهی، مانند تصاویر، ویدیو، و صدا، و اسناد (مانند PDF) تولید کند.

شما باید از انواع فایل های پشتیبانی شده استفاده کنید، نوع MIME پشتیبانی شده را مشخص کنید، و مطمئن شوید که فایل ها و درخواست های چندوجهی شما الزامات را برآورده می کنند و بهترین شیوه ها را دنبال می کنند.

این صفحه مخصوص استفاده از GenerativeModel است و موارد زیر را شرح می دهد:

گزینه هایی برای ارائه فایل در درخواست شما.
جزئیات مربوط به انواع MIME پشتیبانی شده، بهترین شیوه ها و محدودیت ها برای ورودی های فایل زیر:
تصاویر | ویدیو | صوتی | اسناد (مانند PDF) .

گزینه هایی برای ارائه فایل ها در درخواست های چندوجهی

ارائه دهنده API Gemini خود را برای مشاهده محتوای ارائه دهنده خاص در این صفحه انتخاب کنید

در هر درخواست چند وجهی، همیشه باید موارد زیر را ارائه دهید:

mimeType فایل. انواع MIME پشتیبانی شده هر فایل ورودی را در بخش مربوطه این صفحه ببینید.
فایل. می‌توانید فایل را به‌عنوان داده درون خطی ارائه کنید یا با استفاده از URL آن فایل را ارائه دهید .

اندازه و تعداد فایل‌هایی که می‌توانید در درخواست ارائه دهید، بر اساس نوع فایل ورودی، نحوه ارائه فایل، و مدل استفاده شده تعیین می‌شود (برای جزئیات، بخش هر نوع فایل ورودی را در این صفحه ببینید).

گزینه 1 : فایل را به عنوان داده درون خطی ارائه کنید

در مورد فایل های ارائه شده به عنوان داده های درون خطی به موارد زیر توجه کنید:

فقط فایل های کوچک را می توان به عنوان داده های درون خطی ارسال کرد زیرا محدودیت حجم کل درخواست 20 مگابایت است.
فایل در حال انتقال به base64 کدگذاری می شود (که باعث افزایش اندازه فایل می شود).

برای مثالی که نحوه گنجاندن یک فایل را به عنوان داده درون خطی نشان می دهد، به ایجاد متن از ورودی متن و فایل (چند وجهی) مراجعه کنید. توجه داشته باشید که SDK برای پلتفرم‌های اندروید و اپل می‌توانند بدون نیاز به تعیین نوع MIME، تصاویر درون خطی را در درخواست‌ها مدیریت کنند. بیشتر بدانید.

گزینه 2 : فایل را با استفاده از URL ارائه کنید

در اینجا انواع URL های قابل قبول هنگام استفاده از Gemini Developer API آمده است:

URL ویدیوی YouTube : ویدیوی YouTube باید عمومی یا فهرست نشده باشد.
برای هر درخواست می توانید یک URL ویدیوی YouTube را مشخص کنید.

تصاویر : الزامات، بهترین شیوه ها، و محدودیت ها تصاویر: نیازمندی ها

در این بخش، با انواع MIME پشتیبانی شده و محدودیت های هر درخواست برای تصاویر آشنا شوید.

پشتیبانی از انواع MIME

مدل‌های چند وجهی Gemini از انواع MIME تصویر زیر پشتیبانی می‌کنند:

PNG - image/png
JPEG - image/jpeg
WebP - image/webp

محدودیت در هر درخواست

محدودیت خاصی برای تعداد پیکسل های یک تصویر وجود ندارد. با این حال، تصاویر بزرگ‌تر کوچک‌تر می‌شوند و برای قرار دادن حداکثر وضوح 3072×3072 در حالی که نسبت تصویر اصلی خود را حفظ می‌کنند، بالشتک می‌شوند.

حداکثر فایل در هر درخواست: 3000 فایل تصویری

تصاویر: توکن سازی

در اینجا نحوه محاسبه نشانه ها برای تصاویر آمده است:

اگر هر دو بعد یک تصویر کمتر یا مساوی 384 پیکسل باشد، از 258 توکن استفاده می شود.
اگر یک بعد یک تصویر بزرگتر از 384 پیکسل باشد، آنگاه تصویر به کاشی برش داده می شود. هر اندازه کاشی به طور پیش فرض کوچکترین بعد (عرض یا ارتفاع) تقسیم بر 1.5 است. در صورت لزوم، هر کاشی طوری تنظیم می شود که کوچکتر از 256 پیکسل و بزرگتر از 768 پیکسل نباشد. سپس اندازه هر کاشی به 768x768 تغییر می کند و از 258 توکن استفاده می کند.

تصاویر: بهترین شیوه ها

هنگام استفاده از تصاویر، از بهترین شیوه ها و اطلاعات زیر برای بهترین نتایج استفاده کنید:

اگر می‌خواهید متن را در یک تصویر تشخیص دهید، از دستورات با یک تصویر استفاده کنید تا نتایج بهتری نسبت به پیام‌های چند تصویری ایجاد کنید.
اگر درخواست شما حاوی یک تصویر واحد است، تصویر را قبل از درخواست متنی در درخواست خود قرار دهید.
اگر درخواست شما حاوی چندین تصویر است، و می‌خواهید بعداً در درخواست خود به آنها مراجعه کنید یا مدل را در پاسخ مدل به آنها ارجاع دهید، می‌توانید به هر تصویر یک شاخص قبل از تصویر بدهید. استفاده کنید a b c یا
image 1 image 2 image 3 برای نمایه شما. مثال زیر نمونه ای از استفاده از تصاویر ایندکس شده در یک اعلان است:
```
image 1 
image 2 
image 3 

Write a blogpost about my day using image 1 and image 2. Then, give me ideas
for tomorrow based on image 3.
```
استفاده از تصاویر با وضوح بالاتر. آنها نتایج بهتری می دهند.
چند مثال را در اعلان قرار دهید.
قبل از افزودن تصاویر به دستور، آنها را در جهت مناسب خود بچرخانید.
از تصاویر تار خودداری کنید.

تصاویر: محدودیت ها

در حالی که مدل‌های چندوجهی Gemini در بسیاری از موارد استفاده چندوجهی قدرتمند هستند، درک محدودیت‌های مدل‌ها مهم است:

تعدیل محتوا : مدل‌ها از ارائه پاسخ به تصاویری که خط‌مشی‌های ایمنی ما را نقض می‌کنند، خودداری می‌کنند.
استدلال فضایی : مدل ها در مکان یابی متن یا اشیاء در تصاویر دقیق نیستند. آنها فقط ممکن است تعداد تقریبی اشیاء را برگردانند.
کاربردهای پزشکی : مدل ها برای تفسیر تصاویر پزشکی (مثلاً اشعه ایکس و سی تی اسکن) یا ارائه توصیه های پزشکی مناسب نیستند.
تشخیص افراد : این مدل‌ها برای شناسایی افرادی که افراد مشهور نیستند در تصاویر استفاده نمی‌شوند.
دقت : مدل‌ها ممکن است هنگام تفسیر تصاویر با کیفیت پایین، چرخانده یا بسیار کم وضوح دچار توهم شوند یا اشتباه کنند. این مدل ها همچنین ممکن است هنگام تفسیر متن دست نویس در اسناد تصویری دچار توهم شوند.

ویدئو : الزامات، بهترین شیوه‌ها و محدودیت‌ها ویدئو: الزامات

در این بخش، با انواع MIME پشتیبانی شده و محدودیت‌های هر درخواست برای ویدیو آشنا شوید.

پشتیبانی از انواع MIME

مدل‌های چندوجهی Gemini از انواع MIME ویدیویی زیر پشتیبانی می‌کنند:

FLV - video/x-flv
MOV - video/quicktime
MPEG - video/mpeg
MPEGPS - video/mpegps
MPG - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP - video/3gpp

محدودیت در هر درخواست

حداکثر فایل در هر درخواست: 10 فایل ویدئویی

ویدئو: توکن سازی

در اینجا نحوه محاسبه توکن ها برای ویدیو آمده است:

تراک صوتی با فریم های ویدئویی کدگذاری شده است. تراک صوتی نیز به ترانک های 1 ثانیه ای تقسیم می شود که هر کدام 32 توکن را تشکیل می دهند. قاب های ویدئویی و نشانه های صوتی با مهرهای زمانی خود در هم آمیخته می شوند. مهرهای زمانی به صورت 5 توکن نشان داده می شوند.
برای ویدیوهایی که با سرعت 1 فریم در ثانیه (fps) یا کمتر از آنها نمونه برداری می شود، مهرهای زمانی برای ساعت اول ویدیو به عنوان 5 نشانه در هر فریم ویدیو نشان داده می شود. مُهرهای زمانی باقیمانده به صورت 7 توکن در هر فریم ویدیو نشان داده می‌شوند.
برای ویدیوهایی که بالاتر از 1 فریم در ثانیه (fps) نمونه برداری می شوند، مهرهای زمانی برای ساعت اول ویدیو به عنوان 9 نشانه در هر فریم ویدیو نشان داده می شود. مهرهای زمانی باقیمانده به صورت 11 توکن در هر فریم ویدیو نشان داده می شود.

ویدئو: بهترین شیوه ها

هنگام استفاده از ویدئو، از بهترین روش ها و اطلاعات زیر برای بهترین نتایج استفاده کنید:

اگر درخواست شما حاوی یک ویدیو است، ویدیو را قبل از درخواست متنی قرار دهید.
اگر به محلی‌سازی مهر زمانی در ویدیویی همراه با صدا نیاز دارید، از مدل بخواهید مهر زمانی ایجاد کند که از قالبی که در «قالب مهر زمانی» توضیح داده شده است پیروی کند.

ویدئو: محدودیت ها

تعدیل محتوا : مدل‌ها از ارائه پاسخ در مورد ویدیوهایی که خط‌مشی‌های ایمنی ما را نقض می‌کنند، خودداری می‌کنند.
تشخیص صدای غیرگفتاری : مدل‌هایی که از صدا پشتیبانی می‌کنند ممکن است در تشخیص صدایی که گفتار نیست اشتباه کنند.

صدا : الزامات و محدودیت ها صدا: الزامات

در این بخش، با انواع MIME پشتیبانی شده و محدودیت های هر درخواست برای صدا آشنا شوید.

پشتیبانی از انواع MIME

مدل‌های چند وجهی Gemini از انواع MIME صوتی زیر پشتیبانی می‌کنند:

AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
MPA - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
PCM - audio/pcm
WAV - audio/wav
WEBM - audio/webm

محدودیت در هر درخواست

حداکثر فایل در هر درخواست: 1 فایل صوتی

صدا: محدودیت ها

تشخیص صدای غیرگفتاری : مدل‌هایی که از صدا پشتیبانی می‌کنند ممکن است در تشخیص صدایی که گفتار نیست اشتباه کنند.
مهرهای زمانی فقط صوتی : برای ایجاد دقیق مهر زمانی برای فایل‌های فقط صوتی، باید پارامتر audio_timestamp را در generation_config پیکربندی کنید.

اسناد (مانند فایل‌های PDF) : الزامات، بهترین شیوه‌ها و محدودیت‌ها مدارک: الزامات

در این بخش، با انواع MIME پشتیبانی شده و محدودیت‌های هر درخواست برای اسناد (مانند فایل‌های PDF) آشنا شوید.

پشتیبانی از انواع MIME

مدل‌های چندوجهی Gemini از انواع سند MIME زیر پشتیبانی می‌کنند:

PDF - application/pdf
متن - text/plain

محدودیت در هر درخواست

PDFها به عنوان تصویر در نظر گرفته می شوند، بنابراین یک صفحه از یک PDF به عنوان یک تصویر در نظر گرفته می شود. تعداد صفحات مجاز در یک درخواست محدود به تعداد تصاویری است که مدل های چندوجهی Gemini می توانند پشتیبانی کنند.

حداکثر فایل در هر درخواست: 3000 فایل
حداکثر صفحات در هر فایل: 1000 صفحه در هر فایل
حداکثر حجم هر فایل: 50 مگابایت در هر فایل

اسناد: توکن سازی

توکن سازی PDF

فایل‌های PDF به‌عنوان تصویر در نظر گرفته می‌شوند، بنابراین هر صفحه از یک پی‌دی‌اف به روشی مشابه یک تصویر توکن‌سازی می‌شود.

همچنین، هزینه فایل های PDF از قیمت گذاری تصویر Gemini تبعیت می کند. به عنوان مثال، اگر یک PDF دو صفحه ای را در تماس Gemini API قرار دهید، هزینه ورودی پردازش دو تصویر را متحمل خواهید شد.

اسناد: بهترین شیوه ها

هنگام استفاده از PDF، از بهترین روش ها و اطلاعات زیر برای بهترین نتایج استفاده کنید:

اگر درخواست شما حاوی یک PDF واحد است، PDF را قبل از درخواست متنی در درخواست خود قرار دهید.
اگر سند طولانی دارید، برای پردازش آن، آن را به چندین فایل PDF تقسیم کنید.
به جای استفاده از متن در تصاویر اسکن شده از فایل های PDF ایجاد شده با متن ارائه شده به عنوان متن استفاده کنید. این قالب تضمین می‌کند متن قابل خواندن توسط ماشین است، بنابراین ویرایش، جستجو و دستکاری مدل در مقایسه با فایل‌های PDF تصویر اسکن شده آسان‌تر است. این عمل هنگام کار با اسناد متن سنگین مانند قراردادها نتایج بهینه را ارائه می دهد.

اسناد: محدودیت ها

استدلال فضایی : مدل ها در مکان یابی متن یا اشیاء در فایل های PDF دقیق نیستند. آنها فقط ممکن است تعداد تقریبی اشیاء را برگردانند.
دقت : ممکن است مدل ها هنگام تفسیر متن دست نویس در اسناد PDF دچار توهم شوند.

فایل های ورودی و الزامات پشتیبانی شده با مجموعه‌ها، منظم بمانید ذخیره و طبقه‌بندی محتوا براساس اولویت‌های شما.

فایل های ورودی و الزامات پشتیبانی شده