برای برنامههای موبایل و وب، کیتهای توسعه نرمافزار Firebase AI Logic به شما امکان میدهند مستقیماً از طریق برنامه خود با مدلهای Gemini و Imagen پشتیبانیشده تعامل داشته باشید.
مدلهای Gemini چندوجهی در نظر گرفته میشوند زیرا قادر به پردازش و حتی تولید چندین حالت، از جمله متن، کد، PDF، تصاویر، ویدیو و صدا هستند. مدلهای Imagen را میتوان با متن برای تولید تصاویر تحریک کرد.
همچنین، سوالات متداول ما را در مورد تمام مدلهایی که Firebase AI Logic پشتیبانی میکند و پشتیبانی نمیکند، بررسی کنید.
شما میتوانید تصاویر را با مدلهای Gemini یا Imagen تولید کنید.
شما میتوانید با مدلهایی که از Gemini Live API پشتیبانی میکنند، صدای استریم شده تولید کنید.
مدلهای زیر فعال هستند، اما از نسل قبلی میباشند. توصیه میکنیم در صورت امکان از جدیدترین مدلها استفاده کنید.
ادامهی این صفحه اطلاعات دقیقی در مورد مدلهای پشتیبانیشده توسط Firebase AI Logic ارائه میدهد.
- ورودی و خروجی پشتیبانی شده
- مقایسه سطح بالا از قابلیتهای پشتیبانیشده
- مشخصات و محدودیتها، برای مثال حداکثر توکنهای ورودی یا حداکثر طول ویدیوی ورودی
شرح نحوهی نسخهبندی مدلها ، به ویژه نسخههای پایدار ، بهروزرسانی خودکار ، پیشنمایش و آزمایشی آنها
فهرست نام مدلهای موجود برای گنجاندن در کد شما در هنگام مقداردهی اولیه
لیست زبانهای پشتیبانیشده برای مدلها
در پایین این صفحه، میتوانید اطلاعات دقیقی در مورد مدلهای نسل قبلی مشاهده کنید .
هر مدل قابلیتهای متفاوتی برای پشتیبانی از موارد استفاده مختلف دارد. توجه داشته باشید که هر یک از جداول این بخش، هر مدل را هنگام استفاده با Firebase AI Logic شرح میدهند. هر مدل ممکن است قابلیتهای اضافی داشته باشد که هنگام استفاده از SDK های ما در دسترس نیستند.
اگر اطلاعات مورد نظر خود را در زیربخشهای زیر پیدا نکردید، میتوانید اطلاعات بیشتری را در مستندات ارائهدهنده API انتخابی خود بیابید:
رابط برنامهنویسی کاربردی توسعهدهندگان Gemini : مدلهای Gemini و مدلهای Imagen
Vertex AI Gemini API : مدلهای Gemini و مدلهای Imagen
اینها انواع ورودی و خروجی پشتیبانی شده هنگام استفاده از هر مدل با Firebase AI Logic هستند:
| جوزا ۳ پرو | جوزا ۳ پرو تصویر | جوزا ۲.۵ پرو، فلش، فلش-لایت | جوزا ۲.۵ فلش تصویر | جوزا ۲.۵ فلش- زنده *** | تصویر (تولید) | تصویر (قابلیت) | |
|---|---|---|---|---|---|---|---|
| انواع ورودی | |||||||
| متن | (پخش جریانی) | ||||||
| کد | |||||||
| اسناد (پیدیاف یا متن ساده) | |||||||
| تصاویر | |||||||
| ویدئو | (پخش جریانی) | ||||||
| صوتی | (پخش جریانی) | ||||||
| انواع خروجی | |||||||
| متن | |||||||
| متن (پخش) | (رونویسی) | ||||||
| کد | |||||||
| خروجی ساختاریافته (مثل جیسون) | |||||||
| تصاویر | |||||||
| صوتی | (پخش جریانی) | ||||||
برای آشنایی با انواع فایلهای پشتیبانیشده، به بخش فایلهای ورودی پشتیبانیشده و الزامات مراجعه کنید.
این قابلیتها و ویژگیهای پشتیبانیشده هنگام استفاده از هر مدل با Firebase AI Logic هستند:
| جوزا ۳ پرو | جوزا ۳ پرو تصویر | جوزا ۲.۵ پرو، فلش، فلش-لایت | جوزا ۲.۵ فلش تصویر | جوزا ۲.۵ فلش- زنده *** | تصویر (تولید) | تصویر (قابلیت) | |
|---|---|---|---|---|---|---|---|
| تفکر | |||||||
| تولید متن از ورودیهای فقط متنی یا چندوجهی | به صورت لایه لایه یا به عنوان بخشی از تصویر | به صورت لایه لایه یا به عنوان بخشی از تصویر | فقط رونویسی | ||||
| تولید تصاویر ( جوزا یا ایمیجن ) | |||||||
| ویرایش تصاویر ( جوزا یا ایمیجن ) | |||||||
| تولید صدا | فقط پخش جریانی | ||||||
| تولید خروجی ساختاریافته (مثل جیسون) | |||||||
| اسناد را تجزیه و تحلیل کنید (پیدیاف یا متن ساده) | |||||||
| تحلیل تصاویر (بینایی) | |||||||
| تجزیه و تحلیل ویدیو (بینایی) | فقط پخش جریانی | ||||||
| تجزیه و تحلیل صدا | فقط پخش جریانی | ||||||
| چت چند نوبتی | فقط پخش جریانی | ||||||
| جریانسازی چندوجهی دوطرفه | |||||||
| فراخوانی تابع | |||||||
| اجرای کد | |||||||
| اتصال به زمین با جستجوی گوگل | |||||||
| دستورالعملهای سیستم | |||||||
| تعداد توکنها |
مشخصات و محدودیتهای استفاده از هر مدل با Firebase AI Logic به شرح زیر است:
| ملک | جوزا ۳ پرو | جوزا ۳ پرو تصویر | جوزا ۲.۵ پرو، فلش، فلش-لایت | جوزا ۲.۵ فلش تصویر | جوزا ۲.۵ فلش- زنده *** | تصویر (تولید) | تصویر (قابلیت) |
|---|---|---|---|---|---|---|---|
| محدودیت توکن ورودی * | ۱,۰۴۸,۵۷۶ توکن | ۶۵,۵۳۶ توکن | ۱,۰۴۸,۵۷۶ توکن | ۳۲۷۶۸ توکن | ۳۲ هزار توکن (پیشفرض؛ قابل ارتقا به ۱۲۸ هزار) | ۴۸۰ توکن | ۴۸۰ توکن |
| محدودیت توکن خروجی * | ۶۵,۵۳۶ توکن | ۳۲۷۶۸ توکن | ۶۵,۵۳۶ توکن | ۸,۱۹۲ توکن | ۶۴ هزار توکن | --- | --- |
| تاریخ پایان دانش | ژانویه ۲۰۲۵ | ژانویه ۲۰۲۵ | ژانویه ۲۰۲۵ | ژوئن ۲۰۲۵ | ژانویه ۲۰۲۵ | --- | --- |
| فایلهای PDF (بنا به درخواست) | |||||||
| حداکثر تعداد از فایلهای PDF ورودی ** | ۹۰۰ فایل | ۱۴ فایل | ۳۰۰۰ فایل | ۳ فایل | --- | --- | --- |
| حداکثر تعداد از صفحات به ازای هر فایل PDF ورودی ** | ۹۰۰ صفحه | ۱۴ صفحه | ۱۰۰۰ صفحه | ۳ صفحه | --- | --- | --- |
| حداکثر اندازه به ازای هر فایل PDF ورودی | ۵۰ مگابایت | ۵۰ مگابایت | ۵۰ مگابایت | ۵۰ مگابایت | --- | --- | --- |
| تصاویر (بنا به درخواست) | |||||||
| حداکثر تعداد از تصاویر ورودی | ۱۰۰۰ تصویر | ۱۴ تصویر | ۳۰۰۰ تصویر | ۳ تصویر | --- | --- | ۴ تصویر |
| حداکثر تعداد از تصاویر خروجی | --- | ۱۰ تصویر | --- | ۱۰ تصویر | --- | ۴ تصویر | ۴ تصویر |
| حداکثر اندازه تصویر کدگذاری شده با base64 به ازای هر ورودی | ۷ مگابایت | ۷ مگابایت | ۷ مگابایت | ۷ مگابایت | --- | --- | --- |
| ویدئو (به درخواست) | |||||||
| حداکثر تعداد از فایلهای ویدیویی ورودی | ۱۰ فایل | --- | ۱۰ فایل | --- | --- | --- | --- |
| حداکثر طول از تمام ویدیوهای ورودی (فقط قابها) | حدود ۶۰ دقیقه | --- | حدود ۶۰ دقیقه | --- | --- | --- | --- |
| حداکثر طول از تمام ویدیوهای ورودی (فریمها + صدا) | حدود ۴۵ دقیقه | --- | حدود ۴۵ دقیقه | --- | --- | --- | --- |
| صدا (به درخواست) | |||||||
| حداکثر تعداد از فایلهای صوتی ورودی | ۱ فایل | --- | ۱ فایل | --- | --- | --- | --- |
| حداکثر تعداد از فایلهای صوتی خروجی | --- | --- | --- | --- | --- | --- | --- |
| حداکثر طول از تمام صداهای ورودی | حدود ۸.۴ ساعت | --- | حدود ۸.۴ ساعت | --- | --- | --- | --- |
| حداکثر طول از تمام صداهای خروجی | --- | --- | --- | --- | --- | --- | --- |
* برای همه مدلهای Gemini ، یک توکن معادل حدود ۴ کاراکتر است، بنابراین ۱۰۰ توکن حدود ۶۰ تا ۸۰ کلمه انگلیسی است. برای مدلهای Gemini ، میتوانید تعداد کل توکنها را در درخواستهای خود با استفاده countTokens تعیین کنید.
** فایلهای PDF به عنوان تصویر در نظر گرفته میشوند، بنابراین یک صفحه از PDF به عنوان یک تصویر در نظر گرفته میشود. تعداد صفحات مجاز در یک درخواست محدود به تعداد تصاویری است که مدل میتواند پشتیبانی کند.
*** مدلهای Gemini 2.5 Flash-Live مدلهای صوتی بومی هستند که از Gemini Live API پشتیبانی میکنند.
سهمیهها و قیمتگذاری برای هر مدل متفاوت است. قیمتگذاری همچنین به ورودی و خروجی بستگی دارد.
در مورد انواع فایلهای ورودی پشتیبانیشده، نحوه تعیین نوع MIME و نحوه اطمینان از اینکه فایلهای ورودی و درخواستهای چندوجهی شما الزامات را برآورده میکنند و از بهترین شیوهها در فایلها و الزامات ورودی پشتیبانیشده پیروی میکنند، اطلاعات کسب کنید.
مدلها در نسخههای پایدار ، پیشنمایش و آزمایشی ارائه میشوند. برای راحتی، از نامهای مستعار بدون مقادیر نسخه صریح پشتیبانی میشود.
برای یافتن نامهای مدل خاص برای استفاده در کد خود، به بخش «نامهای مدل موجود» در ادامه همین صفحه مراجعه کنید.
| نوع نسخه / مرحله انتشار | توضیحات | الگوی نام مدل | |
|---|---|---|---|
| پایدار | نسخههای پایدار از تاریخ انتشار برای استفاده در محیط عملیاتی در دسترس و پشتیبانی میشوند.
|
| |
| نام مستعار پایدار با بهروزرسانی خودکار (فقط مدلهای Gemini 2.0 ) | نامهای مستعار پایدار که به صورت خودکار بهروزرسانی میشوند، همیشه به آخرین نسخه پایدار آن مدل اشاره میکنند.
| فقط مدلهای Gemini 2.0 مثال: | |
| پیشنمایش | نسخههای پیشنمایش دارای قابلیتهای جدیدی هستند و پایدار محسوب نمیشوند .
| نام مدلهای نسخههای پیشنمایش به همراه ... پیوست شدهاند. مثالها: | |
| تجربی | نسخههای آزمایشی قابلیتهای جدیدی دارند و پایدار تلقی نمیشوند .
| نام مدلهای نسخههای آزمایشی به همراه ... پیوست شده است. مثال: | |
| بازنشسته | نسخههای از رده خارج شده، تاریخ انقضایشان گذشته و برای همیشه غیرفعال شدهاند.
| --- | |
نامهای مدل، مقادیر صریحی هستند که شما در هنگام مقداردهی اولیه مدل، در کد خود قرار میدهید.
پرش به نام مدلهای پرش به نام مدلهای Imagen
شما میتوانید با استفاده از REST API، نام تمام مدلهای موجود را فهرست کنید:
رابط برنامهنویسی کاربردی توسعهدهندگان Gemini : فراخوانی نقطه پایانی
models.listرابط برنامهنویسی کاربردی Vertex AI Gemini : فراخوانی نقطه پایانی
publishers.models.list
توجه داشته باشید که این لیست برگشتی شامل تمام مدلهای پشتیبانیشده توسط ارائهدهندگان API خواهد بود، اما Firebase AI Logic فقط از مدلهای Gemini و Imagen که در این صفحه توضیح داده شدهاند، پشتیبانی میکند. همچنین توجه داشته باشید که نامهای مستعار بهروزرسانیشده خودکار (به عنوان مثال، gemini-2.0-flash ) در فهرست قرار نگرفتهاند زیرا آنها یک نام مستعار برای مدل پایه هستند.
برای مثالهای مقداردهی اولیه برای پلتفرم خود، به راهنمای شروع به کار مراجعه کنید.
برای جزئیات بیشتر در مورد مراحل انتشار (به ویژه برای موارد استفاده، صدور صورتحساب و بازنشستگی)، به الگوهای نسخهبندی و نامگذاری مدل مراجعه کنید.