Imagen 是 Google 的高保真圖像生成模型,可根據文字提示生成逼真且高品質的圖像。所有生成的圖像都會加上 SynthID 浮水印。如要進一步瞭解可用的 Imagen 模型變體,請參閱「模型版本」一節。
使用 Imagen 模型生成圖像
以下範例說明如何使用 Imagen 模型生成圖片:
Python
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
client = genai.Client()
response = client.models.generate_images(
model='imagen-4.0-generate-001',
prompt='Robot holding a red skateboard',
config=types.GenerateImagesConfig(
number_of_images= 4,
)
)
for generated_image in response.generated_images:
generated_image.image.show()
JavaScript
import { GoogleGenAI } from "@google/genai";
import * as fs from "node:fs";
async function main() {
const ai = new GoogleGenAI({});
const response = await ai.models.generateImages({
model: 'imagen-4.0-generate-001',
prompt: 'Robot holding a red skateboard',
config: {
numberOfImages: 4,
},
});
let idx = 1;
for (const generatedImage of response.generatedImages) {
let imgBytes = generatedImage.image.imageBytes;
const buffer = Buffer.from(imgBytes, "base64");
fs.writeFileSync(`imagen-${idx}.png`, buffer);
idx++;
}
}
main();
Go
package main
import (
"context"
"fmt"
"os"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, err := genai.NewClient(ctx, nil)
if err != nil {
log.Fatal(err)
}
config := &genai.GenerateImagesConfig{
NumberOfImages: 4,
}
response, _ := client.Models.GenerateImages(
ctx,
"imagen-4.0-generate-001",
"Robot holding a red skateboard",
config,
)
for n, image := range response.GeneratedImages {
fname := fmt.Sprintf("imagen-%d.png", n)
_ = os.WriteFile(fname, image.Image.ImageBytes, 0644)
}
}
REST
curl -X POST \
"https://generativelanguage.googleapis.com/v1beta/models/imagen-4.0-generate-001:predict" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"instances": [
{
"prompt": "Robot holding a red skateboard"
}
],
"parameters": {
"sampleCount": 4
}
}'
Imagen 設定
Imagen 目前僅支援英文提示,以及下列參數:
numberOfImages:要生成的圖片數量,範圍為 1 到 4 (含 1 和 4)。預設值為 4。imageSize:生成的圖像大小。這項功能僅適用於標準和 Ultra 模型。支援的值為1K和2K。 預設值為1K。aspectRatio:變更生成圖片的顯示比例。支援的值為"1:1"、"3:4"、"4:3"、"9:16"和"16:9"。預設值為"1:1"。personGeneration:允許模型生成人物圖像。支援的值如下:"dont_allow":禁止生成人物圖像。"allow_adult":生成成人圖片,但不能生成兒童圖片。此為預設值。"allow_all":生成包含成人和兒童的圖片。
Imagen 提示指南
Imagen 指南的這一節將說明如何修改文字轉圖片提示,產生不同的結果,並提供可建立的圖片範例。
提示撰寫基本知識
好的提示應具描述性、清楚明瞭,並使用有意義的關鍵字和修飾符。首先,請思考主題、脈絡和風格。
主題:任何提示的第一個考量因素都是主題,也就是您想生成圖像的物件、人物、動物或風景。
背景資訊:背景或情境與主體同樣重要,嘗試將拍攝主體放在各種背景中。例如白色背景的攝影棚、戶外或室內環境。
風格:最後,新增想要的圖片風格。風格可以是廣義的 (繪畫、攝影、素描),也可以非常具體 (粉彩畫、炭筆畫、等距 3D)。你也可以合併樣式。
撰寫提示的第一個版本後,請加入更多詳細資料來修正提示,直到生成您想要的圖像為止。反覆運算很重要。 首先,請確立核心概念,然後不斷修正及擴充這個概念,直到生成的圖片接近你的想像。
|
|
|
|
無論提示簡短或詳盡,Imagen 模型都能將你的想法轉換為細緻的圖像。透過反覆提示,加入詳細資料,直到獲得完美結果為止。
|
簡短提示可讓你快速生成圖片。 |
提示越長,就能加入更多詳細資料,打造出理想的圖片。 |
撰寫 Imagen 提示的其他建議:
- 使用描述性語言:使用詳細的形容詞和副詞,讓 Imagen 清楚瞭解您想呈現的畫面。
- 提供背景資訊:視需要提供背景資訊,協助 AI 瞭解情況。
- 參考特定藝人或風格:如果心中已有特定美學,參考特定藝人或藝術運動會很有幫助。
- 使用提示工程工具:考慮探索提示工程工具或資源,協助您修正提示並獲得最佳結果。
- 強化個人和團體相片中的臉部細節:將臉部細節指定為相片的焦點 (例如在提示中使用「肖像」一詞)。
生成圖片中的文字
Imagen 模型可以在圖片中加入文字,開創更多創意圖像生成可能性。請參考下列指引,充分運用這項功能:
- 放心疊代:您可能需要重新生成圖片,直到達到所需效果為止。Imagen 的文字整合功能仍在發展中,有時需要多次嘗試才能獲得最佳結果。
- 簡短扼要:文字長度應限制在 25 個字元以內,才能獲得最佳生成效果。
多個詞組:嘗試使用兩到三個不同的詞組,提供額外資訊。為求簡潔,請避免使用超過三個片語。
提示:海報,標題為粗體字「Summerland」,下方是宣傳標語「Summer never felt so good」(從未如此享受夏天) 文字位置指引:Imagen 會盡量按照指示放置文字,但有時可能會出現變化。這項功能會持續改進。
激發字型樣式:指定一般字型樣式,以微妙的方式影響 Imagen 的選擇。請勿期待字型完全相同,但可接受創意詮釋。
字型大小:指定字型大小或一般大小 (例如小、中、大),影響字型大小的生成。
提示參數化
如要進一步控管輸出結果,建議將輸入內容參數化至 Imagen。舉例來說,假設您希望顧客能為自己的商家生成標誌,並確保標誌一律以純色背景生成,您也想限制用戶端可從選單中選取的選項。
在本例中,您可以建立類似下列內容的參數化提示:
A {logo_style} logo for a {company_area} company on a solid color background. Include the text {company_name}.在自訂使用者介面中,顧客可以使用選單輸入參數,而他們選擇的值會填入 Imagen 收到的提示。
例如:
提示:
A minimalist logo for a health care company on a solid color background. Include the text Journey.提示:
A modern logo for a software company on a solid color background. Include the text Silo.提示:
A traditional logo for a baking company on a solid color background. Include the text Seed.
進階提示撰寫技巧
根據攝影描述符、形狀和材質、歷史藝術運動和圖像品質修飾符等屬性,使用下列範例建立更具體的提示。
攝影
- 提示包含:「一張...的相片」
如要使用這種風格,請先使用清楚告知 Imagen 你要尋找相片的關鍵字。提示開頭為「一張<某某事物>的相片。。。"。例如:
|
|
|
|
圖片來源:每張圖片都是使用 Imagen 4 模型,根據對應的文字提示生成。
攝影修飾符
在下列範例中,您可以看到幾個攝影專用的修飾符和參數。您可以組合多個修飾符,更精確地控制修飾符。
相機接近度 - 近距離拍攝,遠距離拍攝
提示:咖啡豆的特寫照片 提示:在凌亂的廚房中,一小袋咖啡豆的縮放相片 攝影機位置 - 空拍、由下往上
提示:空拍圖,呈現高樓林立的城市 提示:一張森林樹冠的照片,從下方拍攝,背景是藍天 光線 - 自然、戲劇性、暖色、冷色
提示:現代扶手椅的攝影棚照片,自然光 提示:現代扶手椅的攝影棚照片,戲劇性燈光 相機設定 - 動作模糊、柔焦、散景、人像
提示:從車內拍攝城市和摩天大樓的照片,要有動態模糊效果 提示:夜間城市中的橋梁,柔焦攝影 鏡頭類型 - 35 公釐、50 公釐、魚眼、廣角、微距
提示:葉子的相片,微距鏡頭 提示:街頭攝影、紐約市、魚眼鏡頭 底片類型 - 黑白、拍立得
提示:戴著太陽眼鏡的小狗的拍立得肖像 提示:戴太陽眼鏡的狗的黑白相片
圖片來源:每張圖片都是使用 Imagen 4 模型,根據對應的文字提示生成。
插畫和藝術
- 提示包含:「A painting of...」、「A sketch of...」(A sketch 的...)
藝術風格從鉛筆素描等單色風格,到超寫實數位藝術都有。舉例來說,以下圖片使用相同提示,但風格不同:
「背景為摩天大樓的運動風電動轎車,採用銳利角度設計」[art style or creation technique]
|
|
|
|
|
|
|
|
圖片來源:每張圖片都是使用 Imagen 2 模型,根據對應的文字提示生成。
形狀和材質
- 提示包含:「...由...製成」、「...形狀為...」
這項技術的優勢之一,就是能製作出原本難以或無法實現的圖像。舉例來說,你可以用不同材質和紋理重新製作公司標誌。
|
|
|
|
圖片來源:每張圖片都是使用 Imagen 4 模型,根據對應的文字提示生成。
歷史藝術參考資料
- 提示包含:「...的風格...」
多年來,某些風格已成為經典。以下提供一些歷史繪畫或藝術風格的點子,供您參考。
「生成 [art period or movement] 風格的圖片:風力發電廠」
|
|
|
|
圖片來源:每張圖片都是使用 Imagen 4 模型,根據對應的文字提示生成。
圖片品質修飾符
某些關鍵字可讓模型瞭解您要尋找高品質素材資源。品質修飾符的範例如下:
- 一般修飾符 - 高品質、美麗、風格化
- 相片 - 4K、HDR、攝影棚相片
- 藝術、插畫 - 由專業人士繪製,細緻
以下列舉幾個範例,說明沒有品質修飾符的提示,以及含有品質修飾符的相同提示。
|
|
玉米桿相片,由專業攝影師拍攝 |
圖片來源:每張圖片都是使用 Imagen 4 模型,根據對應的文字提示生成。
顯示比例
Imagen 圖像生成功能可讓你設定五種不同的圖像長寬比。
- 正方形 (1:1,預設) - 標準正方形相片。這個長寬比的常見用途包括社群媒體貼文。
全螢幕 (4:3) - 媒體或電影通常會使用這個顯示比例。 也是大多數舊型 (非寬螢幕) 電視和中片幅相機的尺寸。相較於 1:1,這種長寬比可橫向捕捉更多場景, 因此是攝影的首選長寬比。
提示:音樂家彈奏鋼琴的手指特寫、黑白電影、復古 (長寬比 4:3) 提示:為高級餐廳拍攝的薯條專業棚內照片,風格類似美食雜誌 (4:3 長寬比) 直向全螢幕 (3:4):這是旋轉 90 度的全螢幕顯示比例。與 1:1 顯示比例相比,這可讓您在垂直方向擷取更多場景。
提示:一名女子在健行,水窪中映照出她的靴子,背景是高聳的山脈,風格類似廣告,角度戲劇化 (3:4 長寬比) 提示:空拍圖,一條河流流經神祕山谷 (顯示比例 3:4) 寬螢幕 (16:9) - 這個比例已取代 4:3,現在是電視、螢幕和手機螢幕 (橫向) 最常見的顯示比例。如要拍攝更多背景 (例如風景),請使用這個顯示比例。
提示:一名男子穿著全白服裝坐在海灘上,近距離拍攝,黃金時段光線 (顯示比例 16:9) 直向 (9:16):這個比例是寬螢幕,但經過旋轉。這是相對較新的長寬比,因短片應用程式 (例如 YouTube Shorts) 而廣為人知。適用於高聳的物件,例如建築物、樹木、瀑布或其他類似物件。
提示:巨大的現代摩天大樓的數位算繪圖,宏偉壯觀,背景是美麗的日落 (顯示比例 9:16)
逼真圖像
不同版本的圖像生成模型可能會提供藝術風格和寫實風格的輸出內容。在提示中使用下列字詞,根據要生成的物件生成更擬真的輸出內容。
| 用途 | 鏡頭類型 | 焦距 | 其他詳細資訊 |
|---|---|---|---|
| 人物 (肖像) | Prime、Zoom | 24-35mm | 黑白電影、黑色電影、景深、雙色調 (提及兩種顏色) |
| 食物、昆蟲、植物 (物體、靜物) | 巨集 | 60-105mm | 細節豐富、精準對焦、光線受控 |
| 運動、野生動物 (動作) | 望遠變焦 | 100-400mm | 快門速度快、動作或移動追蹤 |
| 天文、風景 (廣角) | 廣角 | 10-24mm | 長時間曝光、清晰對焦、長時間曝光、平滑的水面或雲朵 |
人像
| 用途 | 鏡頭類型 | 焦距 | 其他詳細資訊 |
|---|---|---|---|
| 人物 (肖像) | Prime、Zoom | 24-35mm | 黑白電影、黑色電影、景深、雙色調 (提及兩種顏色) |
Imagen 可使用表格中的多個關鍵字,生成下列肖像:
|
|
|
|
|
提示:A woman, 35mm portrait, blue and grey duotones
模型:imagen-4.0-generate-001
|
|
|
|
|
提示詞:A woman, 35mm portrait, film noir
模型:imagen-4.0-generate-001
物件
| 用途 | 鏡頭類型 | 焦距 | 其他詳細資訊 |
|---|---|---|---|
| 食物、昆蟲、植物 (物體、靜物) | 巨集 | 60-105mm | 細節豐富、精準對焦、光線受控 |
使用表格中的幾個關鍵字,Imagen 可以生成下列物件圖片:
|
|
|
|
|
提示:leaf of a prayer plant, macro lens, 60mm
模型:imagen-4.0-generate-001
|
|
|
|
|
提示:一盤義大利麵,100 公釐微距鏡頭
模型:imagen-4.0-generate-001
動作
| 用途 | 鏡頭類型 | 焦距 | 其他詳細資訊 |
|---|---|---|---|
| 運動、野生動物 (動作) | 望遠變焦 | 100-400mm | 快門速度快、動作或移動追蹤 |
使用表格中的幾個關鍵字,Imagen 可以生成下列動態圖片:
|
|
|
|
|
提示:接球達陣、快速快門速度、動作追蹤
模型:imagen-4.0-generate-001
|
|
|
|
|
提示:森林中奔跑的鹿,快門速度快,動作追蹤
模型:imagen-4.0-generate-001
廣角
| 用途 | 鏡頭類型 | 焦距 | 其他詳細資訊 |
|---|---|---|---|
| 天文、風景 (廣角) | 廣角 | 10-24mm | 長時間曝光、清晰對焦、長時間曝光、平滑的水面或雲朵 |
使用表格中的幾個關鍵字,Imagen 可以生成下列廣角圖像:
|
|
|
|
|
提示:an expansive mountain range, landscape wide angle 10mm
模型:imagen-4.0-generate-001
|
|
|
|
|
提示:月球相片、天文攝影、10 公釐廣角
模型:imagen-4.0-generate-001
模型版本
Imagen 4
| 屬性 | 說明 |
|---|---|
| 模型代碼 |
Gemini API
|
| 支援的資料類型 |
輸入功率 文字 輸出內容 圖片 |
| 代幣限制[*] |
輸入權杖限制 480 個符記 (文字) 輸出圖片 1 到 4 (Ultra/Standard/Fast) |
| 最新更新 | 2025 年 6 月 |
Imagen 3
Imagen 3 模型已 [停用](/gemini-api/docs/deprecations)。