📍前言|
在 AI 圖像生成的世界裡,決定結果好壞的不是模型,而是 你寫的提示詞(prompt)。對 Gemini 2.5 Flash Image (Nano Banana 教學) 來說尤其如此:它不是靠堆疊關鍵字,而是靠「敘事式描述」與「上下文意圖」來生成影像。很多人卡關的原因,不是工具不夠強,而是 prompt 沒寫對。
這篇文章會告訴你:
- 為什麼 Gemini 2.5 Flash Image (Nano Banana) 特別需要完整敘事式提示?
- 不同應用情境下,該怎麼寫出有效 prompt?
- 有哪些最佳實踐與常見錯誤要避免?
讀完後,你不只會知道「該怎麼下指令」,還能像攝影師或設計師一樣精準控制畫面。
為什麼 Gemini 2.5 Flash Image 的提示詞這麼重要?
因為它是原生多模態模型,對語言理解力強,輸入的描述會直接決定輸出的畫面品質。 如果只是丟關鍵字,模型會生成模糊、不連貫的結果;但當你像講故事一樣描述場景,它能捕捉脈絡,生成更貼近你期待的影像。
換句話說,Gemini 不是「聽懂單字」的工具,而是「理解情境」的合作者。
在專業應用上,這差異更明顯:
- 想做產品圖,你必須清楚描述角度、光線、材質。
- 想做插畫,風格、線條、背景要講到位。
- 想做漫畫或連續分鏡,敘事性描述更是不可少。
Google 官方文件也指出,Gemini 2.5 Flash Image 透過「單一統一架構」處理文字與圖像,提示詞細節越完整,模型越能展現它的推理與生成能力【來源:Google AI 官方介紹】。
要怎麼寫出高品質的文字轉圖像 prompt?Nano Banana 教學
核心技巧是「像攝影師一樣描述場景」。 與其列出關鍵字,不如描繪「誰、在哪裡、在做什麼、光線與氛圍如何」。這能讓 Gemini 精準捕捉畫面元素,而不是胡亂拼湊。
舉例來說:
- ❌ 只寫「老人、陶瓷、陽光」 → 得到模糊不明的畫面。
- ✅ 寫成「一位年邁的陶藝師在夕陽下的工坊,仔細檢查剛上釉的茶碗,柔光照亮皺紋與陶土紋理」 → 結果更貼近真實。
關鍵差別在「語境」:Prompt 不是關鍵字搜尋,而是劇本。
具體操作可以套用以下結構:
- 主體(誰/什麼東西)
- 動作或情境(在做什麼)
- 環境設定(場景與背景)
- 光線與氛圍(時間、燈光、感覺)
- 攝影細節(相機角度、鏡頭類型、長寬比)
這樣寫出來的文字,不僅讓 AI 能理解,也能讓你生成過程更可控。
提示詞模板(中英文對照)
以[環境]為背景的[主體]、[動作或表情]的逼真[鏡頭類型]。場景由[燈光描述]照亮,營造[情緒]氛圍。使用[相機/鏡頭細節]拍攝,突出[關鍵紋理和細節]。影像應採用[寬高比]格式。
A photorealistic [shot type] of [subject], [action or expression], set in [environment]. The scene is illuminated by [lighting description], creating a [mood] atmosphere. Captured with a [camera/lens details], emphasizing [key textures and details]. The image should be in a [aspect ratio] format.
提示詞範例:
一張寫實的特寫肖像,主角是一位眼神寧靜、帶有內省氣質,面露淡淡微笑的台灣年輕美女。她正優雅地捧著一個小茶杯,凝視著熱茶上升的蒸氣。背景是寧靜的傳統茶館,帶有木製格柵與竹子點綴。場景被透過窗戶濾進的柔和自然光照亮,凸顯出茶杯細緻的瓷質。使用 85mm 人像鏡頭捕捉,創造出柔和模糊的背景(散景)。整體氛圍平和而優雅。

插圖、貼紙、風格化設計該怎麼提示?
在插圖或貼紙場景裡,風格與背景比「場景真實感」更重要。 如果要生成貼紙,記得一定要指定「白色背景」,否則容易出現多餘的陰影或場景干擾。風格描述也要清楚,例如「可愛卡通」「手繪線條」「簡單陰影」等。
舉例來說:
- ❌ 只寫「熊貓、竹子、可愛」 → 可能會生成模糊場景插畫。
- ✅ 寫成「一個可愛風格的快樂小熊貓貼紙,頭戴小竹帽,正在啃食竹葉,粗線條、卡通陰影,白色背景」 → 就能直接拿來當貼紙。
Gemini 的優勢在於理解「設計意圖」,所以你要明說用途:要做貼紙、icon、或插圖。
另外,如果是風格化設計(像是水墨風、低多邊形、手繪漫畫),務必把「風格」放在描述的前半段,避免被模型弱化。
提示詞模板(中英文對照):
一個[主題]的[風格]貼紙,包含[主要特徵]和[配色方案]。設計應包含[線條樣式]和[陰影樣式]。背景必須為白色。
A [style] sticker of a [subject], featuring [key characteristics] and a [color palette]. The design should have [line style] and [shading style]. The background must be white.
提示詞範例:
一張復古風格的台灣老火車頭貼紙,特點是細膩的機械細節,煙囪冒出簡單的幾何形狀蒸汽。色彩採用褪色、懷舊的棕色和綠色色調。設計應具備精細、均勻的線條和老式海報般的半色調網點陰影。背景必須為白色。

如何讓 Gemini 精準渲染文字?
Gemini 2.5 Flash Image 的一大亮點是能在圖像中生成清晰的文字。 不同於多數模型常出現「字體跑掉」或「拼字錯誤」,它能夠在設計裡融入指定字詞,甚至控制字體風格與排版。
但要讓文字渲染正確,提示詞必須清楚包含:
- 確切文字內容(必須逐字寫出,避免模糊詞彙)
- 字體風格(如:無襯線、手寫、粗體)
- 設計類型(標誌、海報、圖表)
- 配色方案(搭配主題風格)
舉例來說:
- ❌ 「做一個咖啡店 logo」 → 可能出現無法辨識的字母。
- ✅ 「為一家名為 The Daily Grind 的咖啡店創建現代極簡 logo,文字使用粗體無襯線字體,黑白配色,搭配簡單咖啡豆圖標」 → 能生成可直接用於品牌的設計。
重點在「要什麼字就寫什麼字」。不要假設 AI 會幫你自動補齊。
提示詞模板(中英文對照):
為[品牌/概念]建立[圖片類型],並在[字體樣式]中加入文字「[待渲染文字]」。設計應為[樣式描述],並採用[配色方案]。
Create a [image type] for [brand/concept] with the text "[text to render]" in a [font style]. The design should be [style description], with a [color scheme].
提示詞範例:
創建一個標誌,為「晨曦咖啡」品牌,文字為「MORNING DEW」,字體風格為簡約、無襯線字體。設計應為乾淨、現代,帶有咖啡豆和葉子的抽象圖案,色彩方案為溫暖的大地色調,包括咖啡棕和米白色。

想拍產品圖,用什麼結構寫 prompt?
生成產品照時,細節比情境更重要。 你需要讓 AI 知道這是一張「商業攝影」而非「插畫」,所以要明確指定打光方式、背景表面與相機角度。
舉例來說:
- ❌ 「黑色陶瓷杯在桌上」 → 可能生成隨意擺放的生活照。
- ✅ 「一張高解析度、攝影棚打光的啞光黑色陶瓷咖啡杯產品照片,置於拋光混凝土表面,使用三點柔光箱,45 度略高角度拍攝」 → 就能得到像廣告攝影一樣的專業圖。
關鍵技巧:把 prompt 寫成攝影師交稿的拍攝腳本。
這種結構同樣適用於:電子產品、家電、家具、甚至電商服飾模特。透過控制打光與相機視角,你能讓生成圖直接接近「可用於商品頁」的標準。
提示詞模板(中英文對照):
一張高解析度、工作室燈光下的產品照片,將[產品描述]置於[背景表面/描述]之上。燈光採用[照明設置,例如三點式柔光箱],以達到[照明目的]。拍攝角度採用[角度類型],以展現[特定功能]。超逼真,清晰對焦[關鍵細節]。 [寬高比]。
A high-resolution, studio-lit product photograph of a [product description] on a [background surface/description]. The lighting is a [lighting setup, e.g., three-point softbox setup] to [lighting purpose]. The camera angle is a [angle type] to showcase [specific feature]. Ultra-realistic, with sharp focus on [key detail]. [Aspect ratio].
提示詞範例:
一張高解析度、攝影棚打光的金屬製無線耳機產品照,置於光滑、反射性的黑色大理石表面上。燈光為兩側柔光箱設定,旨在創造柔和的陰影並凸顯金屬光澤。鏡頭角度為微距特寫,以展現耳機外殼的紋理和精準的品牌標誌。照片極度寫實,對焦清晰於耳機的觸控按鈕細節。

極簡主義背景怎麼寫?
極簡設計的重點在「留白」與「單一主體」。 很多人只寫「白底+物件」,結果生成的畫面過於空洞,缺少氛圍。其實在 prompt 裡,只要指定「主體擺放位置」與「留白空間」,Gemini 就能生成適合網站或簡報用的乾淨背景。
舉例來說:
- ❌ 「紅葉在白底上」 → 可能只是隨意擺放的素材圖。
- ✅ 「一個極簡構圖,一片紅楓葉放在畫面右下角,背景是一片廣闊的米白色畫布,左上角打進柔和漫射光」 → 生成效果適合用於設計排版。
思路轉換:不是拍照,而是規劃一個「可以疊字」的畫面。
這類 prompt 特別適合網站 hero image、簡報封面或行銷素材,因為能自然留出文字與設計的操作空間。
提示詞模板(中英文對照):
極簡主義構圖,單一[主體]位於畫面[右下/左上/等等]。背景是一塊廣闊的空白[彩色]畫布,營造出顯著的負空間。光線柔和細膩。 [寬高比]。
A minimalist composition featuring a single [subject] positioned in the [bottom-right/top-left/etc.] of the frame. The background is a vast, empty [color] canvas, creating significant negative space. Soft, subtle lighting. [Aspect ratio].
提示詞範例:
一張極簡主義構圖,主角為一塊孤獨的岩石,位於畫面的左下角。背景是廣闊、空曠的灰色畫布,創造出大量的負空間。光線柔和、微妙。圖片比例為 1:1 。

如果要做漫畫分鏡或故事板,要注意什麼?
漫畫分格需要「場景 + 角色 + 敘事」三者並存。 只寫角色外觀,容易生成單張肖像;只寫場景,則會缺少故事感。要讓 Gemini 生成能講故事的分鏡,就要把劇情片段寫進 prompt。
舉例來說:
- ❌ 「偵探、雨夜、街燈」 → 可能生成氛圍圖,但缺少故事線。
- ✅ 「一個漫畫分格,黑色電影風格。前景是一名穿風衣的偵探站在閃爍街燈下,肩膀被雨水打濕。背景是霓虹倒映的荒涼酒吧。上方有說明框寫著:『這座城市難以保守秘密。』」 → 就能生成完整的故事畫面。
提示詞不是畫面清單,而是「分鏡腳本」。
如果需要連續分鏡,可以在多次生成中維持同一角色的描述,並重複關鍵特徵(髮型、衣著、氛圍),避免角色隨著疊代而漂移。
提示詞模板(中英文對照):
一幅[藝術風格]風格的漫畫書單幅畫板。前景是[人物描述和動作]。背景是[場景細節]。畫板中有一個[對話/標題框],上面寫著[文字]。燈光營造出一種[氛圍]氛圍。 [寬高比]。
A single comic book panel in a [art style] style. In the foreground, [character description and action]. In the background, [setting details]. The panel has a [dialogue/caption box] with the text "[Text]". The lighting creates a [mood] mood. [Aspect ratio].
提示詞範例:
一張美式漫畫風格的單格漫畫。前景是一位穿著高科技盔甲的超級英雄,正向畫面外的一群機器人發射雷射光束。背景是一座被戰火摧殘的未來城市,遠處的高樓正在冒煙。分鏡有一個對話框,文字是**「世界需要你,而我會盡力!」。光線營造出緊張、充滿戲劇性**的氣氛。圖片比例為 1:1。

Gemini 2.5 Flash 的編輯與合成功能怎麼用?
這是它最能和其他模型拉開差距的地方。 不只是一鍵生成,而是能「讀懂上下文」去編輯、合成與風格轉換。這代表它不是單純的繪圖工具,而是能在多次互動中,維持角色一致性、保留原始構圖並逐步細化。
常見的四種用法:
- 添加或移除元素:像在 Photoshop 裡修圖,但用文字就能完成。
- 內容填補:指定只改變某一區域,其他部分完全不動。
- 風格轉換:把照片改成水墨畫、梵谷風或低多邊形風格。
- 多圖合成:把 A 圖的衣服套到 B 圖的人物上,生成新的完整畫面。
思路是:先決定「保留什麼」→ 再決定「變更什麼」。
Google 在技術文件中提到,Gemini 能自動判斷光線、透視與紋理,使編輯後的結果更自然【來源:Google AI Blog】。這也是它在設計與電商應用上特別實用的原因。
添加或移除元素:像在 Photoshop 裡修圖,但用文字就能完成。
提示詞模板(中英文對照):
使用提供的[主題]圖片,請[新增/刪除/修改]場景中的[元素]。確保變更符合[更改應如何整合的描述]。
Using the provided image of [subject], please [add/remove/modify] [element] to/from the scene. Ensure the change is [description of how the change should integrate].
提示詞範例:
使用提供的一個人在空曠的客廳中閱讀的圖片,請新增一個復古的落地燈到場景中。請確保變動是自然且符合室內光線,燈光應照亮人物和周圍的地面。

內容填補:指定只改變某一區域,其他部分完全不動。
提示詞模板(中英文對照):
使用提供的圖片,僅將 [特定元素] 變更為 [新元素/描述]。圖片中的其他所有內容保持完全相同,保留原始風格、光線和構圖。
Using the provided image, change only the [specific element] to [new element/description]. Keep everything else in the image exactly the same, preserving the original style, lighting, and composition.
提示詞範例:
使用提供的圖片,只將圖片中人物的外套改為一件深藍色的牛仔夾克。保持圖片中其他所有元素完全不變,保留原始風格、光線和構圖。

風格轉換:把照片改成水墨畫、梵谷風或低多邊形風格。
提示詞模板(中英文對照):
將提供的 [主題] 照片轉換為 [藝術家/藝術風格] 的藝術風格。保留原始構圖,但使用 [風格元素描述] 進行渲染。
Transform the provided photograph of [subject] into the artistic style of [artist/art style]. Preserve the original composition but render it with [description of stylistic elements].
提示詞範例:
將提供的一幅繁忙的城市街道照片轉換為浮世繪 (Ukiyo-e) 的藝術風格。保留原始構圖,但用粗黑的木刻版畫線條、平面色彩區塊和日式透視法來呈現。

多圖合成:把 A 圖的物件套到 B 圖的物件上,生成新的完整畫面。
提示詞模板(中英文對照):
將提供的圖片中的元素組合起來,創建一個新的圖片。取出[圖片 1 中的元素],並將其放置在[圖片 2 中的元素]上。最終的圖片應該是[最終場景的描述]。
Create a new image by combining the elements from the provided images. Take the [element from image 1] and place it with/on the [element from image 2]. The final image should be a [description of the final scene].
提示詞範例:
結合提供的圖片來創造一個新圖像。從圖片 1 (一隻優雅的天鵝) 中取出天鵝的身體,並將其與圖片 2 (一個巨大的草莓蛋糕) 中的蛋糕體結合。最終的圖像應為一個巨大的蛋糕上,長出了一隻優雅的天鵝,蛋糕表面的奶油形成羽毛的紋理,呈現一種奇特而夢幻的景象。

有哪些最佳實踐與避坑指南?
想用 Gemini 2.5 Flash Image 穩定產出好結果,關鍵不在運氣,而是規則。 多數新手踩雷的地方,都來自提示詞過於模糊,或缺少「意圖」描述。
幾個實用原則:
- 具體化:不要只寫「盔甲」,而要說「精靈板甲,銀葉雕刻,高領肩甲」。
- 語境式描述:說明用途,如「要用於高端護膚品牌 logo」,效果會比「畫一個 logo」好得多。
- 疊代細化:別期待一次就完美,利用對話性修改(如「光線再溫暖一點」)。
- 避免角色漂移:多次生成時,重複關鍵特徵(髮型、服裝、場景),才能保持一致。
- 正面描述代替否定:不要寫「沒有汽車」,而要說「空無一人的街道」。
可以把 prompt 當作一份「導演筆記」,越完整,AI 越能拍出你想要的畫面。
生成圖像時有哪些限制要注意?
再強大的模型,也有邊界。 Gemini 2.5 Flash Image 雖然能處理多模態輸入,但在某些情境仍可能失誤。了解限制,能避免浪費時間在錯誤的期待上。
常見限制包括:
- 高複雜排版:一次生成完整的雜誌封面或多欄式文字,容易出現拼寫錯誤或字體不均。
- 角色一致性:長時間多次迭代,角色細節可能漂移,需重新描述來校正。
- 超細緻元素:如複雜花紋或大規模人群,往往需要疊代才能達到穩定效果。
- 長寬比限制:若未指定,模型會依最後一張參考圖比例輸出,結果可能與需求不符。
Gemini 適合「可控疊代」的工作流,不適合一次性追求完美。
根據 Google 技術說明,開發者在進行多圖合成與高細緻度生成時,建議以多輪互動來修正細節,而不是期待初稿即完美【來源:Google AI 官方文件】。
結語:寫好 Prompt,比會用工具更重要
Gemini 2.5 Flash Image 的價值,不在於它能生成圖,而在於它能「理解語言邏輯」。 這意味著你不是在和一個繪圖軟體對話,而是在和一位能看懂導演筆記的合作者溝通。
如果只丟幾個關鍵字,它給你的圖像也只會是隨機組合。但當你能清楚描述場景、風格、意圖,甚至分鏡腳本,Gemini 會把這些訊號轉化為更貼近需求的畫面。這才是它和過去工具最大的不同。
對創作者、設計師或品牌來說,這篇文章可以幫你抓到三個重點:
- 提示詞要完整敘事化,而非單字拼湊。
- 用「用途」引導結果,像導演寫分鏡,而不是觀眾喊題。
- 接受疊代與細化,讓生成過程成為「對話式修正」的循環。
看完這篇 Nano Banana 教學,迫不及待想試試了嗎?
前往 Google AI Studio 的 Try new nano banana 開始 P 圖,或是使用 Gemini 2.5 Flash 選用圖像編輯也可以。
📖 延伸閱讀:










