美國時間20日,Google正式對外揭露全新的影像生成模型NanoBananaPro(Gemini3ProImage),主打更高解析度與更精準控制的影像生成與編輯能力,鎖定的是已經在多模態應用上布局的開發者,這款新模型延續今年稍早推出的NanoBanana(也就是2.5FlashImage),但不只是「加強版」,而是從文字呈現、畫面真實度到邏輯推理能力整體拉高規格,被視為Google在多模態戰場上銜接雲端服務與實際應用的重要角色。
依照GoogleDeepMind公布的技術資訊,NanoBananaPro是建立在Gemini3Pro架構之上的影像模型,也就是說,它不是單純的「畫圖工具」,而是把大型語言模型的世界知識與推理能力,直接灌進影像生成流程,官方說明,這個模型支援與GoogleSearch串接的grounding功能,在使用者輸入prompt時,可以先取回即時且經過搜尋驗證的資訊,再據此生成更貼近現實的畫面,例如更準確的地標細節、商品外觀或歷史場景,在服務形式上,NanoBananaPro目前已經透過GoogleAIStudio與VertexAI以付費預覽的方式分階段開放,目標族群是已經在Google雲端上建置服務的團隊,以及需要穩定API與企業級安全機制的開發者,這樣的安排,也讓NanoBananaPro一開始就被放進雲端產品線,而不是單一實驗性工具。
在影像層級,NanoBananaPro支援2K與4K解析度輸出,不只是畫面變「更清楚」,而是讓許多原本需要專業美術或修圖軟體才能完成的細節,都可以直接透過參數調整完成,開發者可以在prompt中或介面上,更精細地控制光線方向、鏡頭焦段、景深、色調乃至構圖比例,藉此生成更符合品牌調性的視覺素材,或為產品頁面快速建立一整組一致風格的照片,另一個被特別點名的升級,是角色與畫面元素的穩定度,官方表示,NanoBananaPro可以在同一專案中維持最多五位角色的高度一致性,不論是臉部特徵、身形比例或穿著風格,都能在不同場景裡維持連貫;同時也支援最多十四張輸入圖片的整合,將多個實拍或設計元素重新組合成新畫面,用在電商商品示意、廣告情境組合與多元素合成等場景,對需要大量產製素材的團隊,等於多了一個可控度相對高的視覺引擎。
過去影像生成模型常被批評在文字處理上不可靠,從標示拼錯字、LOGO扭曲,到漫畫分鏡中文字難以辨識,都成為實際落地時的阻礙,Google這次把「文字渲染」列為NanoBananaPro的升級主軸之一,相較於2.5FlashImage,新模型在標籤、招牌、LOGO與漫畫分鏡中的文字,能更精準地呈現,也比較能忠實維持原本的字型風格與版面配置。這樣的改變,直接對接到真實世界的在地化需求。官方說明,NanoBananaPro可以被用來處理多語言情境,例如翻譯商品包裝上的文字、餐廳菜單、活動海報或指示牌資訊,在轉換語言的同時,保留原有版面與視覺風格,對需要快速產出多國版素材的團隊來說,這種「翻譯加重排一站到位」的能力,比單純機器翻譯更貼近實際工作流程。
除了商業視覺用途,NanoBananaPro也被定位成知識可視化工具,根據Google的說明,新模型可以生成更貼近實物的科學示意圖,例如分子結構、人體構造或器材組成;在歷史領域,則能依照prompt生成事件時間線、戰役位置或社會變遷的資訊圖表,協助使用者以圖像方式理解抽象概念,由於模型本身建立在Gemini3Pro的世界知識架構上,開發者可以透過prompt自動建立教育用資訊圖、教學講義配圖,以及內容行銷常用的統整型視覺素材,例如「某項技術演進史」、「某一市場成長關鍵因素整理」等。這些畫面不需要額外尋找設計資源,而是透過API或工具介面,直接串進既有教學平台或內容管理系統。
在安全與溯源層面,Google延續過去的做法,在NanoBananaPro中整合了SynthID浮水印技術,讓模型所生成的內容都能保留清楚的AI來源標示,方便平台營運者、內容供應商以及監管單位辨識,也降低生成內容被誤認為實拍影像的風險,這一點對新聞、教育與廣告產業來說,都逐漸成為部署AI影像時的基本門檻,為了讓開發者更快掌握NanoBananaPro的特性,Google同時釋出一系列示範App,涵蓋UI介面設計生成、漫畫製作器、商品視覺Mockup、自動化資訊圖工具等實際情境,讓使用者可以先從具體案例感受模型的輸出表現,再進一步透過GeminiAPI整合到自己的服務中,官方也在相關平台提供使用手冊、提示詞寫作指南與交流討論區,讓不同領域的開發者分享實測經驗與最佳實務,逐步形塑出圍繞NanoBananaPro的多模態開發生態。
Copyright © 2025 Storm Media Group All Rights Reserved. ◎未經授權.不得轉載
Version: 20251127-090731