在這波 AI 工具大爆炸的浪潮中,Google Gemini 也終於端出「圖片生成」這道大菜。很多人第一時間會問的就是:那它能不能替代我原本用得順手的 ChatGPT 圖片生成功能?
這篇就用我親自上手測試的實戰心得,帶你看看 Gemini 生成圖片的實際表現,還有它跟 ChatGPT(或說 DALL·E)的差異,到底在哪裡。
先說結論:Gemini 生成圖片的功力,在插圖的部分完全無法達到ChatGPT的功力。但是如果你只是要一個還尚可接受的程度的話,勉強可用。
Gemini可以生成圖嗎?
可以,但要看你用的是哪一個版本。Gemini 本身是一套語言模型,不具備內建圖像生成功能;不過在部分整合服務中(像是透過 Google Workspace 的 Gemini、或 Pixel 手機上的 AI 功能),它會串接 Google 的圖像模型,如 Imagen,用來生成圖片。
但這些功能目前還相對受限,像是圖像細節控制不夠、風格轉換能力也不如 OpenAI 的 DALL·E 系列靈活;而且部分使用場景(例如直接輸入「生成成吉卜力風格插圖」)的成功率偏低,對創作者來說,目前還不算真正好用。簡單說:能生圖,但別期待太高,而且圖片會有浮水印。
任務 | Gemini | ChatGPT |
---|---|---|
生成明確指示風格的插圖 | 敗 🤢 | 勝 ✌️ |
生成吉卜力風格 | 敗 🤢 | 勝 ✌️ |
生成帶文字的圖片 | 敗 🤢 | 勝 ✌️ |
類似 Phtoshop 去除圖片內的物件 | 勝 ✌️ | 敗 🤢 |
Gemini 生成圖片實測環節
這是我給Gemini和ChatGPT的提示詞:
構圖名稱:「悄悄補位的 AI」
構圖設定
場景背景:現代感的簡約辦公空間,桌面乾淨、光線柔和。使用者正處於多工狀態,但畫面流暢有序。
主角人物:一位專注的知識工作者(可為男女不限),正在操作筆電,同時看著手機或平板,身體微微前傾,動作自然。
AI 視覺化設計:在人物後方或桌面上方,有一個抽象的 AI 能量體,形狀可為幾何光球或漂浮能量雲,呈現半透明光感。
AI 正同時釋放三條淡淡的光線,分別連結到:
筆電(顯示自動摘要的圖像介面)
平板(呈現智慧建議流程)
空中漂浮的虛擬信封圖示(象徵處理郵件)
構圖動態:所有浮動元素均為無字圖像介面(例如圖示或流程圖),無任何 UI 字元或語言,僅透過視覺圖形表達功能。
風格建議:黑白灰為主調,少量點綴色;構圖具前後層次,背景留白、元素精簡。人物表情自然、不誇張。

ChatGPT 生成圖片的成果
非常精美而且符合我想要的感覺。這當然有部分可能原因是我跟ChatGPT時常來回調整我想要的感覺,所以能夠精準命中。

Gemini 生成圖片的成果
結果非常平庸,大概就是隨處可見的圖片生成等級。已經要求“無任何語言,僅透過視覺圖形表達功能”,但還是出現文字。之後我再要求他要改成“插畫”風格,線條簡單,他還是無法理解,給我類似的圖。🤮

同場加映:Midjourney生成圖片的結果
提示詞必須要先翻譯成英文才能很好生成。雖然已經明確要求不要有文字但是插圖還是出現了文字。不過風格算是獨特而且好看。
如果要 Gemini 生成圖片成吉卜力風格結果如何?
吉卜力風格可以說是 ChatGPT 最標誌性的生成特色了,特別是在使用 DALL·E 進行圖像創作時,許多人驚訝於它對吉卜力獨特的光影、筆觸與構圖張力的捕捉程度。
於是我請他將前面我們生成的圖片轉成吉卜力風格。然而,當我們把同樣的請求交給 Gemini,結果卻⋯⋯嗯,相當有落差。讓我們來看看比較:

ChatGPT 生成圖片的成果
完美。只有一個字可以形容,完美。雖然電腦背板的圖示有點奇怪但其實還可以再修改。在背景筆觸、人物臉部都準確抓到精髓。

Gemini 生成圖片的成果
就是一個日本可愛插畫風格,有種早期政府宣傳畫的感覺。這,不是我要的吉卜力。🥹
其他實測
在遠見的其他實測項目中,可以看到如果你對於風格沒有很強的要求,其實他在許多的應用場景有不錯的表現。下面是遠見整理出來的結果:
實測項目 | 表現亮點 | 待改進之處 |
---|---|---|
產出含中文字的圖片 | 中文字樣呈現清晰,整體辨識度高 | 偶爾出現錯字或文字缺漏 |
在圖片中加入物件 | 新增物件與原圖融合度高,背景過渡自然 | 複雜元件可能出現定位不準或比例不協調 |
去除圖片內的物件 | 修補區域視覺流暢,畫面整體協調 | 個別細節如線條或紋理略顯粗糙 |
圖片合成處理 | 合成後畫面整體感良好,主體結合得宜 | 小範圍細節(如飾品或文字)容易被忽略 |
黑白圖加上色彩 | 配色貼近真實,整體效果具備說服力 | 部分人臉細節(如眼鼻口)處理不夠精確 |
Gemini 生成圖片:在中文字的生成表現如何?
提示詞:請生成一張貓咪脖子上掛著卡片的插圖,上面寫著『我沒有那麼委屈』的圖片。

ChatGPT 生成圖片的成果
很可愛,雖然這次中文字生成成功,但是有時中文字生成會有問題。

Gemini 生成圖片的成果
一樣不能理解我要“插圖”風格,給我的是寫實風格的圖片。一開始會給我英文字,經過要求後,中文字的生成有問題。
Gemini 生圖 vs ChatGPT:去除圖片內的物件實測
提示詞:(給予原圖後)去除車子和文字
提供的原圖


ChatGPT 生成圖片的成果
雖然完美執行了任務,但是ChatGPT的方向都是會全部重新生成圖,所以會有一些差別,比如建築物上的文字很難重現。但是有一個額外優點是畫質大提升。

Gemini 生成圖片的成果
處理得不錯,在這個任務上,我要的結果跟接近 Gemini 的生成結果,但是右下角會有浮水印
ChatGPT vs Gemini:圖片生成 UI 誰比較好用?
如果你常在兩邊跑,應該馬上會注意到一個明顯差別——ChatGPT 有「圖片庫」,Gemini 沒有。
在 ChatGPT(特別是付費帳號搭載 GPT-4o 的版本)裡,每次你生成圖片,它都會乖乖存進一個「圖片庫」裡。你可以回頭慢慢翻,還能重新下載、比對修改前後版本。這對於需要反覆比稿、做創意迭代的人來說,超方便。甚至你就算跳到別的對話視窗,圖片還是都在,不怕迷路。
反觀 Gemini,圖片生成完之後……就沒了。沒有分類、沒有歷史紀錄,沒有「相簿」這件事。你要是忘了先存下來,下次只能重新畫一張,從頭來過。對於需要版本管理或長期創作追蹤的用戶來說,這是一個小小的致命傷。
結論:Gemini 生圖可以堪用,但還遠不夠好
如果你是衝著「想找一個能畫圖又懂我」的 AI 來試試 Gemini,那我得老實講:它目前還不太行,尤其你對插畫風格有點追求的話,可能會失望。不是不能用,是用起來「沒有靈魂」,更別提要抓住什麼吉卜力神韻。
我測下來的感覺是這樣:Gemini 的圖片生成功能,比起 ChatGPT(特別是 DALL·E)像是學生交作業,有交,但不會拿高分。而 ChatGPT 那種,有時會給你一張你自己都沒想到會那麼棒的圖——就是有靈感、有氣味、有構圖的成熟感。
更慘的是 UI 這塊,Gemini 連個「圖片庫」都不留給你。生成完圖,一不小心關掉就掰掰,彷彿它自己都不太想記得那張圖。不像 ChatGPT,那個圖片管理簡直像是為創作者量身打造,愛怎麼翻、怎麼改、怎麼備份都行。
所以總結一句:
你要快、要穩、要中規中矩?Gemini 還堪用。
但你要風格、要創意、要溝通順暢?回 ChatGPT 的懷抱吧。
未來也許 Google 會補上這些差距,但以目前來看,這場圖片生成的對決,ChatGPT 完勝,毫無懸念。