每日快報!我們嘗試讓繪畫 AI 成為負責插圖的新同事

2022-12-29 12:04:17|

來源：作者：

本文來自微信公眾號：觸樂（ID：chuappgame），作者：劉翁婳

(資料圖)

技術(shù)正在突飛猛進。

隨著討論熱度逐漸褪去，“AI 繪畫”的話題在最近這段時間似乎已經(jīng)漸漸不再掀起波瀾，卻已有不少游戲公司悄無聲息地將 AI 繪畫加入了自己的工作流程中。在探索 AI 繪畫工具化的浪潮中，作為一群繪畫方面的外行人，觸樂也踏出了自己的第一步 —— 在祝佳音老師的指示下，我們正在嘗試使用 AI 繪畫工具生成文章所需的插圖。

文章插圖的版權(quán)問題對大部分使用者而言都是個不小的隱患，要想在開源或有版權(quán)的圖片網(wǎng)站上為文章找到切合主題的插圖也不是件容易的事。AI 繪畫似乎成了一個不錯的選擇 —— 在我們的想象中，只要為 AI 提供幾段描述或是關(guān)鍵詞，AI 就能“讀懂并畫出”我們想要的圖片。事實真的如此簡單嗎？為了實現(xiàn)“讓 AI 幫我們畫插圖”的目標，最大程度上解放勞動力，我們做出了一些嘗試。

畫風、付費、本地化？

要想生成對應(yīng)風格的插圖，第一步當然是挑選一個合適的模型。AI 繪畫的模型演化進度在最近短短半年間可謂突飛猛進，光是國內(nèi)外主流模型便已有五六個，各類風格化模型更是百花齊放。不過，要找到一個適合生成文章插圖的模型并不容易。有些模型是開源的，有些需要付費才能使用，有些游走于法律的灰色地帶，被人破解后偷偷下載……

無論是哪種，總要上手試試才行。我們在最后選擇了 4 種模型作為備選方案：開源后支持本地部署，曾經(jīng)一度號稱“最強繪畫 AI”的 Stable Diffusion；老牌 AI 研究團隊 OpenAI 旗下最早的幾個圖像生成 AI 之一 DALL?E；架設(shè)在 Discord 頻道中，持續(xù)更新模型的 Midjourney；以及最后，支持日式畫風的 NovelAI 本地部署版本。

首先必須聲明的是，盡管目前的 AI 繪畫版權(quán)問題仍不明朗，但“本地部署版 NovelAI”一定是其中最不靠譜的一個 —— 不提圖片庫的版權(quán)問題，模型的來源本身便游走在法律的灰色地帶。相比起來，本地部署的 Stable Diffusion 則“名正言順”得多。自 Stable Diffusion 宣布開源之后，在 GitHub 上即可下載 Stable Diffusion 的新舊版本，在本地架設(shè)后，借助 WebUI 工具便可以直觀地調(diào)整生成圖片的各項參數(shù)與圖片預(yù)覽。

不過，天下沒有免費的午餐 —— 雖然開源的行為接近于“將午餐送到你的嘴里”，但運行程序同樣需要有足夠的算力。幾年前還算得上配置不錯的 GeForce RTX 2060 顯卡如今多少有些力不從心。有人曾統(tǒng)計過不同的顯卡利用 Stable Diffusion 模型生成 512×512 大小圖像時所耗費的時間，2060 顯卡需要 17 秒，3080 只需要 7 秒 —— 不一定足夠精準，但也有參考價值。

3080 的用時還不到 2060 的二分之一

當然，實際使用過程中，你會意識到 17 秒只是一種理想狀況。隨著迭代步數(shù)的增加、畫幅的調(diào)整與生成數(shù)量的增多，生成圖片所需的時間幾乎呈指數(shù)式上漲。最合理的方式，還是先生成 512 大小的圖片，再通過圖片擴大算法將其放大。即便如此，當你把迭代步數(shù)不斷調(diào)高，也可能面臨內(nèi)存溢出的風險。更直觀的感受是，在圖片生成過程中，電腦的風扇聲幾乎沒有停過。

相比起來，另外兩家付費的繪畫 AI——DALL?E 與 Midjourney 就對電腦顯卡友善得多。它們的圖片生成并不需要你緊張地監(jiān)控顯卡溫度，防止燒壞，只需要向它們的服務(wù)器發(fā)送對應(yīng)描述詞，服務(wù)器便會吐出一組圖片以供用戶選擇。只是與此相應(yīng)，每次占用服務(wù)器資源生成圖片需要消耗用戶一定量的積分，開始你可以免費試用，試用完每個賬號的免費額度之后，必須得為賬號充值積分才能繼續(xù)生成。

一般而言，用一組關(guān)鍵字生成 4 張 512×512 的例圖大約需要 1 積分。每個繪畫 AI 的積分定價略有差別 ——DALL?E 的付費積分相對更貴一些，大約是 15 美元 115 積分，折合人民幣大約 1 元生成一次；Midjourney 提供了每月 10 美元約 200 張圖的包月套餐，算下來便宜不少。

不管是 DALL?E、Midjourney 還是 Stable Diffusion，最關(guān)鍵的，當然還是圖片生成的質(zhì)量。我們使用了幾組不同的關(guān)鍵詞，測試 AI 們的表現(xiàn)。

描述與關(guān)鍵詞

在插圖這方面，相比起精美的 3D 建模圖片或是貼近照片的現(xiàn)實風格圖片，祝佳音老師更加青睞的是手繪雜志插圖風格。但在風格的描述上卻遇見了不少麻煩：該怎樣告訴 AI 我們需要什么？

一開始，我們嘗試用某一本雜志的刊名籠統(tǒng)地描述它的插圖風格：例如，在關(guān)鍵詞里加上《紐約客》（New Yorker）。問題隨之而來：即使在同一本雜志里，插圖風格并非單一不變。在這一點上，免費的 Stable Diffusion 為我們提供了不少試錯的案例 —— 即便你加入了“手繪”“無模糊”“清晰線稿”與藝術(shù)家的名字等關(guān)鍵詞，繪畫 AI 還是不太明白你究竟想要什么，只能一次給你端上來幾張不同風格的圖片任你挑選，你可以看得出來，這些風格確實都曾出現(xiàn)在雜志中。至于是否能夠找到你想要的，就得指望運氣了。

指定的范圍比較寬泛時，Stable Diffusion 會一次生成數(shù)張不同風格的圖片

想知道某種具體繪畫風格的名字也不算容易。在大多數(shù)情況下，我們想了半天也只能想出來“手繪”或是“水彩”等籠統(tǒng)的描述。好在我們找到了搜索引擎 Lexica，網(wǎng)站上整理了不少描述詞與生成圖片的案例，可以通過文字或是圖片搜索找到你想要的詞匯。

Lexica 上可以搜索到其他用戶分享的案例

不過，Lexica 也并非百試百靈。一方面，如果你瞄準的是不那么大眾的藝術(shù)家，嘗試生成對應(yīng)風格圖片的用戶不多，能提供的例子也十分有限。另一方面，AI 生成圖片的過程伴隨不小的隨機性，用戶上傳的圖片與關(guān)鍵詞不是每次都足夠準確 —— 上傳的例圖看起來不錯，實際生成時怎么也跑不出類似的圖片更是常態(tài)。

Stable Diffusion 的問題在這里也漸漸顯露：模型在生成真實照片風格或是細膩的原畫風格上可謂一騎絕塵，特別是更新后的 Stable Diffusion2.1 版本，生成的照片風格圖像幾乎可以以假亂真。但相對應(yīng)的，當涉及相對平面的藝術(shù)風格時，想要生成出合適的圖片，需要做出不少嘗試。

Stable Diffusion 在生成真實照片風格的圖片上做得相當好

生成平面風格的圖像，則需要更多嘗試

當然，描述詞帶來的門檻也是問題之一 —— 任何人在生成圖片的過程中，不斷調(diào)整、修正并找到合適的關(guān)鍵詞同樣需要時間。從這一點上來說，Stable Diffusion 對零基礎(chǔ)使用者并非那么友好。如果不細致調(diào)整關(guān)鍵詞，直接用自然語言描述想要的圖片，可能需要生成不少圖片才能獲得一張令人滿意的圖像。例如，我們描述了一個具體的場景：“一個女孩在堆滿了雜物的辦公桌前，桌上的外賣袋和泡面摞得很高，墻上有個日歷，日歷上‘發(fā)售日’后面的數(shù)字被紅筆劃掉了好幾道。女孩抱著頭，顯得非常痛苦?！?/p>

直接將這一整段描述塞給 Stable Diffusion 之后，它展現(xiàn)出了前所未有的疑惑。

如果描述不太準確，Stable Diffsion 生成的圖片并不總能令人滿意

相比起來，付費的 DALL?E 與 Midjourney 模型在經(jīng)歷了不斷的迭代與調(diào)整之后，生成無法使用的“廢圖”的概率要低得多。在 Midjourney 中使用同一組關(guān)鍵詞，只需要一個簡單的關(guān)鍵詞“by Yuko Shimizu”來指定畫風，便可得到表現(xiàn)相當不錯的結(jié)果。

可以看出，Midjourney 正確理解了“外賣盒”，但對于“痛苦的”（Painful）的理解則有些奇怪

DALL?E 對畫風的理解不太到位，卻正確理解了描述的內(nèi)容。在數(shù)個模型中，DALL?E 描繪的人物情感可謂惟妙惟肖。

DALL?E 將“痛苦”與“雙手抱頭”聯(lián)系了起來

在生成文章插圖的需求當中，如果考慮實際投入使用，付費的 DALL?E 與 Midjourney 看起來確實是更好的選擇。在風格化插畫方面，Midjourney 的表現(xiàn)又更勝一籌。只需要幾個關(guān)于繪畫風格或作者的關(guān)鍵詞，Midjourney 就能很快“理解”你想要的究竟是什么。

美式漫畫與故事板風格

版權(quán)，與接下來的麻煩

顯而易見，目前已經(jīng)有一些繪畫 AI 投入商業(yè)運營了，它的用戶中也有一些要將 AI 生成的圖片投入商業(yè)使用。既然如此，版權(quán)自然是個繞不過去的話題。在這一點上，由于 AI 繪畫領(lǐng)域的發(fā)展速度實在太快，總體上，相關(guān)的法律法規(guī)都沒來得及跟上。目前，大部分 AI 繪畫模型的版權(quán)條款都秉承著“撒手掌柜”的風格。Midjourney 與 Stable Diffusion 都明確表示，生成圖片的版權(quán)將歸于生成者所有，但同時也這樣指出：請勿嘗試創(chuàng)建涉及色情、歧視等可能對他人造成傷害的圖像。如若引起爭議，一切職責與平臺無關(guān)，由爭議雙方自行解決。

判定內(nèi)容是否合法，最后還是落在了具體的作品上。如果是已經(jīng)不再受到版權(quán)法保護的畫家作品（一般是畫家去世 50 年以后），模仿他們的風格進行再次創(chuàng)作當然沒有問題。如果要模仿仍受版權(quán)法保護的現(xiàn)代畫家們，便要好好斟酌尺度才行。

Stable Diffusion 生成的梵高風格畫作

盡管在大多數(shù)情況下，AI 繪畫并不能完美地生成你所想要的單一風格，看起來更像是多種風格的雜糅，但如果針對某種風格或某一位畫師的作品進行訓練，AI 生成的作品難免會出現(xiàn)跟模仿對象過于相似的問題。在這一點上，主流的幾個大型模型其實都“做得不錯”：即便指定了作者，在 DALL?E 或 Midjourney 中，也很難做到和作者畫得一模一樣。

值得再次強調(diào)的是，在最近短短半年的時間里，AI 繪畫模型的進化速度可謂突飛猛進，但法律法規(guī)還沒能趕上這個速度，目前國際上仍不存在對應(yīng)的法律法規(guī)用以規(guī)范 AI 繪畫的版權(quán)問題。AI 圖像的商業(yè)使用仍舊存在一定的風險 —— 當我們向 AI 繪畫平臺付費后，平臺是否應(yīng)當為訓練所使用的網(wǎng)絡(luò)圖片集付費？

個人使用者面對的問題相對簡單，只要 AI 繪畫平臺不倒打一耙，突然宣稱版權(quán)不歸屬于生成者，一般來說在版權(quán)上不會出現(xiàn)什么幺蛾子，尤其是個人非商業(yè)的使用，并無太大風險。對借助 AI 工具輔助工作的美術(shù)工作者們來說，另一方面的問題是，AI 生成圖像并不一定能被所有受眾接受。幾天前，某款移動端游戲的宣傳圖片便被懷疑是借助 AI 工具進行了輔助繪畫 —— 背景中的金屬部件很明顯“不像是人畫的”。這件事在玩家間激起了一陣波瀾 —— 一些玩家對此十分失望，在他們看來，“AI 繪畫”似乎天然與“廉價”“不認真”等描述掛鉤。

這件事并不是個例，不少游戲開發(fā)者透露，他們已將 AI 繪畫加入自己的工作流，卻不敢將這個事實公之于眾。但從另一個角度出發(fā)，如果將 AI 繪畫作為輔助工具，排除訓練庫版權(quán)上的隱患問題，它與 Blender、Enscape 等 3D 輔助軟件的差別在哪里？如果將 AI 繪畫作為圖片素材庫，它與 Unsplash 等無版權(quán)素材庫得到的結(jié)果又有多大的差別？

無論如何，現(xiàn)在的 AI 繪畫模型確實還不太成熟，但你可以直觀地感受到技術(shù)的快速進步 —— 說不定過不了多久，我們真的會使用 AI 生成插圖，那會是更逼真、更像是人畫的插圖，到那時，不知各位讀者是否能發(fā)現(xiàn)呢？

Midjourney 生成的“手握柯基與蘸醬薯片的教皇”，看起來真是有模有樣

（本文題圖均由繪畫 AI Midjourney 生成。）

標簽： AI繪畫