從畫筆到像素：一文讀懂AI繪畫的前世與今生_當前關注

2023-03-22 13:30:40 來源：手機網易網

關于 AI 繪畫，你需要知道的一些事。

上周，備受期待的Midjourney V5AI 藝術生成器正式發(fā)布，再次改變了 AI 驅動的藝術創(chuàng)作世界。它擁有顯著增強的圖像質量、更多樣化的輸出、更廣泛的風格范圍，以及對無縫紋理的支持、更寬的寬高比、改進的圖像提示、擴展的動態(tài)范圍等。

【資料圖】

下圖是以“埃隆·馬斯克介紹特斯拉，90 年代的商業(yè)廣告”為 prompt（提示），分別用 Midjourney V4 和 Midjourney V5 生成的圖像。

此次滿足人們期待的是，Midjourney V5 帶來了更逼真的圖片生成效果，更有表現力的角度或場景概述，以及終于畫對的“手”。曾經在 AI 繪畫界廣泛流傳的一個笑話是，“永遠不要問一個女人的年齡或一個 AI 模型為什么要把手藏起來?！?/strong>

這是因為，AI 藝術生成器是“畫手困難戶”，盡管它們可以掌握視覺模式，但不能掌握潛在的生物邏輯。換句話說，AI 藝術生成器可以計算出手有手指，但很難知道一個人的一只手正常應該只有 5 個手指，或者這些手指之間應該具有固定關系的設定長度。

在過去的一年里，AI 藝術生成器無法正確渲染手的 “缺陷” 已經成為一種文化修辭。手部問題在一定程度上與 AI 藝術生成器從它們接受訓練的大量圖像數據集中推斷信息的能力有關。

值得注意的是，Midjourney V5 可以很好地生成逼真的人手。大多時，手是正確的，一只手有 5 個手指，而不是 7-10 個。

Midjourney V5 的發(fā)布，引起了全球用戶更廣泛的興趣激增，巨大流量的涌入使得 Midjourney 服務器短時間崩潰，進而導致眾多用戶無法訪問。除此之外，OpenAI 的 DALL·E 2、Stability AI 的 Stable Diffusion 等“文生圖” 模型此前也是業(yè)內討論的熱門對象。

當人們向這些 “文生圖” 模型中輸入任何文本后，它們就可以生成與該描述相匹配的、較為準確的圖片，生成的圖片可以被設定為任意風格，如油畫、CGI 渲染、照片等，在很多情況下，唯一的限制來自人類的想象力。

前世：一場從DeepDream開始的夢

2018 年，第一幅由 AI 生成的肖像《Edmond de Belamy》問世，它由生成對抗網絡（GAN）創(chuàng)建，是 Obvious Art 的 “La Famille de Belamy” 系列的一部分，最終在佳士得藝術品拍賣會上以432500 美元成交。

2022 年，Jason Allen 的 AI 創(chuàng)作作品《Théatre D’opéra Spatial》在科羅拉多州博覽會的年度藝術競賽中獲得了第一名。

近些年，各類 “文生圖” 模型也在人們的期待中紛紛登場。當神經網絡在圖像處理方面取得了一定的成果后，研究人員們便開始開發(fā)一些可視化技術，以更好地了解這些神經網絡是如何看待世界并進行分類的，由此塑造了一個又一個 “文生圖” 模型。

DeepDream根據神經網絡學到的表征來生成圖像，在獲取輸入圖像后，通過反向運行經過訓練的卷積神經網絡（CNN），并試圖通過應用梯度上升來最大化整個層的激活。下圖（左）顯示了原始輸入圖像及其 DeepDream 輸出。

令人驚訝的是，輸出圖像中包含了許多動物的面部和眼睛，這是因為 DeepDream 使用了 ImageNet 數據庫（不同犬種和鳥類的例子）來訓練。對于一些人來說，DeepDream 生成的圖像類似于夢境般的迷幻體驗。但即便如此，DeepDream 加速了人們將 AI 作為藝術圖像創(chuàng)作的工具的工作。

Neural Style Transfer是一種基于深度學習的技術，能夠將一張圖像的內容與另一圖像的風格相結合，如上圖（右），將梵高的《星夜》應用于目標圖像。Neural Style Transfer 重新定義了 CNN 中的損失函數來實現——通過 CNN 的高層激活保留目標圖像，以及多層激活來捕捉其他圖像的風格。由此，輸出的圖像將保留輸入圖像的風格與內容。

2017 年，Wei Ren Tan 等人提出了模型 “ArtGAN”，盡管其輸出的圖像看起來完全不像是畫家的作品，但仍舊捕捉到了藝術品的低階特征。由此，ArtGAN 激發(fā)了更多研究者使用 GAN 生成藝術圖像的興趣。

不久之后，Ahmed Elgammal 等人提出創(chuàng)造性對抗性神經網絡 “CAN”，以訓練 GAN 生成被鑒別者視為藝術但不符合任何現有藝術風格的圖像。由 CAN 產生的圖像看起來大多像一幅抽象畫，給人一種獨特的感覺。

2017 年，Phillip Isola 等人創(chuàng)建了條件型 GAN，即 pix2pix，接收輸入圖像后生成一個轉換版本。例如，在現實生活中，假設有一個 RGB 圖像，我們可以輕松將其轉換為 BW （黑白二值圖像）版本。但若想要把 BW 圖像變成彩色圖像，依靠手動上色就很耗時。pix2pix 則可以自動完成這一過程，并應用于任何圖像對的數據集，而不需要調整訓練過程或損失函數。

pix2pix 是生成式 AI 的一個重大突破，但它需要相應的圖像對來進行訓練，而這并不適用于所有應用。例如，如果沒有為莫奈創(chuàng)作的每一幅畫提供相應的照片，pix2pix 就無法將輸入轉換為莫奈繪畫。

為此，Jun-Yan Zhu、Taesung Park 等人提出了 “CycleGAN”，通過組合兩個條件型 GAN 和它們之間的 “循環(huán)” 來擴展 pix2pix，這一模型可以將圖像轉換為其他模態(tài)，而無需在訓練集中看到成對圖像。

今生：Transformer 和 Diffusion 之爭

重大的轉折發(fā)生在 2021 年，一些 “文生圖” 模型紛紛降臨。OpenAI 發(fā)布了 DALL·E——以 Pixar 的動畫片《Wall-E》和超現實主義畫家 Salvador Dali 命名。DALL·E 結合了學習將圖像映射到低維標記的離散變分自動編碼（dVAE）和自回歸建模文本和圖像標記的 Transformer 模型。輸入給定的文本，DALL·E 可以預測圖像標記，并在推斷過程中將其解碼為圖像。

DALL·E 還可以將其單獨學習但從未在單個生成的圖像中看到的概念組合在一起。例如，在訓練集中有機器人和龍的插圖，沒有龍形機器人。當被提示 “機器人龍” 時，模型仍可以產生對應的圖像。

然而，雖然 DALL·E 可以很好地生成漫畫和具有藝術風格的圖像，但無法準確地生成逼真的照片。因此，OpenAI 投入了大量資源來創(chuàng)建改進的文生圖模型——DALL·E 2。

DALL·E 2 使用 CLIP（圖像文本對的數據集）文本編碼器。DALL·E 2 中利用了文本描述和圖像之間的關系，為 Diffusion 模型提供了一種嵌入，反映了文本輸入且更適合于圖像生成。與 DALL·E 相比，DALL·E 2 提高了圖像的質量，并且還允許用戶擴展現有圖像或計算機生成的圖像的背景。例如，把一些名作中的人物放置在自定義的背景之中。

不久之后，谷歌發(fā)布了名為Imagen 的文生圖模型。這一模型使用 NLP 模型 T5-XXL 的預訓練編碼器，其嵌入被反饋送至 Diffusion 模型。因此，這一模型能夠更準確地生成包含文本的圖像（這是 OpenAI 的模型難以解決的問題）。

然而，在 “文生圖” 領域最大的革命可能是Stability AI 公司發(fā)布的完全開放源代碼的 Stable Diffusion。Stable Diffusion 的計算效率遠高于其他文生圖模型，以前的文生圖模型需要數百天 GPU 計算，Stable Diffusion 需要的計算量要小得多，因此資源不足的人更容易接受。它還允許用戶通過圖像與圖像之間的轉換（如將素描變成數字藝術）或繪畫（在現有圖像中刪除或添加一些東西）來修改現有的圖像。

深度學習及其圖像處理應用現在處于與幾年前完全不同的階段。在上世紀初，深度神經網絡能夠對自然圖像進行分類是開創(chuàng)性的。如今，這些里程碑式的模型或是采用 Transformer 或是基于 Diffusion 模型，能夠基于簡單的文本提示生成高度逼真和復雜的圖像，使得“文生圖” 領域大放異彩，成為藝術界的一只新畫筆。

“威脅” or “共生”，人類畫家何去何從

AI artist 自誕生起就飽受爭議，版權糾紛、輸出錯誤信息、算法偏見等等，讓“文生圖”應用一次又一次站在了風口浪尖。例如，今年 1 月，三位藝術家對 Stable Diffusion 和 Midjourney 的創(chuàng)建者 Stability AI 和 Midjourney 以及 DreamUp 的藝術家組合平臺 DeviantArt 提起了訴訟。他們聲稱，這些組織侵犯了 “數百萬藝術家” 的權利，在 “未經原創(chuàng)藝術家同意” 的情況下，用從網絡上抓取的 50 億張圖片來訓練 AI 模型。

藝術家們大多很害怕自己會被機器人取代，因 AI 模仿其獨特風格的模型而失去生計。在去年 12 月，數百名藝術家向互聯網上最大的藝術社區(qū)之一 ArtStation 上傳圖片，表示 “對 AI 生成的圖像說不”。同時，一些藝術家悲觀地認為，“我們正眼睜睜地看著藝術之死展開”。圍繞訓練數據中使用的圖像版權問題，尚處于爭議之中。

當然，也不乏一些藝術家積極地擁抱 AI，將文生圖模型當作自己的繪畫助手，省去重復性的枯燥勞動。同時，一些藝術家將 AI 作為想象力的 “引擎”，在與類似 Midjourney 軟件及社區(qū)中的用戶交互中，彼此互相撕裂，產生新的、有趣的人類美學，進而溢出到真實世界。正如 Midjourney 所描述的：“AI 不是現實世界的復刻，而是人類想象力的延伸”。

目前，監(jiān)管機構正在追趕 AI artist 的腳步。最近，美國版權局在一封信中表示，使用 AI 系統(tǒng) Midjourney 創(chuàng)建的圖畫小說中的圖像不應獲得版權保護，該決定是美國法院或機構對 AI 創(chuàng)作的作品的版權保護范圍做出的首批決定之一。另外，一些學者為保護藝術家免受文生圖 DIffusion 模型的風格模仿，提出了一個允許藝術家將精心計算的擾動應用到他們的藝術中的系統(tǒng)—— Glaze。

一系列 “文生圖” 應用允許沒有編程知識的藝術家及大眾使用這些強大的模型，生成極具視覺震撼的圖像。“給 AI 以創(chuàng)造”，不論是繪畫還是其他領域，這些工具可以幫助藝術家表達他們的創(chuàng)造力，并可能塑造藝術的未來。

AI 在藝術中的作用將取決于它的使用方式以及使用它的人的目標和價值觀，重要的是要記住，這些模型的使用應該以道德和負責任的考慮為指導。

https://arxiv.org/abs/2302.10913

https://arxiv.org/abs/2302.04222

https://tech.cornell.edu/news/ai-vs-artist-the-future-of-creativity/

https://www.taipeitimes.com/News/biz/archives/2023/02/24/2003794928

https://www.buzzfeednews.com/article/pranavdixit/ai-art-generators-lawsuit-stable-diffusion-midjourney

https://www.theverge.com/2023/1/16/23557098/generative-ai-art-copyright-legal-lawsuit-stable-diffusion-midjourney-deviantart

https://arstechnica.com/information-technology/2023/03/ai-imager-midjourney-v5-stuns-with-photorealistic-images-and-5-fingered-hands/

關鍵詞：