關于ai你不知道的事ai大會告訴你-tft每日頭條

大部分文藝工作者，比如寫字的，畫畫的，作曲的，失業風險都在攀升——本文所有插圖均由 AI 創作。但文字是我自己寫的，如假包換。

最近 Open AI 的 Dall-E 2 創造的一系列精美畫作，以及結合微軟 Florence 和 OpenAI GPT-3 模型寫出來的文本，都證明了 AI 有時候看着是比人強。今年叫 AI 文藝創作元年也不過分，通過給定的文字或圖像， AI 能産出超乎想象、大膽有趣又合情合理的作品，确實不乏「劃時代」的意義。

關于ai你不知道的事ai大會告訴你（我和AI一起完成了這篇文章）1

▲Dall-E 2 制作的宇航員太空驅馬圖

這些進展建立在巨大的「基石模型」基礎之上，令 AI 擁有了創造者不曾預見的能力。過去的人工智能模型，帶着手工作坊式的「粗糙」。通過長期的調整，「基石模型」的潛在能力已經成為肉眼可見的發展趨勢。

人工智能要進入工業大生産時代了。

大模型，下崗工人制造機

5 月份出了 beta 版的 AI 繪圖工具 Midjourney ，連雜志《經濟學人》也忍不住「嘗鮮」。Midjourney 為《經濟學人》報道畫的插圖，看起來靈氣十足，具有強烈的現代主義風格——别忘了，畫面可是基于非常抽象的概念生成的，畢竟文章内容不是「一位女人抱着一隻貓」這種具體記叙。

關于ai你不知道的事ai大會告訴你（我和AI一起完成了這篇文章）2

▲Midjourney 為《經濟學人》報道畫的插圖

Midjourney 其中一位開發者，就是研發 YouTuber Quick-Eyed Sky 的 Disco Diffusion 的創作者 Somnai ，這些應用都屬于「你說我畫」，或者叫輸入關鍵詞就出圖。Disco Diffusion 非常火爆，但相比 DALL-E 和 Midjourney 就略帶「門檻」，要自己調代碼，調參數，目前更火爆的應用都是「傻瓜」型的，寫點文字就行。

關于ai你不知道的事ai大會告訴你（我和AI一起完成了這篇文章）3

▲ Somnai 用 Disco Diffusion 制作的視頻

玩「你說我畫」會上瘾。Twitter 上的馬斯克、特朗普、斯嘉麗·約翰遜以及瑪麗蓮·夢露都要被「玩壞了」，個個都有「猛鬼街」的造型。國内滴墨社區兒童節上線的「Domo 大畫家」，在我刻意「刁難」的情況下，給出的畫面還是饒有趣味。

關于ai你不知道的事ai大會告訴你（我和AI一起完成了這篇文章）4

▲我讓 Domo 畫了 2008 年諾貝爾經濟學獎得主保羅·克魯格曼的一句話，“在市場經濟下，你的支出就是我的收入”

輸出的作品效果如何，完全取決于 AI 模型。而打造 AI 模型，相當于豪華軍備競賽。

目前拿得出手的「基石模型」，有 OpenAI 的 GPT-3 ，參數接近 2000 億，耗資超過 1000 萬美元；谷歌的 Switch Transformer ，參數超過 GPT-3 ；微軟和英偉達有 MT-NLG 模型，參數超 5000 億；華為盤古大模型，定位中文語言預訓練模型，參數規模也達到千億級别。

2020 年 GPT-3 剛「誕生」的時候，就得名「下崗工人制造機」。其輕松通過了人工智能屆的底線試探——「圖靈測試」，所有問題對答如流。基于 GPT-3 模型開發出來的文字、翻譯、設計、計算等應用，都能頂替人類的操作。

甚至有個人想讓 GPT-3 寫篇「論刷 Twitter 的重要性」的小論文，GPT-3 都給他寫得流暢自然，還用上了寫作者的高階操作「春秋筆法」，也就是陰陽怪氣。它說 Twitter 是「所有人都使用的、充斥着人身攻擊的社交軟件」。

關于ai你不知道的事ai大會告訴你（我和AI一起完成了這篇文章）5

▲拿到這張《草地上的午餐》（莫奈）的原圖，Dall-E 2 會據此創作出多張風格類似、細節不同的畫面

關于ai你不知道的事ai大會告訴你（我和AI一起完成了這篇文章）6

▲《草地上的午餐》之 AI 再創作，理論上可以有無限幅

基石模型的優點明顯。一是參數大、訓練數據量大，不僅不會邊際效益遞減，反而極大地提高了 AI 自身的能力和運算突破性。二是使用的小樣本學習方法， AI 不用一遍遍「從頭開始學」，可以碎片化選取自己需要的數據來自動執行。

基石模型就相當于「通用技術」。1990 年代，經濟曆史學家将「通用技術」比如蒸汽機、印刷機、電動機等，視為推動生産力長期發展的關鍵因素。「通用技術」包含核心技術快速疊代、跨部門的廣泛适用性和溢出效應等特征，從而刺激産品、服務和商業模式不斷創新。

今天的基石模型，已然具備了同樣的特點。

神經網絡自我監督學習，神乎其技

當下，超過 80% 的人工智能研究都集中在基石模型上。像特斯拉也在構建一個龐大的基石模型，為自動駕駛服務。

要理解斯坦福大學人工智能研究院院長李飛飛所說的「人工智能階段性的變化」，就要知道基石模型和過去的人工智能模型有何不同。

如今所有的機器學習模型都立足于「神經網絡」——模仿腦細胞相互作用方式的編程上。它們的參數描述了虛拟神經元之間連接的權重，模型通過反複試驗權重，被「訓練」到能夠輸出開發者想要得到的特定内容。

關于ai你不知道的事ai大會告訴你（我和AI一起完成了這篇文章）7

▲Dall-E 和 Dall-E 2 的清晰度對比

過去幾十年裡，神經網絡都處于實驗階段，沒什麼能落地的。直到 2000 年代末、2010 年代初，超級計算機算力增強，互聯網提供了足夠多的訓練數據，在硬件和數據的加持下，神經網絡才開始完成文本翻譯、語音指令解釋、不同圖片中識别同一張臉等此前「不可能完成的任務」。

特别到了 2010 年代，機器學習和礦機一樣也用起了 GPU 。GPU 的特點是，有上千顆流處理器，可以進行大量且重複的一般運算，而且還不貴，比啟動一次超級計算機便宜太多了。

突破出現在 2017 年。當時谷歌的 BERT 模型使用了新型架構，不再按「慣例」、依照順序處理數據，而是采用了同時「查看」所有數據的機制。

具體來說，就是 BERT 一類的模型，沒有用預先标記的數據庫訓練，用的是「自我監督學習」技術。當模型在無數的字節中挖掘時，能自己找到隐藏的單詞，或者根據上下文猜測意思——和我們從小到大做的考試題特别像！整個新方法非常接近人類大腦的學習機制，掃一眼就能找到自己感興趣的東西，不用逐字逐句地去處理、消化。

關于ai你不知道的事ai大會告訴你（我和AI一起完成了這篇文章）8

▲Dall-E 2 在左圖的基礎上，添加了一隻粉色橡皮鴨（毫無 PS 痕迹）

經過數十億次的猜測-比較-改進-猜測的循環後，模型一般都能妙筆生花、才華過人。

不僅限于文字，神經網絡和自我監督學習技術均可以應用在語言文字之外，包括圖片、視頻甚至大分子數據庫等等。像 DALL-E 圖形模型，猜測的不是下一個字母組合，而是下一個像素簇。

在大模型基礎上開發的應用也是花樣繁多。除了上文提到的一系列文藝創作類應用，谷歌旗下的 DeepMind 推出了 Gato ，可以玩視頻遊戲、控制機械臂和寫作。Meta 的「世界模型」貌似要擱淺，本來是打算為元宇宙提供背景的。

酷東西或圖靈陷阱

基石模型的繁榮，對芯片制造商肯定是好消息。積極參與制造基石模型的英偉達，已經是世界上最有價值的半導體設計商之一，市值為 4680 億美元。

初創公司也有望借此大展身手。Birch AI 會自動記錄與醫療保健相關的呼叫電話；Viable 會用它來篩選客戶反饋；Fable Studio 用 AI 創作互動故事；在 Elicit 上，人們可以靠 AI 工具從學術論文中找到自己研究的問題。

關于ai你不知道的事ai大會告訴你（我和AI一起完成了這篇文章）9

▲Midjourney 采用了拼貼風

大公司也有大公司的玩法。IBM 的相關負責人表示，基石模型可以分析海量的企業數據，甚至從車間傳感器讀數中找到消耗成本的蛛絲馬迹。埃森哲公司人工智能項目的負責人預測「工業基石模型」即将興起，為銀行、汽車制造商等傳統客戶提供更加精準的分析服務。

雖然前景一片光明，AI 作畫也激發了大衆的熱情，但不少研究者還是建議「後退一步」。有人認為，大模型依賴的大數據，并不是完全發揮了作用，一部分隻是在「随機重複」；同時一些帶有偏見的問題會引發模型的「幻覺」。去年年初，GPT-3 在回答完形填空題「兩個 XXX（宗教人士）走進了……」時，有高于 60% 的概率填寫「穆斯林」。

在「滴墨社區」刷「Domo 大畫家」的動态時，首頁偶爾也會看到有用戶給 AI 發出不雅指令，CEO 林澤浩告訴愛範兒記者，一般後台關鍵詞篩選和人工篩選會同時進行，保證社區的健康運轉。Dall-E 2 等 AI 作畫工具也面臨同樣的困境——和之前微軟小冰「口吐芬芳」同命相憐。

關于ai你不知道的事ai大會告訴你（我和AI一起完成了這篇文章）10

▲女人與貓，這一張 Midjourney 用了哪位著名畫家的風格？請在評論區留言，答對有獎

斯坦福大學經濟學家 Erik Brynjolfsson 擔心，對擁有類人能力的大模型的集體癡迷，很容易把整個社會帶進「圖靈陷阱」。計算機做到了很多人類做不到的事情，如今也做到了人類能做到的事情——還比人類做得好，越來越多的人失去工作，财富和權力會更加集中，不平等逐漸加大。

他的擔心也有道理。大模型耗資巨大，一般人也投資不起，背後的支撐者，不是科技巨頭，就是國家。基石模型會成為一系列服務的基礎平台，而平台也有「馬太效應」：赢家通吃，就算沒全吃掉，也給别人留不下什麼了。

關于ai你不知道的事ai大會告訴你（我和AI一起完成了這篇文章）11

▲網友利用 Midjourney 創作的畫面，科幻風格十足

藝術家們是真心喜愛這些「酷東西」的。英國作曲家 Reeps One（Harry Yeff）就給模型喂了幾小時的節拍器節奏，該模型學完後能對他的聲音做出節奏化的反應。他預測「許多藝術家會使用這個工具來更好地完成自己的工作」。

作為一名記者，我也真心喜愛「科大訊飛」的語音轉錄應用。在過去，整理兩小時的人物訪談錄音，足以令一個心智健康的成年人當場崩潰。如今隻需要坐等軟件出一個文本文檔即可，不能直接拿來當「對話」，但當素材看完全夠了。

最近我也在研究如何使用 GPT-3 來訓練自己的寫作模型。說不定，下個星期四「近未來」欄目，就是我的 AI 寫的。