你好,這裡是科技前哨,今天繼續跟你分享新興科技企業有關的新鮮見聞。
如今的 AI技術,功能正變得越來越強大,可以編寫文本、生成圖像、編輯視頻,雖然還沒有達到完全取代人類的程度,但也的确很是讓人震驚了。
我們這裡簡單梳理一下這些新技術的背後的科學突破,讓你看到新技術發展的關鍵節點在哪裡。
其實很多科技的跨越式發展并不是一步到位的,了解了産業趨勢就明白沒有什麼令人吃驚的颠覆式成果,而是一個相對緩慢的漸變的動态過程,長期關注的人,不會覺得驚奇,也更理解其中的潛力和缺陷。
1.深度學習的興起
人工神經網絡是推動深度學習的核心技術。
它的第一批應用集中在圖像識别上,一個簡單示例就是貓的圖像檢測:通過大量貓的圖片數據集訓練深度學習模型。
你可以教模型了解貓的基本特征:胡須、大小、眼睛顔色等等等。一旦完成,模型可以依據自身對貓的理解,高精度預測新圖像是否與其匹配。
與通過固定的統計模型匹配的傳統機器學習不同,深度學習模型不會“記住”貓是什麼,相反,它會通過大量數據處理,自己找到貓的某些特征,通過這些特征整合出對貓的判斷。
傳統的機器學習方法中,科學家們将任務分解為不同的問題陳述或者是“特征集”,開發相應的模型可以按順序來處理它們。當用于小數據集和易于理解的問題時,這個策略非常有效。然而,随着研究人員開始涉獵更多開放式問題,例如理解人類語言或駕駛自動駕駛汽車,這種傳統的方式就“崩潰”了。這兩個問題也因此成了成為深度學習要解決的基石問題。
深度學習領域始于 1980 年代,由現任的Facebook 首席人工智能科學家 Yann LeCun 發明的卷積神經網絡 (CNN)開始。當時,CNN并沒有得到大規模的應用,因為它的結果并不能保證準确,而且從硬件的角度來看,運行 CNN 所需的計算水平還沒有達到。
深度學習的重大突破是 Transformer 模型的發明,2017年在 Google Brain 論文“Attention is All You Need”中,這個模型第一次被介紹給公衆,至今它仍然是深度學習中最先進的技術。
Transformer論文與我們在 AI 領域看到的大部分最新進展之間的直接聯系怎麼強調都不為過。OpenAI 的大模型 GPT-3 和 DALL-E 都基于這個模型架構,Hugging Face 是當今世界上最大的 AI 社區之一,随着開源 AI 模型的推出而迅速崛起。
在過去的五年裡,人工智能的大模型競賽也是Transformer的特性決定的,随着人工智能模型越來越大,它們的性能也越來越強大。
最初的Transformer論文合作者也耐不住寂寞,先後創辦了幾個當下來看最重要的新 AI 公司,例如 Adept (創始人是Ashish Vaswani)、Character.ai (創始人是Noam Shazeer)、Inceptive (創始人是Jakob Uszkoreit) 和 Inflection.ai (Mustafa Suleyman,DeepMind 的創始人)。
2.自然語言處理 (NLP) 和計算機視覺 (CV)
Transformers 發布後,兩個推動研究和投資向前發展的問題是:自然語言處理 (NLP) 和計算機視覺 (CV)。
Google 和 Meta 對 NLP的發展有很大的貢獻,這也使這兩家公司成了 AI産業的 領導者。谷歌在 2018 年發布了 BERT,它在維基百科上進行了“預測下一句”的訓練。Meta 于 2019 年發布了 RoBERTa,對最初的 BERT 研究進行了改進。Hugging Face 最終成為真正普及這種方法的公司,它發布了開源 Transformers 庫,其中包括 BERT 和 RoBERTa 模型的預訓練版本。
深度學習的第二個重要用途是計算機視覺。計算機視覺專注于理解視覺世界,特别是訓練模型來檢測汽車、人、樹——以及這些物體中的輪廓、顔色等。正如 Google 和 Meta 因為解決 NLP 問題而有先發優勢一樣,特斯拉、Waymo、Nuro 和 Apple 等公司已經投入超過1000 億美元來做研究,來解決他們的自動駕駛汽車問題,這是人工智能産業中最有利可圖的機會。
随着人工智能技術的不斷進步,相關領域都在進一步融合。比如,OpenAI 的 DALL-E 圖像模型建立在其 GPT-3 語言模型之上。
許多研究人員認為,未來基礎 AI 模型将是多模态的,這意味着相同的模型将用于文本、圖像、視頻等領域。這也是他們看到的通向通用人工智能 (AGI) 的一條可行性道路,在這條道路上,某個領域内不可知的模型可以複制甚至超越人類智能。
3.大模型的崛起
深度學習的一大優勢是模型越大越好。自從Transformers發明以來,擴展這些模型已成為研究和投資的關鍵領域。在過去三年中,人工智能模型的規模增長了 15500 倍以上。
Source: 15,000x calculated as no. of parameters in Wu Dao 2.0 over no. of parameters in GPT 1
OpenAI 一直是推動模型擴展的最大力量之一。從微軟籌集超過 10億 美元後,該公司發布了一系列語言模型,稱為 GPT 模型。今年夏天,OpenAI 發布了圖像生成模型 DALL-E。GPT 和 DALL-E 發布後,立即成為占主導地位的最先進模型,現在已成為日益複雜的模型的代名詞。
更多的計算意味着更好的結果,如果這是一個基本前提的話,那麼你可以由此期待人工智能生态系統将會如何發展才能産生巨大的影響。重要的是,這意味着與其讓每家公司都建立自己的人工智能模型,不如平衡一下,更像今天的雲生态系統--由少數具有成本結構優勢和規模的主導供應商組成。
這一認識拉開了人工智能軍備競賽的序幕。根據 Pitchbook 的說法,在 OpenAI 從微軟籌集 10 億美元之後,競争對手 Cohere 以 10 億美元的估值籌集了 1 億美元。由 Mustafa Suleyman(也是 Google DeepMind 的聯合創始人)創立的 Inflection.ai 籌集了 2 億多美元,由 OpenAI 本身的團隊創立的 Anthropic 籌集了 5 億多美元。随着人工智能領域的升溫,可能會有更多的進入者加入。
雲供應商也意識到了巨大的機遇。随着微軟全力投入 OpenAI,谷歌和亞馬遜将很快加入競争。考慮到人工智能工作負載的計算強度,随着時間的推移,這将為雲供應商帶來巨額收入,每個公司都可能将這一類别視為一項戰略要務。
大模型趨勢的最大赢家可能是英偉達。NVIDIA 的圖形處理單元 (GPU)——尤其是其最先進的 A100 芯片——已成為運行雲 AI 的事實标準。目前投資于這個生态系統的大部分資金,可能最終都會使英偉達受益,因為每家公司都需要購買計算資源。
4.基礎模型
随着模型變得越來越大,人工智能領域出現了一個新的類别--基礎模型。基礎模型公司的願景是提供其他公司可以利用的核心人工智能基礎設施。通過這種方法,公司可以在現有的基礎模型之上,構建他們的應用程序,而不是每家公司都必須從頭開始重新訓練自己的模型。
這種範式大大降低了構建新的 AI 應用程序的障礙,這解釋了如今在應用程序層看到的寒武紀新物種大爆發。
例如,Jasper 沒有自己的 AI 模型,它向 OpenAI 支付訪問 API 的費用;同樣,GitHub Copilot 獨立于底層 AI 模型(即 OpenAI 的 Codex 模型)而存在;Canva 在 9 月宣布将使用 Stable Diffusion 在其平台内生成圖像。
随着越來越多的終端産品使用人工智能進行設計,關于分銷策略的争論将會升溫。今天,我們看到了三種可能的 AI 分布路徑:
全民AI:随着越來越多的學生選擇這一專業,大學每年都會發出越來越多的 AI 文憑。根據 LinkedIn 的數據,如今美國約有 50萬 名機器學習工程師。這個數字在未來幾十年會增長 10 倍或 100 倍嗎?Coatue預測,未來人工智能工程師的數量可能與軟件工程師一樣多,或者兩者之間甚至不會有區别。在這個世界上,這些 AI 工程師将使用一流的工具包,使用 Weights & Biases 和 Hugging Face 等平台為他們的企業和客戶構建和部署模型。
新的 FAANG:如果基礎模型成為未來部署 AI 的主要方式,那麼少數新的公司可能會成為“AI 的 FAANG”。這些公司可能包括當前的部分或全部 FAANG 隊列,都将控制一個大型模型并通過 API 将其授權出去。
為了保持市場地位,每家基礎人工智能公司都将不得不花費數十億美元進行模型訓練。在非 AI 公司中,軟件工程師利用這些大模型來開發自己的應用程序,他們可能會針對自己的實際業務微調這些模型,但不會自己構建任何模型。
混合方法:關于人工智能生态系統如何演變的第三個假設是混合方法。在這個未來願景中,會有許多基礎人工智能模型免費使用和開源。使用這些模型,每個企業都可以訓練自己的基礎模型集——例如,迪士尼可以構建星球大戰模型和漫威複仇者模型。然後,他們再對自己的專有數據集進行模型訓練和微調。
基于目前我們在AI産業中看到的叠代速度,這三種方法都有可能被另一種方法超越。未來是不确定的,但這正是這一時刻如此引人注目的原因。
5.人工智能應用
基礎模型的最大影響是AI 更廣泛的可用性。一旦這些模型經過訓練和部署,它們的功能就可以通過開源代碼或 API 向公衆提供,開發人員可以在這些模型之上構建應用程序——這種趨勢可以稱為“應用人工智能”。
許多開發人員和設計師正在将 AI 作為其創意庫中的新工具,并為消費者和企業打造令人難以置信的産品。鑒于這些模型問世不到兩年——而且僅在幾個月内廣泛可用——這一類别才剛剛起步。
應用人工智能的一個新興特性是正在出現一種新的開發人員類别,稱為 Prompt Engineer--提示工程師。他們知道提供什麼樣的智能提示可以讓AI 模型運作良好,可以輸出更好的結果,但他們不需要知道如何編碼。這為非技術專業人士打開了獲得人工智能力量的機會。
在對 Github 前首席執行官、著名人工智能投資者 Nat Friedman 的采訪中,他分享了以下轶事:“有人告訴我一個卡車司機的故事,司機在卡車停靠站停下來時,他不再浏覽 Netflix,而是在睡前幾個小時制作AI圖像,這個朋友被這件事驚呆了。客觀上來講,這似乎比看 Netflix 和播放節目要好:它正在探索自己的創造力空間,并且能看到實時反饋。事實上,很多人有這種創造性的沖動,隻是沒有工具,沒有表達它和創造藝術的手工技能,像 Midjourney 或像 Stable Diffusion 這樣的東西給了他們這種可能,這不可思議,令人非常興奮!”
在這一趨勢中,令人興奮的想法的創意空間非常廣闊,對于創業和設計新産品的企業家和工程師來說,這将是一個成熟的基礎。我們很高興看到接下來會發生什麼,因為還有很多想法有待測試或探索。
6.MLOps——人工智能是如何構建的?
像所有軟件一樣,人工智能基本上是由代碼組成的。深度學習開發人員需要工具來編寫、測試、叠代、調試、部署和監控他們的代碼。随着人工智能變得越來越流行,新的工具正在出現,給從業者賦能。
像 Weights & Biases 這樣的公司使人工智能從業者能夠獲得更多的影響力——為他們提供構建、監控和微調 ML 模型的工具。
Hugging Face 提供了一個共享模型和數據集的協作平台。它現在是有史以來最受歡迎的商業開源項目之一。
就像 Atlassian、Github 和 Gitlab 提高了開發人員的生産力并擴大了可以構建軟件應用程序的範圍一樣,我們相信 W&B 和 Hugging Face 将在機器學習方面做同樣的事情。
7.GPU 和人工智能硬件
随着人工智能研究支出的增加,硬件創新及其有效使用(使用 CUDA、AIT 等軟件)肯定會越來越重要。
NVIDIA 已成為 AI 領域的核心硬件公司,幾乎所有大型 AI 模型都在其 GPU 上進行訓練和運行。此外,大多數 AI 開發人員已經熟悉 NVIDIA 的 CUDA 框架,這是一個允許開發人員使用 GPU 加速應用程序的并行計算平台。
谷歌的張量處理單元 (TPU) 提出了替代方案,而亞馬遜正在使用自己的芯片進入硬件遊戲,例如人工智能加速器 Inferentia。最雄心勃勃的努力之一是由 Cerebras 領導,它正在構建有史以來最大的計算機芯片,專門用于運行深度學習工作負載。
英偉達會繼續占據主導地位,還是新進入者會占據大量市場份額?這是一個懸而未決的問題,答案将在未來幾年産生重大影響。
8.在現實世界中部署 AI
對于所有關于 AI 模型改進的說法,最大的未解決問題之一是部署。今天,從 Hugging Face 獲取現成的 Transformer 模型或使用 Stability 的最新開源版本相當容易。從“0到1”比以往任何時候都容易,但從“1到100”的量産仍然沒有那麼簡單。
将人工智能集成到公司的業務流程中仍然具有挑戰性。例如,如何确保你的 AI 模型不會在生産中突然中斷?如何找到需要更多數據的極端情況?由于 AI 不是确定性的,并且有許多潛在的應用場景,因此很難對每個場景進行“單元測試”以确保模型正常運行。
為了讓 AI 發揮其潛力,需要更廣泛的生命周期方法來進行 AI 操作和部署。
将 AI 投入生産,在生産中監控這些模型,然後通過收集更多訓練數據來改進,這可能是下一個重大創新領域之一。像 Gantry 這樣的公司專注于這個問題。
物理部署模型帶來了額外的挑戰。雖然許多早期的 AI 平台在雲端進行訓練,但這僅适用于潛在應用程序的一個子集。許多最終應用将涉及在邊緣設備部署模型——安全攝像頭、可穿戴設備,甚至能源基礎設施。像 Edge Impulse 這樣的新創業公司專注于解決最後一英裡的問題,即把 AI 模型放在需要的地方;像 OctoML 這樣的其他人正在開發編譯器,為部署它的端點優化模型。
在企業市場上,從消費級應用的演示到生産級機器學習的飛躍将是未來幾年的一項重大任務。
本文節選自風險投資公司Coatue人工智能的報告《AI 2022: The Explosion》,報告詳細全文鍊接:htt