做預測的機器學習算法-tft每日頭條

做預測的機器學習算法（把機器學習自動化）1

摘要：促進技術公平，降低技術應用門檻，讓不懂技術的用戶也可以使用人工智能，這是 AutoML 在未來的使命。

随着概念的普及，科技公司對人工智能的要求越來越高，成本、準确度、效率都影響着人工智能能否落地融入日常的使用中。對人工智能應用的快速增長也進而催生了對影響人工智能水平的關鍵要素——機器學習方法的需求。

近年來，在深度學習領域裡，出現了一種「新式學習法」，很多人視它改變了設計複雜的深度學習網絡，把看似高不可攀的深度學習，「拉」到了人人觸手可及的程度。這個新方式，就是 AutoML。

2017 年 5 月，谷歌在 I/O 大會上發布了 AutoML，他們将 AutoML 應用到了深度學習的圖像識别和語言建模的兩大數據集中，他們提供的 Cloud AutoML 和 Google NAS 算法結合，把完整的機器學習工作做成了雲端産品，用戶隻需要提供數據，Cloud AutoML 将自動構建深度學習模型。換言之，AutoML

想要做到的，正如其名：自動化機器學習。

如何促進技術公平，降低技術應用門檻，讓不懂技術的用戶也可以使用人工智能；如何優化機器學習的流程和結果，輔佐數據科學家們投入更有價值的工作，正是 AutoML 以及人工智能領域未來希望攻克的難題之一。

為此，在 IF 19 上，極客公園請到了 Google 第一個 AutoML 産品的技術負責人，來自 Google Brian 團隊的資深工程師盧一峰，他作為一個技術從業者，也是一位從 AI 學術研究到 AI 産品落地的實踐者，來試圖從技術角度解釋，如何讓機器學習可以為人人所用。

以下内容來自于盧一峰在極客公園 IF2019 創新大會上的演講實錄（經過極客公園編輯）：

大家好，今天向跟大家聊一聊關于 AutoML 的故事。

最近，AutoML 這個詞，你們在與 AI 相關的媒體上可能見得比較多。AutoML 實際上是三個英文單詞的英文縮寫，Automated、Machine、Learning，也就是「自動化的機器學習」。

在聊 AutoML 之前，做一個自我介紹，我來自 Google 大腦團隊，也有幸作為技術負責人，參與了 Google 第一個 AutoML 産品的研發和設計，我也關注從 AI 的前沿學術研究，再到最終實踐當中。言歸正傳，今天我想跟大家一起聊兩個問題：第一，為什麼我們需要 AutoML；第二，什麼是 AutoML。

我想先問大家另外一問題，當前是什麼限制了 AI 更廣泛地應用？

AI 發展的瓶頸與解決方案

我們認為 AI 大概有 3 個很關鍵的因素：第一，人，需要有 AI 的專家；第二，數據；第三，計算力。當我們有了這三個因素以後，就能夠創建一個自己的 AI 解決方案。我們也想探讨一下，到底這是三個因素裡面哪個因素限制了 AI 更廣泛地落地。

數據可能不是瓶頸，因為我們當前每一個企業都在擁抱數字化，所以實際上不管是大企業、小企業，都在試圖将自己的 Data 數據化上傳到雲端，大數據和雲服務的普及，也讓這種操作變得非常廉價和容易。所以，對于每一個企業來講，現在的數據并不是一個很大的問題，反而是因為我們無法從數據中獲得大量的價值，導緻阻礙對數據更大規模收集的動力。

計算力可能也不是瓶頸，OpenAI 做過一個調查，AI 計算力的提升已經突破了摩爾定律。摩爾定律是指 18 個月，我們計算機芯片的密度可以提升 1 倍，意思是說我們的計算力可以提升 1 倍。AI 現在計算力的提升，大概已經到了每 3.5 個月就能翻一番的速度。這個結論來自于他們收集了從 2012 年奠定卷積神經網絡在視覺問題上應用的 AlexNet，到 2017 年底的 AlphaGo，這所有計算力的變化。

所以，從 2012 年起到 AlphaGo 的時候，整個 AI 計算力在短短幾年的時間已經提升了 30 萬倍。這是一個非常驚人的數字，并且這個趨勢可能還會繼續延續下去，因為所有的 AI 硬件加速廠商都在大力推進這一塊。比如說英偉達的 GPU，或者是 Google 的 TPU。

我們認為，AI 專家實際上是現在阻礙 AI 廣泛落地的瓶頸，根據國外求職網站 LinkedIn 上的調查研究，現在機器學習的專家缺口非常大，供給和需求的比例正在逐年擴大。我們也知道，培養一個合格的機器學習專家可能需要花很多年的時間，這進一步阻礙了短期内彌補鴻溝的能力。

既然 AI 專家是瓶頸，怎麼改進這個公式，才能夠讓我們的 AI 更廣泛地落地？我們認為，如果有可能把 AI 專家他的知識和工作流程，盡量自動化起來，變成一個自動化的算法，我們稱為 AutoML，加上數據。

對于我們現在還無法自動化的一些複雜的人腦邏輯，我們給予 100 倍的計算量彌補鴻溝，最終出來了一個新的 AI 解決方案，就是 AutoML 數據 100 倍計算量。這個新公式不一樣的是，在傳統領域，AI 的廣泛應用受限于機器學習專家的數量，然而在這個新場景裡，我們可以把機器學習廣泛應用的瓶頸，從機器學習專家轉移到計算力上面。

也就是說，當我們有足夠多的計算力，就可以提供足夠多的 AI 應用方案出來，這樣我們就讓一個本身已經陷入瓶頸的公式繼續擴展，隻要我們有能力造出更多計算量，這樣看上去就是一個更簡單的問題。

這就解釋了為什麼我們需要 AutoML，因為我們需要用計算力的擴展讓 AI 更廣泛的落地。我們看一看什麼是 AutoML。

AutoML：用 AI 訓練 AI

首先，AutoML 在 Google 被作為一種新的 AI 研究方法。它通過自動化 AI 專家的研究工作流，可以加速 AI 的研究，并且輔佐 AI 專家取得更好的研究成果。我簡單給大家介紹一下，它的工作原理是怎麼樣的。在這個方法裡涉及到兩個 AI，一個我們姑且稱它為設計者 AI，另外一個是執行者 AI。

設計者 AI 要做的事情是不斷根據現有知識能力給出不一樣的設計方案，就像一個設計者一樣。每一個執行者 AI 會拿到其中一個設計方案，并且把它執行，執行到它能夠完成的程度，然後每一個執行者 AI 就會把執行以後的效果，到底好還是不好反饋給這個設計師的 AI。

可想而知，設計者 AI 會逐漸獲得很多這樣的反饋，說設計方案 A 不太好，方案 B 要好一些，它自己會開始一套進化流程，它自己會根據好還是不好找到一種進化的方法，以讓它在下一次提出設計方案的時候，能提出更多好的方案。

因此，經過多次這樣的循環疊代，最終這個設計師 AI 會變得越來越厲害，它會設計出越來越更好的方案，最終也就實現了我們的目的，就是說用機器自動的去産生更好的設計方案。這也就是大家經常聽到的，用 AI 訓練 AI。

我給大家分享兩個例子。

案例一：就是它在 AI 研究裡面取得的一些結果，ImageNet 可能是大家比較熟悉的圖片分類的一個經典問題，這個問題本身也比較難，在左邊這張圖上面，黃色的框裡面顯示的是，頂級 AI 專家在過去數年中人工設計産生的最好的神經網絡，能夠達到的準确率。

紅色的框裡面顯示，當 AI 專家使用 AutoML 去加速他的研究，他能夠取得更好的準确率，達到 AI 研究的突破。

案例二：AutoML Team 和 Waymo 在兩年以前就開始合作了，把 AutoML 引入整個 Waymo 核心 AI 設計框架中，幫助 Google 無人駕駛車公司的 AI 專家設計更好的視覺系統。大家都知道，無人車的視覺系統是核心組件之一，相當于無人車的眼睛。在 AutoML 幫助下，Waymo 通過 AutoML 的方法，提升了核心 AI 系統（激光雷達識别、道路識别），并且這些用 AI 訓練出來的 AI 已經被部署到商業運營的車輛當中了，在本身已經有非常優秀的錯誤率上又進一步減少了 10%。

除了輔佐頂級的 AI 專家加速研究，我們希望知道 AutoML 能不能普惠大衆？讓我們每個人都能夠用它做一個工具，幫助我們解決更多現實世界的問題。

這對我們提出了更高層次的要求，除了 AI 專家以外，我們還需要面對普羅大衆，在這個問題的推動下，我們定義了 AutoML 的第二重含義，作為一款面向所有人的 AI 應用産品。首先是基于 AutoML 的研究基礎之上，通過自動化 AI 應用的工作流，提供簡單易用的産品界面，讓每一個人都可以使用 AI，來解決你身邊自己的一些問題。

AutoML 的應用落地

我想和大家分享一個 AutoML 和瀕危動物保護的故事，我有幸在早期參與到這個很有意義的活動中。整個活動讓我感觸很深。先給大家介紹一下故事背景，ZSL 成立于 1826 年，緻力于全球瀕危動物保護，是一個非盈利組織，它們在近年來提出了一個新的動物保護思路和框架，他們設計了一個類似于照相機的盒子，這個盒子有感應設備，當把這個盒子挂在野外樹上時，前面有動物經過的話，傳感器就能識别到這個動物，然後自動拍下一張照片。

如果在一個保護區裡面部署很多這樣的攝像頭，就能自動了解到在這個保護區裡有什麼動物存在，以及大概的數量和分布是怎樣的。屏幕的最左側有一個調皮的猴子和老虎拍下了它們的自拍相。

這個解決方案非常聰明，但是挑戰在于 6 個月時間之内，因為産生了上百萬張的圖片（一個保護區）。他們緻力于全球很多保護區的保護，這 100 萬張圖片需要專業人員數月的時間才能進行人工分析和标注。動物學家和動物保護者本身非常缺乏編程和機器學習背景，所以他們需要花很大的代價自己研發一套自動化系統做這件事情。

帶着這兩個挑戰，他們找到了 Google Cloud，通過 Google Cloud 和我所在的 Google Brain 通力合作，打造了這樣一款雲端産品，對于動物專家來說，他隻需要簡單的四步就可以完成剛才說的大挑戰。

第一步：把手裡已經有的标志好的猴子，老虎圖片上傳到雲端，告訴 AutoML 我要做什麼事情，比如分類老虎、猴子、大象。

第二步：點一下開始啟動，整個系統就全自動運行起來，整個過程中不需要任何人工幹預。在 AI 自動建模過程中，可以在評估頁面觀測到現在這個模型的質量情況（準确度、召回率指标）是否能滿足實際應用的需求。

第三步：當這個模型自動訓練完畢以後，如果這個指标達到了使用場景需要，就可以簡單的在界面上上傳更多沒有進行标注過的照片，整個系統就會全自動用剛才已經訓練好的 AutoML AI 自動化的進行更多圖片的自動标注和分類。

整個過程在 AutoML 的幫助下，讓沒有編程背景的動物專家和保護者，可以自己創建非常高質量的定制化模型，将以前需要數月的數據分析時間縮短到數天，這對于瀕危保護動物者來說是革命性的變化。

接下來請大家一起看一個小視頻。

（播放視頻）

除了剛才那個很有意義的工作外，我們發現 AutoML 被德克薩斯州的海洋環境專家用來解決海岸保護問題。

這個故事大概是這樣的。每個海岸線需要定期精确識别海岸線地質構成，因為海岸線時常會變化，他們做這件事的初衷是如果在附近的海域發生了原油洩漏，不同的地質結構對原油洩漏的生态敏感程度不一樣，如果他們知道整個海岸線的地質構造，就可以及時對比較敏感的地質帶以采取急救措施（放海面上漂浮的浮桶，可以将原油隔離在外面，保護海岸線的動物、植物、環境）。

傳統的方法是用飛機沿着海岸線飛行并自動拍照，拍出來的照片裡面，以前需要地質學家數年的時間，一張一張識别。比如說給你一張這樣的圖片，你可能需要識别裡面有沙地、鹽堿地等各種各樣的地質狀況，然後标注出來。

和 AutoML 合作以後，他們把這個過程變成了自動化的過程，把以前需要數年時間的數據分析縮短到非常短的時間之内，提升了海洋保護的效率。

除了在視覺領域中，AutoML 作為一個産品被很多傳統行業、保護組織應用起來，提升各行各業的生産效率以外，我們也試圖擴大 AutoML 在機器學習其它領域的落地，讓更多的人能夠用它解決一些專業問題。

比如說，我們推出了 AutoML 翻譯、AutoML 自然語言理解，你可以用這個自然語言理解，如果是一個小的電商網站，收集到很多用戶的評價，你想知道這個評價是正面的還是負面的，以及提到了哪方面的問題。以前你需要人工的标注，現在用 AutoML 自然語言處理，就可以很簡單的訓練一個屬于自己的模型，自動化的做标注和分析。

從今年開始，我們還會陸續推出更多的 AutoML 産品，覆蓋更多的 AI 應用場景，希望能夠讓整個一套工具箱變成每一個人非常順手的有效工具，提升各自生活工作中的效率。

今天主要和大家聊了 AutoML。AutoML 本質上構建在人工智能之上，試圖用自動化的方法擴展人工智能的應用場景和擴大它的範圍。我們作為一個新的 AI 研究方法，擴展了 AI 研究能夠到達的邊界，然後又在這個之上構建了 AutoML 的應用産品，讓 AI 的應用得到了比較有效的擴展，讓每一個人都可以用 AI 解決現實世界中的問題，這就是我帶來的 AutoML 的故事。

謝謝大家！

本文作者：Moonshot
,