如今,幾乎每家上市企業都在積極讨論人工智能技術對自身運營方式的重大影響。從特斯拉使用AI技術改善自動駕駛性能,到Levis通過AI強化産品決策能力,每個人都熱切想要在AI領域占據一席之地。
但要實現這一目标,組織的智能度必須進一步提升。為了逐步發展出嚴肅AI,我們需要采用監督學習方法,而監督學習的效果又由标記數據的質量決定。原始數據需要經過漫長的标記過程,而後方可用于增強監督學習模型,由此産生的預算甚至可能給組織帶來可感受的壓力。過去十年以來,組織高管在存儲數據并将數據轉化為收入方面,主要擁有三種選項:
1.DIY并建立自己的定制數據标記系統。為人力、技術及時間層面的重大投資做好準備并調撥預算,借此建立起一套規模龐大、可永久保存的健壯生産系統。聽起來不難?也許吧,畢竟谷歌和Facebook都成功了。但這一切未必适合您,因為那些科技巨頭擁有出色的人才與幾乎無窮的IT預算,足以建立并維護這些複雜的标記系統——換言之,這類企業的預算甚至與世界上某些小國的GDP相當。另外,即使您擁有充足的人力與時間來從零開始構建大規模生産系統,您的組織能接受這項長期延續的巨額投資嗎?
2. 外包。專業服務合作夥伴當然很給力,但您仍然需要開發自己的内部工具。這種方式還可能帶來其它風險,因為此類解決方案要求将第三方數據與您自己的專有數據混合起來,通過顯著擴大數據樣本量在理論上獲取質量更高的模型。您是否對自己的數據審計跟蹤能力有信心,保證其能夠在持久數據标記要求的整個生命周期中保持專有性?即使您的供應商倒閉,您在AI旅程中作為競争優勢開發出的流程是否可重複且始終可靠?您積累了數十的知識産權(數據)可能因此而不慎洩露,導緻其落入同樣與您合作夥伴聯手構建系統的競争方手中。以自動駕駛汽車行業為例,Scale.ai已經成為領域中規模最大的服務商,幾乎所有相關機構都與其保持合作關系。
3. 使用訓練數據平台(TDP)。這些屬于相對較新的市場解決方案,可提供一套統一平台,将負責收集、标記并饋送數據的所有作業彙總至監督學習模型當中,或者幫助用戶自主構建新模型。這種方法可幫助不同規模的組織獲得等同于Salesforce及Hubspot等客戶關系管理商的方式建立标準化工作流程。其中一些平台還使用集成化機器學習算法自動執行複雜任務,借此進一步降低工作難度。更重要的是,TDP解決方案能夠幫助數據科學家擺脫繁重的任務,将主要精力集中在構建實際結構(而非構建及維護複雜而脆弱的定制化系統)當中。目前比較重要的TDP廠商包括Labelbox、Alegion以及Superb.ai。
我們為什麼需要訓練數據平台
任何組織在開啟自己的AI探索之旅前,首先需要明确一點:數據标記是監督機器學習系統中成本最高、最為耗時的部分之一。随着機器學習系統逐步發展成熟并可用于生産環境,數據标記任務仍然不會停止。這項任務将永遠存在并不斷增長。無論選擇外包标記還是内部标記,組織都需要選擇一套TDP進行工作管理。
TDP旨在促進整個數據标記過程,加快産生高質量數據的速度,由此幫助組織快速創建高性能的AI模型與應用程序。如今,已經有部分企業在強調TDP技術的重要性,但真正能被稱為“TDP”的解決方案仍然非常有限。
其中有兩點非常重要:業務準備情況與直觀的使用界面。如果未對業務做好充分準備,IT部門将拒絕使用。如果界面不夠直觀,用戶也會尋找其他更易于使用的方案。此外,任何負責處理敏感的、對業務至關重要的信息的系統,也都需要具備企業級的安全性與可伸縮性保障,否則同樣無法正常起效。而實際情況甚至證明,這類目标也許永遠無法實現。IT消費化至少已經持續了十年,但Instagram這類簡單易用的應用都很難在組織内普及。Salesforce的自動化工具之所以能夠從Siebel手中奪取市場,靠的就是輕松愉快的用戶體驗與便捷的雲交付。
除了這些基礎之外,數據注釋、管理與叠代同樣非常重要。如果候選系統無法滿足這三項要求,那麼其同樣不能算是真正的TDP。下面來看關于這三項核心指标的更多細節:
注釋。TDP必須提供可用于智能自動注釋功能的工具,即盡可能自動做出更多标記。高水平的TDP應該能夠處理有限數量、帶有專業标簽的數據。我們以放射科醫師處理的X光片為例,系統需要首先從圖像中識别出腫瘤,而後再做出預标記。而審核人員的工作,就是糾正各類錯誤标記問題。機器會為标記結果提供一項置信度輸出,例如特定标簽正确标記的可能性為80%。對審核人員來說,優先級最高的工作應該是檢查并糾正機器認為置信度不足的标簽。因此,組織應努力推動注釋自動化并投入于相關專業服務,确保數據标記的準确性與完整性。好消息是,目前與注釋相關的多數任務無需人工即可輕松完成。
管理。TDP應該用作數據訓練項目中的中央記錄系統。數據科學家與其他團隊成員将在TDP中開展協作,通過與傳統項目管理工具的集成、或者在平台本體之内,創建工作流并分配任務。
由此得出的數據集,還可供後續項目使用。以美國為例,每年約30%的房屋會投保房屋保險。為了預測風險并做出準确定價,保險公司需要分析多種數據——例如房齡、是否有遊戲池或者蹦床,或者房屋與樹木間的距離。為了推進這個過程,企業現在使用計算機視覺通過衛星圖像為保險公司提供連續分析支持。在對新興市場中的房屋進行分類時,企業應該使用TDP重複使用現有數據集。例如,如果某家公司有意進軍英國市場,則應該能夠重用來自美國的現有訓練數據,以此為基礎稍加更新以适應當地差異(例如英國本地的建築材料選擇)。這些叠代周期,将使企業提供高準确度數據,同時迅速做出調整以适應美國及其他地區的房屋情況變化。
這意味着您的TDP需要提供與其他軟件相集成的API,借此對接項目管理應用、數據收集與處理工具,并幫助組織通過SDK建立自定義工具、擴展TDP。
叠代。真正的TDP必須承認這樣的現實:帶有注釋的數據永遠不會保持靜态。相反,數據會不斷變化,随着更多數據加入數據集而持續叠代,并由模型提供關于數據有效性的反饋。而保持數據準确性、客觀性的關鍵,就是叠代。我們需要測試模型、改進模型、再次測試、持續循環。拖拉機的智能噴霧器能夠在50%的概率将除草劑準确噴向雜草,而随着訓練數據中的雜草圖像越來越多,計算機視覺模型的後續叠代有望逐步将準确率提升至90%或更高,同時幫助噴霧器更準确地識别出那些不需要噴灑除草劑的植物。這個過程可能相當耗時,而且在高自動化水平的支持下,往往仍需要審核人員的參與。通過一次次叠代,我們可以推動模型逐步走向最佳狀态。而TDP的目的就是加速這種叠代,并确保每次叠代都能給模型帶來積極的改進,由此節約時間和金錢。
展望未來
正如十八世紀的标準化與可互換部件引發了工業革命一樣,用于定義TDP的标準框架也開始将AI技術推向新的高度。盡管尚處于起步階段,但真正的TDP管理平台能夠以更可靠的方式将原始數據(特别是寶貴的知識産權)轉化為标記數據,由此幫助組織在所在行業中建立起實際競争優勢。
在另一方面,高層管理人員還需要切實理解通過投資挖掘AI潛在财富的必要性。以往,組織隻能在自主構建、外包或者直接采購之間做出選擇,三者都會帶來高昂的成本。更重要的是,自主構建與外包還可能帶來巨大的隐性成本,導緻組織難以成功邁入新的業務領域。真正的TDP能夠“降低”這一高成本決策的風險,同時有效保護企業的核心競争優勢,即知識産權。
,