全文共1727字,預計學習時長5分鐘
圖源:Google
數字化将DataOps這一概念引入人們生活的同時,大數據正引入一種新的範式——MLOps。鑒于DevOps和DataOps在實踐中越來越多的運用,該項業務需要機器學習模型使用過程中的所有參與者一直保持合作與互動,包括業務人員、工程師、大數據開發人員(數據科學家和機器學習專家)。
MLOps還是一個比較新的概念,但人們對它的需求卻在與日俱增。2018年左右,在谷歌舉辦的一場演講之後,業内專業人士首次公開談及工業運行(生産)中機器學習生命周期集成化管理的必要性。
将機器學習模型引入實際業務這一實踐,并不局限于數據準備、開發、神經網絡或其他機器學習算法的訓練方面。從驗證數據集,再到可靠的大數據生産環境下測試和部署數據集,産品解決方案的質量受到諸多因素的影響。
這意味着,預測或分類的實際結果不僅取決于數據科學家提出的神經網絡架構和機器學習方法,還取決于開發團隊如何實現這一模型,以及管理員如何在集群環境中部署這一模型。輸入數據的質量,接收數據的來源、渠道和頻率也很重要,這都屬于數據工程師的職責範圍。
在機器學習解決方案的開發、測試、部署和支持過程中,多學科專家在互動中會遇到許多組織難題和技術障礙,這不僅延長了産品創建的時間,還降低了産品帶給該項業務的實際價值。
為了消除這些障礙,MLOps這一概念應運而生。與DevOps和DataOps類似,MLOps旨在提高自動化程度和工業機器學習解決方案的質量,同時兼顧監管需求和業務利益。
因此,MLOps是結合系統開發和運營支持(包括集成、測試、發布、部署、基礎設施管理等操作),以實現機器學習系統生命周期複合化和自動化管理的文化理念和應用實例。
可以說,MLOps借助敏捷的方法和技術工具擴展了CRISP-DM方法論(CRISP-DM跨行業數據挖掘标準流程),從而可以自動執行包括數據、機器學習模型、代碼和環境在内的操作。
這些工具中包括了Cloudera公司的數據科學工作台——ClouderaData Science Workbench,将MLOps付諸實踐有助于數據科學家在CRISP-DM經典階段規避常見陷阱和問題。
MLOps帶給業務和數據科學的十大好處
實施MLOps帶來的所有好處中,最為突出的是機器學習工業部署細節中的敏捷方法:
· 通過可靠且有效的機器學習生命周期管理,減少時間,從而得到高質量結果。
· 持續開發(CD)、持續集成(CI)、持續訓練(CT)方法和工具保障了工作流程和模型的可重複性。
· 随時随地輕松部署高精度機器學習模型。
· 集成管理系統可連續監測機器學習資源。
· 消除組織障礙,彙聚多學科機器學習專家的經驗。
因此,使用MLOps可以優化以下機器學習操作:
· 統一機器學習模型和關聯軟件産品的發布周期。
· 自動測試機器學習組件,如數據驗證、測試機器學習模型本身、及其集成到産品解決方案的過程。
· 在機器學習項目中踐行敏捷原則。
· 在CI、CD、CT系統中支持機器學習模型和數據集。
· 使用機器學習模型減輕技術債。
圖源:Google
值得注意的是,MLOps的實踐應該與語言、框架、平台和基礎設施無關。從技術角度來看,MLOps系統的總體架構應包括收集和聚合大數據平台,為機器學習建模分析和準備數據的應用程序,執行計算和分析的工具,以及自動移動機器學習模型及其生命周期中關聯數據、軟件産品的工具。
如此以來,數據科學家、數據工程師、機器學習專家、大數據解決方案的架構師和開發人員、以及使用統一高效管道的DevOps工程師的工作任務有望實現部分或完全自動化。
留言點贊關注
我們一起分享AI學習與發展的幹貨
如轉載,請後台留言,遵守轉載規範
,