機器之心報道
演講:孫林君
編輯:小舟
9 月 3 日,在 2022 WAIC AI 開發者日上,實在智能創始人、CEO 孫林君發表主題演講《數字員工——AI 在 RPA 領域的應用與落地》,詳細介紹了 AI 加持的 RPA 技術近年來的發展,以及實在智能在數字員工方向的探索和應用。
以下為孫林君的演講内容,機器之心進行了不改變原意的編輯、整理:
大家好,非常榮幸能夠來到這個場合跟大家做分享,我今天帶來的話題是《數字員工——AI 在 RPA 領域的應用與落地》。
AI 是一種通用的智能化技術,但過去在泛行業領域的發展遇到了一些問題,很難有大幅突破。我們現在更關注 AI 與垂直行業結合帶來的化學反應。坦白講,大家原本對 AI 技術抱有很高的預期,現在已變為實實在在的落地,我們更希望看到 AI 在真實行業中發揮作用。
什麼是數字員工?數字員工就是機器能夠代替人去做一些重複繁瑣的工作,輔助人做決策。在未來的幾十年,中國處于人口老齡化的階段,适齡的勞動人口在減少,勞動力成本進一步增加,同時 GDP 要持續增長,這種情況下我們的勞動力缺口是比較大的,數字員工的出現将在很大程度上彌補勞動力缺口。
實在智能創立于 2018 年 7 月,到現在已有 4 年時間。我們在 RPA 領域融合 AI 技術,打造了各種各樣的數字員工。實在智能先後經曆了 6 輪融資,有超過 60% 的同事是科研人員,員工規模近 400 人,目前已掌握 120 項自主知識産權,申請專利數超過 40 項,近 20 項是實授專利,居行業第一。
RPA 全稱叫機器人流程自動化(Robotic Process Automation)。舉個簡單的例子,工廠需要很多的自動化操作,機械臂可以很精準地完成一些規則化、重複的勞動。除了工廠,辦公場景下自動化也有非常大的空間,智能化的出現讓該領域得到了長足的發展。
在辦公場景下,很多白領的日常工作也包含很多瑣碎的工作,比如在财務、運營、法務、客服等很多職能場景中,一些工作是重複且可被替代的。但通過自動化的技術,就能用軟件把人的操作錄制或者模拟出來,機器就可以模拟人的操作進行工作,準确率高少出錯。這項技術已經出現了很久,大約 15 年前,美國就在很多大型科技企業中應用,到了今天,國内已經有非常多的 RPA 公司湧現出來,包括傳統的 RPA 以及和 AI 結合的 RPA(IPA)。我們是一個典型的與 AI 技術結合的 RPA 公司,最近幾年的長足發展也與 AI 緊密相關。自動化技術和 AI 技術融合到一起才是未來數字員工的真正形态。
RPA 最開始隻能做最簡單的重複工作。如果機器想真正幫助白領高效工作,就要有很多工業化的設計。傳統 RPA 的設計器裡都是組件化的東西,拼裝就可以完成,這樣不用寫代碼,用戶隻需要關注業務邏輯就可以了。這種傳統方法實現成本低,門檻也比較低,對用戶來講也比較友好。
随着人工智能的興起和發展,我們也發現傳統 RPA 裡其實有很多地方是可以和 AI 進行結合的,例如和語音技術、OCR 結合,這些是簡單的加法。另一方面,RPA 技術本身存在一些瓶頸,例如我們要控制各種各樣的軟件,首先要識别這些軟件裡的東西,但是在識别上,我們是強依賴于操作系統底層的。這種情況使用傳統技術就面臨很多瓶頸,而 RPA 技術與 AI 結合可以獲得較大突破。行業天花闆被推升以後,與 AI 結合的 RPA 技術可以真正泛化到所有行業的軟件上,并成為普适性的自動化技術。
另外與 AI 結合後,數字員工的能力會實現從感知到認知的飛躍。感知能力就是各種識别、交互技術,認知能力就是能夠結合大量數據做出推斷。隻有在認知層面将 AI 與 RPA 技術結合才能構建真正的數字員工。規則化的工作在我們日常場景裡大概隻占 20%-30% 的工作量,但如果 RPA 可以在認知層面代替人們完成非創造性工作,那麼滲透率就可以達到 90%,所以數字員工未來的發展空間還是非常巨大的。
RPA 本身有一些能力上的限制,我們要把它變成 IPA,結合 AI,好比人的眼耳口鼻和大腦,能夠對話、理解、觀察和思考,這才是真正的數字員工。
我們回到本源的問題,RPA 能夠代替人控制所有的軟件,去完成規則化的工作,其中有兩個能力最關鍵:第一個是軟件的控制能力。通過操作系統底層去控制軟件的時候,我們要知道 RPA 的接口能力,或者說要識别到每一個要素,這取決于操作系統底層的開放性。現在主流的做法是結合計算機視覺來提升 RPA 的能力,讓 RPA 能夠對所有的軟件都适配,這就涉及非常多的技術挑戰;第二個關鍵能力是信息提取能力。我們知道,現實世界中的信息并非都是結構化的,往往是隐藏在一段文本裡,或是不同介質的表格裡。我們要把這些信息抽取出來,比如甲乙方是誰,他們之間是什麼樣的關系,就離不開大量的信息提取技術。這和自然語言處理和計算機視覺都有關系。
更強大的軟件控制能力
我們先看一下軟件控制能力。屏幕背後也是一個世界,所有的軟件都在裡面。我們要知道畫面上到底有什麼樣的元素或者物體,我能夠對它做什麼——先解決識别問題,再解決操作問題。通過操作系統底層解決識别問題時,我們會發現各種各樣的軟件是沒有辦法識别的,有時識别出來的就是一個大的框,有時是多個細粒度的元素粘連在一起,這樣就無法進行軟件操作。例如菜單中可能包含多個級别的小菜單,如果不能做到細粒度的準确識别,就無從談起對軟件的完美操控。
因此,我們希望開發出的工具普适性是非常強的,而不是隻能給若幹類軟件做适配。而且軟件會升級,技術架構會變更,這種情況下傳統的 RPA 很難做到完美适配。現在很多 RPA 公司受限于技術的瓶頸,會被局限在某一個行業裡。所以我們希望我們的 RPA 産品能夠變成通用化的産品,變成真正自動化的工具。
另一方面,環境的影響也非常大。在不同的操作系統下,不同的軟件組合情況,面臨的拾取和識别問題也是各種各樣的。
此外,在操作方式上,如果 RPA 技術隻能通過寫腳本的方式實現,那麼它依然是非常小衆的,隻有程序員能夠使用,這距離辦公環境下「人人可用」的目标還有非常大的距離。
那麼我們就要思考:如何能讓用戶非常簡單地使用上 RPA 技術。例如當操作系統底層的識别不行的時候,很多工作都要依賴計算機視覺的方法,但要使用不同的組件。這對用戶來講,成本非常高。于是我們考慮把這兩種技術融合到一起,以實現一種對用戶來講非常自然的過程——即用戶不需要考慮什麼時候使用計算機視覺,什麼時候借助操作系統底層。這裡就要解決非常多的技術難點。
首先是要解決精度問題。無論是多麼細微的目标,或是多麼複雜的目标,我們都要識别出來。如果我們想把使用門檻降到最低,那就要把不同的技術整合在一起。在速度方面,用計算機視覺的方式識别,效率天然會比底層要低一些。那麼如何能夠讓用戶有一緻的體驗呢?那就要在不損失很多準确率的前提下把模型變得很小,以便于在 CPU 的環境上穩定運行,這樣能節省掉很多硬件資源。因為用戶不會為了使用 RPA 産品單獨采購 GPU(圖形處理器)。
我們知道在軟件層面,特别是涉及到計算機視覺時,界面的 DPI(圖像分辨率)是不一樣的。假設我在一台電腦上設計了一個流程,現在要部署到 100 台電腦上,不同電腦的分辨率可能不一樣,操作系統環境可能不一樣,顯示器的大小也可能不一樣。我們要解決的問題是在這些差别的情況下保證軟件的穩定運行,替換分辨率也能保持一緻。在界面大小上,當我們把一個軟件界面進行拖拽的時候,界面會發生形變,這種情況下我們還要能找到操作的元素,這就涉及到形變重識别的問題。
面對這麼多複雜的挑戰,我們在業界首先提出了「融合拾取」的概念,并将這一技術實現出來。僅圍繞提升軟件控制能力就有十幾項的難點,我們都申請了相應的專利來解決。現在我們再拆解一下,看看其中的具體難點。
下圖是一個融合拾取運行的情況,畫面上有很多類軟件,包括網頁、CS 架構的軟件、還有操作系統原生的畫面。在這種情況下,傳統的 RPA 要用不同的組件來控制它,而且效率是非常不一樣的,使用 CV 方法的效率就會很低。而我們實現的融合拾取方法可以在四種應用之間無縫切換,體驗一緻。對于辦公環境裡複雜的要求,融合拾取技術可以做到非常完美的控制。
實在 RPA 的融合拾取能力,可實現同屏多對象無縫切換拾取
這裡有幾個比較大的挑戰,第一個是如何去适配各種各樣的軟件。我們知道軟件的種類特别多,在不同的設計規範下,識别層面怎麼實現通用性呢?我們經曆了若幹個階段,從多模型到單模型到後來極緻效率的單模型 2.0 階段,我們在耗時層面、召回層面做了很多工作,一步步發展成現在相對比較通用的識别技術。
第二個要解決的是成本問題。我們在不能提供 GPU 環境的情況下,想把模型變小,這就用到了剪枝、蒸餾、量化等方案把模型構建出來。對于計算量不能太大的情況,我們也設立了元素相似度的色彩空間映射方法來降低計算量,在算力層面盡量把技術做到極緻。
還有一塊是跨分辨率、畫面變化與重疊的情況,為了能夠識别出原來識别的對象,我們的把 CV 領域行人重識别的概念引入進來,采用基于 ReID 的技術并做了大量優化,最終取得了非常好的效果。對拾取層面來說,我們要把界面的布局做相應拆解(涉及圖像語義理解),然後做檢測,最後再做匹配。每一個環節都有相關的技術在發揮作用,其中的挑戰來源于多個方面:準确度、穩定性、唯一性。這些是需要持續打磨的,是一個與技術強結合的問題。
RPA 的瓶頸還遠不止這些。例如在運行的穩定性方面,軟件環境裡有時會出現彈窗,而配置流程時沒有預見到這個情況,流程可能就會被卡住,這種情況下我們需要系統能夠自動識别到彈出了一個非常規的窗口,然後把它關掉,這樣就有了輔助流程的概念。并且當按鈕背後的 ID 發生變化時,或者說顔色發生了變化,系統還能以最大概率把它找出來,讓流程運行下去,這個問題也要通過多種算法來解決。去年我們聯合機器之心針對這個問題做了一個評測,在 360 軟件庫裡随機抽取了一些軟件,面向多個指标進行評測,結果表明我們在這項技術上是遙遙領先的。
機器之心行業評測數據總表:實在智能位列第一
更強大的信息提取能力
下面我們來看一下信息提取能力。日常工作中我們經常要彙總報表,把 A 系統的信息下載下來處理之後錄入到 B 系統(例如财務的報稅),這需要大量的信息提取以及加工處理再操作軟件去完成,這是一個非常重要的工作。這裡面有一個概念是 IDP——IDP 是智能文檔處理(Intelligent Document Processing),它是集信息提取和信息處理等能力的 AI 産品,它每一項細粒度的能力可以在 RPA 裡作為一個組件,與自動化的部分拼裝起來,完成各種各樣的工作。
在 IDP 領域裡,常見的任務有識别各種格式、各種介質的文檔,對比不同格式的文件,抽取合同中的主體(包括甲乙方信息、訂單編号以及約定内容),特别是表格裡的信息也要抽取出來,如果抽取的信息有問題,後面還要做自動的校對,有些還要根據業務邏輯做校正,這裡面應用了大量相應的技術,包括 OCR、NLP 中的長短實體抽取等。
即使是看起來非常簡單的文檔,比對和審核也要用到非常多的智能化技術,比如對頁眉頁腳的識别、對表格區域的識别和還原、對分欄區的處理,其實都需要特定的技術,而不是一個通用的識别就能做好的,其中每一項都要做得非常細緻,提高準确率。在合同對比或者财務、法務的工作中,這是非常常見的工作,比如我們在某一個地方做了一點點修改,修改前後的文檔到底有什麼差别;或者在不同的文檔處理階段,比如在簽訂合同時識别出合同風險,并編輯其中的内容,這都跟 IDP 的相關技術有關。例如圖片介質的信息怎麼跟電子文檔的信息對比,其中包含非常多的細節。
RPA 還需要有更強大的信息提取能力,包括表格識别等。例如在電商領域有各種商品的類别和型号,通過拍照片就可以把裡面的信息提取出來。OCR、NLP 等原子化能力對于數字員工來講非常重要,可以變成設計器裡的組件,幫助我們快速拼裝出不同能力的機器人。
基于前面的讨論,我們實在智能的産品矩陣如下圖所示,左側是 RPA 産品四件套,我們有一個使用起來非常方便的低門檻設計器,設計出來的東西運行在機器人上,當有很多機器人的時候,就用一個控制器去調度、分配任務,在有很多數據的情況下,我們可以通過雲腦訓練出決策的模型,這樣可以達到第四階段——幫助人進行決策。另外我們有 AI 的産品矩陣,這個産品矩陣以 RPA 為底座,就可以構造出各種各樣實用的數字員工。
應用案例
下面我介紹兩個應用案例:一個是我們和銀行合作的智能審單案例。這家客戶有三四百名員工,他們負責審核大型企業的資金流水、合同以及資質證照等相關事物,最後去給客戶做授信,但授信額度是通過人的經驗并結合一些規則做出的判斷。在這種情況下,我們通過 IDP RPA 的場景化能力幫他們做信息審核、提取、比對,最終幫他們完成了智能審單。
第二個客戶是一個電商頭部品牌客戶,我們運用實在 RPA 技術把對于該客戶的評論從多個平台裡彙總出來,并通過智能決策的平台訓練出模型,挖掘出裡面隐藏的差評,通過差評分析反向對營銷作出進一步的決策。實際上這是一個結合雲腦和 RPA 做的智能評論分析場景。
對于一個企業來講,他們在接觸自動化的時候都是從單點開始的,但一旦用上自動化的技術後,從人的天性來講是不願意再退回到手工時代的。因此單點的自動化和智能化就會逐步過渡成部門級别的解決方案,再下一個層級就是整個公司級别的。如此推動,企業的數字化轉型以及超自動化的藍圖就會逐步形成,整個組織的生産流程也會因為自動化和智能化的加持,發生本質性變化。
基于前面的讨論,我們可以看到 RPA 已經不是一個傳統的隻能做規則化事情的技術了,我們更看好的是其與人工智能技術結合的應用與落地。我們知道人工智能的應用與落地,本質上是依賴于數據的,而 RPA 讓數據的獲取成本變得非常低,這種情況下再結合自動化,未來的空間是非常廣闊的。在使用門檻、拾取能力、穩定性、實施效率和性能方面,AI 都會發揮很大的作用,我們希望通過 AI 技術的加持,讓 RPA 成為一項普适性技術。
從大勢上看,數字員工會随着人工智能未來的落地逐步滲透到千行百業,我們也對這個領域非常看好,将持續通過智能化技術的創新和應用來賦能和改造這個行業。以上是我的分享,謝謝大家。
,