文 | 周鑫雨
編輯 | 蘇建勳
數據是21世紀最重要的資産,語音數據則是實現人機交互、全球互通的重要基礎。
成立于2019年6月,未有科技(iWillTech)是一家全球化架構的全自營AI數據服務企業,為全球人工智能企業提供語音識别、語音合成、自然語言處理、計算機視覺等領域的AI模型訓練數據服務。
由于數據資源覆蓋面有限、自有數據集體系不健全,目前業内大多數據公司采用的是業務外包的傳統模式。但這也導緻數據源不合規、數據質量低下、數據成本不可控、服務不專業等問題。與此同時,在語音領域,行業又存在小語種數據不完善、缺乏全球化運營經驗等痛點。
未有科技CEO彭玉成認為,數據一定程度上已經成為限制AI發展的核心因素,而未來衆多全球化應用場景的落地實現離不開全球化的數據:“數據、算法和算力被稱為驅動人工智能行業的‘三駕馬車’,其中,數據更是從本質上決定了人工智能的落地水平。智能辦公、無人駕駛、智能座艙、遊戲娛樂,甚至未來元宇宙的落地都需要海量的高質量數據,而想要訓練全球化的模型則必須有全球化的數據。”
據未有科技創始人楊雪平介紹,為了解決行業痛點,相較行業普遍的外包模式,未有科技是首家采取“全自營”業務模式的數據企業。通過直接運營和管理終端數據生産用戶,未有科技能夠實現對數據采集、标注、質檢、交付全流程的管控。未有科技目前已獲得ISO27701,ISO27001以及ISO9001認證,也是國内第一家承諾價格全透明,永久保證質量的數據企業。
自創立以來,未有科技便從數據領域壁壘最高難度最大的語音數據進行切入,目前更打造了在小語種數據方面的核心競争力,覆蓋了全球205種語言,在美國、日本、新加坡、中國等地開設了運營中心,形成了覆蓋亞非歐美五個大洲的區域團隊,開發了涵蓋60多種語言的自有數據集,并在此方面持續加大投入。
未有科技數據庫覆蓋語種範圍。圖源:受訪者供圖
目前,小語種數據已成為未有科技的核心優勢,其擁有自有版權數據集的語種覆蓋了全球80%以上的人群,正确率亦能達到99%以上。随着業務的發展,未有科技業務已逐漸滲透到自動駕駛、OCR和圖像等領域,作為其業務生态的有效補充。
未有科技核心業務。圖源:受訪者供圖
未有科技CEO彭玉成曾任甘泉資本投資總監,是清華大學蘇世民學者。創始人楊雪平自2016年起就進入了數據行業,曾幫助多家人工智能和數據公司從零搭建起AI數據業務線,具有豐富的數據業務經驗。未有科技的團隊成員來自包括芝加哥大學、清華大學、香港理工大學、武漢大學、北京外國語大學等全球頂尖學府,擁有豐富的海外經曆和資源,在數據采集、标注、分析、管理、銷售等領域有較深的沉澱。
自成立以來,未有科技服務了包括字節跳動、科大訊飛、騰訊、阿裡巴巴、美團、京東、大疆、小鵬汽車、Momenta、中科院、中國科學技術大學在内全球AI企業與科研機構,幫助客戶部署人工智能。楊雪平認為,在未來,無論是人機交互,還是人與人之間通過科技實現的互聯互通,數據都将成為基石。
,