快手算法參數-tft每日頭條

在 CNCC2018「高通量媒體内容理解論壇」上，快手科技多媒體内容理解部負責人李岩發表了題為「多模态内容生産與理解」的演講，講述了帶領多媒體内容理解部在多模态研究上取得的一些進展。
李岩在演講中表示，多模态技術有兩大應用方向，一是會改變人機交互的方式，二是将使信息分發更加高效；視頻本身就是一個多模态的問題，而快手則擁有海量的多模态數據，多模态的研究對于快手來說是非常重要的課題；目前快手已經在語音識别與合成、智能視頻配樂、通過 2D 圖像驅動 3D 建模特效、視頻精準理解等領域對多模态技術進行研發應用。

以下為演講的主要内容：

大家好，首先我來簡單介紹一下快手，在這個平台，用戶能夠被廣闊的世界看到，也能夠看到廣闊的世界，我們可以看一下快手的數據： 70 億條視頻總量、1500 萬日新增視頻，日均的使用時長超過 60 分鐘等，所以快手平台上有非常多的多媒體數據，同時也有非常多的用戶交互數據，比如我們每天有 1.3 億用戶觀看超過 150 億次視頻的播放數據。

我們知道視頻是視覺、聽覺、文本多種模态綜合的信息形式，而用戶的行為也是另外一種模态的數據，所以視頻本身就是一個多模态的問題，再加上用戶行為就更是一種更加複雜的多模态問題。所以多模态的研究對于快手來說，是非常重要的課題。

多模态技術兩大應用方向：人機交互與信息分發

我認為多模态技術會有兩大主要的應用。

第一，多模态技術會改變人機交互的方式，我們與機器交互的方式将會越來越貼近于更令人舒适、更自然的方式。

第二，多模态技術會使得信息的分發更加高效。

多模态技術研究的三個難點：語義鴻溝、異構鴻溝、數據缺失

其實在目前來看，多模态研究難度還是非常高的。

其中大家談得比較多的是語義鴻溝，雖然近十年來深度學習和大算力、大數據快速發展，計算機視覺包括語音識别等技術都取得了非常大的進展，但是截至現在，很多問題還沒有得到特别好的解決，所以單模态的語義鴻溝仍然是存在的。

再者，由于引入了多種模态的信息，所以怎樣對不同模态之間的數據進行綜合建模，會是一個異構鴻溝的問題。

另外，做語音、做圖像是有很多數據集的，大家可以利用這些數據集進行刷分、交流自己算法的研究成果。但是多模态的數據集是非常難以構建的，所以我們在做多模态研究時是存在數據缺失的問題的。

下面我會分享我們在多模态這個方面所做的事情，以及這些技術是怎麼樣幫助快手平台獲得更好的用戶體驗和反饋的。

多模态技術如何實現更好的記錄

首先，多模态技術将實現更好的記錄。随着智能手機的出現，每個人都可以用手機上攝像頭去記錄周圍的世界，用麥克風去存儲周圍的音頻信息；而在以前，生成視頻，尤其生成一些比較專業的視頻，都是導演幹的事情。但現在，我們通過手機就能夠做到，這裡面會有非常多的多模态技術研究來輔助人們更好地記錄。

我們希望整個記錄過程是更加便捷、個性化、有趣，同時也是普惠的，具體我将分别通過四個案例分享。

1、語音轉文字打造便捷字幕生成體驗

一個視頻裡，音頻部分對于整個視頻的信息傳遞是非常重要的。網上有很多帶有大量字幕的、以講述為主的視頻，這樣的視頻制作其實是一件很麻煩的事情，因為一個一個去輸入文字是很痛苦的，像過去在廣電系統專業工作室就需要很多用于字幕編輯的工具軟件。而如果我們通過語音識别技術，把語音直接轉成文字，就可以很輕松地通過手機編輯生成一個帶字幕視頻。

2、語音合成實現個性化配音

另外一個技術叫做個性化配音，假如在一個視頻中，你不喜歡聽男性配音，而希望聽到由一位女士配音，我們就可以通過語音合成技術滿足個性化的訴求。

語音識别及合成技術都會使我們記錄的過程變得更加便捷、有趣，但這兩個技術在做視覺或者多媒體的圈子裡面關注度不是特别高，隻是偶爾會在做語音的圈子裡去聊這些問題。包括在語音圈子裡面，語音識别和合成現在往往是兩波人在做。

随着深度學習技術的出現，語音識别和合成這兩個問題其實在某種程度上是非常對稱的，因為語音識别是從語音到文字，語音合成是從文字到語音。語音識别的時候，我們提取一些聲學的特征，經過編碼器或者 Attention 的機制，實現從語音到文字的轉化；語音合成的技術和算法，其實也涉及編碼器或者 Attention 的機制，二者形成了比較對稱的網絡。所以我們把語音識别和合成看成是一個模态轉換的特例，從神經網絡建模角度來看，是一個比較一緻、容易解決的問題。

具體神經網絡在設計的時候，雖然二者内容機制其實還是有一些不同，但更大的趨勢是這裡面将來會有更多的趨同，因為我們知道随着相關算法的發展，計算一定是朝着一個更加簡化，更加統一的方向發展。就像深度學習的出現，其實就是通過計算的方式取代了手工來獲取有效的特征。多模态的轉換領域裡面也出現了這樣的特點，這是一件非常有意思的事情。

3、根據視頻内容自動生成音樂

音樂也是短視頻非常重要的一部分，有錄視頻經驗的同學可以感受到，為一個場景配合适的音樂是一個很難的事情。過去，有不少用戶為了與音樂節拍一緻，努力配合音樂節奏拍攝，極大限制了拍攝的自由度。我們希望用戶可以随意按照自己想要的節奏錄制，所以讓機器通過用戶拍攝的視頻内容，自動生成符合視頻節奏的音樂，這樣視頻畫面與音樂節奏就會更匹配、更一緻。

音樂生成涉及很多具體的技術，我們也做了非常多的研究，其中一個問題是懂音樂的不懂計算機科學，懂計算機科學的人不懂音樂。想要把短視頻配樂這個問題研究好，需要要有做音樂和做 AI 的人一起集成創新，這方面我們也做了非常多的工作。

4、2D 圖像驅動 3D 建模實現 Animoji 效果

通過蘋果的發布會，大家應該都了解 Animoji 這項技術，iphoneX 有一個标志性的功能，就是通過結構光攝像頭實現 Animoji，現在國内手機廠商也越來越多地采用結構光的方式去實現 Animoj。而快手是國内較早實現不使用結構光，隻用 RGB 圖像信息就實現 Animoji 效果的企業。

用戶不必去花上萬元去買 iphoneX，隻要用一個千元的安卓手機，就可在快手的産品上體驗 Animoji 的特效，從而能夠在不暴露臉部信息的同時展現細微的表情變化，例如微笑、單隻眼睛睜單隻眼睛閉等，讓原來一些羞于表演自己才藝的人，也可以非常自如地表達。我們覺得做技術有一個非常快樂的事情，就是讓原來少數人才能用的技術，變得更普惠。

其實解決這樣一個問題是非常難的，因為即使是像蘋果這樣的公司，也是采用了結構光這樣配置額外硬件的方式來解決。想讓每一個用戶都能享受到最尖端的技術，快手面臨着硬件的約束，隻能通過 2D 的 RGB 視覺信息對問題進行建模、求解，這裡面包括了像 Landmark 人臉關鍵點檢測、實時重建人臉三維模型等技術，把 2D 和 3D 兩種不同模态的信息做建模、做對齊。

我們也能看到現在市場上可能有一些小型的 APP 在做類似的事情，但體驗很差，而我們的整體體驗還是非常好非常流暢的，這也需要歸功于深度神經網絡模型的量化，通過壓縮和加速解決手機性能問題，可适配任意機型。

多模态技術如何實現精準理解視頻内容

剛才我講的是我們多模态技術怎樣去幫助用戶更好地記錄，我們同時也希望通過一個更好的分享機制，讓用戶發布的視頻能夠被更多感興趣的人看到。這也涉及視頻推薦裡面多模态的一些問題。

對視頻内容的理解其實是非常難的，這個裡面我做了兩個比較有意思的事情。

第一，我們強調音頻和視覺的多模态綜合的建模，而不是僅僅是單獨的視覺或者音頻，視覺和聽覺兩種媒體的融合，會是未來一個非常重要的事情。

第二，在工業界做的事情和在學術界做的事情有很大不同，我們有非常多的用戶數據，這些用戶數據是不在傳統多媒體内容研究範疇裡面的，但是工業界可以很好地利用這些數據，更好地做内容理解。

給大家舉個例子，一個男子表演口技的視頻中，如果關閉聲音，僅憑畫面信息，我們并不知道他是在做什麼，可能會覺得是在唱歌或唱戲。這說明如果僅僅是通過視覺的話，你可能無法獲得真實的信息。我們對世界的理解一定是多模态的理解，而不僅僅是視覺的理解。

像這樣的視頻在快手數據庫中有 70 億，想要理解這麼多的視頻内容，必須借助多模态技術。所以我們在這方面也做了非常多的工作，從文本、視覺、聽覺角度去做了很多單模态的建模，包括多模态的綜合建模、有序與無序，以及多模态特征之間怎樣進行異構的建聯，在很多任務内部的分類上也做了改進。

第二點需要強調的是，像 ImageNET 等很多的學術界研究内容理解的任務有非常好的标注數據集，但是這個數據集對于工業界來說還是太小，且多樣性不夠。我們平台每天有 1.3 億多用戶以及超過 150 億次的視頻播放，這個數據是非常大的。如果有 150 億的标注數據，做算法就會有很大的幫助，但是現實上是不具備的。

那怎樣将研究分析技術與海量數據更好地做到兩者的融合呢？我們通過融合行為數據和内容數據，進行綜合建模，同樣大小的人工标注量，利用海量的用戶行為數據，能夠獲得比純内容模型更好的性能，對視頻有了一個更好的理解，進而在多媒體内容的理解和分析方面的算法研究有了非常大的進展，這就使我們在工業界和傳統學術界做這個事情時會更有優勢。

未來多模态研究的熱點：特征表達與特征對齊

總結一下，多模态内容解決的問題裡面涉及一些模态的轉化，比如怎樣通過 2D 圖像驅動 3D，怎樣通過語音生成文本或者通過文本生成語音，怎樣通過視覺驅動音樂。另外一個應用是我們怎樣通過融合更多信息來驅動内容的理解，其實都是一個多模态的問題。在學術界有很多研究還是停留在單模态，但我個人認為未來多模态會成為更有價值的研究方向。

多模态研究會有兩個難點或者說熱點：

第一是多模态的特征表達，也就是在多模态研究框架下怎樣設計單模态的特征，這是一個非常重要的問題。

第二是多模态特征之間如何對齊，也就是有沒有更好的算法對視覺、聽覺和行為的部分進行統一的建模，這是未來的一個熱點。

幾個總結

第一，多模态未來會持續帶來更新的人機交互方式，比如我們剛才講的 Animoji 技術，其實它帶來的是一種可以通過人臉控制手機自動生成 Avatar（虛拟動畫）的體驗。原來實現這些效果，需要在好萊塢專門設一個特效室來實現這一點，而現在普通用戶都能享受這樣的技術，所以人機交互會由原來重的、貴的、笨的方式轉變為便宜的、每個人都能參與的而且便捷的方式。

第二，我認為多模态技術會帶來新的内容形态，原來接入信息更多是從文本、頁面中獲得，現在有視頻，未來可能還會有 AR 或者其它的形式。我覺得多模态 AR 很重要的一點就是強調沉浸感，這種沉浸感其實是通過聽覺和視覺綜合作用才能産生的。

第三，我認為多模态亟需新的算法和大型的數據，因為這兩者可能會是一個某種意義上可以相互折算的問題。以目前的機器學習算法來講，需要海量的數據才能解決好這個問題，因為現在深度學習、内容理解的成果，某種意義上是監督學習的成果，有足夠的樣本、算力，所以現在的算法能力基本上還停留在對算力和數據有着非常大要求的階段。而多模态的大型數據是非常難建的，而且多模态解的空間是更大的。因為一個模态解的空間是 n，另外一個是 m，它最後是一個乘積、一個指數級的變化，所以數據集要多大才足夠是一個很難的這個問題，可能需要新的算法來對這個問題進行建模。

關于快手多媒體内容理解部門

快手多媒體内容理解部門（Multimedia Understanding）簡稱 MMU，團隊由近百名算法工程師、應用工程師構成，聚焦多媒體内容的理解與應用。在内容理解方面，MMU 主要通過對人臉、圖像、音樂、視頻四個維度實現對多媒體内容的感知，并融合感知内容和知識圖譜，實現對視頻高層語義及情感的理解，從而讓機器高效看懂海量内容。目前，多媒體内容理解部的核心技術服務于内容安全、原創保護、視頻創作、視頻推薦、視頻搜索及商業化等方面。
,