要深入理解大數據,需要提高數據的可視化水平。在此過程中,數據可以變得更具可塑性、可行性,最終更加人性化。
在谷歌圖片搜索有關“大數據”,會出現很多個由三維“0”和“1”組成的圖片;有一些解釋性的信息圖表;甚至出現“黑客帝國”的界面。在人類能夠理解的範圍内,大數據究竟是什麼樣子呢?
如果問一家大公司的首席執行官什麼是“大數據”,他們可能會描述一些類似于黑匣子(飛機上的飛行記錄器)的東西,或者在白闆上畫一朵雲。如果問數據科學家,他們可能會向你解釋一下4v的概念,試圖使用信息圖表(其實隻是事實的可視化集合),當然還帶有相應地說明。之所以不同人給出不同答案是因為“大數據”是一個有着多種含義、象征,應用于不同組織的模糊術語。
可以理解的是,要想弄明白大數據是發源于哪、什麼時候盛行是很難的。從最早開始有記錄直到2003年,人類共創造了5EB的數據(五十億千兆字節)。到了2011年,每兩天就會産生這麼多的數據。與前幾代數據相比,我們正真實現了飛躍式地發展。談到今天的大數據,數據的呈現方式有助于傳遞信息,不過它需要的不僅僅是漂亮和表面文章。它必須有效,展現多個維度,還要考慮實用性。
新的軟件和技術使得我們能夠更深入的理解和利用這些龐大的數據集。然而,我們要去真正收集和加工有價值的大數據,唯一方法是要提高數據可視化的水平。 我們怎樣進行可行性分析、深入了解、全面可視化地表示信息呢? 答案是我們需要使數據更人性化。
新的可視化 新的挑戰
讓大數據有意義,使之更貼近大多數人,最重要的手段之一就是數據可視化。數據可視化是尋路儀,從字面上理解,就如同街頭的路标指引你到公路,從象征意義上理解,其顔色、大小或抽象元素的位置都會傳達信息。在某種意義上,恰當的可視化标識可以提供較短的路線,幫助指導決策,成為通過數據分析傳遞信息的一種重要工具。然而,要真正可行,數據可視化應有适當地交互性。它們必須設計良好、易于使用、易于理解、有意義、更容易被人接受。
Michal Migurski說:“數據可視化是一個相對的概念… …通常說它是即将出現在地平線上的新事物。”随着技術的變化而改變,我們不斷地開發新的工具以利用它實現跨行業應用。一些熟悉的可視化包括信息圖示、臭名遠揚的看闆,當然還有地圖。
現今無所不在的信息圖示是解釋複雜問題的好方法。在此類别中,Visua.ly是一個很重要的資源。圖表通常是在精心制作的海報或演示文稿中來傳達意思,但因它們往往是固定時間,當需要提供實時信息就表現地不如人意了。看闆(dashboard)或許是一個有用的工具,但它們往往設計的不好。同樣的圖表和圖形重複地出現。
當看闆被望文生義地理解為類似車輛儀表盤和裡程計時就更糟了。最緻命的是當想要通過看闆傳達有關人的信息時,他們往往不夠人性化。最後,地圖作為一個依賴于地理的重要的信息層,是我最喜歡的可視化之一。當你可以依靠一個國家或省的地形等可識别的圖形處理數據,地圖是很有用的,但如果不是地理數據怎麼辦?
想想谷歌地圖,它可以說是現今世界上最全面和最成功的數據可視化集。它提供多種形式的廣泛的數據集,不斷更新而且相當容易使用。其界面提供滿足個人需求和查詢數據的多個視圖,可以跨設備使用。它還提供了一個強大的API,使其不再僅僅是個軟件,而成為一個平台。它的 API能夠實現從基礎地圖功能到呈現難以窮盡的地理信息。
看看Weldon Cooper Center服務大衆的 Racial Dot Map(基于谷歌API創建),使用顔色編碼描繪了在美國分布的種族多樣性(類似于在熱圖上看早晨的天氣報告)。你也可以放大一個特定區域或地區來獲取細節(每個人代表一個點,按種族用顔色編碼)。
有了谷歌,如何顯示信息和組織信息成為了大家關心的問題。但這需要一個群落具有穩健性(400多位谷歌員工在為地理信息産品服務)。然而對于數據可視化來講,來源越少,風險越小。
數據光譜的另一端,可以看看紐約時報是怎樣用視覺效果為它的報道增光加彩的。例如,一篇關于NASA的開普勒任務的報道,記錄了超過190個被證實圍繞遙遠恒星運轉的行星,它們在行星軌道上運行的速度,到距離恒星的距離、恒星溫度和星系的大小都被加入了淺顯易懂的可視化效果。
另一個例子就是用圖形描繪絲綢之路,描述這著名的貿易路線的現代版本。彩色照片和精心編輯的視頻,按沿路線上的重要地點分組,傳達絲綢之路的内涵,旁邊有信息圖表幫助從地理上理解這些照片和視頻。
通過這些可視化成果,你也會開始認識到一些限制,我們是否能夠呈現出所有可以想象到的數據(想象一下檢查19億而不是使190顆的系外行星),或者是否需要從多個維度上理解數據。這些例子就像發展大數據可視化的路标。我們從這些零散的示例到更大數據集的應用中又可以學到什麼?
大數據才剛剛開始出現,我們管理後端的方式也在不斷變化。我們要通過有意義的、交互性的方式,利用強大的工具來可視化數據。我們需要跨學科的團隊,而不是單個數據科學家、設計師或數據分析員,我們需要重新思考我們所知道的數據可視化。圖表和圖形還隻能在一個或兩個維度上傳遞信息,那麼他們怎樣才能與其他維度融合到一起深入挖掘大數據呢?我們的大數據可視化(BDV)工具需要實現更多過功能和更新,而不僅僅是個軟件。
在此過程中,數據可以變得更具可塑性、可行性,最終更加人性化。通過靈活的數據和可視化框架,我們希望能容納多種意見,使我們能夠利用數據适應不斷變化的需求和查詢。接受大數據的模糊性,但要提供并找到讓它和你聯系的更加緊密的工具。數據的可視化解釋會因你的目标和對目标的回應的不同而不同。因此,雖然會存在視覺上的相似之處,但沒有兩個可視化結果是相同的,就像世界上不可能有完全相同的兩片葉子。
大數據文摘精彩文章:
回複【金融】 看【金融與商業】專欄曆史期刊文章
回複【可視化】感受技術與藝術的完美結合
回複【安全】 關于洩密、黑客、攻防的新鮮案例
回複【算法】 既漲知識又有趣的人和事
回複【谷歌】 看其在大數據領域的舉措
回複【院士】 看衆多院士如何講大數據
回複【隐私】 看看在大數據時代還有多少隐私
回複【醫療】 查看醫療領域文章6篇
回複【征信】 大數據征信專題四篇
回複【大國】 “大數據國家檔案”之美國等12國
回複【體育】 大數據在網球、NBA等應用案例
回複【平安】 中國平安相關大數據案例、新聞
回複【志願者】 了解大數據文摘及如何加入
長按指紋,即可關注“大數據文摘”
專注大數據,每日有分享
覆蓋千萬讀者的WeMedia聯盟成員之一
,