說起大數據,估計大家都覺得隻聽過概念,但是具體是什麼東西,怎麼定義,沒有一個标準的東西,因為在我們的印象中好像很多公司都叫大數據公司,業務形态則有幾百種,感覺不是很好理解,所以我建議還是從字面上來理解大數據,在維克托邁爾-舍恩伯格及肯尼斯庫克耶編寫的《大數據時代》提到了大數據的4個特征:
1.大量
大數據的特征首先就體現為“大”,從先Map3時代,一個小小的MB級别的Map3就可以滿足很多人的需求,然而随着時間的推移,存儲單位從過去的GB到TB,乃至現在的PB、EB級别。隻有數據體量達到了PB級别以上,才能被稱為大數據。1PB等于1024TB,1TB等于1024G,那麼1PB等于1024*1024個G的數據。随着信息技術的高速發展,數據開始爆發性增長。社交網絡(微博、推特、臉書)、移動網絡、各種智能工具,服務工具等,都成為數據的來源。淘寶網近4億的會員每天産生的商品交易數據約20TB;臉書約10億的用戶每天産生的日志數據超過300TB。迫切需要智能的算法、強大的數據處理平台和新的數據處理技術,來統計、分析、預測和實時處理如此大規模的數據。
2.高速
就是通過算法對數據的邏輯處理速度非常快,1秒定律,可從各種類型的數據中快速獲得高價值的信息,這一點也是和傳統的數據挖掘技術有着本質的不同。大數據的産生非常迅速,主要通過互聯網傳輸。生活中每個人都離不開互聯網,也就是說每天個人每天都在向大數據提供大量的資料。并且這些數據是需要及時處理的,因為花費大量資本去存儲作用較小的曆史數據是非常不劃算的,對于一個平台而言,也許保存的數據隻有過去幾天或者一個月之内,再遠的數據就要及時清理,不然代價太大。基于這種情況,大數據對處理速度有非常嚴格的要求,服務器中大量的資源都用于處理和計算數據,很多平台都需要做到實時分析。數據無時無刻不在産生,誰的速度更快,誰就有優勢。
3.多樣
如果隻有單一的數據,那麼這些數據就沒有了價值,比如隻有單一的個人數據,或者單一的用戶提交數據,這些數據還不能稱為大數據。廣泛的數據來源,決定了大數據形式的多樣性。比如當前的上網用戶中,年齡,學曆,愛好,性格等等每個人的特征都不一樣,這個也就是大數據的多樣性,當然了如果擴展到全國,那麼數據的多樣性會更強,每個地區,每個時間段,都會存在各種各樣的數據多樣性。任何形式的數據都可以産生作用,目前應用最廣泛的就是推薦系統,如淘寶,網易雲音樂、今日頭條等,這些平台都會通過對用戶的日志數據進行分析,從而進一步推薦用戶喜歡的東西。日志數據是結構化明顯的數據,還有一些數據結構化不明顯,例如圖片、音頻、視頻等,這些數據因果關系弱,就需要人工對其進行标注。
4.價值
這也是大數據的核心特征。現實世界所産生的數據中,有價值的數據所占比例很小。相比于傳統的小數據,大數據最大的價值在于通過從大量不相關的各種類型的數據中,挖掘出對未來趨勢與模式預測分析有價值的數據,并通過機器學習方法、人工智能方法或數據挖掘方法深度分析,發現新規律和新知識。你如果有1PB以上的全國所有20-35年輕人的上網數據的時候,那麼它自然就有了商業價值,比如通過分析這些數據,我們就知道這些人的愛好,進而指導産品的發展方向等等。如果有了全國幾百萬病人的數據,根據這些數據進行分析就能預測疾病的發生,這些都是大數據的價值。大數據運用之廣泛,如運用于農業、金融、醫療等各個領域,從而最終達到改善社會治理、提高生産效率、推進科學研究的效果。
大數據已經成為過去幾年中大部分行業的遊戲規則,行業領袖,學者和其他知名的利益相關者都同意這一點, 随着大數據繼續滲透到我們的日常生活中,圍繞大數據的炒作正在轉向實際使用中的真正價值。
,