盡管大數據本身的概念相對較新,但是大數據集的起源可以追溯到1960年代和70年代,當時世界上的數據才剛剛開始建立第一個數據中心,關系數據庫也才剛剛開發。
在2005年左右,人們開始意識到用戶通過Facebook,YouTube和其他在線服務産生了龐大的數據。這一年開發出了Hadoop,一個專門用于存儲和分析大數據集的開源框架。NoSQL也随之開始流行。
在大數據中尋找價值不僅僅是數據分析,這是一個系統的發現過程,需要有見識的開發工程師、分析師、業務用戶和執行人員一起完成。
應用領域現在,全國已建立多個大數據産業園,許多城市已經成立了大數據管理局,可以看出國家對大數據的重視。大多數組織都有大數據概念。因為他們已經了解了利用數據并從中獲取價值的需求。下面列出了幾種使用該技術的組織類型
- 旅行和款待
- 醫療保健
- 政府
- 零售
在企業使用大數據為他們服務之前,他們應該考慮數據在衆多位置,源,系統,所有者和用戶之間的流動方式。負責處理這個大“數據結構”的五個關鍵步驟,包括傳統的結構化數據以及非結構化和半結構化數據:
- 制定大數據策略。
- 識别大數據源。
- 訪問,管理和存儲數據。
- 分析數據。
- 做出數據驅動的決策
大數據是組織收集的結構化,半結構化和非結構化數據的組合,可以挖掘信息以用于機器學習項目,預測建模和其他高級分析應用程序。
在定義大數據時,了解包含信息量的非結構化和多結構數據的混合也很重要。
非結構化數據來自傳統數據庫或數據模型無法組織或難以解釋的信息,通常是文本繁重的。元數據,博客推文和其他社交媒體帖子都是非結構化數據的很好示例。
多結構數據是指各種數據格式和類型,可以從人與機器(例如Web應用程序或社交網絡)之間的交互中得出。一個很好的例子是網絡日志數據,它包括文本和可視圖像以及結構化數據(如表格或交易信息)的組合。随着數字化颠覆改變溝通和互動渠道,以及營銷人員跨設備,網絡媒體資源,面對面的互動和社交平台增強客戶體驗,多結構化數據将繼續發展。
最近的技術突破已成倍地降低了數據存儲和計算的成本,從而使存儲更多數據比以往任何時候都更加容易且成本更低。随着越來越大的數據量變得越來越便宜和易于訪問,人們可以做出更準确,更精确的業務決策。
數據驅動的創新當今數十億字節的大數據為捕捉驅動創新的見解提供了無數機會。從更準确的預測到提高的運營效率和更好的客戶體驗,大數據和分析技術的先進應用推動着可以改變我們世界的進步-改善生活,治愈疾病,保護弱勢群體和節約資源。
,