首页
/
每日頭條
/
科技
/
大數據知識點科普
大數據知識點科普
更新时间:2024-10-07 19:22:41

大數據知識點科普(說說大數據是什麼)1

小編在KFC買早餐,偶然聽見一句話,男孩對朋友說,“你每在手機上下一次訂單,就給肯德基的大數據做了一次貢獻。”

想來有趣,在網上購物、訂外賣、手機支付已成為很多人日常生活的一部分,可穿戴設備、智能家居設備等風頭正旺的現在,我們每天的吃飯、睡覺、工作,甚至娛樂産生的“數據”都會通過某種手段被保留和集中起來。根據IBM調研的說法,人類每天生成的數據涵蓋我們發送的文本、上傳的照片、各類傳感器數據、設備與設備之間的通信的所有信息等,相當于從地球到月球的距離。

将這樣量級的數據稱為“大數據”可一點也不為過。最早提出“大數據”時代到來的全球知名咨詢公司麥肯錫稱:“數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生産因素。人們對于海量數據的挖掘和運用,預示着新一波生産率增長和消費者盈餘浪潮的到來。”今天我們就來說說大數據。

一、什麼是大數據

在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》 中,大數據指不用随機分析法(抽樣調查)這樣的捷徑,而采用所有數據進行分析處理的分析方法;而研究機構Gartner給出了這樣的定義:“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資産;根據維基百科的定義,大數據是指無法在可承受的時間範圍内用常規軟件工具進行捕捉、管理和處理的數據集合。

我們這裡主要采用第三種定義,即所涉及的資料量規模巨大到無法通過目前主流軟件工具,在合理時間内達到獲取、管理、處理、并整理成為幫助企業經營決策的目的資訊。

大數據知識點科普(說說大數據是什麼)2

湖畔大學曾鳴老師曾列舉的的大數據與傳統的數據最大的差别是:在線實時全貌。

①在線:首先大數據必須是永遠是在線的,而且在線的還得是熱備份的,不是冷備份的,不是放在磁帶裡的,是随時能調用的。不在線的數據不是大數據,因為你根本沒時間把它導出來使用。隻有在線的數據才能馬上被計算、被使用。

②實時:大數據必須實時反應。我們上淘寶輸入一個商品,後台必須在10億件商品當中,瞬間進行呈現。如果要等一個小時才呈現,我相信沒有人再上淘寶。十億件商品、幾百萬個賣家、一億的消費者,瞬間完成匹配呈現,這才叫大數據。

③全貌:大數據還有一個最大的特征,它不再是樣本思維,它是一個全體思維。以前一提到數據,人們第一個反應是樣本、抽樣,但是大數據不再抽樣,不再調用部分,我們要的是所有可能的數據,它是一個全貌。其實叫全數據比大數據更準确。

二、大數據對企業有什麼好處

“大數據”在物理學、生物學、環境生态學等領域以及軍事、金融、通訊等行業存在已有時日,卻因為近年來互聯網和信息行業的發展而引起人們關注。據統計,企業内部的經營交易信息、互聯網中的商品物流信息、人與人交互信息、位置信息等數據,每2~3年時間就會成倍增長。

而信息是現代企業的重要資源,是企業運用科學管理、決策分析的基礎。這些數據蘊含着巨大的商業價值,但是企業所關注的通常隻占在總數據量的2%~4%左右。因此,企業仍然沒有最大化地利用已存在的數據資源,以至于浪費了更多的時間和資金,也失去制定關鍵商業決策的最佳契機。

大數據知識點科普(說說大數據是什麼)3

對于一般的企業而言,大數據的作用主要表現在兩個方面:

1.幫助企業了解用戶

大數據通過相關性分析,将客戶和産品、服務進行關系串聯,對用戶的偏好進行定位,從而提供更精準、更有導向性的産品和服務,提升銷售業績。典型的例子就是電商。像阿裡淘寶這樣的電子商務平台,積累了大量的用戶購買數據。在早期的時候,這些數據都是累贅和負擔,存儲它們需要大量的硬件成本。但是,現在這些數據都是阿裡最寶貴的财富。

大數據也可以對業績産生直接影響。它的效率和準确性,遠遠超過傳統的用戶調研。除了電商,包括能源、影視、證券、金融、農業、工業、交通運輸、公共事業等,都是大數據的用武之地。

2.幫助企業了解自己

除了幫助了解用戶之外,大數據還能幫助了解自己。企業生産經營需要大量的資源,大數據可以分析和鎖定資源的具體情況,例如儲量分布和需求趨勢。這些資源的可視化,可以幫助企業管理者更直觀地了解企業的運作狀态,更快地發現問題,及時調整運營策略,降低經營風險。總而言之,“知己知彼,百戰百勝”。大數據,就是為決策服務的。

三、大數據有什麼特點

大數據的特點有4個層面:

1.Volume(海量化):數據體量巨大。從TB級别,躍升到PB級别;

2.Variety(多樣化):數據的形式是多種多樣的,包括數字(價格、交易數據、體重、人數等)、文本(郵件、網頁等)、圖像、音頻、視頻、位置信息(經緯度、海拔等),等等,都是數據;

大數據知識點科普(說說大數據是什麼)4

3.Velocity(時效性):處理速度快,1秒定律,從數據的生成到消耗,時間窗口非常小。數據的變化速率,還有處理過程,越來越快。例如變化速率,從以前的按天變化,變成現在的按秒甚至毫秒變化;

4.Value(價值密度):大數據的數據量很大,但随之帶來的,就是價值密度很低,數據中真正有價值的,隻是其中的很少一部分。隻要合理利用數據并對其進行正确、準确的分析,将會帶來很高的價值回報

四、大數據的開發

1.數據采集

數據采集有線上和線下兩種方式,線上一般通過爬蟲,通過抓取或者通過已有應用系統的采集。

在這個階段,我們可以做一個大數據采集平台,依托自動爬蟲(使用Python或者Node.js制作爬蟲軟件),ETL工具、或者自定義的抽取轉換引擎,從文件中、數據庫中、網頁中專項爬取數據。如果這一步通過自動化系統來做的話,可以很方便的管理所有的原始數據,并且從數據的開始對數據進行标簽采集,可以規範開發人員的工作,同時目标數據源可以更方便的管理。

數據采集的難點在于多數據源,例如mysql、postgresql、sqlserver 、 mongodb 、sqllite。還有本地文件、excel統計文檔、甚至是doc文件。如何将它們規整、有方案地整理進我們的大數據流程中也是必不可缺的一環。

2.數據彙聚

數據的彙聚是大數據流程最關鍵的一步,你可以在這裡加上數據标準化,你也可以在這裡做數據清洗,數據合并,還可以在這一步将數據存檔,将确認可用的數據經過可監控的流程進行整理歸類,這裡産出的所有數據就是整個公司的數據資産,到了一定的量就是一筆固定資産。

數據彙聚的難點在于如何标準化數據,例如表名标準化,表的标簽分類,表的用途,數據的量,是否有數據增量?數據是否可用?

這些需要在業務上下很大的功夫,必要時還要引入智能化處理,例如根據内容訓練結果自動打标簽,自動分配推薦表名、表字段名等,還有如何從原始數據中導入數據等。

3.數據轉化與映射

經過數據彙聚的數據資産如何提供給具體的使用方使用?在這一步,主要就是考慮數據如何應用,如何将兩、三個數據表轉換成一張能夠提供服務的數據。然後定期更新增量。

經過前面的那幾步,在這一步難點并不太多了,如何轉換數據與如何清洗數據、标準數據無二,将兩個字段的值轉換成一個字段,或者根據多個可用表統計出一張圖表數據等等。

4.數據應用

數據的應用方式很多,有對外的、有對内的,如果擁有了前期的大量數據資産,是通過restful API提供給用戶?還是提供流式引擎 KAFKA 給應用消費? 或者直接組成專題數據,供自己的應用查詢?這裡對數據資産的要求比較高,所以前期的工作做好了,這裡的自由度很高。

五、大數據、數據分析和數據挖掘的區别

大數據、數據分析、數據挖掘的區别是,大數據是互聯網的海量數據挖掘,而數據挖掘更多是針對内部企業行業小衆化的數據挖掘,數據分析就是進行做出針對性的分析和診斷,大數據需要分析的是趨勢和發展,數據挖掘主要發現的是問題和診斷:

1.大數據

指無法在可承受的時間範圍内用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資産。

2.數據分析

是指用适當的統計分析方法對收集來的大量數據進行分析,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。這一過程也是質量管理體系的支持過程。在實用中,數據分析可幫助人們作出判斷,以便采取适當行動。

3.數據挖掘

大數據知識點科普(說說大數據是什麼)5

又譯為資料探勘、數據采礦。它是數據庫知識發現(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。數據挖掘一般是指從大量的數據中通過算法搜索隐藏于其中信息的過程。數據挖掘通常與計算機科學有關,并通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識别等諸多方法來實現上述目标。

數據挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、随機的數據中提取隐含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。

根據信息存儲格式,用于挖掘的對象有關系數據庫、面向對象數據庫、數據倉庫、文本數據源、多媒體數據庫、空間數據庫、時态數據庫、異質數據庫以及Internet等。

大數據是範圍比較廣的數據分析和數據挖掘。按照數據分析的流程來說,數據挖掘工作較數據分析工作靠前些,二者又有重合的地方,數據挖掘側重數據的清洗和梳理。數據分析處于數據處理的最末端,是最後階段。數據分析和數據挖掘的分界、概念比較模糊,模糊的意思是二者很難區分。大數據概念更為廣泛,是把創新的思維、信息技術、統計學等等技術的綜合體,每個人限于學術背景、技術背景,概述的都不一樣。

六、大數據的應用

數據在行業中的應用的越來越廣泛,我們先看看大數據在當下有怎樣的傑出表現:

1.大數據幫助政府實現市場經濟調控、公共衛生安全防範、災難預警、社會輿論監督;大數據幫助城市預防犯罪,實現智慧交通,提升緊急應急能力;電力企業會通過大數據實時做數據的監測和預測,讓我們更好、更方便做這種電力的調度;

2.醫療中更是有着比較廣泛的應用,現在的基因工程以及疾病的預測分析和每個病人的手術方案等等,可能都會用到大數據。 大數據幫助醫療機構建立患者的疾病風險跟蹤機制,幫助醫藥企業提升藥品的臨床使用效果,幫助艾滋病研究機構為患者提供定制的藥物;

3.大數據幫助電商公司向用戶推薦商品和服務,幫助旅遊網站為旅遊者提供心儀的旅遊路線,幫助二手市場的買賣雙方找到最合适的交易目标,幫助用戶找到最合适的商品購買時期、商家和最優惠價格;

4.大數據幫助企業提升營銷的針對性,降低物流和庫存的成本,減少投資的風險,以及幫助企業提升廣告投放精準度;大數據幫助社交網站提供更準确的好友推薦,為用戶提供更精準的企業招聘信息,向用戶推薦可能喜歡的遊戲以及适合購買的商品;

5.大數據幫助娛樂行業預測歌手,歌曲,電影,電視劇的受歡迎程度,并為投資者分析評估拍一部電影需要投入多少錢才最合适,否則就有可能收不回成本;另外電影其實都是需要渲染的,之前每渲染一分鐘可能就需要上千台機器、可能需要一兩個月,現在通過雲計算、大數據的方式,可能渲染一個一分鐘的電影鏡頭就縮短成了一秒或者兩秒。

6.大數據幫助航空公司節省運營成本,幫助電信企業實現售後服務質量提升,幫助保險企業識别欺詐騙保行為,幫助快遞公司監測分析運輸車輛的故障險情以提前預警維修,幫助電力公司有效識别預警即将發生故障的設備;

七、大數據的展望

其實,除了以上大數據的應用外,未來大數據的身影應該無處不在,就算無法準确預測大數據終會将人類社會帶往到哪種最終形态,但我相信隻要發展腳步在繼續,因大數據而産生的變革浪潮将很快淹沒地球的每一個角落。

比如,Amazon的最終期望是:“最成功的書籍推薦應該隻有一本書,就是用戶要買的下一本書。”Google也希望當用戶在搜索時,最好的體驗是搜索結果隻包含用戶所需要的内容,而這并不需要用戶給予Google太多的提示。

而當物聯網發展到達一定規模時,借助條形碼、二維碼、RFID等能夠唯一标識産品,傳感器、可穿戴設備、智能感知、視頻采集、增強現實等技術可實現實時的信息采集和分析,這些數據能夠支撐智慧城市,智慧交通,智慧能源,智慧醫療,智慧環保的理念需要,這些都所謂的智慧将是大數據的采集數據來源和服務範圍。

未來的大數據除了将更好的解決社會問題,商業營銷問題,科學技術問題,還有一個可預見的趨勢是以人為本的大數據方針。人才是地球的主宰,大部分的數據都與人類有關,要通過大數據解決人的問題。

-數據分析展示就用 DataHunter-

,
Comments
Welcome to tft每日頭條 comments! Please keep conversations courteous and on-topic. To fosterproductive and respectful conversations, you may see comments from our Community Managers.
Sign up to post
Sort by
Show More Comments
推荐阅读
VCD、DVD光盤質量鑒定法
VCD、DVD光盤質量鑒定法
VCD光盤和DVD光盤在無法放映,需要檢驗時,可以使用下列簡易方法進行鑒定:【1】包裝:常有硬殼封套,印制清晰,色澤亮麗,外觀整體感良好。【2】外觀:光盤平整光亮,字迹清晰,無裂紋,無污迹,無扭曲。劣質光盤上有曲線狀的水漬樣痕印,放映時會出現色塊、停格現象或爆裂聲。【3】版權:正版的視盤均标明出版單...
2024-10-07
哪種面包機值得購買?
哪種面包機值得購買?
哪種面包機值得購買?哪種面包機值得購買?面包機作為一種家庭早餐的時尚産品,越來越多的被消費者所接受、選擇。為了能讓消費者理智的選擇一款實惠、美觀、大方的面包機,現為大家介紹幾個選擇面包機的要點。看面包機的質地:一個産品的質量性能好壞,主要取決于産品的質量,包括材料的選擇、整體的設計。首先我們來看一看...
2024-10-07
空調壓縮機原理
空調壓縮機原理
每當夏天我們都很享受空調帶給我們的涼爽,我們不用拿着大蒲扇使勁的搖,不用聽着電風扇工作時呼呼地噪音聲,我們隻需翹着二郎腿在空調房裡面盡情享受着那種即使外面驕陽似火,但我們卻依舊汗毛站立的感覺,我們可以在非常舒适的環境下繼續工作。但是你知道空調是怎樣把家裡的熱空氣轉化為冷空氣的嗎?你聽說過壓縮機這個專...
2024-10-07
縫紉機跳線
縫紉機跳線
縫紉機跳線也許家居生活上我們都知道,可是我們在縫衣服飛時候,出現了縫紉機跳線該怎麼辦呢,很多女性都反應,縫紉機是屬于一種比較老試的縫紉機,一直以來,都是使用不幾天就搬出來磨合了一下還算可以,下面我們就去看看有關的介紹吧。縫紉機跳線造成的原因,其實就是因為穿線方法其實是很不正确的,按照“穿線圖”的方式...
2024-10-07
電視機故障前期有什麼征兆
電視機故障前期有什麼征兆
現在估計每家每戶都有一台或者多台電視機,而有的電視機已經使用了很長時間,因此有時不可避免的會發生一些故障。然而,電視機在發生故障前夕,往往都會出現一些征兆,若能及時發現和了解這些先兆,及時進行檢查修理,對于電視機的使用、維護和延長其使用壽命将是十分有益的,也是非常必要的。下面說說電視機在發生故障之前...
2024-10-07
Copyright 2023-2024 - www.tftnews.com All Rights Reserved