首页
/
每日頭條
/
科技
/
近年來新一輪科技
近年來新一輪科技
更新时间:2024-11-10 10:20:41

随着國家定義了“新型基礎設施建設”(新基建),新科技時代已經來臨。如果說新基建的目标是構建起新時代科技中國的軀體的話,那麼數據就是這個軀體中無處不在的血液,沒有這個血液,所有的一切都将沒有正常運行的能量來源。

“數據”早已有之,但長久以來,除了科技公司和大型企業外,人們對“數據”應用得并不充分。而随着數據滲透到當今幾乎每一個行業和業務職能領域,滲透到幾乎任何體量的社會組織中,并成為重要的生産因素,人們對于海量數據的挖掘和運用,推動了21世紀以來新一波的生産率增長和消費浪潮的到來。所以,在現今及未來可預見的時代,說“一切皆數據”也不為過!

不過,如今的“數據”相對以前的“數據”,其内涵有了極大的擴展,而涉及到的相關技術和工具也發生了翻天覆地的變化,于是“大數據”的概念産生了。

大數據(big data)是指海量的、多樣化的交易數據、交互數據、終端與網絡數據以及傳感數據等,其主要特征包括:

海量的數據規模:大數據一般指在10TB規模以上的數據量,甚至常常是PB(1PB=1024TB)級别的。

快速的數據流轉:大數據通常需要能夠獲得實時的處理、分析和利用,能夠實現數據的快速流轉。

多樣的數據類型:大數據通常用來形容大量的非結構化和半結構化數據,對數據的類型幾乎沒有任何限制,如文檔、圖片、音頻、視頻、電子郵件、網頁等。

較低的價值密度:半結構化和非結構化的數據,其價值密度通常來說較低,所以相比那些價值密度較高的結構化數據,更需要使用大數據技術進行處理。

近年來新一輪科技(新科技時代一切皆數據)1

信息技術的核心就在于數據,數據與幾乎每一項信息技術都息息相關,或為因,或為果;幾乎任何一項信息技術,或者需要依賴數據,或者能夠産生數據,或者直接或間接地服務于數據。

物聯網:通過物聯網采集的數據通常具有非結構化、碎片化、時空域等特性,所以需要通過新型的數據存儲和處理的大數據技術來加以利用。

人工智能:想提升人工智能本身的性能和精準度,必須依賴大量的樣本數據,一個粗略的經驗法則是,對于監督學習算法,在每給定約5000個标注樣本的情況下,人工智能程序将達到可以接受的性能;而當至少有1000萬個标注樣本的數據集可用于訓練時,人工智能程序将達到甚至超過人類表現。

企業上雲:大量企業在長期運營中積累了豐富的數據資源,但一直都是分散在獨立的系統中進行碎片化保存的,而随着企業上雲的全面推進,未來這些碎片化保存的數據資源将能夠在被遷移到雲中後,基于大數據技術進行價值挖掘。

邊緣計算:随着邊緣計算的發展,企業收集數據方式将逐漸轉向設備端,由于邊緣計算相對雲計算更加靠近數據源頭,可以有效降低數據傳輸處理到反饋的遲延,同時具有顯著的效率成本優勢和安全隐私保護優勢,因此将進一步擴大數據采集的适用場景和規模。

開源軟件:越來越多的大數據相關開源軟件的出現,能夠幫助使用者實時訪問和處理數據,中小型組織和初創企業将從中受益,免費的開源軟件可以幫助企業降低運營成本,并促進他們去學習、掌握、生産和使用大數據,從而夯實大數據産業的底層基礎,并将與頭部科技巨頭企業一起,共同激活整體大數據産業生态。

5G技術:5G網絡的高帶寬和低時延,将使得單位時間内産生的數據量急劇增長,單位區域内的聯網設備成倍增加,人與物、物與物之間的連接急劇增多。在5G時代,數據采集渠道将更加豐富,更加海量的原始數據将被收集。

近年來新一輪科技(新科技時代一切皆數據)2

下面再說說大數據的學習路線。由于大數據涉及的範疇非常廣,為了避免盲人摸象,因此對于初學者來說,建議沿着大數據處理的整個流程,對各個環節的基本概念和主要框架有個整體的認識,之後可以再根據自己的興趣或具體崗位的需要,聚焦于某個細分領域,如數據可視化、數據倉庫、數據分析、數據安全等等。

大數據處理的主要環節包括數據采集、數據存儲、數據處理和數據應用。

數據采集:大數據處理的第一步是數據采集。現在的中大型項目會采用微服務架構進行分布式部署,所以數據的采集需要在多台服務器上進行,且采集過程不能影響正常業務的開展。基于這種需求,就衍生了多種日志收集工具,如Flume、Logstash、Kibana等,它們都能通過簡單的配置完成複雜的數據采集和數據聚合工作。

數據存儲:采集數據後的下一個問題就是:數據該如何進行存儲?通常大家最為熟知是MySQL、Oracle等傳統的關系型數據庫,它們的優點是能夠快速存儲結構化的數據。但大數據的數據結構通常是半結構化(如日志數據)甚至是非結構化的(如視頻、音頻、網頁),為了解決海量半結構化和非結構化數據的存儲,衍生了Hadoop HDFS、KFS、GFS等分布式可擴展的文件系統。分布式文件系統完美地解決了海量數據存儲的問題,但是一個優秀的數據存儲系統需要同時考慮數據存儲和訪問兩方面的問題,比如你希望能夠對數據進行随機訪問,這是傳統的關系型數據庫所擅長的,基于這種需求,就産生了HBase、MongoDB。

數據分析:大數據處理最重要的環節就是數據分析,數據分析通常分為兩種:批處理和流處理。批處理是指對一段時間内海量的離線數據進行統一的處理,對應的處理框架有Hadoop MapReduce、Spark、Flink等;流處理是指對流轉中的數據進行處理,即在接收到數據的同時就對其進行處理,對應的處理框架有Storm、Spark Streaming、Flink Streaming等。批處理和流處理各有其适用的場景,時間不敏感或者硬件資源有限,可以采用批處理;時間敏感和及時性要求高就可以采用流處理。此外,為了能夠讓熟悉SQL的人員也能夠進行數據的分析,查詢分析框架應運而生,常用的有Hive、Spark SQL、Flink SQL、Pig、Phoenix等。這些框架都能夠使用标準的SQL或者類SQL語法靈活地進行數據的查詢分析,這樣,即便是沒有較強編程能力的非後台工程師,也能很容易地進行大數據分析了。

數據應用:數據分析完成後,接下來就是具體數據應用的範疇了,這取決于實際的業務需求。比如你可以将數據直接進行可視化展現以輔助決策或預警,或者将數據用于優化産品中的個性化頁面和推薦算法,或者将數據用于訓練你的人工智能機器學習模型,這些都屬于具體大數據應用領域的範疇,也都有着對應的框架和技術棧可供使用。

近年來新一輪科技(新科技時代一切皆數據)3

上面提及了一些标準的大數據處理流程所用到的技術框架,但是實際的大數據處理流程比上面會複雜很多,希望系統和全面學習大數據的朋友,這裡有一本[大數據入門指南]完整介紹了針對大數據由淺入深的學習路線及重要知識點,此外還有一本[為數據而生 大數據創新實踐]有很多針對大數據應用領域不錯的案例、觀點和方法論,有興趣的朋友可以根據下面線索獲取。

創作不易,歡迎朋友們關注、評論、轉發。如企業轉載或其它,請keji5u(科技無憂訂閱号)

,
Comments
Welcome to tft每日頭條 comments! Please keep conversations courteous and on-topic. To fosterproductive and respectful conversations, you may see comments from our Community Managers.
Sign up to post
Sort by
Show More Comments
推荐阅读
關于修改支付寶号的規定
關于修改支付寶号的規定
支付寶是一個支付軟件,資金安全問題也是人們一直擔心的。有網友發現,支付寶不用原密碼,隻需要用手機号就可以更改别人的密碼。支付寶密碼的更改方式有通過手機驗證碼就行更換,還有一種方式就是網友所說的方法。打開支付寶頁面先點擊忘記密碼,輸入賬号之後...
2024-11-10
移動硬盤無法讀寫怎麼解決
移動硬盤無法讀寫怎麼解決
移動硬盤無法讀寫怎麼解決?檢查電腦上的USB接口是否損壞可以使用兩個不同的移動存儲介質插在同一個USB接口測試,如果一個能識别,一個不能識别那可能是移動存儲介質的問題如果兩個都無法識别,就可能是電腦本省的USB接口出現了問題,接下來我們就來...
2024-11-10
pdf文件如何壓縮大小免費
pdf文件如何壓縮大小免費
PDF文檔是我們辦公中經常用到的文檔格式之一,一旦體積太大就特别影響使用,因為很多傳輸方式都有限制,不能超過5M大小,大了就無法成功接收了。所以,這時候就需要對PDF文件進行壓縮了,下面是詳細的壓縮方法,快來學習學習吧!推薦使用:金舟PDF...
2024-11-10
gopro 拍攝技巧
gopro 拍攝技巧
本次分享的預設為GOPROLUTS視頻專用調色預設,一共包含30個專門為GoPro拍攝的視頻制作的調色luts預設,适用于GOPRO相機,适用于旅拍以及VLOG們使用。适用于:FCPX/AECS6及以上/PremiereCC及以上/PSCS...
2024-11-10
怎麼看電腦的cpu和gpu
怎麼看電腦的cpu和gpu
有時我們需要監控電腦的性能,需要使用各類軟件來确認電腦性能的高或低。而MSIAfterburner正是這樣一款軟件,我們俗稱為微星小飛機。這款軟件有着它獨到的設置,比如監控運行狀态記錄,顯卡超頻等。小編今天所講正是基于此軟件上的監控設定,讓...
2024-11-10
Copyright 2023-2024 - www.tftnews.com All Rights Reserved