首页
/
每日頭條
/
科技
/
大數據到底是什麼
大數據到底是什麼
更新时间:2025-04-18 19:53:31

  大數據到底是什麼(大數據究竟大在哪)(1)

  公衆号:大數據學苑

  今日分享熱詞:大數據(Big Data)

  為什麼要首先分享這一個詞呢?一是因為它熱,熱到大家都把他當做談資,二是因為大數據正是數據挖掘及分析的對象,也利于理解以後分享的内容。

  一起來了解下大數據的前世今生:

  一、 大數據的定義:

  大數據這一個詞的出現,在上世紀80年代就有美國人曾提出來,直到

  2008 年 9 月,《科學》雜志發表文章“Big Data: Science in the Petabyte Era”,“大數據”這個詞才開始廣泛傳播。

  小編從網上找了以下幾個關于大數據的定義:

  1:Wikipedia:

  Big data is a term for data sets that are so large or complex that traditional data processing application software is inadequate to deal with them.

  也就是說無法利用傳統的數據處理軟件來處理的大且複雜的數據集

  2:IBM:

  Big Data is being generated at all times. Every digital process and social media exchange produces it. Systems, sensors and mobile devices transmit it. Much of this data is coming to us in an unstructured form, making it difficult to put into structured tables with rows and columns.

  主要強調了大數據是時時刻刻在産生,産生的途徑比如我們常見的社交媒體、穿戴設備、傳感器等,同時也強調了其非結構化特征,很難存儲于結構化的數據庫中。

  3:全球知名咨詢公司麥肯錫是這樣定義的:

  大數據是指無法在一定時間内用傳統數據庫軟件工具對其内容進行采集、存儲、管理和分析的數據集合。

  以上幾個定義是有交集的,也就是大數據的普遍定義了:量大複雜、無法用傳統的手段來處理。

  下面再說一下大數據的特征,會更利于理解

  二、 大數據的特征:

  關于大數據的特征也是有很多說法,好的是是前後繼承發展的

  1:The concept gained momentum in the early 2000s when industry analyst Doug Laney articulated the now-mainstream definition of big data as the three Vs:

  這個3V特征是最先主流的一種說法:

  Volume(數據體量大). Organizations collect data from a Variety of sources, including business transactions, social media and information from sensor or machine-to-machine data. In the past, storing it would've been a problem – but new technologies (such as Hadoop) have eased the burden.

  數據來源渠道多,商業交易終端、社交媒體、傳感器,舉幾個咱們熟悉的例子,比如超市的收銀、pose機、RFID手持終端,社交媒體比如QQ、微信、微博等、還有一些運動傳感器、手環等等,這些設備都是海量數據的來源。在以往是沒有這些數據的,而現在有了,但是以前的數據處理器處理軟件已經跟不上這些需要,必須要有新的設備,比如文中提到的Hadoop【Hadoop實現了一個分布式文件系統(Hadoop Distributed File System),簡稱HDFS。HDFS有高容錯性的特點,并且設計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來訪問應用程序的數據,适合那些有着超大數據集(large data set)的應用程序。】

  Velocity(處理速度快). Data streams in at an unprecedented speed and must be dealt with in a timely manner. RFID tags, sensors and smart metering are driving the need to deal with torrents of data in near-real time.

  處理速度快主要強調了數據的時效性,這主要是講的流式數據的時效性,也就是上一秒數據産生,下一秒就要把這些數據的影響分析出來。

  Variety(數據種類多). Data comes in all types of formats – from structured, numeric data in traditional databases to unstructured text documents, email, video, audio, stock ticker data and financial transactions.

  種類多主要是強調數據的分類:結構化、非結構化、還有一種分類是半結構化

  對于這個結構化非結構化的區别,曾在研究生期間課堂上請教過老師,具體是這樣:結構化數據(即行數據,存儲在數據庫裡,可以用二維表結構來邏輯表達實現的數據(二維表結構可以理解為Excel表那樣,通過坐标就可确定一個值))、非結構化數據,包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等等

  2:在後來的發展過程中,大數據的特征又有所發展

  Value(低價值性)可以這樣理解:某交通路口的交通燈,基本上全年全天候監控,這産生的數據量是非常大的,而對官方來說真正有用的可能就是出現事故、闖紅燈事的那些時間,所以其價值密度是很低的。

  Veracity(真實性)主要包括數據的可信性、真僞性、來源和信譽、有效性等。

  1、2這5V特征基本概括了大數據的所有特征,當然不否認後來還會有學者提出。

  以上的5維特征可能主要流行于學術界,我讀paper是接觸到的是這些說法,直到今天科學上網登Wikipedia時,不才才發現還有另一種特征的提法:

  3:Factory work and Cyber-physical systems may have a 6C system:

  Connection (sensor and networks)關聯性

  Cloud (computing and data on demand)雲計算特征

  Cyber (model and memory)網絡特征

  Content/context (meaning and correlation)文本特征

  Community (sharing and collaboration)社交性

  Customization (personalization and value)獨特性

  這種特征法可能更适合于工業界、物理網絡空間

  希望以上的分享會有助于大家對大數據這一概念有所了解

  Reference引用:

  [1]htt

Comments
Welcome to tft每日頭條 comments! Please keep conversations courteous and on-topic. To fosterproductive and respectful conversations, you may see comments from our Community Managers.
Sign up to post
Sort by
Show More Comments
推荐阅读
手機屏幕沒反應是怎麼回事
手機屏幕沒反應是怎麼回事
以華為P40、EMUI11為例。原因有:手機屏幕有靜電、軟件沖突或者不兼容、手上或手機屏幕上有水、手機卡頓、手機硬件問題。一、手機屏幕有靜電需要将手機屏幕進行清潔,手機屏幕靜電也有可能導緻觸屏失靈,這時隻需要用手将整個屏幕輕輕的擦一下即可。二、軟件沖突或者不兼容可以嘗試來回多按幾次鎖屏鍵。很多時候,手機觸屏失靈都是因為軟件沖突或者不兼容所造成的反應遲緩,因此來回按幾次鎖屏鍵有可能就會恢複。三、手上
2025-04-18
nove7和nove7se.的區别
nove7和nove7se.的區别
1、外觀區别:華為nova7為6.53英寸屏幕,有亮黑色、仲夏紫、绮境森林、7号色、密語紅配色;華為nova7se為6.5英寸屏幕,有亮黑色、仲夏紫、绮境森林、銀月星輝配色。2、性能區别:華為nova7配備麒麟985,1*Cortex-A76Based2.58GHz+3*Cortex-A76Based2.40GHz+4*Cortex-A551.84GHz;華為nova7se為麒麟820,1*Cor
2025-04-18
網站備案和不備案的區别
網站備案和不備案的區别
備案網站,搜索引擎會給予更多的重視和錄入,而不備案的網站則會相對會減少。百度競價、360競價和搜狗競價需要備案,不然無法開戶上線推廣。百度競價現在的政策是備案主體有必要跟營業執照的主體一起,且需求有對公賬戶也需求跟營業執照主體一起。跟着國家淨網行為的打開,政府初步嚴峻整頓網絡。為了标準互聯網信息效力活動,促進互聯網信息效力健康有序展開,根據國務院令第292号《互聯網信息效力管理辦法》和工信部令第3
2025-04-18
金屬探測儀能探測地下多少米
金屬探測儀能探測地下多少米
根據探測器型号不同探測的最大深度也不一樣,一般為1-30米不等。金屬探測器主要有三大類:電磁感應型、X射線檢測型、微波檢測型,是用于探測金屬的電子儀器,可應用于多個領域。在軍事上,金屬探測器可用于探測金屬地雷;在安全領域,可以探測随身攜帶或隐藏的武器與作案工具;在考古方面,可以探測埋藏金屬物品的古墓,找到古墓中的金銀财寶與首飾或其他金屬制品;在工程中,可用于探測地下金屬埋設物,例如管道、管線等;在
2025-04-18
蘋果手機怎麼用數據線給電腦上網
蘋果手機怎麼用數據線給電腦上網
以iPhone12、ios14,華為MateBookX,win10為例。将iPhone通過數據線連接電腦,等待驅動安裝完成,進入iPhone設置;開啟蜂窩網絡;在設置裡面點擊個人熱點;開啟個人熱點,在電腦的設置中切換為iPhone适配器;在電腦中選擇打開網絡和共享中心并選擇更改适配器設置;打開寬帶連接,選擇屬性;選擇共享,勾選允許;點擊确定即可。
2025-04-18
Copyright 2023-2025 - www.tftnews.com All Rights Reserved