首页
/
每日頭條
/
科技
/
國内外大數據研究現狀分析
國内外大數據研究現狀分析
更新时间:2024-10-01 02:19:33

本文将淺談統計學原理在數據信息提取、數據處理和現實應用場景中的研究意義。

國内外大數據研究現狀分析(大數據識别電信罪案中的統計學原理)1

通常而言,談及統計學,人們認為就是将數據通過簡單的樣本計算和傳統的數學模型将其中有用的信息提取出來。然而,放到現代的觀念來說,這些認知偏頗狹隘了。

當今,大量的動态數組,千兆、億兆的數據,在商業、制造業、環境科學、航天航空

數據網絡等各個領域屢見不鮮。傳統的統計學場景和現代統計學已經相去甚遠。

更進一步,随着數據量的增加,計算機科學成為了比傳統統計學更為适合處理大數據計算的方式,數據可視化的應用挑戰也成為計算機科學發展的重要方面。

這篇文章,将淺談統計學原理在數據信息提取、數據處理和現實應用場景中的研究意義。

1. 信息新定義

信息如何從數據中提取,取決于不同目标主體。有時,信息就是總結一下當前數據,不針對未來決策、過程、實驗做推斷。

但即使是總結也不容易,如果數據量龐大則需要使用特殊函數來處理。更為隐晦的是,目标可能是推斷未知參數或關聯關系。

例如,目标可能是理解一項未知或無法獲取的事物,例如性能輸出量,這類數據沒有誤差變量則無法衡量,

因此,難點就是從實驗數據中提取關聯行和參數來解釋這類數據。或者,目标或許是預測當前抵押貸款未來可能會有拖欠情況的部分人員。

預測未來價值,而不是推斷隐藏的關聯關系和參數。

舉例來說:某一項貸款已經下放,那麼目标函數可能需要确定某部分數據應用用來預測還款是否會有拖欠,所以目前的貸款數據隻是可用數據的訓練集。

推斷數據和預測數據都需要數據分析,而不僅僅是數據歸集。

2. 基礎統計概念

基礎統計學模型很簡單:

數據=主體數據 噪聲數據

主體數據代表主要的數據形态,噪聲數據表示圍繞主要模型的變量,兩者都具有高度複雜性。主體可能是參數類型的,這組參數可能是線性數據、非線性數據、複數、積性函數等(例如:系數)。

另外,主體數據也可以是非參數類型的,例如:階梯函數、賦值函數或一連串解釋型變量。噪聲數據表示變量數據,會影響預測和評估的可靠程度。噪聲數據是相對獨立、标準、相關、持續期間偏差抽樣,用于計算非随機樣本或結構化數據。例如:如果噪聲數據沒有附加影響數據源,那更合适的模型就是

Data~Fθ

Mean(data)= g(θ)

Fθ是圍繞在決策模型g(θ)周邊的分布函數,解釋數據的冗餘變量。Fθ也可以是著名的分布函數,例如伯努利分布,邏輯回歸。其包括了計算非冗餘樣本,通過解析性變量和關聯關系來預測持續期間樣本變差等情況。主要參數θ有賴于解釋型變量和預測型變量。數據歸集的過程越複雜則,同濟模型的複雜程度越高。

統計學理念認為,噪聲數據建模與主要數據建模同樣重要。我們可以從噪聲數據中獲取可能偏差的預測情況、通過噪聲屬于的統計,我們可以知道這類屬于可用于目标推斷或問題預測。

3. 反詐騙行為統計模型

當今,各種各樣的電信詐騙層出不窮,信用卡被盜都能引發周邊一系列的電話欺詐。電信欺詐案中,作案人可以克隆各種電話号碼。通過有線網絡,黑客可以攻入大學的電信網絡,把所有學生的電話信息都盜取後行騙。訂閱欺詐案中,顧客被騙浏覽購物信息竊取支付密碼。

我們的目标在于盡快地獲取每一次通話記錄,并且記錄詐騙電話的活躍和終止階段的信息,更新采集樣本。如果通過采集樣本,我們可以精準預測出下一次的合規來電,通過已經捕獲的來電号碼對比預測出來的數據校驗精準性。我們将采集對比的合規電話标記為0,而非0的預測來電則有可能為詐騙電話。

通過數據預處理的方法,我們可以定義出樣本為0的數據為主體數據。而非0數據為噪聲數據。通過邏輯回歸等分布函數等噪聲數據的處理,可以預測出在一周或者一日之内非0數據的可能來電情況。

但是實際情況遠比樣本計算複雜得多。我們很難通過簡單的狀态判斷來決策主體變量和非主體變量的預測情況一定是符合現實場景的。

從統計學角度來說,我們将一通電話定義為:一組随機向量X=(X1,…,XK)

X1表示通話持續時長、X2表示通話頻次(每周一天,每天一小時)X3表示通話率,X4表示号碼歸屬地(例如:國家、地區、城市、行政區層級劃分)。

當所有可以采集的通話曆史信息收集到後。一個合法的呼叫者i在通訊數據上會出現一個多元分布視圖,y軸為Ci,n ,x軸為Xi,n.詐騙分子有個a數據與多元分布矩陣F完全不同。

4. 結語

計算是處理海量數據分析的關鍵,統計學還有很多計算處理海量數據的方法要向計算機科學學習。

與此同時,統計學也将新的要求提出給了計算機學科。例如計算機的數據挖掘需要提高。

統計學原理是推動數據挖掘提取分析的關鍵原則。但是這不代表統計學具有數據探索意義。

數據分塊,尤其是當數據量巨大的時候,如何更好地利用數據,使數據更為有意義有作用是需要計算機科學采用更為有力的技術和模型構建方法的。

大量數據産生的更多問題遠遠不止分析能夠解決,需要統計學和計算機科學雙方一同發展,兩者結合應用來處理。傳統統計學與數學緊密相連,數學對于分析海量數據有重要作用。概率學則在每一步統計分析建模中起到關鍵作用。

總之,我們還有很多需要進步和研究的空間,更高效合理的結合統計學與計算機科學兩者,将數據智能的應用場景結合到現實生活。

本文由 @手心的太陽 原創發布于人人都是産品經理。未經許可,禁止轉載

題圖來自 Unsplash,基于CC0協議

,
Comments
Welcome to tft每日頭條 comments! Please keep conversations courteous and on-topic. To fosterproductive and respectful conversations, you may see comments from our Community Managers.
Sign up to post
Sort by
Show More Comments
推荐阅读
蘋果手機鋼化膜好還是水凝膜好
蘋果手機鋼化膜好還是水凝膜好
手機碎屏可以說常有的悲慘經曆了,對iPhone用戶而言更是如此,因為iPhone跌落碎屏率一直居高不下,同時碎屏維修費用更是高昂,即使有些人選擇不去官方網店換屏幕,收取費用依舊要大幾百。而最有效地方式就是給手機屏幕上一個“隐形”的護盾——鋼...
2024-10-01
oppo手機怎麼下載軟件
oppo手機怎麼下載軟件
oppo手機怎麼下載軟件?首先需要打開手機的桌面即手機的屏目界面,然後找到并點擊“軟件商店”這個圖标,今天小編就來聊一聊關于oppo手機怎麼下載軟件?接下來我們就一起去研究一下吧!oppo手機怎麼下載軟件首先需要打開手機的桌面即手機的屏目界...
2024-10-01
設置通用設備管理在哪
設置通用設備管理在哪
設置通用設備管理在哪?首先,我們要知道描述文件與管理設備還有另外一個名稱,那就是“設備管理”,不同的系統版本會有所差别,現在小編就來說說關于設置通用設備管理在哪?下面内容希望能幫助到你,我們來一起看看吧!設置通用設備管理在哪首先,我們要知道...
2024-10-01
有沒有跟狗交流的手機軟件
有沒有跟狗交流的手機軟件
有沒有跟狗交流的手機軟件?人狗交流器人狗交流器會真正對你的聲音進行音頻分析(真的如此)并根據你的輸入複述出小心變聲的狗叫聲軟件還包括一個帶有多種狗叫聲的音闆,輕松人狗交流翻譯器狗助手,狗狗語翻譯神器助手,下面我們就來說一說關于有沒有跟狗交流...
2024-10-01
最新版快手拍攝的怎麼去水印
最新版快手拍攝的怎麼去水印
自媒體今年又是火熱的一年,越來越多的人知道這個行業平台,看似賺錢容易,都想着紛紛入駐運營。今天小編就來教大家如何做自媒體,現在一般做視頻的要比做圖文的容易很多,因為一些街上的随拍可能都能火起來,但是圖文随便寫,沒突出的内容根本就不會有人看。...
2024-10-01
Copyright 2023-2024 - www.tftnews.com All Rights Reserved