“大數據殺熟”這件事不管是從人的劣根性角度,還是從平台的商業邏輯角度都存在着不可避免的必然性,隻是各家有各家的說法而已。但作為必然是消費者的每個人來講反抗是必須的,而且要經常給予相關平台進行必要的鞭策和警示。
本篇文章我們就兩個點來讨論分析一下“大數據殺熟”中的結構化與非結構化。
- 兩篇關于“大數據殺熟”的基本事件概要及讨論
- “大數據殺熟”事件引發的思考
一.兩篇關于“大數據殺熟”的基本事件概要及讨論
《複旦大學孫教授花費近5萬打車800次,實錘大數據殺熟》的文章以及相關的報道。
“複旦大學教授孫金雲的一項調研成了網上熱議的話題:最近,他帶領團隊做了一項“手機打車軟件打車”的調研。該團隊在國内5個城市,花50000元,收集了常規場景下的800多份樣本,得出一份打車報告。報告顯示:蘋果機主更容易被專車、優享這類更貴車型接單;如果不是蘋果手機,則手機越貴,越容易被更貴車型接單——這樣的報告,讓人們對大數據用戶畫像、大數據殺熟産生的消費陷阱意難平。”
2.《戴頭盔買房少花30萬,“人臉識别”用在這裡“紮心”了》
這個部分我們要先引入兩個信息點:結構化數據和非結構化數據。
計算機信息化系統中的數據分為結構化數據和非結構化數據。非結構化數據其格式非常多樣,标準也是多樣性的,而且在技術上非結構化信息比結構化信息更難标準化和理解。我們在日常生活中使用電子産品進行浏覽網頁、視頻等内容或者利用電子支付進行購買東西等在計算機系統裡面所留存的都是結構化數據。而在日常生活中非主動與電子設備交互的而留存在計算機系統裡面的,如監控拍下的視頻影像數據、交通抓拍的圖片數據、日常對話的語音數據都是非結構化數據。
有了上面的兩個基礎概念我們就比較好理解了,首先我們可以把數字世界看做現實世界的一種數字化映射。在數字化世界中,我們經曆過了幾次演變,從互聯網時期到移動互聯網時期再到人工智能時期再到數字時期,更像是一種把現實世界的各個細節通過不同技術手段進行的分階段分領域映射的完善。
目前基于深度學習的圖片識别、語音識别等人工智能技術已經在特定場景上非常好的可以把非結構化數據轉化成結構化數據并且進行應用和輔助決策,所以把這兩個新聞放到一起來看就會發現:對我們的數據采集已經不僅僅停留在幾年前的基于電子産品的用戶主動交互所産生的結果話數據的層面了,已經對我們的行為數據可以進行實時采集分析了,而基于非主動交互的非結構化數據的應用會讓我們的數據畫像更完善讓“大數據殺熟”無微不至并且更難以察覺和精準。
二.“大數據殺熟”事件引發的一些思考
“大數據殺熟”在實際場景中是非常難界定也非常難以避免的。但我們要如何進行避免、監管、對抗呢?從目前的看到文章中很多都在呼籲國家出台相關政策來進行監管,但是我認為這也非常難落實,很容易就變成一紙空文。所以想從上面介紹的兩個事件出發從以下幾個方面來進行讨論一下。
- 市場價格體系監管
基于上面兩件事,涉及到最直接的内容就是不同的人付出不同的價格拿到了類似的産品或者服務,有失公平。所以要面對的第一個問題應該是市場價格體系面對動态價格體系的監管要進行優化。在目前的市場經濟裡面,市場監管局對農副産品、防疫物資、名優白酒、旅遊業、交通運輸、電商平台價格進行了較為嚴格的監管,嚴肅查處囤積居奇、哄擡價格、串通漲價等違法行為,堅決制止捏造散布漲價信息、哄擡價格等行為,維護防疫物資價格穩定;依法查處虛構原價、誤導性價格标示、不履行價格承諾等各類不正當價格行為。而對于更為動态的針對個性化推進的産品或者服務的監管沒有進一步要求,就難免讓平台利用算法鑽監管的空子。
但所有的公平都是相對的,如果所承擔的價格是在合理的範圍之内,那麼是不是就不存在違規違法了呢?還是否需要監管呢?
2.對抗算法
(信息點參見于文章:《教你如何對抗算法,大數據時代的硬核生存指南》)
這裡我們先要引入三個信息點:
- 生産算法
将使用者作為生産要素進行更合理的分配調度,提高生産效率,比如系統裡的外賣小哥、滴滴司機。
- 消費算法
讓使用者盡可能的消費更多的東西,比如:内容、商品、信息等,最典型的就是抖音、淘寶等
- 信息繭房
就是不斷接觸同類信息的過程中自身被禁锢在一個由算法隔絕的繭房,進一步形成回聲室效應和過濾氣泡
對于大部分人的一生來說是生存在“信息繭房”裡的,隻是繭房形成的過程是相對較慢的,也是我們主動選擇的過程。但是由于算法的介入極大加快了這一過程。當然算法被研發出來的本意是好的是未來更高效的處理日常的事物,提高生活效率。但是不管是生産算法還是消費算法在市場機制下都更加逐利的,我們在被動的情況下卻加快了在算法系統中自我“信息繭房”的建立。最可怕的不是在某次打車上多花了幾塊錢這麼簡單了,最可怕的或許是基于算法的誘導式消費、引導式生活等等,最後變成被操控式的生活,你的喜好不是你的喜好,你的生活不是你的生活我認為這才是需要警醒的。這裡我再推薦大家看一個視頻《達倫·布朗:就範》或許就更能理解被操控的意思了。
對于怎樣對抗算法,大家可以看一上面提到的視頻文章講解得更為詳細,這裡截取一張圖片作為參考:
3.數據财産化、資産化
在數字經濟的大背景下,對于數據财産化、資産化的讨論這兩年尤為熱烈。數據作為生産要素要進行合理合法的流通才能更好的激活數字經濟的發展。
結合文本讨論的問題,我們可以舉例說明,有買過房的小夥們會深有體會,上午交的房款,下午可能就會有裝修公司的人給你打電話而且在未來一段時間内你的電話會被打爆且不同的裝修公司,直到裝完房子的半年後這類電話才會消失。通過我們買房子這件事觸發了一個有裝修需求的标簽生成。理論上這個數據應該是我們個人的信息資産,但是收益方卻是他人且這顯然是非常不合理的也不合法的。
是否可以有一個機構或者是數字銀行可以讓我們通過泛标注的方式來主動進行數據資産存入并進行可選擇性流通呢?為數據要素流通從最小單元确權開始呢?
4.立法
立法是必然的,隻是從落地的角度來看立法還沒有非常好的實操抓手。也看到有相關文章提出了《平台經濟領域反壟斷指南》作為判斷标準。但僅僅從指南的角度來看是還是解決不了針對個性化服務的動态價格波動合理性的問題。
對于合理性的問題是次要問題,核心矛盾點還是數據作為生産要素的确征、确權、定價以及數據安全的問題。
很多“大數據殺熟”的文章都在讨論各個互聯網平台的“大數據殺熟”,但其實事實上已經不僅如此了,由于數據标注的助力,AI的發展應用,對于音頻、圖片、視頻等非結構化數據的處理已經讓我們的标簽維度增加了非常多,基于這些數據就可以更好在營銷場景上應用,而這些應用更隐蔽更不容易被察覺。
現實世界的孿生數字世界已經在雲端開始瘋狂建設,還處于相對沒有監管的狀态,是機遇也是挑戰。普通人要考慮如何在這個孿生的數字世界裡保全自己,企業們要考慮如何在孿生的數字世界還處于無序狀态時搶占更多的地盤,政府更要考慮如何在孿生的數字世界發揮監管職能。
,