網絡爬蟲那些事-tft每日頭條

一、數據爬取的技術風險及刑法規制的必要

網絡爬蟲（Web Crawler），又稱為網絡蜘蛛（Web Spider）或網絡機器人（Web Robot），是一項在互聯網時代普遍運用的網絡信息搜索技術。其相對于人工信息搜素而言，其效率得以廣泛提升。該技術的基本原理是：首先根據搜索的目的建立待爬取URL隊列，并将其取出，對該URL所對應的網頁進行解析。當爬蟲訪問整個網頁時，會自動識别網頁中所有的URL并将其添加到待爬取URL，如此循環往複，直到URL隊列中的所有URL全部爬取完畢或滿足一定要求為止。整體而言，網絡爬蟲的工作步驟即為：獲取網頁——解析網頁——存儲數據。網絡爬蟲運用的最為廣泛的領域為搜索引擎，一般可将網絡爬蟲與搜索引擎劃等号。随着商業模式的不斷更新，網絡爬蟲也被應用于對各種新聞資訊的搜集、分類、排序等，并實現及時地動态推送。這一商業模式也成就了某些聚合媒體（如今日頭條），或網絡信息平台（如新浪微博）。

網絡爬蟲不僅僅是一種新興的數據收集手段，更是一種生産手段、研究手段，甚至已經成為當前互聯網訪問的重要組成部分。根據Imperva發布的bot traffic report 2016，超過一半以上的互聯網訪問是由自動bot産生的，這意味着接近每20次互聯網訪問中，就有一次是爬蟲。如此頻繁與廣泛的運用，必然伴随着一定的技術風險。結合上述網絡爬蟲的工作步驟與原理，其技術的使用會帶來三種類型的風險：一是爬蟲技術的使用會對計算機信息系統安全産生威脅，即運用網絡爬蟲侵入到計算機信息系統内部。并且，根據我國刑法285條的規定，如果是非法侵入到國家事務、國防建設、尖端科學技術領域的計算機信息系統，即使僅僅是侵入而尚未實施其他的危害行為，依然有可能按照犯罪論處；二是會對計算機信息系統中的數據安全産生威脅，即侵入到非屬于國家事務、國防建設、尖端科學技術領域的計算機信息系統中并獲取其存儲、處理、傳輸的網絡數據，按照我國刑法285條第二款的規定，有可能構成非法獲取計算機信息系統數據罪。此外，如果爬取的數據本身負載着其他的法益内容，如個人信息、商業秘密、國家秘密等，還有可能對個人隐私、商業秩序和國家安全造成威脅；三是會對計算機信息系統功能以及正常運行造成威脅。這主要指的是，網絡爬蟲是通過模拟人工點擊來對網站進行一次性大量訪問，這一過程中會對被訪問對象的網絡資源進行一定的擠占甚至是破壞，從而影響到計算機信息系統的穩定與運營。根據我國刑法286條的規定，這一行為在造成嚴重後果的前提下可能構成破壞計算機信息系統罪。

當一項技術可能被濫用從而對他人及社會的利益造成危害時，“技術中立原則”便不能再作為違法犯罪的擋箭牌。針對網絡爬蟲的此一風險，司法實踐展現出了由寬到嚴的趨勢：由一開始作為不正當競争案例予以民事法規制（如新浪訴脈脈案、淘寶訴美景案），逐漸開始關注爬蟲行為的刑事違法性與刑法規制（如車來了案、今日頭條案）。背後反映的不僅僅是司法規制的理念與政策轉向，還體現了規制角度的轉變。即，評價重心從對于爬取數據的使用行為轉變為爬取本身行為的合法性。與此同時，刑法理論上對網絡爬蟲的危害性與規制的必要性也有了逐漸清醒的認識，并提倡利益權衡與審慎中立的原則；還有的學者從網絡爬蟲的刑事風險出發，初步地從“行為不法”與“對象不法”兩個角度對其刑法規制問題進行了讨論，嘗試為爬蟲技術的使用劃定行為邊界。但是，以上的研究要麼隻是對于網絡爬蟲的規制原則進行輕描淡寫的描述，未觸及到其技術本質，要麼是對網絡爬蟲行為的法律規制問題未進行充分的規範屬性的探讨。随着網絡爬蟲入刑第一案（即“今日頭條案”，案情見後述）的審結，雖提出了些許審理類似案件的可供參考的思路與規則，但尚有一些争議問題未予以澄清或制造了新的争議。

鑒于此，本文立足于刑事法視角，結合刑法當前理論與司法實踐判例，意圖為網絡爬蟲刑法規制提供指導意義的理念思路與可供參考的認定規則，為網絡爬蟲這一技術的運用劃定行為的“紅線”，從而更有利于該技術正面效能的發揮，為大數據時代的數據開放、分享與利用提供法律保障。

二、爬取行為的不法内涵在于“非法訪問”

随着司法規制對于網絡爬蟲行為規制重心從爬取數據之後的利用行為逐漸轉移到爬取行為本身的非法性，如何認定網絡爬蟲這一技術的“非法性”便成為核心議題，這也成為對網絡爬蟲技術行為進行刑法規制的第一個維度。縱觀我國刑法規定，不管是非法獲取計算機信息系統數據罪亦或是侵犯公民個人信息罪，均以“違反國家規定”作為法定要件。這裡的“違反國家規定”根據我國刑法96條的規定，主要指的是全國立法機關制定的法律以及最高行政機關制定的行政法規、規章、決定或命令。包括《網絡安全法》、《計算機信息系統安全保護條例》、《計算機信息網絡國際聯網安全保護管理辦法》等。

盡管如此，“違反國家規定”這一要件由于不夠明确而更多的僅具有形式意義，無法揭示爬取行為的實質内涵，其實質内涵依然需要從行為所侵害的法益屬性進行探尋。基于網絡爬蟲的技術屬性（智能性）對所爬取的計算機信息系統的安全會造成一定的威脅這一事實，我們可以看出，非法性的行為本質在于侵犯了被爬取方的計算機信息系統安全，其本質屬于非法訪問。這裡，爬取行為是否得到了被爬取的網站或平台的同意或授權就成為判斷的重點。據此，理論上一般将“未經授權”與“超越授權”作為判斷爬取行為非法性的客觀認定指标。除此之外，爬取行為的“惡意”則為主觀上的認定指标。以下依次闡述。

（一）安全認證系統的突破

未經授權的字面含義即為訪問時未獲得相應權限，而這一權限往往來自于被訪問網站或平台的單方聲明。根據發出聲明的時間可以分為“事前聲明”與“事後措施”。前者如網頁或平台上的彈窗、警告、告知、用戶協議、産品備注的說明、與員工或其他機構簽訂的合同，後者如明确的函告（如律師函）與技術手段（屏蔽IP）。另外，在計算機網絡領域普遍存在的“Robot協議”，也是判斷被訪問網站或平台主觀意願的重要依據。在“百度訴360”一案中，法院認為Robots協議應當被認定為搜索引擎行業内公認的、應當被遵守的商業道德。360由于未遵守百度網站的Robot協議，其行為明顯不當，應承擔相應的法律後果。

以上的聲明或措施對于認定爬蟲行為的非法性具有一定的參考意義，但是如果我們從對于某一行為刑事規制的角度出發，一概将這些舉措不加分辨地視為行為非法性的依據則顯失妥當。理由之一在于非法性的本質在于違反國家規定，而根據我國刑法的規定，這裡的“法”須是高位階的法律，否則即會與刑法的謙抑性和最後手段性的基本原則與精神相抵觸；理由之二在于上述措施大部分均為被爬取網站或平台的單方面聲明，既可能未與相對方形成意思合意，又可能存在顯示的不明确性，以此作為發動刑事制裁的依據或理由隻會導緻刑罰的不當擴大，而使得互聯網從業者人人自危。因此，有學者将上述的措施稱之為數據網站對數據的“弱保護意願”，其違反的後果僅僅承擔民事責任。

針對上述問題的缺陷，理論上提出了“代碼理論”，即認為隻有爬取行為避開或突破了計算機信息系統所設置的“代碼屏障”時，其訪問行為才可被視為承擔刑事責任意義上的“非法訪問”。理由在于，當網站或平台希望保護自己的隐私和數據的安全時，往往會采取一定的技術手段（編碼）來賦予特定的或一定的網絡用戶訪問網站或平台的權限。如同每個人在自己的家中安裝房門與門鎖，其代表着自身的隐私範圍與他人及社會的界限。而現實空間的界限反映在網絡世界即為身份認證系統。據此，隻有在繞過某些需要認證才能訪問的信息系統時，才能認為這裡的授權路徑存在瑕疵。所謂的“認證系統”（例如賬号密碼體系）需要通過創建必要的壁壘将網絡環境中的開放空間與封閉空間區分開來。這個區分為非法侵入計算機系統的法律規定提供了适當的平衡空間。當計算機信息系統采取有意義的措施來阻止公衆的任意訪問時，它既可以實現隐私保護的目的，同時也創設了網絡開放空間中免于被起訴恐懼的權利。身份認證系統與前述的“弱保護意願”相比，屬于網站或平台的“強保護意願”，具備劃分爬取行為非法性與否的正當性與合理性。

上述的“代碼理論”與我國的刑法規定與司法解釋具有異曲同工之處。首先是我國刑法285條的罪狀表述中明确規定非法獲取計算機信息系統數據罪的前提行為為“采用侵入或其他技術手段”。這裡的“侵入”顯然是要從違反相對方主觀意願的角度去把握；其次是最高人民法院、最高人民檢察院頒布的《關于辦理危害計算機信息系統安全刑事案件應用法律若幹問題的解釋》第2條規定，将“專門用于侵入、非法控制計算機信息系統的程序、工具”解釋為“具有避開或者突破計算機信息系統安全保護措施的……”。另外，我國對于數據網絡犯罪的審判實踐中也體現了上述“代碼理論”的觀點。在“今日頭條”一案中，法院最終認定的事實為：被告人采用技術手段破解被害單位的防抓取措施，使用“tt_spider”文件抓取視頻數據。經鑒定，“tt_spider”文件中包含通過頭條号視頻列表、分類視頻列表、相關視頻及評論3個接口對今日頭條服務器進行數據抓取，并将結果存入到數據庫中的邏輯。在數據抓取的過程中使用僞造devie_id繞過服務器的身份校驗，使用僞造UA及IP繞過服務器的訪問頻率限制，最終造成被害單位損失技術服務費2萬元。本案的承辦人在對行為人的行為是否屬于“非法侵入”的認定時指出：涉案數據庫隻允許被害單位APP用戶或被害單位視頻APP用戶訪問。被告單位正是為了僞造device_id繞過了服務器的身份校驗，并使用僞造的UA及IP繞過服務器的訪問頻率限制才實行了對被害單位服務器數據庫的訪問。不是通過被允許的身份驗證機制獲得的權限訪問，不是通過真實的UA和IP進行的訪問，均是無權限的非法訪問。

上述對于網絡爬蟲的刑事風險與責任的認定，确立了針對此類犯罪的審判思路與規則，但同時也制造了一個新問題：對于網站或平台單方面設置的反爬機制是否等同于身份認證機制？本案的審理者顯然未将其嚴格區分而徑直作為一體。這一做法也同時帶來了些許隐患：隐患之一是使得刑法的規範目的落空。通過考察我國刑法第285條第1款非法侵入計算機信息系統罪的立法背景可知，立法者确立該罪名的主要目的在于規制通過突破網站設立的系統安全保護措施的黑客入侵與攻擊等行為。因此，該網站所設立的系統安保措施必定也是針對具有訪問權限的特定主體，而對其他主體則是默認關閉。此種立法目的在刑法修正案七設立非法獲取計算機信息系統數據罪時并未發生改變。反爬措施在技術層面上，并不具有排除特定主體訪問計算機信息系統的效果，而隻是對某種特定的訪問方式進行了限制。在此種情況下，将反爬措施與其他傳統意義上的安全保護措施相提并論，恐與立法者本意不符。隐患之二則是違背了互聯網基本精神，為網絡用戶不當地制造了風險。互聯網的基本精神為“互聯互通”，這需要以數據資源的廣泛流通與高效利用為基礎。由網站或平台單方設置的反爬機制卻可以輕易地為這一精神目标的實現設置障礙；并且，如果可以以一個網站或平台單方面的意思來作為爬取行為的合法與否的判斷标準，則将容易忽視網站或平台是否有正當理由采用技術手段拒絕他人的訪問，以及訪問者是否有正當理由無視被拒絕而繼續訪問。而拒絕的後果則有可能面臨刑事責難。

上述隐患背後的原因則在于，網站或平台設置的反爬機制與身份認證機制的規範目的不盡相同。具言之，反爬機制主要是針對網絡爬蟲的技術特征而對其實施的反制。如前所述，網絡爬蟲的技術本質在于模拟人工手動點擊從而可以一次性大量地獲取數據信息，因此反爬機制的主要目的并非禁止對方對于網站或平台的訪問，而是禁止或拒絕采用特定的方式對其進行訪問與浏覽。而身份認證機制的設置，其根本目的則在于劃定網站或平台自身的隐私範圍與控制領域，換言之，是為了确定計算機信息系統安全的領域與範圍。據此反爬機制與身份認證機制在範圍上可以産生交叉，但絕非一緻。因此，将二者混為一談除了有技術認定或鑒定上的偷懶之嫌疑，更多的後遺症還是在于不當地降低了刑事入罪的門檻從而增加了互聯網用戶的刑事風險。

對此，本文認為對于網站或平台設置的反爬機制原則上可以作為身份認證機制，進而作為爬取行為非法性認定的實質标準。但是同時也應注意根據反爬機制的規範目的需要分類甄别，将與同計算機信息系統安全無關的反爬機制從身份認證機制的範圍内排除出去，并且對于網站或平台設置賬号登錄系統的具體目的進行進一步審視，将其範圍限定在與計算機信息系統安全密切相關的登錄系統作為“非法侵入”的判斷标準，而對于設置目的僅僅是為了落實網絡實名制的要求，或者為了對用戶行為做記錄，甚至僅僅是為了讓用戶在訪問網站或平台前閱讀《用戶協議》或《隐私政策》以避免承擔未經用戶同意的法律風險的賬号登錄系統予以排除在外。如當一個人使用自動化程序繞過了CAPTCHA系統（一個旨在阻止非真人操作的“僵屍用戶”訪問網站的程序）時，他并不構成“未經授權訪問”該網站。因為CAPTCHA系統并不限制某些個人的訪問；它是作為一種減緩用戶訪問進程的方式而存在，而不是因此拒絕訪問。

（二）實質授權範圍的超越

除了“未經授權”，非法侵入或訪問的第二種情形是“超越授權”。主要包括兩種類型：一是縱向越權。即通過某種技術手段獲得對計算機信息系統控制的更高權限。最為典型的是在網絡攻擊中，在通過合法的渠道獲得某一計算機系統的普通權限之後，進而利用該系統的漏洞将自己的一般權限提升至管理員權限；二是橫向越權。即行為人雖獲得了一定的訪問權限，但是超出了授權的範圍或時間。如系統隻授權行為人訪問特定領域，但行為人卻訪問了其他領域；或者，公司員工在與公司解除聘用合同或離職後依然訪問該公司的系統。需要注意的是，這一類型的超越授權并非體現行為的技術特征。

最高人民檢察院确立的36号指導案例對“超越授權”的認定樹立了明确的裁判規則。其大緻案情為：被告人龔旭為某一大型網絡公司的員工，擁有公司内部管理開發系統的賬号、密碼、Token令牌（計算機身份認證令牌），根據職責範圍可以查看相關數據信息。但該網絡公司禁止員工私自在内部管理開發系統查看、下載非工作範圍内的電子數據信息。2016年6月至9月，龔旭将自己掌握的公司賬号、密碼、Token令牌提供給另一被告人衛夢龍，并由後者利用上述工具多次在異地登錄該公司内部的管理系統，并将該公司管理系統内部的電子數據下載、儲存。後衛夢龍将非法下載的數據信息通過互聯網出售獲利37000元。最終二人的行為被法院認定為非法獲取計算機信息系統數據罪，分别判處四年有期徒刑與三年九個月有期徒刑。

在對本案的“裁判要旨”與“指導意義”的說明中，司法機關特意強調了本案中對于“非法侵入”的理解：非法獲取計算機信息系統數據罪中的“侵入”，是指違背被害人意願、非法進入計算機信息系統的行為。其表現形式既包括采用技術手段破壞系統防護進入計算機信息系統，也包括未取得被害人授權擅自進入計算機信息系統，還包括超出被害人授權範圍進入計算機信息系統。本案中，被告人龔旭将自己因工作需要掌握的本公司賬号、密碼、Token令牌等交由衛夢龍登錄該公司管理開發系統獲取數據，雖不屬于通過技術手段侵入計算機信息系統，但内外勾結擅自登錄公司内部管理開發系統下載數據，明顯超出正常授權範圍。超出授權範圍使用賬号、密碼、Token令牌登錄系統，也屬于侵入計算機信息系統的行為。

無獨有偶，發生在美國的“United States v. Nosal案”也确立了類似的裁判規則。被告人Nosal在被公司解聘後，為啟動與該公司存在競争關系的新業務，說服仍在公司任職的前同事使用現行的員工賬号登裡公司的管理系統，訪問并收集該公司的機密數據，其中包括了涉及該公司商業機密的數據。法院認為，“未經授權”是一個明确的而非技術性的概念，通過對其進行文義解釋，“未經授權”就是未經允許訪問了一個受保護的計算機信息系統。而在本案中，被告原有的訪問授權在他離開公司時就已經被撤銷了。當雇員訪問計算機信息系統的授權被其雇主明确撤銷後，他或者他的前同事作為共犯使用現行有效的員工賬号登錄雇主的後台系統時，也構成CFAA（計算機欺詐與濫用法）中規定的“未經授權”行為。

反之，如果行為人進入系統的行為未超出公司的授權範圍則不構成“非法侵入”而排除刑事責任。對此，北京市海澱區人民檢察院辦理的一起不予批準逮捕案可以佐證，案情為：犯罪嫌疑人于某系某互聯網公司工程師，該公司内部使用一款企業即時聊天APP作為内部人員溝通交流的辦公軟件，員工通過其個人賬号、密碼使用手機登錄後，如有工作需要，可與公司内任一員工即時聊天，并可點擊查看公司員工備注的姓名、員工号、手機号碼、職位職級以及公司組織架構等信息，APP後台會将訪問記錄予以記錄，公司内部制度規定非因工作需要不得随意查看其他員工的數據信息。2018年2月，于某對該聊天軟件的源代碼進行反向編譯，查找到該聊天工具傳送員工信息數據的服務器接口，後編寫了專門的爬蟲程序，在其使用其賬号密碼登錄APP後，該程序自動運行，向該接口循環發送訪問請求，成功從該隐藏接口爬取到6萬餘名員工的姓名、員工号、手機号碼職位職級以及公司組織架構等信息。檢察院最終作出不予批準逮捕的決定，主要理由在于，于某為公司正式員工，根據公司規定即可登錄聊天工具浏覽、查閱本公司的員工數據信息，因此其爬取的數據信息本屬于其職責範圍内可知曉的對象。換言之，于某所采用的爬蟲方式僅僅是提升了浏覽或查閱的效率，但并非超越自己的權限範圍，不屬于“非法侵入”從而排除刑事責任。

（三）爬取行為的善意出罪

除了從“未經授權”與“超越授權”兩個客觀要件為數據爬取行為設置責任邊界之外，另一個要件則為行為的主觀惡性，這又涉及到司法實踐中的一種情形——網絡“白帽子”的法律責任。所謂“白帽子”，又稱“道德黑客”，指的是采用網絡黑客的技術手段對計算機網站進行檢測，并對計算機信息系統存在的漏洞進行報告，以督促計算機網站進行網絡安全整改。可見，“白帽子”與網絡黑客在客觀行為方面具有相似性，均具備未經授權或超越授權的特征，區别則在于其主觀上的差異，即“白帽子”的行為人并不具有侵入他人系統的“惡意”，而是具有通過檢測系統漏洞，以幫助所涉系統進行漏洞修補的“善意”。據此，如何結合“白帽子”的技術特征從而推定該行為的“惡意”，進而将不具有實質危害性的“善意”白帽子予以排除刑事責任則成為互聯網時代數據爬取行為刑法規制的另一核心問題。本文認為，可以結合以下三個要素來綜合認定：

第一，侵入的計算機信息系統性質。如果“白帽子”所侵入的是屬于國家事務、國防建設、尖端科學技術領域的計算機信息系統，則可以直接認定為“惡意”。因為根據我國刑法285條第1款規定，非法侵入上述領域的計算機信息系統并不需要主觀上的惡意動機，或者說由于上述系統的重要性與保密性，在技術上也必定會設置門檻較高的身份認證識别系統，突破這些系統的侵入行為本身就代表了行為的惡意屬性。對此“白帽子”們并不能以行為出于技術檢測上的善意而進行抗辯。

第二，“白帽子”對行業規範的遵守。“白帽子”更多的是出于對網絡安全的提醒與維護的動機進入對方的網站。因此，“白帽子”可以主張行為出于善意的第二個理由便在于得到了網站企業的同意或授權。但在實踐中，由于“白帽子”的出現是網絡社會自發形成的一種現象，因此經過長期的發展後逐漸形成了“白帽子”、第三方平台、網站企業三方的維護網絡安全機制。其運作模式一般為：“白帽子”與網站企業均在第三方平台進行注冊，審核通過後統一在第三方平台的管理下，“白帽子”基于行業規範主動測試企業的網絡安全漏洞并将結果提交至第三方平台，第三方平台作出審核并提醒網站企業修複。因此，出于對行業規範的必要尊重與刑法的謙抑性，如果“白帽子”是在正規的第三方平台注冊并審核通過，即使主動對網站企業進行安全檢測或抓取數據，也可以基于網站企業與平台企業的概括授權而排除行為的“惡意”。當然，目前的第三方平台的流程監管基本上依靠管理人員的自律，技術水平也參差不齊，漏洞檢測與披露的規則不盡統一。從長遠來看，應嚴禁“白帽子”的單方測試，并規範統一檢測、報告的行業規範與操作程序。

第三，侵入系統的後續行為。一方面， “網絡黑客”之所以是惡意，主要原因在于，當其發現網站或系統的漏洞後，并不會提醒對方漏洞的存在或修複，而是利用這一漏洞從事破壞或獲利活動，而“白帽子”的選擇恰恰相反。因此，觀測行為人侵入系統後的所作所為可以反推其主觀善意與否；另一方面，行為人在成功獲取數據庫的數據後，對數據的處理是出賣變現還是自己留存，也可以在一定程度上反映其主觀惡性。如，李某自稱是“白帽子”黑客，以安全測試為名，遠程使用SQLmap等工具對某社交網站進行安全測試，發現了該社交網站存在的系統安全漏洞，在測試的過程中同時浏覽了該網站後台數據庫的部分數據。後李某将檢測結果提交至所屬的“漏洞平台”，平台将報告以及修複方法報告給網站負責人。但在社交網站修複漏洞的過程中發現，李某在對該網站檢測後仍多次訪問該網站的後台數據庫，并獲取了數據庫中的核心數據900多條。公安機關以“非法獲取計算機信息系統數據罪”将李某拘留，但檢察機關認為，鑒于李某并未将所獲取的數據用于謀取不正當利益，在到案後能夠如實供述自己的罪行，認罪悔罪，犯罪情節輕微，決定對其不起訴。

三、數據安全法益與爬取行為的罪質界定

（一）數據與信息的相對區分

除了對侵入行為非法性與否的判斷，數據爬取刑法規制的第二個維度是如何界定數據的法律屬性。即，公開的數據可否作為爬取的對象，或者說如何理解數據的公開性。對此，在比“今日頭條案”更早的“車來了案”中，“車來了”智能公交APP負責人邵淩霜指示他人使用網絡爬蟲，并不斷變化IP地址，獲取谷米公司開發的智能公交APP“酷米客”的大量公交車行駛實時數據。該數據并非公開可查看，而是儲存在APP系統後台。法院認為被告人的行為構成非法獲取計算機信息系統罪，這一判決似乎确立了隻有保密的數據才是本罪的行為對象的認定規則。但在“今日頭條案”中，被告人利用網絡爬蟲抓取的卻是公開的視頻數據。因此，對于法院的裁判觀點有論者提出了質疑，其認為數據犯罪所侵害的法益為數據安全，包括數據的保密性、完整性、可用性。非法獲取計算機信息系統數據罪侵犯的是數據的保密性，即，數據不被非法刺探與截獲。如果數據已然公開則保密性未受到侵犯應将予以出罪。另有論者主張，數據安全法益的本位在于保護信息内容而非數據載體，數據的保密性即數據承載的信息内容的保密性，行為沒有侵害信息内容的保密性不應認定為數據犯罪。進而主張“今日頭條案”的被告人不應以犯罪論處。

上述觀點看似有理，實則未搞清楚數據的真實含義與刑法保護數據的規範目的，不僅會打亂我國目前對于數據犯罪的規制體系，而且會帶來司法實務中的定性錯誤。而問題的關鍵則在于，數據與信息應否區分以及如何區分，其是否隸屬于不同的權利束。本文認為，數據與信息雖存在一定的使用混同，但是從法學的視角應當予以區分，從而界定不同的問題場域，明确不同的規制路徑。以下從四個方面進行論述：

第一，語義指向。首先需要說明的是，此處指的“數據”并非隻是信息内容的“數字化”，而是特指經過計算機編碼并通過特定的設備或裝置予以讀取的表現形式。根據國家标準化組織（ISO）的定義：數據指的是信息的一種表現形式，且這種表現形式可被再展示出來，适用于溝通、展示或處理。信息則是一種在特定語境下具有特定含義的知識，例如事實、事件、過程或思想包括理念。由上述的定義可知，數據更側重于載體形式，而信息則更側重于實質内容，二者建立聯系的路徑是：通過一定的計算機技術，将信息通過電磁的方式存儲到介質上，最終形成“數據文件”。由于以電子的方式存在，無法用人的肉眼觀察，因此屬于法學上的“無體物”。其與我們通常所謂的無體物電、熱、風能類似，具有一定的可控性與經濟性，但是最大的不同在于可以被以極低成本複制，從而又具有了較強的非競争性。數據由于以電子的方式存在，因此需要借助或依附于電子設備，而信息則可以更多地跳出物理媒介而直接進入人類的思維意識，必須通過人類大腦的理解與提取後才有意義。因此，無論是從語義學還是信息論的角度，數據均不同于信息。

第二，問題歸屬。數據與信息的區分不僅具有語義學上的意義，更具有法學實踐上的意義。有學者總結了理論上與實踐中将數據與信息兩概念混用的三種形式，即信息包括數據型、數據包括信息型和數據信息并立型，并指出這一混用甚至是混淆會導緻權利設定上的偏差與裁判論證上的難題。以至于法律實務業者也不禁感慨：對數據和個人信息的保護，經常會産生交集，如果不加以區分，可能會在價值判斷層面産生沖突。目前的司法實踐中，存在“數據信息”和“信息數據”兩種不同表述。這種界限上的不清晰可能産生概念混淆，建議從立法角度加以明确。

本文認為，區分數據與信息最大的意義在于确定需要處理的問題歸屬，确定不同的法律問題類型，即是屬于“信息問題”還是“數據問題”，從而采取不同的法律處理規則。如，理論上近年來熱議的“可攜帶權”，就可以從信息和數據兩個不同的角度去理解：從信息的角度，可攜帶權指的是網站或平台将個人信息提供給個人，具體的形式在所不問；而從數據的角度，可攜帶權指的則是網絡用戶有權查閱、複制、删除自己的個人信息。再如，“政府信息公開”指的是政府按照一定的條件與範圍将一定的信息公之于衆，被社會公衆所知曉，對何種形式不作特定要求；而“政務數據開放”則指的是社會公衆可以進入政務數據平台浏覽、查閱、下載、分享數據。還如，平台之間通過網絡爬蟲爬取對方的數據，如果是通過非法操作獲取對方的數據則應适用數據安全規則，反之則适用信息利益失衡的不正當競争規則。可見，信息與數據除了外觀上的差異之外，更多的是歸屬于不同的法律問題場域：信息更多的指向公開和分享問題，而數據則更多的指向操作規範問題。

第三，立法導向。數據與信息的“區别對待”在我國目前的立法體系與規劃中也有不同的體現，且有着不同的指導思路：首先，我國的民事立法将信息與數據采取了不同的規範思路。個人信息逐步與隐私權相分離，并從其中獨立出來作為一種人格權的限縮保護方式，而數據則是與虛拟财産一起局限于計算機領域，是大數據時代财産權的擴張。換言之，信息更多的指向“人”，而數據更多的指向“物”，且嚴格防止個人信息的“物化”傾向；其次，我國的行政立法将《個人信息保護法》與《數據安全法》作為兩種領域不同的法律進行規劃。前者側重的是對個人信息應如何規範其采集、利用，平衡個人信息保護與利用的關系，後者側重的則是為電子數據确立基礎性的安全規則，包括數據分類、重要數據識别、數據流通、數據洩漏通知以及國家的數據主權；最後，我國的刑事立法也對信息與數據采取了不同的保護模式。對前者主要采取的是經濟秩序保護模式（如竊取、收買、非法提供信用卡信息罪、侵犯商業秘密罪）與人格權保護模式（如侵犯通信自由罪、侵犯公民個人信息罪），對後者則主要采取的是公共秩序保護模式（如非法獲取計算機信息系統數據罪、破壞計算機信息系統數據罪）。

第四，法益屬性。上述信息與數據的區别也預示着其法益屬性的差别。信息的法益屬性是一種“能夠知悉的狀态”，且刑法應保護的是某一信息内容不為他人知曉；而數據雖作為無形物的一種卻可以通過現代計算機技術進行處理。由此，信息安全指的是保障不被超越權限地獲取、披露、使用或允許他人使用信息；而數據安全則是保障數據權利人有權獲取、知曉、控制或操作數據。在計算機技術、數字化處理時代背景下，數據安全中的保密性，指的是對于數據文本或電子記錄進行加密等處理外，其核心為為信息系統安全，即該信息系統隻應為有權訪問的人訪問，且防範非經授權的人的侵入、獲取、篡改、攻擊等。在這個意義上，數據安全真正的含義是數據控制的安全，而非數據本身的安全，旨在保護數據為适格主體的訪問、控制和使用，而保持特定信息的秘密性隻是其中最核心的内容，但不是全部内容。

（二）數據公開與爬取行為的定性

數據與信息不僅在觀察視角而且在法益屬性上均存在重要的區别，這一區别不應因為日常用語的使用習慣而無視。據此，數據公開也不等同于信息内容的公開。所謂數據的公開，是給數據傳輸的過程而非傳輸的數據定性。即使傳輸的數據是公開可獲得的信息，但是當事人想秘密傳輸，或者數據可能為了商業目的而被秘密化直到該服務得到付費，如付費電視。因此，非公開一語本身不排除通過公共網絡的通信。另外，對于信息與數據，其“獲取”的含義也不盡相同。例如視頻，觀看了視頻，即獲得了視頻所要表達的信息内容，但如果該視頻并未被複制或拷貝，則該視頻數據并未被獲取。再如閱讀或浏覽了網絡文章，即獲得了文章所要表達的信息内容，但是隻有将該文章下載或“另存為”到電腦或硬盤，才能說獲得了文章數據。

由此我們需要對理論上主張的“數據安全法益”進行必要的反思。其主張數據安全的主要内容包括數據的三性——保密性、完整性、可用性，并且以此作為一項新興法益，對數據犯罪的刑事立法與司法适用予以指導。但是保密性、完整性、可用性如上所述其實專指信息的法益屬性，而數據的法益屬性指向的是對數據的控制與操作。換言之，數據安全不同于信息安全，而是與計算機系統安全是密不可分的，離開系統安全不存在獨立的數據安全。這一點我們可以通過對官方的有權解釋中窺見：根據兩高《關于辦理危害計算機信息系統安全刑事案件應用法律若幹問題的解釋》第十一條，将“計算機信息系統”解釋為“具備自動處理數據功能的系統，包括計算機、網絡設備、通信設備、自動化控制設備等”。可見，是否具有對數據的處理與操作這一功能是界定計算機信息系統的重要依據。另外，從刑法286條破壞計算機信息系統罪的法條規定來看，其第一、三款規定中均有“造成計算機信息系統不能正常運行”的表述，第二款雖沒有“造成計算機信息系統不能正常運行”的表述，但是刑法理論上基于體系解釋的基本法理，也普遍認為應以“造成計算機信息系統不能正常運行”作為限制本罪成立範圍的不成文要素，否則本罪将成為網絡時代的新式“口袋罪”。當然，有論者會指出，在上述兩高的解釋中，其将非法獲取計算機信息網絡數據罪中的“數據”界定為“以金融服務為代表的身份認證信息”，以此來論證數據安全的本質是信息安全，但是司法解釋之所以如此界定，主要是因為“身份認證信息”影響着權利人信息系統中具體的操作權限，而非關注的是其信息本身的内容。因此，這一點亦不能作為數據安全本質是信息安全的論據。

回到“今日頭條案”中關于數據公開的争議。本文認為，這裡必須将網站或平台的商業運作模式納入參考範圍。即，網站或平台在允許用戶或訪客浏覽、觀看視頻的同時，是否提供了下載服務。如果未提供，則屬于上文所述的“信息公開但數據并未公開”。而之所以将視頻信息内容允許用戶觀看，無非是網站或平台吸引用戶的一種商業操作，并不意味着用戶可以永久地享有該視頻信息内容。如果用戶或訪客需要觀看該視頻内容，就需要再次登陸或反複登錄網站或平台。具體到本案，今日頭條采用的是流媒體技術播放，用戶在觀看視頻時需要同時緩存該視頻，但是觀看完畢後，該視頻的數據文件也随即消失。緩存與複制下載的區别在于，緩存意味着斷電即無，而複制下載則意味着可以永久保存。因此，網站采用流媒體播放這一技術本身即意味着視頻數據的非公開性，也同時意味着行為人爬取其視頻文件的非法性。反之，如果網站允許用戶複制、下載視頻，或者說并未采取技術措施對視頻數據予以保護，則意味着視頻數據的公開，即使行為人采用爬蟲技術一次性大量抓取數據，也由于失去了數據的公開性而喪失了刑法規制的必要性。

四、數據分層原理與爬取行為的罪數認定

（一）數據分層的基本原理

由上述對于數據與信息的區分可以看出，由計算機網絡所塑造的虛拟世界中，數據與信息分别指向的是不同的層次内容。根據美國學者萊斯格教授的觀點，可以将其劃分為物理層、符号層（代碼層）、内容層（語義層）。物理層指的是數據所存儲載體的特定物質結構或空間（如硬盤）；符号層指的是以計算機編程技術為依托表現為以0和1二進制的一定數量的符号以及符号之間的邏輯關系；内容層則指的是符号或代碼所承載或實現的信息内容。三者的關系是，物理層是基礎，符号層是處理的對象，而内容層則是可視化的人可識别的信息。以現實世界的事物作為對比，例如一張紙上寫的一段話，紙張屬于物理層，上面的文字或數字屬于符号層，而文字或數字表征的信息（如時間、地點、人物）則屬于内容層。我們通常所說的數據，一般指物理層或符号層，而信息則一般指内容層。

以上可以看作是對數據進行的計算機技術視角的觀察，接下來我們需要從法學的視角重新審視這一現象：物理層與符号層雖然可從技術上予以區隔，如雲存儲、分布式存儲技術，但是法益屬性并未發生變化，依然屬于計算機網絡世界範疇；内容層則不然，其不僅屬于人機交互内容，而且與現實人類社會發生聯系，其法益屬性已不再局限于虛拟世界，而是現實世界。有學者将數據在物理層與符号層上的特性稱之為“技術屬性”，而将數據在内容層上的特性稱之為“法律屬性”。其背後的原理也在于此，侵犯數據物理層與符号層的特性的犯罪屬于純正的計算機（網絡）犯罪，而侵犯數據内容層的特性的犯罪則屬于不純正計算機（網絡）犯罪。在我國目前的刑法規制體系中，前者主要表現為以非法獲取計算機信息系統數據罪與破壞計算機信息系統數據罪為代表的計算機犯罪。該類犯罪中數據以及背後的計算機信息系統本身是被攻擊的對象；後者則表現為将信息内容作為保護法益的犯罪，如侵犯公民個人信息罪、侵犯商業秘密罪、侵犯國家秘密罪等。在該類犯罪中，行為侵害的主要是傳統法益，屬于傳統犯罪的網絡化。數據或網絡僅僅是犯罪的手段，或承載傳統法益的載體。

（二）數據分層與想象競合原則的适用

由此帶來的問題是，從法益屬性上如何處理兩類法益的關系？換言之，如果某一行為一次性地觸犯或侵害了數據的“符号層屬性”與“内容層屬性”，應如何全面、精确地予以評價。對此，理論上有一種觀點認為，數據的内容特性優先于符号特性的判斷，因此二者屬于法條競合的關系，前者屬于“特殊法”，後者屬于“一般法”，适用“特殊法優于一般法”的處理原則。據此，個人信息也是數據的一種，隻不過刑法規定的侵犯公民個人信息罪是對個人信息數據的特殊保護。另外，有論者認為，應該通過數據的“去識别性”、“去财産性”以及“去創造性”，将通過侵害數據内容層的犯罪（包括侵犯個人信息的犯罪、侵犯财産罪、侵犯知識産權罪）予以優先認定，進而防止獲取數據犯罪成為“口袋罪”。這一見解的實質也是将侵犯數據内容層的犯罪與侵犯數據符号層的犯罪視為特殊罪名與一般罪名的關系，利用特殊法排斥一般法的原理，優先适用特殊罪名。

本文認為，上述觀點未厘清競合的基本原理，無法全面評價案件事實，從而得出不盡合理的結論。在刑法理論上，法條競合與想象競合均表現為一行為觸犯數罪名的情形，二者的區别在于，法條競合所觸犯的數罪名屬于特殊罪名和一般罪名的關系（如詐騙罪與金融詐騙罪），而想象競合所觸犯的數罪名之間并不存在這一關系（如開一槍導緻一人死亡的同時導緻珍貴文物的毀損）。或者說，法條競合屬于法條（罪名）之間由于刑事立法規定所産生的競合，而想象競合屬于案件事實所産生的罪名之間的競合。但是這一理解僅僅是看到了問題的表面，而未進行法律的目的思考。其實，法條競合之所以原則上适用“特殊法優于一般法”的認定規則，乃在于數個罪名存在“包容評價”的關系，即，對某一案件事實進行特殊罪名的評價已經包容了一般罪名的評價（如對某某是一個男人的評價已然包容了某某是個人的評價），因此如果此時再進行一次特殊罪名的評價則屬于“評價過分”。而想象競合并不存在這種情形，即使對某一案件事實進行A罪名的評價也不妨礙對其進行B罪名的評價，因此數個罪名均可以而且必須對同一案件事實進行評價，才不至于“評價不足”，但出于“一事不二罰”的原則，最終選擇一個較重的罪名進行論罪處罰，因此想象競合的處理原則是“擇一重罪論處”。據此，法條競合與想象競合的實質區别應為一罪名是否能夠充分評價案件事實，如果可以則适用法條競合的處理原則，排斥另一罪名的适用空間，反之，則必須引入另一罪名的評價才不至于評價不充分，但是可以按照最重的罪名實現具體處刑上的罪刑相适應。

由此，一罪名能否實現對案件事實的充分評價，即成為兩種競合類型的分水嶺。而是否能夠充分評價的判斷，除了考慮刑事立法的安排、沿革等形式要素外，更多的要考察其實質要素——保護法益上的同一性。即，數個罪名是否是沿着同一法益保護上的程度高低。據此，上述提到的詐騙罪與金融詐騙罪是否為法條競合則不無疑問，原因在于，詐騙罪保護的法益是公私财物的所有權，金融詐騙罪保護的法益則為我國社會主義市場經濟秩序，這一點通過兩類罪名的立法安排也可以一見端倪。因此将二者理解為想象競合的關系更為準确。同樣的道理，也适用于詐騙罪與招搖撞騙罪的關系處理。

通過上一部分的闡述我們可以得知，歸屬于内容層的信息所表征的法益實則為傳統法益的網絡呈現，是對信息内容保密性、完整性、可用性的侵害。其中，保密性指的是信息不被無權刺探與獲取，完整性指的是信息整體的結構性不被分割與破壞，可用性則指的是信息本身可以用來被挖掘與預測。如體現個人數字人格的個人信息、體現财産價值的虛拟财産、體現市場主體商業利益的商業秘密、體現國家安全的國家秘密等，其侵犯的方式或手段與現代計算機網絡技術并無必然關系，對上述法益的侵犯實則是對傳統法益的侵犯，隻不過該種方式屬于“線上”。而歸屬于符号層的數據所表征的法益則為數據安全，即，數據控制、處理、操作過程的穩定性與可實現性，其與計算機系統安全緊密聯系又有所區别。因此，屬于内容層的信息與屬于符号層的數據所表征的并非同一法益，而是分屬不同法益，屬于想象競合的情形，應按照想象競合的處理原則予以認定。如，被告人通過一定的技術手段，盜取了電腦系統内容的淘寶客服賬号及密碼，進而獲取了淘寶公司的客戶訂單數據（包含買家姓名、賣家姓名、手機号碼、送貨地址、淘寶或者旺旺登陸賬号）9萬組以上，并通過販賣後獲利人民币2萬餘元。本案中的行為人采取技術手段突破了淘寶公司的系統防護獲取數據，侵犯了數據安全，構成非法獲取計算機信息系統數據罪；同時該類數據符合個人信息的“可識别性”特征，亦屬于刑法意義上的個人信息，因此該行為同時構成侵犯公民個人信息罪。根據本案的情節，法院最終以想象競合擇一重罪論處的原則，以侵犯公民個人信息罪定罪處罰。

五、結論

回到本文最初提出的問題，大數據時代刑法應如何回應以網絡爬蟲為代表的網絡技術的異化風險，為技術的合理使用劃定倫理底線與法律紅線。本文得出以下幾點結論：1.爬取行為建立在對計算機信息系統非法訪問的基礎上，因此如何界定訪問的“非法性”即為爬取行為正當性的重要判斷依據；2.非法性的核心在于突破了計算機信息系統的安全機制，對計算機信息系統安全構成了威脅。對這一要件的判斷需要結合系統反爬機制的規範原理與主觀上的惡意推定；3.作為爬取行為對象的數據，與信息在規範意義上具有區分的意義與價值，這也決定了數據安全法益不同于信息安全法益的内涵；4.數據與信息分屬于計算機網絡的不同層次，刑法對其設置了不同的保護體系，應采用想象競合的原理實現行為的充分評價。

（轉自：《政法論叢》2021年第3期作者系山東政法學院副教授、碩士生導師孫傑）

找記者、求報道、求幫助，各大應用市場下載“齊魯壹點”APP或搜索微信小程序“壹點情報站”，全省600多位主流媒體記者在線等你來報料！

網絡爬蟲那些事（網絡爬蟲何以為罪）1