合理規制,讓“爬蟲”向善向上
近年來,隨著移動互聯、人工智能、大數據、云計算等新技術的迅速發展與普及應用,人們的工作、交往和生活方式都發生了深刻變化,數據成為驅動社會發展的新型生產要素、各行各業增強競爭力的重要源泉。但在大數據收集過程中,也存在著各種違法犯罪問題。網絡爬蟲(Web Crawler)作為一種能快速精準地獲取數據信息的基礎性網絡技術,近年來得到了越來越多的青睞和應用。如何對其進行規制,驅動其向好向善,成為當前重要的法治議題。
“小爬蟲”的“大角色”
網絡爬蟲,又稱為“網頁蜘蛛”“網絡機器人”,是一種按照一定的規則,自動抓取網絡信息的程序或者腳本。它能在特定程序的驅動下,模仿人工點擊從網站、手機應用、小程序或搜索引擎中檢索、提取、存儲數據。我們可以形象地將它們理解為一種爬行在網絡上的蜘蛛,它們根據程序的指令,通常沿著URL(網址)這根蛛絲,在互聯網這張大網上爬來爬去,尋找和帶回所需要的數據資源。我們熟知的百度、搜狗、谷歌等搜索引擎,其技術核心元素之一就是“網絡爬蟲”。例如百度蜘蛛,它通過互聯網入口爬取網頁,實時存儲并更新索引,然后為用戶提供檢索服務。
自從1993年第一個網絡爬蟲程序——“互聯網漫游者”被開發出來,網絡爬蟲這種便捷高效的搜索技術便得到了業界關注。特別是隨著數據資源的爆炸式增長,網絡爬蟲的應用場景也變得越發廣泛與多元,長期活躍于市場調查、產品研發、金融分析、輿情監控、風險預測等領域。近年來,一些運用爬蟲技術為客戶提供數據服務的互聯網企業,也獲得了快速發展。對個人而言,我們可以利用爬蟲軟件等計算機編程語言,讓網絡爬蟲為自己服務。例如想買到理想的房子,就可爬取房產中介的公開信息,分析房源數據與趨勢以輔助決策。
網絡的本質與價值在于連接,核心是實現數據的流動與分享。網絡爬蟲作為數據抓取的技術工具,通過爬行增強了網絡節點間的聯絡,提升了網絡的整體價值,是構建互聯網開放與共享理念的重要技術基石。但網絡爬蟲所行之處,并非總是鮮花和掌聲,特別是涉及隱私領地和網絡安全之時。因此,為了規范爬蟲,維護網絡秩序,1994年誕生了“robots.txt協議”,該協議雖然只是一個“君子協議”,但它逐漸被視為網絡空間爬蟲技術應用公認的行業準則,也成為判定爬取行為是否獲得網站許可的主要依據。在2014年百度公司訴奇虎360違反robots協議案中,法院在判決時就認為,被告沒有遵守原告網站的robots協議,其行為明顯不當,應當承擔相應的不利后果。
科技異化:“好爬蟲”和“壞爬蟲”
科技本身是一種中立性工具,向善向惡、合法與非法,關鍵在于使用者的選擇。原本通過robots協議,一方獲得了數據與信息,一方增加了流量與關注,皆大歡喜。但robots協議能防“君子”卻難防“小人”,有些爬蟲程序不遵守規則,隨心所欲地爬取別人不愿意分享的數據信息,并大量擠占服務器資源,變成了“網絡害蟲”。例如近年來一些大數據風控公司利用爬蟲技術,在網絡上非法收集用戶個人信息并轉賣給第三方,借以謀取經濟利益。
網絡爬蟲設計的初衷是通過計算機技術,自動為網站編纂索引,更新信息,為用戶提供高效的檢索服務。具有訪問、下載和解析(對數據進行分析與篩選)三種基本功能。目前,爬蟲作惡主要是對前兩種功能的異化,體現為三類作惡方式。
一是惡意抓取非授權數據。訪問數據是“網絡爬蟲”的行為起點,也是其價值本源,一些企業或個人為了經濟利益或其他特殊目的,想方設法讓網絡爬蟲突破道德規則與技術障礙(網站“反爬蟲”措施),爬取未經授權或超過授權范圍的數據。例如2018年2月至4月間,馬某通過編寫“爬蟲”程序,竊取手機應用及網站的用戶信息約20萬條,然后通過微信出售給他人,非法獲利共計2.4萬元,這種行為就構成了侵犯公民個人信息罪。
二是惡意侵犯知識產權。一些網絡爬蟲在數據爬取過程中,未經版權方的許可,就下載、復制或傳播文字、圖片和視頻等內容,并以此獲利。通常形式是,爬蟲對具有版權歸屬的文學或影視作品等設置加框鏈接,吸引用戶點擊,然后通過售賣廣告等形式牟利。例如段某建立的“窩窩電影”網站,利用爬蟲技術對多家視頻網站的500余部影視作品設置了加框鏈接,吸引用戶點擊播放,并賺取廣告費100余萬元,這種行為就觸犯了著作權法。
三是惡意擾亂系統運行。網絡爬蟲訪問系統時,跟人工點擊原理一樣,因此當巨量爬蟲同時訪問某一網站時,就會占用大量的帶寬資源,造成服務器不堪重負甚至崩潰。業內專家表示,2019年有近40%的網絡流量來自爬蟲,其中20%來自惡意爬蟲,而且比例還將不斷上升。出行行業即是重災區。以中國鐵路“12306網站”為例,自2011年上線運營以來,春運期間多次出現因爬蟲(主要是搶票軟件)攻擊而無法訪問的情況。據統計,2018年春運期間,網站最高峰時1天內頁面瀏覽量達813.4億次,其中近90%是“爬蟲”所為。
合理規制,讓“爬蟲”向善向上
據統計,截至2020年12月,我國網民規模達9.89億。增強網絡空間治理,保障個人信息和數據安全,已成為重大的時代命題。
目前我國對網絡爬蟲的規制還沒有專門的法律法規,主要依靠民法典、反不正當競爭法、著作權法、網絡安全法以及刑法中的相關法律條款。但從法律規制效果來看,情況不容樂觀。一方面是由于互聯網技術的快速發展,以及網絡所具有的開放性、虛擬性和流動性等特征,讓對違法犯罪行為的監管和證據提取較為困難,特別是隨著數據抓取從網頁拓展至手機應用程序、小程序等移動端平臺,抓取手段就更加復雜與隱蔽;另一方面是網絡世界和數字服務發展迅猛,法律法規還具有較大的滯后性,司法實踐對網絡爬蟲技術濫用引發的法律問題缺乏足夠的司法經驗,而相關的司法解釋亦未能予以足夠關注,難以形成有效規制。例如2017年今日頭條與新浪微博之間因“微頭條”業務同步“微博”發言內容的糾紛案例,其實質是數據權屬難以確定的問題。但由于缺乏明確的司法解釋指引,引發了實踐中的普遍爭議。
2019年5月,國家互聯網信息辦公室公布了《數據安全管理辦法(征求意見稿)》,該辦法專門針對利用網絡開展數據收集、存儲、傳輸、處理、使用等活動進行了規制,有望對網絡爬蟲等技術行為進行有效治理。該辦法強調,國家堅持保障數據安全與發展并重,鼓勵研發數據安全保護技術,積極推進數據資源開發利用,保障數據依法有序自由流動。這也提醒我們,網絡爬蟲等本質上是順應數字經濟發展需求而生,既要從法律層面高度重視,也要把握好法律規制的邊界,力求達到數據利用與合理規制之間的良性平衡,以便讓網絡技術更好地服務經濟社會與人民生活,助推數字中國建設。
(作者:韓軼 聶晶,分別系中央民族大學法學院院長、教授,中央民族大學法學院犯罪防控研究中心研究員)
您可能也感興趣:
為您推薦
8家險企股權被掛牌轉讓,為何險企股權不再被追捧?
深圳最低工資標準調整為2360元/月 失業保險金為2124元/月
遼寧實施失業保險省級統籌 對缺口核定等作出詳細規定
排行
最近更新
- 江蘇發布重大項目清單 增資擴產項目明顯增多
- 山東抓投資抓項目 新興領域投資規模持續擴大
- Gucci在2月將投放 10 個“SuperGucci”NFT
- 美國銀行:美國CBDC將保持美元作為世界儲備貨幣的地位
- 美股三大指數尾盤集體轉漲
- 光伏發電概念股有哪些?光伏發電概念龍頭股一覽
- The new iPad屏幕對比評測
- 電源接通延時器
- 汽車電子穩定系統(ESP)詳解
- 聯想B520一體機拆解
- 焦炭相關股票有哪些?焦炭概念股票龍頭一覽
- 增強信號 3G無線上網卡改裝拆解全攻略
- 盤點全球五大智能手機生產商 華為聯想入圍
- 三星新平板 Galaxy Note 10.1全拆解
- 智能監控防盜報警系統
- 格力電器未來三年股東回報規劃:每年累計分紅不低于當年凈利潤50%
- 消息稱京東科技計劃2022年在港IPO,募資10億至20億美元
- 恒大集團:呼吁境外債權人不采取任何激進的法律行動
- 海航董事長劉璐因個人原因辭職,在海航已近28年
- 青青稞酒預計2021年營收增長30%-40%,四季度凈虧損超1500萬
- 2022年在港上市募資10億美元?京東科技:不予置評
- 財政部修訂出臺《財政行政處罰聽證實施辦法》
- 賣房子需要交什么稅?賣房子必須攜帶哪些證件?
- 醫??ǖ氖褂梅秶心男垦a牙可以使用醫保報銷嗎?
- 小產權房能過戶嗎?購買小產權房有什么風險?
- 奕東電子的實際控制人是誰?奕東電子股票上市了嗎?
- 百合股份是一家什么公司?百合股份的股票何時上市?
- 浙江:爭取實施數字人民幣試點
- 支付寶被盜刷后該怎么辦?理賠流程有哪些?
- 春節假期港股休市時間是如何安排的?何時恢復交易?