場景描述
受巨大的商業(yè)利益驅(qū)動(dòng),爬蟲現(xiàn)象普遍存在于各行各業(yè),如高科技與金融、旅游與酒店、數(shù)字媒體、電子商務(wù)、社交媒體等。其中,電商領(lǐng)域的爬蟲現(xiàn)象顯著高于其他行業(yè)。
善意的爬蟲如搜索引擎,它們?yōu)樾畔⒘魍ㄅc檢索提供了便利,有助于提升企業(yè)的網(wǎng)絡(luò)可見度和營收;中性的爬蟲則涉及了許多提供“爬蟲即服務(wù)”的公司,如Web scraping bots、BrightData等,它們旨在幫助用戶進(jìn)行信息收集與聚合,從事市場調(diào)研、競品分析等非惡意活動(dòng),但這類工具也許會(huì)被不當(dāng)使用與濫用;有害的爬蟲也就是“壞爬蟲”,可能從事撞庫攻擊、庫存抓取等惡意行為,不僅威脅到用戶的賬戶安全,也會(huì)嚴(yán)重?fù)p害企業(yè)利益與安全。
撞庫攻擊:利用從暗網(wǎng)等非法渠道獲取的龐大用戶名和密碼列表,通過自動(dòng)化程序嘗試登錄其他網(wǎng)站,以尋找可復(fù)用的憑證。一旦用戶賬戶被非法入侵,企業(yè)信譽(yù)和資產(chǎn)都可能受到波及。
“庫存抓取”機(jī)器人:專門緊盯新品或限量版商品,一旦發(fā)現(xiàn)便迅速搶購一空,再轉(zhuǎn)而在自己的平臺(tái)上高價(jià)銷售,不僅擾亂了市場秩序,也嚴(yán)重?fù)p害了企業(yè)的合法權(quán)益和利潤,更是對電商生態(tài)產(chǎn)生潛在威脅。
那么,在實(shí)際應(yīng)用中,不法分子是如何利用爬蟲技術(shù)從電商領(lǐng)域獲利的呢?鈦媒體App了解到,爬蟲玩轉(zhuǎn)了“全網(wǎng)最低價(jià)”策略,首先是廣泛搜集各銷售網(wǎng)站數(shù)據(jù),包括產(chǎn)品價(jià)格、庫存等關(guān)鍵信息;通過對比分析,找出價(jià)格最優(yōu)、優(yōu)惠力度最大的電商平臺(tái);谶@些信息,轉(zhuǎn)而在另一個(gè)平臺(tái)上開設(shè)自己的店鋪,以準(zhǔn)新或全新未開封的產(chǎn)品進(jìn)行轉(zhuǎn)售,利用價(jià)格優(yōu)勢實(shí)現(xiàn)盈利。甚至還可能利用腳本搶占庫存、購買促銷商品后轉(zhuǎn)售牟利,給電商生態(tài)帶來潛在威脅。
值得注意的是,隨著技術(shù)的進(jìn)步,融入了AI和機(jī)器學(xué)習(xí)技術(shù)的爬蟲服務(wù)也日益智能化,它們能自動(dòng)從多個(gè)數(shù)據(jù)源抓取內(nèi)容,通過預(yù)設(shè)的邏輯進(jìn)行數(shù)據(jù)抽取與分析,這種一站式解決方案無疑是把雙刃劍。尤其對電商網(wǎng)站的所有者來說,爬蟲技術(shù)演進(jìn)后,其隱蔽性越來越強(qiáng),特別是采用“無頭瀏覽器”等技術(shù)的爬蟲已經(jīng)能模擬人類訪問行為,使得傳統(tǒng)安全手段難以有效識(shí)別與攔截。此外,不斷泛濫的爬蟲還會(huì)不斷變化,一次防御過后,下一次還可能會(huì)出現(xiàn)變種,這對企業(yè)構(gòu)成了巨大的挑戰(zhàn)。
解決方案
點(diǎn)擊報(bào)名參與創(chuàng)新場景50的評選
Akamai北亞區(qū)技術(shù)總監(jiān)劉燁告訴鈦媒體App,面對日趨復(fù)雜的網(wǎng)絡(luò)爬蟲,企業(yè)的應(yīng)對策略應(yīng)分而治之,以確保好的爬蟲能夠正常訪問,而對壞的爬蟲進(jìn)行處理。這就要求,首先要能夠識(shí)別爬蟲,其次,針對不同類型的爬蟲再采取相應(yīng)的應(yīng)對措施。
識(shí)別的核心,即如何分析行為并利用數(shù)據(jù)庫查看特征。具體來看有兩種方法:第一種方法是通過觀察足夠多的請求,建立一個(gè)大型數(shù)據(jù)庫,用于記錄并分析請求的特征。如果請求來自惡意爬蟲,則需要識(shí)別其來源和特征。第二種方法是判斷數(shù)據(jù)庫之外的請求是人還是爬蟲,需要分析其行為,以確定是否可能影響企業(yè)敏感信息或?qū)﹄娚叹W(wǎng)站造成不利影響。
針對識(shí)別出的壞爬蟲,下一步則是考慮采取什么樣的應(yīng)對方法。劉燁表示:“通常我們提到的應(yīng)對措施是針對其它產(chǎn)品,如應(yīng)用防火墻(WAF),其主要模式是‘報(bào)警’和‘阻止’。然而處理爬蟲時(shí),通常不是簡單地阻攔或禁止,而是管理它們。一旦識(shí)別出爬蟲,即使是惡意爬蟲,也應(yīng)該采取不同的處理方式。”
處理爬蟲的方法可以有多種不同選擇。例如,可以選擇不禁止它,但不做任何響應(yīng),讓它誤以為連接仍在進(jìn)行;或者是給它提供虛假信息,例如在它抓取價(jià)格時(shí)返回給它一個(gè)虛假的價(jià)格;當(dāng)然也可以選擇直接禁止它。以上措施一般是根據(jù)實(shí)際情況進(jìn)行動(dòng)態(tài)調(diào)整。
具體到Akamai的做法,其提出了雙重應(yīng)對策略。首先,在邊緣網(wǎng)絡(luò)層面,利用預(yù)定義的訪問異常特征和協(xié)議指紋來快速識(shí)別并限制惡意爬蟲。其次,通過深入分析訪問行為(如鼠標(biāo)移動(dòng)軌跡、鍵盤敲擊模式)和設(shè)備指紋,結(jié)合機(jī)器學(xué)習(xí)模型,進(jìn)一步細(xì)化識(shí)別精度,確保對潛在威脅的精準(zhǔn)打擊。
同時(shí),面對AI加持下不斷變化的爬蟲,企業(yè)和安全廠商也應(yīng)采取更多自動(dòng)化策略。當(dāng)出現(xiàn)新的攻擊類型時(shí),不需要人為干預(yù),策略引擎能夠自動(dòng)部署新的策略,有針對性地阻止這些新攻擊。這是應(yīng)對快速變化的攻擊類型和產(chǎn)品演進(jìn)的重要措施。
成效
關(guān)于電商場景中可能遇到的爬蟲問題,包含三個(gè)具體例子,分別針對爬蟲識(shí)別、被動(dòng)成本、“撞庫”威脅。
第一個(gè)例子是對電商網(wǎng)站高風(fēng)險(xiǎn)爬蟲的識(shí)別管理。通過一周的監(jiān)測,Akamai判斷出某客戶電商網(wǎng)站的人類訪問、高風(fēng)險(xiǎn)爬蟲、中風(fēng)險(xiǎn)爬蟲、善意爬蟲類型,識(shí)別出使用高級腳本的惡意爬蟲比例高達(dá)97%,進(jìn)行爬蟲管理后,這一比例降至不到1/3,有效禁掉了大部分高風(fēng)險(xiǎn)爬蟲。
第二個(gè)案例是針對爬蟲帶來的被動(dòng)成本威脅。當(dāng)企業(yè)短信接口被爬蟲觸發(fā)時(shí),頻繁的短信發(fā)送導(dǎo)致了成本損失。通過爬蟲管理平臺(tái)能夠識(shí)別并處理這類爬蟲,從而降低費(fèi)用損失。
「關(guān)于創(chuàng)新場景50」
場景不是案例,它更加精準(zhǔn)、也更加抽象。數(shù)字化就是創(chuàng)新場景的不斷疊加和迭代。
在此背景下,鈦媒體重磅推出「創(chuàng)新場景50」評選,每年遴選并解讀50個(gè)全行業(yè)與業(yè)務(wù)深度融合的創(chuàng)新性場景及其解決方案,并在鈦媒體年度ITValue Summit 數(shù)字價(jià)值年會(huì)上隆重頒獎(jiǎng)、深度交流。