日本人妻伦伦中文字幕,欧美一卡2卡三卡4卡免费网站

OpenAI瘋狂爬蟲，把一家公司都給爬宕機了，CEO：堪比DDoS

來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-01-13 10:20:51 瀏覽：206次

導(dǎo)讀：金磊發(fā)自凹非寺量子位 | 公眾號 QbitAI萬萬沒想到，能把一家公司網(wǎng)站給搞宕機的元兇，竟然是OpenAI瘋狂爬蟲的機器人GPTBot。（GPTBot是OpenAI早年前推出的一款工具，用來自動抓取整個互聯(lián)網(wǎng)的數(shù)據(jù)。）就在這兩天，一家7人團隊公司（Triplegangers）的網(wǎng)站突然宕機，CEO和員工們趕忙排查問題到底出在的哪里。不查不知道，一查嚇一跳。罪魁禍?zhǔn)渍荗penAI的GPTBot。從CEO的描述 ......

金磊發(fā)自凹非寺

量子位 | 公眾號 QbitAI

萬萬沒想到，能把一家公司網(wǎng)站給搞宕機的元兇，竟然是OpenAI瘋狂爬蟲的機器人GPTBot。

（GPTBot是OpenAI早年前推出的一款工具，用來自動抓取整個互聯(lián)網(wǎng)的數(shù)據(jù)。）

就在這兩天，一家7人團隊公司（Triplegangers）的網(wǎng)站突然宕機，CEO和員工們趕忙排查問題到底出在的哪里。

不查不知道，一查嚇一跳。

罪魁禍?zhǔn)渍荗penAI的GPTBot。

從CEO的描述中來看，OpenAI爬蟲的“攻勢”是有點瘋狂在身上的：

我們有超過65000種產(chǎn)品，每種產(chǎn)品都有一個頁面，然后每個頁面還都有至少三張圖片。

OpenAI正在發(fā)送數(shù)以萬計的服務(wù)器請求，試圖下載所有內(nèi)容，包括數(shù)十萬張照片及其詳細描述。

在分析了公司上周的日志之后，團隊進一步發(fā)現(xiàn)，OpenAI使用了不止600個IP地址抓取數(shù)據(jù)。

OpenAI瘋狂爬蟲，把一家公司都給爬宕機了，CEO：堪比DDoS

△Triplegangers服務(wù)器日志：OpenAI機器人未經(jīng)許可瘋狂爬蟲

如此規(guī)模的爬蟲，就導(dǎo)致這家公司網(wǎng)站的宕機，CEO甚至無奈地表示：

這基本上就是一場DDoS攻擊。

更重要的一點是，由于OpenAI瘋狂地爬蟲，還會引發(fā)了大量的CPU使用和數(shù)據(jù)下載活動，從而導(dǎo)致網(wǎng)站在云計算服務(wù)（AWS）方面的資源消耗劇增，開銷就會大幅增長……

嗯，AI大公司瘋狂爬蟲，卻由小公司來買單。

這家小型團隊的遭遇，也是引發(fā)了不少網(wǎng)友們的討論，有人認為GPTBot的做法并不是抓取，更像是“偷竊”的委婉說法：

OpenAI瘋狂爬蟲，把一家公司都給爬宕機了，CEO：堪比DDoS

也有網(wǎng)友現(xiàn)身表示有類似的經(jīng)歷，自從阻止了大公司的批量AI爬蟲，省了一大筆錢：

OpenAI瘋狂爬蟲，把一家公司都給爬宕機了，CEO：堪比DDoS

被爬蟲到宕機，還不知道被爬走了什么那么OpenAI為什么要爬蟲這家初創(chuàng)企業(yè)的數(shù)據(jù)？

簡單來說，它家的數(shù)據(jù)確實屬于高質(zhì)量的那種。

據(jù)了解，Triplegangers的7名成員花費了十多年的時間，打造了號稱最大“人類數(shù)字孿生”數(shù)據(jù)庫

網(wǎng)站包含從實際人類模型掃描的3D圖像文件，并且照片還帶有詳細的標(biāo)簽，涵蓋種族、年齡、紋身與疤痕、各種體型等信息。

這對于需要數(shù)字化再現(xiàn)真實人類特征的3D藝術(shù)家、游戲制作者等，無疑具有重要價值。

OpenAI瘋狂爬蟲，把一家公司都給爬宕機了，CEO：堪比DDoS

雖然Triplegangers網(wǎng)站上有一個服務(wù)條款頁面，里面明確寫了禁止未經(jīng)許可的AI抓取他們家的圖片。

但從目前的結(jié)果上來看，這完全沒有起到任何作用。

重點在于，Triplegangers沒有正確配置一個文件robots.txt。

robots.txt也稱為機器人排除協(xié)議，是為了告訴搜索引擎網(wǎng)站在索引網(wǎng)絡(luò)時不要爬取哪些內(nèi)容而創(chuàng)建的。

也就是說，一個網(wǎng)站要是不想被OpenAI爬蟲，那就必須正確配置robots.txt文件，并帶有特定標(biāo)簽，明確告訴GPTBot不要訪問該網(wǎng)站。

但OpenAI除了GPTBot之外，還有ChatGPT-User和OAI-SearchBot，它倆也有各自對應(yīng)的標(biāo)簽：

OpenAI瘋狂爬蟲，把一家公司都給爬宕機了，CEO：堪比DDoS

而且根據(jù)OpenAI官方發(fā)布的爬蟲信息來看，即便你立即正確設(shè)置了robots.txt文件，也不會立即生效。

因為OpenAI識別更新這個文件可能需要24個小時……

CEO老哥對此表示：

如果一個網(wǎng)站沒有正確配置robots.txt文件，那么OpenAI和其它公司會認為他們可以隨心所欲地抓取內(nèi)容。

這不是一個可選的系統(tǒng)。

正因如此，也就有了Triplegangers在工作時間段網(wǎng)站被搞宕機，還搭上了高額的AWS費用。

截至美東時間的本周三，Triplegangers已經(jīng)按照要求配置了正確的robots.txt文件。

以防萬一，團隊還設(shè)置了一個Cloudflare賬戶來阻止其它的AI爬蟲，如Barkrowler和Bytespider。

OpenAI瘋狂爬蟲，把一家公司都給爬宕機了，CEO：堪比DDoS

雖然到了周四開工的時候，Triplegangers沒有再出現(xiàn)宕機的情況，但CEO老哥還有個懸而未決的困惑

不知道OpenAI都從網(wǎng)站中爬了些什么數(shù)據(jù)，也聯(lián)系不上OpenAI……

而且令CEO老哥更加深表擔(dān)憂的一點是：

如果不是GPTBot“貪婪”到讓我們的網(wǎng)站宕機，我們可能不知道它一直在爬取我們的數(shù)據(jù)。

這個過程是有bug的，即便你們AI大公司說了可以配置robots.txt來防止爬蟲，但你們把責(zé)任推到了我們身上。

最后，CEO老哥也呼吁眾多在線企業(yè)，要想防止大公司未經(jīng)允許爬蟲，一定要主動、積極地去查找問題。

并不是第一例但Triplegangers并不是第一個因為OpenAI瘋狂爬蟲導(dǎo)致宕機的公司。

在此之前，還有Game UI Database這家公司。

它收錄了超56000張游戲用戶界面截圖的在線數(shù)據(jù)庫，用于供游戲設(shè)計師考。

有一天，團隊發(fā)現(xiàn)網(wǎng)站加載速度變慢，頁面加載時間延長三倍，用戶頻繁遭遇502錯誤，首頁每秒被重新加載200次。

他們一開始也以為是遭到了DDoS攻擊，結(jié)果一查日志……是OpenAI，每秒查詢2次，導(dǎo)致網(wǎng)站幾乎癱瘓。

OpenAI瘋狂爬蟲，把一家公司都給爬宕機了，CEO：堪比DDoS

但你以為如此瘋狂爬蟲的只有OpenAI嗎？

非也，非也。

例如Anthropic此前也被曝出來過類似的事情。

數(shù)字產(chǎn)品工作室Planetary的創(chuàng)始人Joshua Gross曾表示過，他們給客戶重新設(shè)計的網(wǎng)站上線后，流量激增，導(dǎo)致客戶云成本翻倍。

經(jīng)審計發(fā)現(xiàn)，大量流量來自抓取機器人，主要是Anthropic導(dǎo)致的無意義流量，大量請求都返回404錯誤。

OpenAI瘋狂爬蟲，把一家公司都給爬宕機了，CEO：堪比DDoS

針對這一現(xiàn)象，來自數(shù)字廣告公司DoubleVerify的一份新研究顯示，AI爬蟲在2024 年導(dǎo)致“一般無效流量”（不是來自真實用戶的流量）增加了86%。

那么AI公司，尤其是大模型公司，為什么要如此瘋狂地“吸食”網(wǎng)絡(luò)上的數(shù)據(jù)？

一言蔽之，就是他們太缺用來訓(xùn)練的高質(zhì)量數(shù)據(jù)了。

有研究估計過，到2032年全球可用的AI訓(xùn)練數(shù)據(jù)可能就會耗盡，這就讓AI公司加快了數(shù)據(jù)收集的速度。

也正因如此，OpenAI谷歌等AI公司為了獲取更多“獨家”視頻用于AI訓(xùn)練，現(xiàn)在也正紛紛向UP主們重金求購那些“從未公開”的視頻。

而且連價格都標(biāo)好了，如果是為YouTube、Instagram和TikTok準(zhǔn)備的未發(fā)布視頻， 每分鐘出價為1~2美元（總體一般是1~4美元），且根據(jù)視頻質(zhì)量和格式的不同，價格還能再漲漲。

OpenAI瘋狂爬蟲，把一家公司都給爬宕機了，CEO：堪比DDoS

那么你對這一現(xiàn)象有什么看法呢？歡迎在評論區(qū)留言討論~

參考鏈接：[1]https://techcrunch.com/2025/01/10/how-openais-bot-crushed-this-seven-person-companys-web-site-like-a-ddos-attack/[2]https://www.reddit.com/r/webscraping/comments/1bapx0j/how_did_openai_scrap_the_entire_internet_for/[3]https://www.marktechpost.com/2023/08/10/openai-introduces-gptbot-a-web-crawler-designed-to-scrape-data-from-the-entire-internet-automatically/[4]https://platform.openai.com/docs/bots/overview-of-openai-crawlers[5]https://www.businessinsider.com/openai-anthropic-ai-bots-havoc-raise-cloud-costs-websites-2024-9

相關(guān)熱詞： openai 爬蟲金磊 ddos 機器人首席執(zhí)行官

OpenAI瘋狂爬蟲，把一家公司都給爬宕機了，CEO：堪比DDoS
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-01-13 10:20:51 瀏覽：206次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

OpenAI瘋狂爬蟲，把一家公司都給爬宕機了，CEO：堪比DDoS 來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-01-13 10:20:51 瀏覽：206次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

OpenAI瘋狂爬蟲，把一家公司都給爬宕機了，CEO：堪比DDoS
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-01-13 10:20:51 瀏覽：206次