信息和決策系統(tǒng)實(shí)驗(yàn)室的達(dá)文特-沙赫教授和他的學(xué)生斯塔尼斯拉夫-尼科洛夫聲稱他們的運(yùn)算法則能以95%的準(zhǔn)確度預(yù)測出哪些詞語、句子或者標(biāo)題將成為流行趨勢,甚至能夠提前到4到5小時(shí)。他們通過“訓(xùn)練”它來進(jìn)行預(yù)測,教導(dǎo)它如何計(jì)算出什么樣的顯示形式很可能成為一個(gè)流行話題。
按照慣例來說,像這樣的一個(gè)預(yù)測系統(tǒng)將會查看微博的流量并且把它所觀察到的與一個(gè)特定的模型進(jìn)行匹配。當(dāng)一個(gè)話題與普通背景話題相比更加突出的時(shí)候,你可以通過設(shè)定程序來尋找一個(gè)特定的‘階梯’。沙赫解釋道:“這是一個(gè)非常簡單的模型。根據(jù)數(shù)據(jù)分析,你可以設(shè)法訓(xùn)練它什么時(shí)候會出現(xiàn)跳躍以及會發(fā)生多大的跳躍。”
最終他們的運(yùn)算法則并不是尋找微博流量樣本的一種特定模式,而是著眼于每個(gè)新話題的微博數(shù)量隨著時(shí)間的變化并且與訓(xùn)練組的每個(gè)樣本隨著時(shí)間的變化進(jìn)行比對。如果一個(gè)新話題從統(tǒng)計(jì)學(xué)上類似于其中一個(gè)樣本,這就會為它預(yù)測新話題是否將趨于流行增加砝碼。事實(shí)上每一個(gè)訓(xùn)練樣本都會對一個(gè)新話題流行與否進(jìn)行“投票”,而一些樣本的得票數(shù)比其它的更高。這些投票就會傳遞一種新話題可能會流行的指示。
沙赫和尼科洛夫借助含有200個(gè)微博流行話題和200個(gè)非流行話題的訓(xùn)練組對這種運(yùn)算法則進(jìn)行訓(xùn)練。他們讓這種算法開始工作而且它成功的以95%的正確率從非流行的話題中篩選出成功流行的話題。
然而這種模型有效的原因是它并不過濾它感興趣的流量,與傳統(tǒng)模型想比它需要更強(qiáng)大的計(jì)算能力。沙赫稱,由于這種算法的數(shù)據(jù)比例,除了谷歌(微博)、臉譜網(wǎng)、亞馬遜和其它擁有最大云計(jì)算能力的公司之外,它或許并不能用于非常龐大的數(shù)據(jù)組。雖然它會對微博本身產(chǎn)生商業(yè)影響,但微博公司或許能夠借助它對流行話題的廣告鏈接進(jìn)行收費(fèi)。這種運(yùn)算法則也能夠培訓(xùn)用于各種各樣的其它情況,甚至能夠預(yù)測股票價(jià)格。