劃重點(diǎn)
01Perplexity、GPT、Kimi和智譜等國內(nèi)外四個(gè)爆款產(chǎn)品競相推出大升級搜索功能,以提高實(shí)用性和信息占有量。
02然而,這些AI搜索在理解用戶意圖方面仍存在局限,需要更深入的研究和優(yōu)化。
03AI搜索在整合海量信息、提煉有效部分方面具有優(yōu)勢,但實(shí)際應(yīng)用中仍需關(guān)注資料深度和操作性。
04未來,AI搜索的競爭將更多聚焦在前者,即更深入地理解用戶意圖,提供更有針對性的服務(wù)。
以上內(nèi)容由騰訊混元大模型生成,僅供參考
在 OpenAI 融資完之后,Perplexity 也在找錢了:據(jù)《華爾街日報(bào)》報(bào)道,這家一直以來廣受好評的 AI 搜索,希望以 80 億美元的估值,尋求 5 億美元的融資。
雖然自從出道以來,Perplexity 在搜索上一直很領(lǐng)先,但不是沒有與各大出版商鬧矛盾,而且也不是沒有對手,各家都對搜索業(yè)務(wù),都盯得很牢。真正落實(shí)到使用層面,總有一個(gè)問題:被 AI 賦能,尤其是被大語言模型賦能之后的搜索,究竟哪里有所不同了?這篇文章里我們測評了幾個(gè)推出了「大升級」了的搜索工具,包括 Perplexity 的 Pro 模式,GPT 的新模型、Kimi 的探索版,智譜的 AI 搜索,秘塔的深度和研究版。簡而言之:更廣更多的資料、更深的信息占有量,是毋庸置疑的,但這只是一部分。還可以更有所不同的,是對用戶意圖的理解與感知。關(guān)注 AI 第一新媒體,率先獲取 AI 前沿資訊和洞察實(shí)用性測評:不僅能搜,搜完就能用如果說 AI 加持后的搜索功能有什么變化,一定是實(shí)用性上的提升,得到的信息對解決實(shí)際問題更有效了。以一個(gè)操作性非常強(qiáng)的問題為例,「如何在 mac 系統(tǒng)上,批量修改音樂文件封面」。在百度這樣的傳統(tǒng)搜索引擎上,輸入關(guān)鍵字,出現(xiàn)的是一大堆信息的羅列,而且關(guān)聯(lián)度很低。
Google 的關(guān)聯(lián)度好一點(diǎn),但還是需要用戶自己點(diǎn)進(jìn)去,逐一確認(rèn)內(nèi)文究竟說的方法,是不是能用。
從前的搜索引擎,是圍繞關(guān)鍵字,搜羅一大堆信息,有相似度,但不多,并且需要用戶自己做第一輪整理。而大語言模型給搜索注入靈魂之后,重新組織了海量信息,整合成了相關(guān)度最高的樣子,返送給用戶這直接省掉了第一輪整理的過程。比如下面的 ChatGPT,根據(jù)方法的類型,總結(jié)出了三類。
不過,AI 雖好但不能依賴,比如下面智譜,在「使用 Finder」和「使用 Apple Music」兩個(gè)方式下面的細(xì)節(jié)步驟,完全是一樣的。
更保險(xiǎn)的方法是在幾個(gè) AI 搜索里,同一個(gè)問題獲取不同的回答,橫向?qū)Ρ,以免其中一個(gè)出現(xiàn)幻覺。接下來,在操作細(xì)節(jié)上進(jìn)一步詢問,也會(huì)提出相應(yīng)的方法。
Kimi 探索版
相比于 4o 給出的籠統(tǒng)回答,Kimi 給出了更多的細(xì)節(jié)或者說,是在 4o 的基礎(chǔ)上,調(diào)整了回答的格式,讓回答更有操作性。不是每個(gè) AI 搜索都擅長給具體實(shí)用的建議,像 Perplexity,就只丟出來可以用的軟件。
實(shí)用性還體現(xiàn)在對數(shù)據(jù)的抓取上,以 Kimi 的演示 prompt 為例「世界上最有錢的 10 個(gè)人是誰?他們都是做什么的?」,各家的表現(xiàn)都不太一樣。
其中,注重資料深度的 Perplexity 和 Kimi,都把具體的數(shù)字列出來了,Perplexity 更加是直接拉了個(gè)表格,每一個(gè)詞條都貼出了出處。
涉及到數(shù)字的信息,列表格是更清晰的方式。不過 Perplexity 自己的表格,和下面的總結(jié)里,排序不太一樣。甚至,這四個(gè) AI 搜索給出的結(jié)果排序,都不太一樣自行核查還是很有必要的。接下來我嘗試了一個(gè)比較有挑戰(zhàn)性的問題,「在準(zhǔn)備業(yè)余無線電考試期間,我可以買什么樣的設(shè)備熟悉操作?」
一個(gè)小小的備注:業(yè)余無線電是需要考證的,在牌照下來前,只能聽不能發(fā)。所以這個(gè)問題,暗地里在考驗(yàn)?zāi)P蜁?huì)不會(huì)了解到這樣的「隱藏信息」。秘塔和 Kimi 都直接給出了設(shè)備的種類、建議的品牌。其中秘塔還從一些論壇里搜索,整合出了用戶評價(jià)。這個(gè)做法沿可以擴(kuò)展到所有比價(jià)的場景上。
不過,這幾個(gè) AI 搜索都沒有涉及到是否具備發(fā)射資格的問題,秘塔和智譜提到了要確認(rèn)設(shè)備是否具備發(fā)射核準(zhǔn),但這是針對設(shè)備而不是用戶的。Kimi 模糊地提到需要遵守通聯(lián)流程和禮儀,比較像是按慣例寫了點(diǎn)安全守則。
「在準(zhǔn)備考試期間」已經(jīng)非常明牌了,這就是還沒有取得牌照的階段。只能說 AI 在真正理解用戶的處境這方面,還是能力有限。簡單小結(jié)一下是:基于大模型的 AI 搜索更有實(shí)用性,能夠整合海量信息,提煉出最有效的部分。資料深度:是搜索就下一百層在測評實(shí)用性的過程中,我發(fā)現(xiàn) Kimi 隨機(jī)提供的一些演示案例里有這樣一個(gè)問題:標(biāo)注三國戰(zhàn)役地點(diǎn),對應(yīng)現(xiàn)代城市和地區(qū)。很自信喔。三國是中國歷史上非常有趣的一個(gè)歷史時(shí)期,群雄割據(jù),人物和事件多變。而且正史和野史齊飛,三國演義和三國志傻傻分不清。更有趣的是,在中文以外的世界也有很多研究對三國感興趣,歐美和日本有不少針對漢代和三國的研究學(xué)者,是一個(gè)信息存量很豐富的時(shí)期。這樣一個(gè)問題,就非?简(yàn)對資料和信息的占有量。這一次我直接把 ChatGPT 踢出戰(zhàn)局了,因?yàn)椴惶峁┚唧w出處,沒辦法判斷它的占有深度。我決定用主打文庫檢索的秘塔代替它的位置。
可以看到中間 Perplexity 和智譜,表現(xiàn)無功無過,都以官渡之戰(zhàn)作為三國的開端來計(jì)算,周期大概是公元 200 年到 230 年之間。而 Kimi 展現(xiàn)出了一些不同的理解:以公元 184 年的黃巾起義為開端,把后漢末尾、三國前夜的幾場戰(zhàn)事都包含了進(jìn)去。我問了一下為什么這么做,它回答:我不是,我沒有。
而秘塔搜索展示出了完全不一樣的資料占有量。就像上面說,在文庫和深入模式下,它不僅有相關(guān)教科書上的研究,囊括了非中文的相關(guān)文獻(xiàn)。
可能是時(shí)效性還可以提高,這兩年出版的一些新書沒有囊括進(jìn)去。但是這個(gè)資料占有量的廣度和豐富度,已經(jīng)相當(dāng)不錯(cuò)了。不過秘塔有一個(gè)迷惑的 bug:居然翻查了 Kimi 的測評網(wǎng)頁……
AI 生成 AI 搜,閉環(huán)了屬于是。這個(gè) bug 反而能看出來,AI 搜索再先進(jìn),也會(huì)有無效網(wǎng)頁,本質(zhì)上還是基于對 prompt 更細(xì)的拆解,切分出更小單位的關(guān)鍵詞至于有沒有后探到關(guān)鍵詞所屬的知識領(lǐng)域,那就不一定了。這是中文資料的檢索。接下來我做了另一個(gè)檢索,更偏向于非中文資料:1978 年,哲學(xué)與心理學(xué)協(xié)會(huì)舉辦了一場座談會(huì),最后這演變成了幾位哲學(xué)家對于 AI 的辯論,其中包括諾姆喬姆斯基(Noam Chomsky)、杰里福多(Jerry Fodor)、羅杰尚克(Roger Schank)和特沃溫諾格拉德(Terry Winograd)。具體的情況是什么?
四個(gè)搜索給出的回答都大同小異:整理了這場辯論的正反方人物、各自的觀點(diǎn)、這場辯論所帶來的影響,等等,算是打了個(gè)平手。不過,考慮到這次主要看的是資料深度,秘塔的表現(xiàn)更好,資料深度很驚艷。
實(shí)際上,1978 年的這次辯論沒有太多原始記錄,只有哲學(xué)家 Daniel Dennett 的一篇論文中提到了一下。Perplexity 和 Kimi 都需要追問一下,智譜則是在追問環(huán)節(jié)直接卡住了。秘塔第一次就收錄到了這篇論文,放在了引用目錄里,點(diǎn)擊可以直接找到相關(guān)的段落。
總結(jié)一下,大語言模型對于搜索而言最有意義的是兩點(diǎn):一,基于語義的用戶理解,提供有操作性的信息。二,跳出關(guān)鍵字的圈圈,后探到更深的知識領(lǐng)域。這兩點(diǎn)說起來容易,做起來很難。兩者當(dāng)中,都涉及對用戶意圖的理解。但是了解用戶的意圖,難度堪比讀空氣打過工的人都知道,這里面的門道有多深。不要說模型對人的意圖理解,就是日常生活中人與人之間、同事與同事之間、同事與領(lǐng)導(dǎo)之間,想要理解彼此的意圖,都要付出溝通成本。模型想要通過用戶的提問來揣測意圖,前提是提問越清晰越好,然而用戶自己可能也并不百分百清楚自己要的是什么。相比之下,后者的容錯(cuò)率更高一點(diǎn):不知道用戶到底想要什么,那就有什么給什么,資料深度直下一百層,總有一份能擊中目標(biāo)。這可能也是為什么各家 AI 搜索,在推出 Pro 版、plus 版、深度版等等高級服務(wù)時(shí),都主打一個(gè)搜索又大又全。而這場競爭的下一個(gè)賽點(diǎn),可能恰恰在前者,畢竟那涉及到人類對人工智能的終極幻想:想我所想,懂我所懂。