展會(huì)信息港展會(huì)大全

谷歌AI播客剛火,Meta就開(kāi)源了平替,效果一言難盡
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-10-28 14:52:52   瀏覽:2902次  

導(dǎo)讀:劃重點(diǎn) 01谷歌和Meta相繼推出基于大語(yǔ)言模型的AI播客功能,豐富人類(lèi)用戶(hù)與AI智能體互動(dòng)的體驗(yàn)。 02Meta推出了NotebookLlama,作為谷歌NotebookLM的開(kāi)源平替版,使用Llama模型進(jìn)行任務(wù)處理。 03然而,NotebookLlama的效果不如谷歌NotebookLM,帶有明顯的機(jī)器...

劃重點(diǎn)

01谷歌和Meta相繼推出基于大語(yǔ)言模型的AI播客功能,豐富人類(lèi)用戶(hù)與AI智能體互動(dòng)的體驗(yàn)。

02Meta推出了NotebookLlama,作為谷歌NotebookLM的開(kāi)源平替版,使用Llama模型進(jìn)行任務(wù)處理。

03然而,NotebookLlama的效果不如谷歌NotebookLM,帶有明顯的機(jī)器人口音,且對(duì)話時(shí)機(jī)不自然。

04項(xiàng)目背后的Meta研究人員表示,使用更強(qiáng)大的模型可以提高質(zhì)量,未來(lái)有望變得更好。

以上內(nèi)容由騰訊混元大模型生成,僅供參考

機(jī)器之心報(bào)道

編輯:杜偉、陳陳

隨著谷歌和 Meta 相繼推出基于大語(yǔ)言模型的 AI 播客功能,將極大地豐富人類(lèi)用戶(hù)與 AI 智能體互動(dòng)的體驗(yàn)。

上個(gè)月,谷歌宣布對(duì)旗下 AI 筆記應(yīng)用 NotebookLM 進(jìn)行一系列更新,允許用戶(hù)生成 YouTube 視頻和音頻文件的摘要,甚至可以創(chuàng)建可共享的 AI 生成音頻討論。加上此前支持的谷歌文檔、PDF、文本文件、谷歌幻燈片和網(wǎng)頁(yè),NotebookLM 的用例和覆蓋范圍進(jìn)一步擴(kuò)大。

本月初,AI 大牛 Karpathy 發(fā)推表示自己只用了兩個(gè)小時(shí)就創(chuàng)建了一個(gè) 10 集的系列博客 歷史謎團(tuán)(Histories of Mysteries),其中就使用 NotebookLM 將每個(gè)主題的維基百科條目鏈接在一起,并生成播客視頻;同時(shí)也使用 NotebookLM 編寫(xiě)博客 / 劇集描述。

谷歌AI播客剛火,Meta就開(kāi)源了平替,效果一言難盡

就這兩天,Meta 推出了 NotebookLM 的開(kāi)源平替版 NotebookLlama,它使用 Llama 模型進(jìn)行大部分任務(wù)處理,包括 Llama-3.2-1B-Instruct、Llama-3.1-70B-Instruct 和 Llama-3.1-8B-Instruct。

下圖為 NotebookLlama 運(yùn)行流程,首先從文件(比如新聞文章或博客文章)創(chuàng)建轉(zhuǎn)錄文本,然后添加「更多戲劇化」和中斷,最后將轉(zhuǎn)錄文本饋入到開(kāi)放的文本到語(yǔ)音模型。

谷歌AI播客剛火,Meta就開(kāi)源了平替,效果一言難盡

據(jù)外媒 Techcrunch 報(bào)道,NotebookLlama 的效果聽(tīng)起來(lái)不如谷歌 NotebookLM 好,帶有明顯的機(jī)器人口音,并且往往會(huì)在奇怪的時(shí)刻「互相交談」。不過(guò),項(xiàng)目背后的 Meta 研究人員表示,使用更強(qiáng)大的模型還可以提高質(zhì)量。

Meta 研究人員在 NotebookLlama 的 GitHub 頁(yè)面寫(xiě)到,「文本到語(yǔ)音模型限制了聲音的自然程度。」此外,編寫(xiě)播客的另一種方法是讓兩個(gè)智能體就感興趣的主題進(jìn)行討論并編寫(xiě)播客大綱。現(xiàn)在,Meta 只使用了一個(gè)模型來(lái)編寫(xiě)播客大綱。

就像下面所展示的,雖然播客內(nèi)容還有一些粗糙,但它聽(tīng)起來(lái)已經(jīng)很不錯(cuò)了。

對(duì)于 Meta 的 NotebookLlama,有人直言聽(tīng)起來(lái)糟糕透了,要想真正地對(duì)標(biāo)谷歌的 NotebookLM,就要在語(yǔ)音轉(zhuǎn)換效果上接近人類(lèi)水平。不過(guò)也有人認(rèn)為,雖然目前效果不佳,但隨著所有代碼的開(kāi)源,用戶(hù)可以自定義嘗試不同的提示方法等,相信未來(lái)會(huì)變得更好。

谷歌AI播客剛火,Meta就開(kāi)源了平替,效果一言難盡

雖然效果還是差點(diǎn)意思,但也有網(wǎng)友表示:「現(xiàn)在是時(shí)候讓 Google 加快步伐了,Meta 已經(jīng)緊隨其后趕上來(lái)了,開(kāi)源 NotebookLM!

谷歌AI播客剛火,Meta就開(kāi)源了平替,效果一言難盡

項(xiàng)目介紹

根據(jù) Meta 發(fā)布的教程配方,你可以基于 PDF 文件構(gòu)建播客。

谷歌AI播客剛火,Meta就開(kāi)源了平替,效果一言難盡

項(xiàng)目地址:https://github.com/meta-llama/llama-recipes/tree/main/recipes/quickstart/NotebookLlama

第一步:對(duì) PDF 進(jìn)行預(yù)處理。即使用 Llama-3.2-1B-Instruct 對(duì) PDF 進(jìn)行預(yù)處理,并將其保存為.txt 文件;

第二步:轉(zhuǎn)錄文本編寫(xiě)器。使用 Llama-3.1-70B-Instruct 模型從文本中編寫(xiě)播客轉(zhuǎn)錄文本;

第三步:對(duì)內(nèi)容重新優(yōu)化,添加戲劇性。使用 Llama-3.1-8B-Instruct 模型使轉(zhuǎn)錄文本更具有創(chuàng)意;

第四步:文本到語(yǔ)音。使用 parer -tts/parer -tts-mini-v1(文本到語(yǔ)音模型)和 bark/suno 生成會(huì)話播客。

不過(guò),還有幾個(gè)值得大家注意的點(diǎn):

首先,在步驟 1 中,需要提示 1B 模型不要修改文本或?qū)ξ谋具M(jìn)行總結(jié),并嚴(yán)格清理掉可能在 PDF 轉(zhuǎn)錄過(guò)程中出現(xiàn)的多余字符或垃圾字符。

其次,對(duì)于步驟 2,你也可以使用 Llama-3.1-8B-Instruct 模型,然后對(duì)比不同模型的效果。項(xiàng)目中采用的是 70B 模型,原因在于它為測(cè)試示例提供了更具創(chuàng)意的播客記錄。

對(duì)于步驟 4,你也可以使用其他模型進(jìn)行擴(kuò)展,較新的模型可能聽(tīng)起來(lái)更好。

想要順暢的運(yùn)行該項(xiàng)目,你需要有 GPU 服務(wù)器或者使用 70B、8B 和 1B Llama 模型的 API 提供商。如果你采用的是 70B 模型,那么需要一個(gè)總內(nèi)存約為 140GB 的 GPU 來(lái)以 bfloat-16 精度進(jìn)行推理。

退一步講,如果你的 GPU 并不是很好,也可以使用 8B 模型跑通整個(gè) pipeline。

接下來(lái)是安裝。在開(kāi)始之前,請(qǐng)確保使用 huggingface cli 登錄,然后啟動(dòng) jupyter notebook ,以確保能夠下載 Llama 模型。

接著運(yùn)行代碼:

git clone https://github.com/meta-llama/llama-recipes

cd llama-recipes/recipes/quickstart/NotebookLlama/

pip install -r requirements.txt

Notebook 1:Notebook 1 用于處理 PDF,并使用新的 Feather light 模型將其處理為.txt 文件。

Notebook 2:Notebook 2 將接收 Notebook 1 處理后的輸出,并使用 Llama-3.1-70B-Instruct 模型創(chuàng)造性地將其轉(zhuǎn)換為播客腳本。如果你擁有豐富的 GPU 資源,也可以使用 405B 模型進(jìn)行測(cè)試!

Notebook 3:Notebook 3 采用了之前的文本,并提示 Llama-3.1-8B-Instruct 在對(duì)話中添加更多的戲劇化和中斷。

Notebook 4:最后,Notebook 4 從上一個(gè) notebook 中獲取結(jié)果并將其轉(zhuǎn)換為播客。項(xiàng)目中使用了 parer -tts/parer - ttts -mini-v1 和 bark/suno 模型進(jìn)行對(duì)話。

這里有一個(gè)問(wèn)題:Parler 需要 4.43.3 或更早版本的 transformer,但對(duì)于 pipeline 中的步驟 1 到 3,需要最新的版本,所以需要在最后一個(gè) notebook 中切換版本。

最后,項(xiàng)目列出了未來(lái)需要改進(jìn)的地方:

語(yǔ)音模型:TTS 模型使語(yǔ)音聽(tīng)起來(lái)不是很自然,未來(lái)可以納入更好的模型;

更好的提示;

支持提取網(wǎng)站、音頻文件、YouTube 鏈接等。

參考鏈接:https://techcrunch.com/2024/10/27/meta-releases-an-open-version-of-googles-podcast-generator/?guccounter=1

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港