劃重點
01Google推出的NotebookLM產(chǎn)品以其音頻概覽功能受到關(guān)注,將復(fù)雜內(nèi)容以播客形式呈現(xiàn),讓聽眾更容易理解。
02NotebookLM支持上傳多種格式內(nèi)容,包括音頻、視頻、PDF等,自動生成摘要、問題和建議,幫助用戶更好地消化信息。
03除此之外,NotebookLM還能以多種方式理解并解讀用戶上傳的內(nèi)容,如生成常見問題解答、簡報文檔等。
04盡管目前NotebookLM不支持中文,但未來有望推出支持中文的版本,滿足用戶需求。
05目前,NotebookLM的下一目標(biāo)是實現(xiàn)更廣泛的輸入和輸出支持,讓用戶能夠更自由地創(chuàng)作和消費內(nèi)容。
以上內(nèi)容由騰訊混元大模型生成,僅供參考
Google,硅谷的代言人,AI 界的巨擘,技術(shù)牛,論文多,做給消費者用的 AI 產(chǎn)品,卻幾乎沒有出圈的。不過,也有一個例外:NotebookLM,甚至連死對頭 Sam Altman 也覺得它很酷。
偏偏 NotebookLM 走的還是一條有些小眾的賽道播客。關(guān)注 AI 第一新媒體,率先獲取 AI 前沿資訊和洞察
不想看的內(nèi)容,讓 AI 聊給你聽就好了NotebookLM 受歡迎,主要是因為一個功能:Audio Overview(音頻概覽)。更通俗地理解,就是 AI 播客。任何你懶得消化的內(nèi)容,都可以丟給它試試,幾分鐘轉(zhuǎn)成一男一女的對談,比原來的材料更加接地氣。
NotebookLM 支持上傳多種格式的內(nèi)容不過有些遺憾,音頻概覽雖然可以消化中文材料,但只能輸出英文。
好奇海外的 AI 能不能理解國產(chǎn)劇的愛恨情仇,我上傳了一段描述甄生平的文字,大約 500 多字,NotebookLM 用 2 分鐘左右,就生成了 5 分鐘左右的音頻。光聽英文音頻不太直觀,所以我下載了音頻,上傳到通義聽悟,看看 AI 在聊些什么。AI 解讀得一針見血,不僅讀懂甄,也理解皇帝,抓住了宮斗劇的主要矛盾權(quán)力。
腦洞更大一點,以后一個人追劇再也不會寂寞,AI 就是性價比最高的追劇搭子,還能陪練英語,教我們「not my cup of tea」(不是我的菜)這樣的地道表達。
與其精讀外刊和專八文章,不如基于我們自己喜歡的內(nèi)容,讓 AI 生成英文學(xué)習(xí)資料,畢竟,興趣是最好的老師。除了陪著學(xué)習(xí)英語和八卦,輸出正經(jīng)的分析,NotebookLM 也沒問題。我以 PDF 的形式上傳了一篇吐槽 AI 廣告的、3700 字左右的文章《滿大街的 AI 廣告,是一次審美大降級》。基于這篇文章,NotebookLM 用 5 分鐘左右生成了一段 11 分 40 秒的音頻。作為文章作者本人的我,像是遇到了兩個熱情又很懂我的讀者,NotebookLM 對文章進行了重新詮釋,創(chuàng)造了一個相關(guān)又獨立的作品。播客的開頭,AI 自然地引出了主題,男聲問,你有沒有看到過一些糟糕的廣告,奇怪它們居然能上街?女聲答,你說得不錯,這就是我們要討論的主題。
同時,AI 也懂靈活變通,不照搬文章的邏輯,而是重新編排了素材,改寫觀點的表達方式,但內(nèi)核相同,甚至自己舉出例子,將 AI 廣告類比到 AI 音樂。
對于怎么吐槽,AI 也有自己的見解,看得出來努力表現(xiàn)幽默了,但還是有些西式。
除了具體的內(nèi)容,聲音的質(zhì)感好壞,同樣很影響收聽體驗,畢竟,播客是聲音媒介。AI 不說字正腔圓,至少發(fā)音清晰,口條不錯,語氣抑揚頓挫,會用上「what」「ouch」「you know」等語氣詞,聊著聊著還會笑出聲,傳播著快活的空氣。
可以說,AI 播客已經(jīng)「初具人形」,至少聽得下去,不會像很多 AI 圖片、視頻一樣,讓人陷入恐怖谷,敬而遠之。分分鐘的內(nèi)容轉(zhuǎn)換,知識更容易進腦子了使用 NotebookLM時,有一點需要注意:它不會搜索新的信息,而是基于我們上傳的資料處理信息。
所以,它不全面,不客觀,但足夠個性,忠于每個人自己的素材。我的一位同事說,NotebookLM 適合寫文章的人做播客。這話很有道理,NotebookLM 本質(zhì)是實現(xiàn)了內(nèi)容形式之間快速的轉(zhuǎn)換,將復(fù)雜的內(nèi)容加工得更好理解。我愿稱之為,「這知識它不進腦子骯的 N 種解決辦法。NotebookLM 的強大,離不開 Google 大模型 Gemini 1.5 Pro 的長文本能力和多模態(tài)表現(xiàn)。經(jīng)過測試,讓它讀 37.8 萬字的《馬斯克傳》不在話下。同時,NotebookLM 還能處理視頻,我上傳了一個評測 Meta 眼鏡的 YouTube 視頻。
左邊是原視頻和視頻文案,右邊是 NotebookLM 的解讀除了用音頻解讀之外,NotebookLM 還能用多種方式,幫你理解你上傳的內(nèi)容,而且,都是自動的,最多只需要你點擊一下。每次上傳材料,NotebookLM 都會給出「摘要」和「建議的問題」。前者讓你對內(nèi)容有大致的了解,而后者解決了越長大越不愛舉手的人類的難題:不知道該問什么。點擊「建議的問題」,NotebookLM 既能幫你回答,還會附上引用來源,如果上傳內(nèi)容是視頻,引用參照的是視頻的文案。
其他小功能也類似,建議都點擊試試,我比較喜歡「常見問題解答」,AI 的自問自答,基本上囊括了一個陌生事物的入門知識。
然后可以再讓 AI 生成「簡報文檔」,不僅提供信息,也給出了觀點。
當(dāng)然,你也可以自己在輸入框輸入問題,該引用的還是引用,但如果沒有明確來源的,NotebookLM 會強調(diào)是推測。雖然 AI 仍有幻覺,但它已經(jīng)盡到了告知義務(wù)。
底層模型的支持是 NotebookLM 的基礎(chǔ),還有人套出了 NotebookLM 的系統(tǒng)提示詞,解釋了為什么音頻概覽很接地氣。
圖片來自:X@JadenGeller其中一條很有意思,規(guī)定了兩個 AI 角色,一個是主持人,一個是專家,相輔相成,主持人熱情地強調(diào)有趣的觀點,專家則提供分析、背景信息和更廣闊的視角。其余都是對內(nèi)容總結(jié)的要求,語氣避免單調(diào)和機械,結(jié)構(gòu)清晰,引人入勝,舉出貼近生活的例子,在爭議問題上保持中立,提供的信息不停留在表面,讓聽眾能形成自己的結(jié)論,并且覺得學(xué)到了新東西......
討論《馬斯克傳》時,NotebookLM 保持中立這完全是一款優(yōu)秀人類播客的要求了,具備強烈的、服務(wù)聽眾的意識。然而,NotebookLM 不支持中文終究不太友好,等待之外,也可以試試平替。開源的Open NotebookLM、根據(jù)文檔生成播客的 Podial、國內(nèi)開發(fā)者的 PodLM......除了 NotebookLM,Google 自己還有一款專門將論文轉(zhuǎn)換成音頻的產(chǎn)品:Illuminate。
第一個音頻解讀的是 Transformer 模型鎮(zhèn)圈論文《Attention is All You Need》它以主持人和專家的對話形式,一問一答,幫你通俗易懂地解讀論文。看似小眾的播客,為什么因為 AI 反而成了一條熱門的賽道?消費什么,怎么消費,以后我們自己決定語音,是人類最自然的交互模式之一,輸入和輸出都非常符合大腦的認知習(xí)慣。我們有教科書,但還是需要老師講課,幫助理解復(fù)雜的內(nèi)容。而當(dāng)我們可以用口語解釋概念,講給別人聽,才說明我們真正掌握了它。NotebookLM 做到了用簡單的語言重新詮釋書面的概念,同時包含了情緒、語氣,帶來了更自然的感官體驗。
同時,它又是個性化的,以前我們只有收聽的習(xí)慣,但我們現(xiàn)在有了創(chuàng)作的權(quán)利。我們能隨時做 AI 播客給自己聽,內(nèi)容隨意?梢允歉信d趣的大部頭文章、書籍,克服收藏即閱讀的壞習(xí)慣,也可以讓 AI 解讀自己的作品、簡歷,收獲不要錢的情緒價值,滿足人類自戀的需求。當(dāng)我上傳自己的文字版簡歷,NotebookLM 煞有其事地輸出一通彩虹屁,比 AI 陪伴產(chǎn)品情商更高,叫人瘋狂嘴角上揚。
音頻就不放上來了,這是部分內(nèi)容我們也能隨時聽 AI 播客,吃飯、健身、開車、做家務(wù)不無聊了,播客本身就是一種陪伴媒介。GPT-4o 的高級語音模式,其實也是一個語音產(chǎn)品,但 AI 播客和它的使用場景不太一樣,聊天找話題很難,不管是和人類還是和 AI,但 AI 播客可以自嗨。
OpenAI 創(chuàng)始成員 Andrej Karpathy,很看好 NotebookLM,說這可能是又一個大語言模型產(chǎn)品的新交互范式,讓他想起了 ChatGPT。
他甚至花了兩個小時,生成了一個以歷史為主題的 10 集播客系列,上傳到 Spotify,生成的過程很值得參考。用 ChatGPT、Claude、Google 找到有意思的話題;谙嚓P(guān)的維基百科條目讓 NotebookLM 生成音頻。用 NotebookLM 編寫播客簡介。用 Ideogram 生成播客封面。我們也可以按照這個模式,探索自己感興趣的領(lǐng)域,就像產(chǎn)出 AI 繪畫、音樂、視頻那樣。NotebookLM的下一步是什么呢?在一次采訪里,NotebookLM 團隊負責(zé)人 Raiza Martin 提出了一個構(gòu)想未來可以有一個 AI 編輯界面,支持任何輸入和輸出。視頻、音頻、電子郵件、社交媒體......所有我們感興趣的內(nèi)容和形式,都可以生成任何格式的內(nèi)容。如何消費內(nèi)容,由用戶決定。
散步時,我們想聽播客,工作時,文字效率更高。信息只是食材,可以有十八般做法。很多時候,AI 其實就是在改變獲取信息的方式,但消化知識的工具,和知識一樣重要。ChatGPT 為難懂的知識找到通俗的解釋,AI 搜索讓我們不用自己翻網(wǎng)頁找鏈接,AI 總結(jié)讓我們不必親自看文章......吾生也有涯,而知也無涯,但我們可以更愉快地做一個在海邊撿起貝殼的孩子。