久久久久国产一级毛片高清片反 ,亚洲av新资源网,中文字幕日韩无码

導(dǎo)讀：劃重點(diǎn)01字節(jié)跳動推出AI耳機(jī)Ola Friend，定位為基礎(chǔ)階段產(chǎn)品，功能遠(yuǎn)低于預(yù)期，但強(qiáng)調(diào)與豆包App深度結(jié)合。02Ola Friend目前僅實(shí)現(xiàn)“即喚即用”功能，未來有望加入環(huán)境感知和主動交互，成為AI交互入口類型的產(chǎn)品。03專家認(rèn)為，AI硬件的真正機(jī)會在于掌握交互入口，如耳機(jī)、眼鏡等，關(guān)鍵在于感知交互及由此帶來的能力差異。04為此，創(chuàng)業(yè)者需在硬件配置、成本與性能之間找到平衡， ......

劃重點(diǎn)

01字節(jié)跳動推出AI耳機(jī)Ola Friend，定位為基礎(chǔ)階段產(chǎn)品，功能遠(yuǎn)低于預(yù)期，但強(qiáng)調(diào)與豆包App深度結(jié)合。

02Ola Friend目前僅實(shí)現(xiàn)“即喚即用”功能，未來有望加入環(huán)境感知和主動交互，成為AI交互入口類型的產(chǎn)品。

03專家認(rèn)為，AI硬件的真正機(jī)會在于掌握交互入口，如耳機(jī)、眼鏡等，關(guān)鍵在于感知交互及由此帶來的能力差異。

04為此，創(chuàng)業(yè)者需在硬件配置、成本與性能之間找到平衡，同時(shí)積累大量經(jīng)驗(yàn)教訓(xùn)。

05除此之外，AI硬件公司需關(guān)注垂直人群需求，通過空間交互完成更多樣的交互視角的數(shù)據(jù)閉環(huán)。

以上內(nèi)容由騰訊混元大模型生成，僅供參考

推出 AI 耳機(jī)，字節(jié)真正的野心是什么？

頭圖來源： Ola Friend

10月10日上午，字節(jié)跳動豆包發(fā)布了一款硬件產(chǎn)品 AI 智能體耳機(jī) Ola Friend。該產(chǎn)品是一款開放式耳機(jī)，單耳6.6克同類最輕，可接入豆包大模型，并與豆包 App 深度結(jié)合，售價(jià)1199元。

用戶戴上耳機(jī)后，無需打開手機(jī)，只需喊出關(guān)鍵詞「豆包豆包」，便能喚起豆包進(jìn)行對話，后者能夠在信息查詢、旅游出行、英語學(xué)習(xí)及情感交流等場景為用戶提供幫助。

今年以來，大模型應(yīng)用落地加速的同時(shí)，AI 手機(jī)、AI 耳機(jī)、AI 眼鏡等AI硬件新品紛紛涌現(xiàn)，究竟誰能成為AI時(shí)代，用戶與人工智能交互的第一個(gè)入口？

Ola Friend 并不是字節(jié)推出的第一款硬件產(chǎn)品，但此前包括大力臺燈以及收購PICO后的探索并未出現(xiàn)明朗結(jié)果，這次會有所不同嗎？

目前可以看到的是，相比之前更為激進(jìn)的策略，Ola Friend 這款A(yù)I耳機(jī)的定位回歸到基礎(chǔ)階段，在功能上遠(yuǎn)低于大家想象，但這似乎反而體現(xiàn)了字節(jié)思考得很清楚今天在想象AI硬件的時(shí)候，不應(yīng)該太過于樂觀，而是應(yīng)該更務(wù)實(shí)地來想這件事。

在Ola Friend 發(fā)布當(dāng)晚，極客公園「今夜科技談」直播間邀請了極客公園創(chuàng)始人 & 總裁張鵬，和靈宇宙創(chuàng)始人顧嘉唯一起聊了聊，這款這款A(yù)I耳機(jī)對于字節(jié)跳動的意義、以及 AI 硬件產(chǎn)品真正的機(jī)會到底在哪里。

以下是直播沉淀文字，由極客公園整理。

1 字節(jié)推Ola Friend：只邁出了0.1步？張鵬：你怎么看字節(jié)今天推出的Ola Friend耳機(jī)？它在預(yù)期之中嗎？

顧嘉唯：這款產(chǎn)品的定義方向是正確的，不過它目前只邁出了0.1步，還需要進(jìn)一步迭代。

從Google Glass到今天的Ray-Ban Meta ，這些終端的探索，實(shí)際上是所有科技公司夢寐以求的大目標(biāo)打造類似電影《Her》的Personal AI。

過去20年間，爭奪入口始終是商業(yè)競爭中的巨大挑戰(zhàn)，尤其是在交互層面上。字節(jié)推出Ola Friend，是一次不錯(cuò)的嘗試先把用戶在手機(jī)里用“豆包” APP 調(diào)到耳機(jī)里，離人更近。

值得一提的是，Ola Friend謹(jǐn)慎控制了預(yù)期，沒有盲目擴(kuò)展功能。做硬件產(chǎn)品，很重要的一個(gè)能力就在于不斷做減法、做收斂。

張鵬：所以你認(rèn)為Ola Friend沒有發(fā)散功能、控制用戶的預(yù)期是對的。

顧嘉唯：產(chǎn)品的外觀設(shè)計(jì)方面，很多人認(rèn)為它跟上一代區(qū)別不大，甚至在質(zhì)疑為何使用傳統(tǒng)的TWS耳機(jī)來冒充AI硬件。

推出 AI 耳機(jī)，字節(jié)真正的野心是什么？

Ola Friend目前四種配色｜圖片來源：Ola Friend

事實(shí)上，字節(jié)是在通過這種方式管理用戶預(yù)期，讓用戶先認(rèn)為它只是一個(gè)普通耳機(jī)，然后當(dāng)它在軟件端的AI能力展現(xiàn)出來時(shí)，用戶就會感受到超出預(yù)期的體驗(yàn)。這樣做的目的也是為了讓“豆包”更容易觸達(dá)用戶，降低用戶使用“豆包”的門檻、減少進(jìn)入層級，以提高活躍率為小目標(biāo)的。

在我的使用體驗(yàn)中，豆包在電腦端的功能表現(xiàn)還是很出色的，無論是插件、劃詞、截屏等功能，響應(yīng)迅速、便捷高效，很好地提升了工作效率。但是在移動端的表現(xiàn)就不太盡如人意了。這背后有很多原因，其中之一在于入口之爭的難度所在。

雖然豆包不具備像Google Assistant那樣的系統(tǒng)層能力，但在應(yīng)用層面，它本質(zhì)上構(gòu)建的是一個(gè) AI friend的角色，來提供情感交互。

使用“豆包”比較多的話，會發(fā)現(xiàn)上面有許多agent，這些agent不僅在文本轉(zhuǎn)語音（TTS）的音色上表現(xiàn)出色，還能通過情感表達(dá)讓人產(chǎn)生共鳴。這種情感交互的體驗(yàn)，也正是過去半年GPT技術(shù)不斷發(fā)展的成果之一，尤其是通過互聯(lián)網(wǎng)文本到視頻數(shù)據(jù)訓(xùn)練涌現(xiàn)出的結(jié)果。

如果你使用過 Ola friend這款產(chǎn)品，就會體驗(yàn)到一種“aha moment”，就是那種強(qiáng)烈的陪伴感，就像身邊有人在跟你低語交流。這種陪伴感正是吸引用戶的重要特質(zhì)之一。

張鵬：所以它本質(zhì)上很多交互其實(shí)超越了手機(jī)的形態(tài)。

顧嘉唯：對，只是說它今天還沒有做到環(huán)境感知、主動理解。

張鵬：做到的話，那就真的是有點(diǎn)往her走了。

顧嘉唯：現(xiàn)在它至少已經(jīng)實(shí)現(xiàn)了“即喚即用”（Instant On）的功能。雖然還沒有到“始終在線”（Always On）的程度，但當(dāng)用戶需要時(shí)，它的喚醒方式非常便捷無論是通過輕觸，還是使用喚醒詞，用戶都可以很輕松地啟動設(shè)備。耳機(jī)本來就是手機(jī)搭配非常自然的延伸設(shè)備了，做到比手機(jī)更隨時(shí)隨地更on demand的選擇，這是一個(gè)最安全低摩擦的一個(gè)品類選擇。

接下來，我覺得應(yīng)該再往前一步，把環(huán)境感知和主動交互加入進(jìn)來，這樣才能真正與手機(jī)的使用區(qū)分開來。我們靈宇宙認(rèn)為下一代 AI 硬件形態(tài)可能是各種形式，但有一點(diǎn)是重要的：可以更多更長時(shí)地感知用戶周圍的環(huán)境空間信息，進(jìn)一步作為輸入，從被動地需要用戶喚起轉(zhuǎn)變到可以主動感知并且支持用戶。同時(shí)做了CoT的算法設(shè)計(jì)，去更深層次理解人的意圖，把被動喚醒變成主動理解人意圖、能察言觀色、有眼睛見兒的深度交互。

和以往交互模式有什么不同呢？我自始至終一直在做“交互”這件事情，在微軟研究院的時(shí)候從事的行業(yè)就是人機(jī)交互，大家一直談?wù)揋UI、TUI、LUI、以及我們主動交互的 NUI，核心都是在于回歸以“人”為中心的交互。這也就是為什么我認(rèn)為今天Ola friend只邁出了0.1，而后面的0.9還會有極大的變化，我正帶著團(tuán)隊(duì)鎖定NUI的下個(gè)代際躍遷。

探尋NUI的同時(shí)，在Personal AI和Ambient AI領(lǐng)域中探索AI產(chǎn)品在空間交互技術(shù)棧和數(shù)據(jù)獲取的潛力。目標(biāo)是構(gòu)建一個(gè)可隨身攜帶、交互式的AI產(chǎn)品，無論是任務(wù)型、服務(wù)型，還是情感陪伴型，都是探索的方向。

2 給 AI 加了個(gè)硬件？張鵬：字節(jié)推 AI 耳機(jī)，某種程度上是不是可以理解為，有價(jià)值的是AI，給 AI 加了個(gè)硬件？

顧嘉唯：手機(jī)是最大消費(fèi)硬件，短期內(nèi)難脫離 “以手機(jī)為中心” 環(huán)境，你可以理解豆包耳機(jī)所有的價(jià)值功能幾乎都來自于手機(jī)上的豆包 APP。AI 給手機(jī)帶來的不只是功能疊加，而是重新定義運(yùn)行方式和交互模式。

在場景中用更好軟件體驗(yàn)升級可稱 “加 AI”，如手機(jī)上各類被 AI 賦能升級的應(yīng)用及功能集成的手機(jī) OS 正被大模型以 SDK 化改造升級，這是商業(yè)化落地有效路徑。以 AI 為中心重構(gòu)手機(jī)日常使用方式，包括交互流程等；系統(tǒng)級 AI 助手包括意圖理解與指令執(zhí)行。

大模型以 Agent 形式重構(gòu)用戶與手機(jī)交互，包括新 AI 硬件變化，人們也在找 “AI 原生” 場景及解決方案，有 AI 后這些場景能打通。

不過，定義這兩類產(chǎn)品時(shí)思考方式不同。若產(chǎn)品基本能力已占據(jù)高頻場景，就有機(jī)會通過 AI 替代、提效或替代非 AI 完成的功能，這種機(jī)會確實(shí)存在。

我們今天聊的主要是能成為 AI 交互入口類型的產(chǎn)品對吧。對于“加AI”，在智能音箱出來之前，我們曾經(jīng)在 2015 年前后定義了一類家庭管家助理類的產(chǎn)品叫Jibo，是基于 rule-based 寫的腳本，我們增加了多模態(tài)，增加了視覺，他能夠看得見，所以他有機(jī)會環(huán)境感知；而對于AI原生，我在過去的非常多產(chǎn)品嘗試，例如 Luka 盧卡出現(xiàn)之前家長給孩子讀繪本只能自己讀，學(xué)習(xí)機(jī)品類還是一塊屏沒有攝像頭掃題指讀，基于Luka盧卡把桌面上的交互場景變成一個(gè)可交互的多感官空間。我過去的很多產(chǎn)品，尤其是在軟件端，都是基于這樣的思考進(jìn)行的。

很多創(chuàng)業(yè)者在上一個(gè)周期前仆后繼地進(jìn)入這個(gè)領(lǐng)域，現(xiàn)在大概率也逃不出這個(gè)循環(huán)。從這個(gè)角度來看，有一類我定義成“容器屬型”的產(chǎn)品可能并不是完全的AI原生，而是上一個(gè)周期的產(chǎn)品基礎(chǔ)上“換 AI”，例如從 rule-based 換成了 LLM Agent，場景交互真實(shí)升級后，催生了原本需求的激活，帶來了更高的市場天花板。這個(gè)邏輯套到現(xiàn)在我們陸續(xù)看到的成功的 AI 硬件產(chǎn)品上都是適用的。

張鵬：總體來看，目前還沒有那種能夠穩(wěn)定成長的目標(biāo)級產(chǎn)品。不管是TPF（技術(shù)可行性）還是PMF（產(chǎn)品市場契合），都沒有真正實(shí)現(xiàn)。不過隨著時(shí)間的推移，我相信我們越來越有機(jī)會找到結(jié)合TPF和PMF的AI硬件。

字節(jié)跳動今天推出了一款在功能上遠(yuǎn)低于大家想象的AI耳機(jī)，但反而體現(xiàn)了字節(jié)思考得很清楚，今天在想象AI硬件的時(shí)候，還是不應(yīng)該太過于樂觀，還是應(yīng)該更務(wù)實(shí)地來想這件事。

顧嘉唯：我認(rèn)為在未來一到三年，甚至三到五年內(nèi)，AI硬件創(chuàng)業(yè)者擁有巨大的機(jī)會，前途無量。這些機(jī)會源于底層技術(shù)能力的進(jìn)步在今天真正實(shí)現(xiàn)了有價(jià)值的落地。

張鵬：未來我們需要思考的是， AI natve 的硬件是否能真正發(fā)揮作用，關(guān)鍵在于與用戶的互動時(shí)長嗎？如果這些產(chǎn)品只是短暫使用，是否意味著它們僅解決特定問題，從而變成一種目的性的硬件，也就變成了硬件+AI。

而真正抓住未來機(jī)會的關(guān)鍵，可能還是在于如何深入融入用戶生活，延長使用時(shí)長，不斷為他們提供個(gè)性化、持續(xù)的價(jià)值體驗(yàn)。

3 離個(gè)人助理還有多遠(yuǎn)？推出 AI 耳機(jī)，字節(jié)真正的野心是什么？

Ola Friend可以當(dāng)作「隨身百事通」使用｜圖片來源：Ola Friend

張鵬：從情緒價(jià)值這個(gè)層面去切，我其實(shí)也非常認(rèn)同，因?yàn)槲矣X得在過去一段時(shí)間里，整個(gè)大模型領(lǐng)域印證了一點(diǎn)，大模型能夠確定交付的一個(gè)價(jià)值就是情緒價(jià)值。

那繼續(xù)往下走，是不是就是要在系統(tǒng)側(cè)做一個(gè)assistant？也就是從目前的情感搭子逐漸轉(zhuǎn)變?yōu)橐粋€(gè)更加實(shí)用有效的助理。你覺得這種發(fā)展路徑存在嗎？

顧嘉唯：豆包其實(shí)已經(jīng)在電腦端上無論是瀏覽器還是屏幕權(quán)限都拿捏得很好，不斷提升使用率和觸發(fā)率的各種場景，但在手機(jī)上實(shí)現(xiàn)這一點(diǎn)就很難。人們可能更傾向于從手機(jī)的復(fù)雜環(huán)境中提取出一個(gè)能夠更高頻使用助理和情感互動功能的場景。通過推出這款耳機(jī)，字節(jié)至少找到了一條可能的路徑。

很多人期待這款耳機(jī)能夠具備的一些功能，事實(shí)上并沒有，比如說訊飛耳機(jī)已經(jīng)支持的電話錄音和語音摘要這些功能，但這款豆包耳機(jī)卻并沒有具備，這其實(shí)就是產(chǎn)品在做“減法”的結(jié)果。

Ola Friend現(xiàn)在更專注于在某些垂直場景中打磨出色的用戶體驗(yàn)。比如英語口語陪練、汽水音樂與字節(jié)私有音樂生態(tài)結(jié)合等主打場景，都是適合大模型現(xiàn)階段 “笨任務(wù)”相對穩(wěn)定可靠的技術(shù)低垂果實(shí)，應(yīng)先將一兩個(gè)核心功能做到 80-90 分，而非在多個(gè)功能上平均用力致每個(gè)僅 50-60 分。在 AI 創(chuàng)新產(chǎn)品開發(fā) PMF 多年，吃過最多的虧就是以前總習(xí)慣于去挑“聰明任務(wù)”去做，前沿技術(shù) “不穩(wěn)定” 致創(chuàng)新體驗(yàn)不足以支撐替換成本的情況很多。

這是對于定義 AI 硬件，或者任何以軟件驅(qū)動為核心的消費(fèi)級硬件來說，非常重要的策略。

再回到個(gè)人助理的這一點(diǎn)，目前距離要做出一個(gè)真正意義上的個(gè)人助理還相當(dāng)遙遠(yuǎn)。要知道現(xiàn)在在豆包里想要打電話都還不行。這不光是涉及技術(shù)本身的進(jìn)程，還包括商業(yè)生態(tài)的打通。

在新興的技術(shù)入口之爭中，首先入局的往往是手機(jī)廠商，緊隨其后的是像微信這樣的超級應(yīng)用。也就是說，一旦AI Agent助理技術(shù)發(fā)展到一個(gè)高度成熟的PMF階段，手機(jī)廠商和這些超級應(yīng)用巨頭都會迅速涌入，字節(jié)推出Ola Friend，算是搶跑了一步。不過若是各家手機(jī)廠商的 TWS 耳機(jī)都聯(lián)調(diào)適配好了自家 AI-OS 以后，屆時(shí)豆包 inside 生存空間會是什么樣呢？

4 真正的目標(biāo)：掌握交互入口張鵬：我在想，對于字節(jié)跳動這樣的公司來說，這款耳機(jī)是否能夠賺錢，或者能賺多少錢，并不是他們最關(guān)心的問題。它更像是豆包的一個(gè)輔助工具，這樣理解對不對？

顧嘉唯：如果我們猜測張一鳴特別想要全面投入AI這個(gè)入口，那么他可能不會把硬件作為商業(yè)模式，因?yàn)闊o論是PICO還是大力臺燈，字節(jié)已經(jīng)走過一遍路徑了。

除了耳機(jī)，眼鏡、項(xiàng)鏈這些形式都是有機(jī)會的，只要能離人的五官，也就是離人類天生的傳感器更近，比人看得更清楚，聽得更清晰，擁有第二大腦，無縫地提供AI Agent 服務(wù)，就有機(jī)會成為下一個(gè) AI入口。這種交互方式實(shí)際上更有可能實(shí)現(xiàn)從即時(shí)啟動（instant on）到始終開啟（always on）的轉(zhuǎn)變。交互方式創(chuàng)新了，就會產(chǎn)生新場景。

可能字節(jié)真正的目標(biāo)還是想要掌握超級應(yīng)用的入口。如果把交互入口作為第一性原理來看，那么肯定要通往her，要做一個(gè)高度個(gè)性化的AI助手，這也是所有科技大佬的夢想。

張鵬：那基本可以預(yù)料未來 AI 耳機(jī)這個(gè)品類一定會有更多的品牌進(jìn)來做。核心問題在于，AI耳機(jī)的競爭力到底是體現(xiàn)在其AI技術(shù)上，還是耳機(jī)的硬件質(zhì)量上？另外，AI耳機(jī)真的是一個(gè)值得投入資源去競爭的賽道嗎？

顧嘉唯：我非常相信 Mark Weiser 對人機(jī)交互的未來發(fā)展路徑規(guī)劃ubiquitous computing隱形計(jì)算。手機(jī)之后，更輕、更小、更隨身的個(gè)人穿戴終端將成為Personal AI核心價(jià)值的延伸。在這一過程中，耳機(jī)、眼鏡、項(xiàng)鏈等產(chǎn)品形態(tài)是創(chuàng)業(yè)者需探索的方向，關(guān)鍵在于后端交互體驗(yàn)的承載，是各家需深耕之處，也是資本市場有較高期待的領(lǐng)域。

我們來看當(dāng)下人交互的主流媒介還是“接觸式”的，例如手機(jī)、電腦，體驗(yàn)最好的交互方式還是手機(jī)；而“非接觸式”的，例如體感游戲機(jī)、智能音箱、智能家居等通過手勢、語音、聲控；可穿戴設(shè)備介于這兩者之間，屬于“嵌入式”，這里面的產(chǎn)品形態(tài)和匹配的交互方式還有很大的創(chuàng)新空間。

張鵬：那回到AI耳機(jī)，它的長期競爭力是不是更多地依賴于其軟件和AI能力，而不是硬件本身？

顧嘉唯：對。

張鵬：AI眼鏡會是更好的選擇嗎？字節(jié)這次推出了AI耳機(jī)而不是AI眼鏡這件事，你是怎么看的？

顧嘉唯：字節(jié)肯定是有在做AI眼鏡的，無論是頭盔式 VR，還是其他輕量型設(shè)備，例如BB和光波導(dǎo)等光機(jī)畫幅技術(shù)實(shí)現(xiàn)透視效果的設(shè)備，字節(jié)都有在積極探索和做迭代。

對于像字節(jié)這樣的互聯(lián)網(wǎng)大廠來說，選擇做硬件不僅是基于情懷，更是對構(gòu)建入口的持續(xù)追求，探索和試錯(cuò)都是必經(jīng)之路。

盡管目前還沒看到字節(jié)發(fā)布類似 Ray-Ban Meta 這樣的硬件產(chǎn)品，但可以預(yù)見，他們必然會沿著這條路徑尋找機(jī)會并逐步推出相關(guān)設(shè)備。

在今天，探討耳機(jī)與攝像頭結(jié)合的必要性很明顯。提升 AI Agent 助理功能，從 instant on 到 always on，成為更好的獨(dú)立 AI 硬件或手機(jī)輔助配件以支持更多交互和 AI 功能，一定要輕薄便攜，不應(yīng)笨重，更不應(yīng)去跟日漸普及的手機(jī)折疊屏 PK 顯示效率。

張鵬：不要低估字節(jié)在布局硬件上的資金、動力以及決心。不過就眼鏡來說，如果想讓智能眼鏡成為取代下一代手機(jī)的終端，在今天是非常困難的，很難實(shí)現(xiàn)。但如果目標(biāo)不是從手機(jī)屏幕上爭奪用戶的使用時(shí)間或屏幕使用量，那可能就會是另一個(gè)討論方向？

顧嘉唯：從長期來看，比如五年、十年，甚至更長的時(shí)間周期內(nèi)，有可能會出現(xiàn)一種替代手機(jī)，成為新的交互中心的可穿戴設(shè)備。

這種設(shè)備應(yīng)該具備顯示功能、支持多模態(tài)交互，能夠感知環(huán)境，還能夠進(jìn)行成像和有良好的畫幅顯示表現(xiàn)。

張鵬：重要的是至少五年，不要想明年。不過光機(jī)方面最近還是會有一些進(jìn)展。

5 AI硬件的真正機(jī)會在哪里？張鵬：怎么理解在眼鏡上面加攝像頭這件事它真正的意義？

顧嘉唯：空間智能和空間交互是技術(shù)演進(jìn)中一個(gè)非常好的載體。它的第一步是看今天的大模型能否從文本能力涌現(xiàn)出更多的認(rèn)知，進(jìn)而朝著CoT（Chain of Thought，思維鏈）和推理能力的方向發(fā)展，然后引入更多的空間認(rèn)知。

推出 AI 耳機(jī)，字節(jié)真正的野心是什么？

百度2014年推出了BaiduEye，一款穿戴式產(chǎn)品原型｜圖片來源：百度

之前我在百度選擇開發(fā)BaiduEye與Meta現(xiàn)在選擇推出Ray-Ban Meta是出于相同的目標(biāo)。BaiduEye 欲成為人類的“第二個(gè)大腦，第三只眼睛”，打通物理世界空間交互數(shù)據(jù)集以索引真實(shí)世界，其產(chǎn)品原型受以色列 AI 視覺公司 OrCam 的 MyEye 啟發(fā)，其創(chuàng)始人 Ziv 也是 Mobileye 創(chuàng)始人，了解自動駕駛歷史的朋友一定不陌生。推動此目標(biāo)過程中，已見大模型在前端意圖理解和后端自動化執(zhí)行有顯著突破，中間缺失數(shù)據(jù)源可由 AI 眼鏡這類載體補(bǔ)充以完成空間智能構(gòu)建。

張鵬：攝像頭其實(shí)能起到第一人稱視角的數(shù)據(jù)源的輸入。

顧嘉唯：關(guān)系算法和空間交互是通向Personal AI的必經(jīng)之路，通過這條路的核心是數(shù)據(jù)集。

今天占據(jù) “空間交互” 數(shù)據(jù)閉環(huán)是競爭關(guān)鍵。未來做具身智能或通用人形機(jī)器人，所需數(shù)據(jù)源既要像第三視角，如游戲過肩視角，觀察人在真實(shí)場景互動，包括人與人、人與物、人與空間交互；又要以人本身視角完成第一視角操作。

從數(shù)據(jù)源的價(jià)值角度來看，大家在未來的發(fā)展路徑應(yīng)是相似的，關(guān)鍵在于誰的數(shù)據(jù)構(gòu)建速度更快，但這波核心在于感知。感知指什么？AI 硬件疊加多模態(tài)能力后搜集大量多模態(tài)數(shù)據(jù)，此多模態(tài)非原有文字或屏幕二維維度所具備，先有感知再有交互升維是 AI 迭代重要條件。當(dāng)前具身領(lǐng)域正在經(jīng)歷硬件的迭代，但最終硬件能力可能會相差無幾，核心在于感知交互及由此帶來的能力差異。靈宇宙針對隨身 AI 場景積累大量感知的空間交互數(shù)據(jù)，使 AI 交互進(jìn)化出不同體驗(yàn)。

張鵬：這一切的核心在于，如果未來我們想要基于AI為用戶交付價(jià)值，就需要給AI提供更豐富的信息輸入，而不僅僅依賴用戶的指令。只有這樣，AI才能更默契地與用戶互動，通過更簡單的交互提供更大的個(gè)性化價(jià)值。如果一切都依賴于用戶來提供信息，那用戶會非常疲憊。

從手機(jī)中抽取時(shí)間，本質(zhì)就是要為用戶提供超越以往的價(jià)值。這意味著要在一些手機(jī)無法實(shí)現(xiàn)的場景中，提供更好的體驗(yàn)。雖然手機(jī)積累了大量數(shù)據(jù)，但仍然是有限的。所以需要在數(shù)據(jù)維度上做得更加豐富，才能真正交付出AI的個(gè)性化價(jià)值。這可能就是我們今天所說的AI硬件的真正機(jī)會。

顧嘉唯：今天屏幕上，多模態(tài)任務(wù)操作簡潔直白，為流式交互路徑，可同時(shí)多模態(tài)、多任務(wù)并行操作。但耳機(jī)和語音場景只有線性操作，任務(wù)高效性不足，那怎么改變？需讓 AI 先完成主動處理部分，即我們靈宇宙要做的 Proactive Intention 主動意圖交互。

原來所有功能靠調(diào) API 操作，如今大模型能中控調(diào)度持續(xù)獲取服務(wù)和調(diào)用信息，跳過 GUI 應(yīng)用層寫腳本，模型更小、執(zhí)行效率更高，推動了 agent 發(fā)展，能更靈活產(chǎn)生價(jià)值。

張鵬：交互這件事兒，過去是人機(jī)交互，是人在將就機(jī)器，因?yàn)闄C(jī)器不懂人的東西，我們就是哄著人們說你用這種方式讓機(jī)器理解你的意圖。但未來終于到了，機(jī)器應(yīng)該主動去理解人的這個(gè)階段。

顧嘉唯：傳統(tǒng)人機(jī)交互模式是基于信息流和服務(wù)流的推送，這是早期互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)發(fā)展階段的典型特征，人們更多是通過學(xué)習(xí)如何與機(jī)器互動，來獲取信息或服務(wù)。

現(xiàn)在，隨著AI技術(shù)的驅(qū)動，交互模式正在發(fā)生根本性變化。未來的交互將不再是單純的人與機(jī)器的交互，而是基于“思維鏈”來重塑 AI，基于"關(guān)系鏈"來塑造內(nèi)容。這意味著，未來的AI交互將會更注重人際關(guān)系和社交屬性及人與環(huán)境空間關(guān)系，而非僅依賴機(jī)器功能服務(wù)。

隨著這種轉(zhuǎn)變，傳統(tǒng)人機(jī)交互可能會逐漸消失，取而代之的是人與“類人”智能體的交互。這種交互方式不再是簡單命令執(zhí)行，而是更接近于人際關(guān)系中的互動包含情感陪伴、任務(wù)完成、結(jié)果交付等方面的社會化屬性。未來的 Agent智能體將會模擬人的行為和情感，與人類建立更加緊密的關(guān)系，成為一種社會化的存在。屆時(shí)，或許由計(jì)算機(jī)、電子工程自動化等構(gòu)建起來的人機(jī)交互也就消亡了，取而代之的是政治、法律、社會學(xué)等構(gòu)建的人“人”交互。

6 創(chuàng)業(yè)者要避開哪些坑？張鵬：上一波的AI硬件，其實(shí)沒有特別成功的東西出來，這一波AI加到硬件上，可能會面臨什么坑？

顧嘉唯：今天占據(jù)空間交互，數(shù)據(jù)閉環(huán)是競爭關(guān)鍵。從數(shù)據(jù)源價(jià)值看，未來發(fā)展路徑相似，關(guān)鍵是誰的數(shù)據(jù)構(gòu)建速度更快。這波 AI 硬件公司最大的坑可能是忽這一點(diǎn)，或沒有能力做到這點(diǎn)誰都知道數(shù)據(jù)價(jià)值，但就是“啟動無數(shù)據(jù)優(yōu)勢，過程無價(jià)值數(shù)據(jù)”。

目前市場上的許多智能硬件產(chǎn)品實(shí)際上無法真正被稱為“智能”。這是因?yàn)槿藗兺鶎ζ洹爸悄堋惫δ芗挠韬裢�，期待它們能帶來顛覆性的用戶體驗(yàn)，但在實(shí)際交付時(shí)往往遠(yuǎn)低于這些預(yù)期，導(dǎo)致許多用戶失望。

例如今天的語音交互產(chǎn)品中，用戶“可感知”的智能之一就是“Barge-in隨時(shí)打斷”，NUI 自然對話智能里最大的摩擦是用戶已經(jīng)開口說了，機(jī)器 AI 還沒反應(yīng)過來還在那自說自話的違和感，然后機(jī)器 AI 說話時(shí)出現(xiàn)沖突，要不搶話，要不跟不上節(jié)奏，就顯得很弱智，不像跟身邊的人講話那么自然流暢。其實(shí)，只要用戶必須遷就機(jī)器，就不是一個(gè)好的的人機(jī)交互。

過往我們迭代語音產(chǎn)品時(shí)，就是典型的需要攻克的一個(gè)技術(shù)項(xiàng)“全雙工打斷”。通過 VAD語音活動檢測，結(jié)合通道降噪，以及音視頻各通道的信息理解做融合策略和對話控制管理。

相比于原來智能音箱類場景，其實(shí)這個(gè)技術(shù)難點(diǎn)在耳機(jī)場景已經(jīng)好解決很多，因?yàn)槎鷻C(jī)貼近人的感官耳朵和嘴巴，語音采集的信號更清晰，話音起止更易判別，麥克風(fēng)陣列與用戶出聲位置距離相對固定，又避免了環(huán)境噪音和語音衰減等影響。

目前已知的無論是 GPT-4o 還是豆包，全雙工打斷體驗(yàn)都不佳，主要還是誤打斷居多。原本的ASR 語音識別 - NLP 語義理解 - TTS 語音合成多階段的做法，遲早會被“端到端”取代掉，Transformer 架構(gòu)能夠并行處理句子中的各個(gè)部分，大大提高語義理解的效率，LLM Agent智能體也應(yīng)該充分利用之前對話的上下文信息，通過構(gòu)建對話歷史的知識圖譜或記憶網(wǎng)絡(luò)，在理解用戶打斷意圖時(shí)參考之前的話題信息等。總之，用 LLM 大模型來實(shí)現(xiàn)“流式交互”是這一輪語音類產(chǎn)品的共同目標(biāo)。

另一個(gè)大坑，就是基礎(chǔ)硬件的“基本功”沒做到位。

我們來區(qū)分下是用藍(lán)牙或者內(nèi)建網(wǎng)絡(luò)協(xié)議等仍舊以手機(jī)為中心的“周邊硬件”，還是獨(dú)立計(jì)算能力不依賴手機(jī)以自己為中心的“獨(dú)立硬件”，今天我們談?wù)摰亩拱?AI 耳機(jī)屬于前者，智能音箱屬于后者。

今天我們用大模型創(chuàng)造“獨(dú)立AI硬件”的話，除非智能算力能完全跑到本地，不然首先得要做好聯(lián)網(wǎng)基本功，AI 硬件在這個(gè)時(shí)間點(diǎn)首先需要把硬件基本功給做好，你以為我們要討論的都是高大上的 AI，實(shí)際上消費(fèi)者往往還卡在“上一步”呢。AI 硬件在用戶實(shí)際使用中的場景往往非常極端。如何在這些極端情況下優(yōu)化 AI 的容錯(cuò)性，是 AI 硬件開發(fā)中的另一個(gè)關(guān)鍵環(huán)節(jié)。

特別是在我們討論的下一代的個(gè)人穿戴設(shè)備作為 AI 入口，通常沒有屏幕或小屏幕的終端上，聯(lián)網(wǎng)功能的實(shí)現(xiàn)變得尤為復(fù)雜，尤其是當(dāng)產(chǎn)品需要通過Wi-Fi連接時(shí)，用戶在每個(gè)步驟的錯(cuò)誤操作反饋都可能影響整體體驗(yàn)。解決這些問題需要在硬件配置和成本之間做出取舍，并且需要企業(yè)在開發(fā)過程中積累大量的經(jīng)驗(yàn)教訓(xùn)。

開發(fā)過程始終面臨一個(gè)關(guān)鍵的權(quán)衡點(diǎn)如何在成本和性能之間找到平衡。而且，硬件即便價(jià)格便宜，仍然需要物流和一系列的交付流程，這對用戶來說也構(gòu)成了一定的心智門檻。要跨越這個(gè)門檻，對于那些沒有積累的新公司來說，定義和推出一款新的產(chǎn)品，確實(shí)是極具挑戰(zhàn)的。開發(fā)過程面臨成本與性能的權(quán)衡點(diǎn)。硬件即便便宜，物流及交付流程對用戶有心智門檻。對無積累的新公司，定義和推出新產(chǎn)品極具挑戰(zhàn)。

硬件產(chǎn)品的首次交付質(zhì)量直接決定了未來市場表現(xiàn)和用戶預(yù)期的管理。若首次交付時(shí)表現(xiàn)不佳，即使后續(xù)進(jìn)行多次迭代，可能也難以徹底挽回用戶對產(chǎn)品的信任。但如果首次交付能達(dá)到至少70分，企業(yè)就有機(jī)會通過后續(xù)改進(jìn)來提升用戶體驗(yàn)。

硬件產(chǎn)品由于其高成本和生產(chǎn)周期的限制，容錯(cuò)率極低。硬件的幾次錯(cuò)誤決策就可能導(dǎo)致整個(gè)產(chǎn)品的失敗，甚至需要重新考慮是否將產(chǎn)品推向市場。

張鵬：做硬件產(chǎn)品相對軟件可能難了不止十倍，那涉及到AI硬件，可能里面又有一堆新問題。那這次靈宇宙的思路是怎么樣的？跟你之前在做的事兒有什么區(qū)別？

推出 AI 耳機(jī)，字節(jié)真正的野心是什么？

最右為顧嘉唯此前推出的社交機(jī)器人Jibo和繪本閱讀機(jī)器人Luka｜圖片來源：靈宇宙

顧嘉唯：我一直在堅(jiān)持的一個(gè)夢想，交互類的機(jī)器人。其實(shí)，機(jī)器人的核心構(gòu)件無外乎三種：物理層面的移動（依賴輪或足）、任務(wù)的操作執(zhí)行（依賴手臂和身體）、以及意圖理解后的交互（頭和腦）。最終，這些都?xì)w結(jié)到交互本身讓一個(gè)設(shè)備有一個(gè)界面，有一個(gè)“臉”來與你互動，本質(zhì)上就是交互的核心所在。

這個(gè)路徑上關(guān)鍵在于找到一個(gè)有效的數(shù)據(jù)積累方式。

張鵬：創(chuàng)業(yè)者應(yīng)該選擇什么領(lǐng)域？

顧嘉唯：今天占據(jù)空間交互這一層的數(shù)據(jù)閉環(huán)是競爭的關(guān)鍵，數(shù)據(jù)構(gòu)建速度是影響未來空間智能、AI陪伴軟硬件等諸多領(lǐng)域的最關(guān)鍵的因素。創(chuàng)業(yè)公司的核心競爭力、護(hù)城河都取決于此。

靈宇宙是基于大模型對意圖理解的升維，通過傳感器收集life streaming data全天候場景數(shù)據(jù)，實(shí)現(xiàn)空間交互，重新定義「萬物有靈」，構(gòu)建機(jī)器人的靈魂，在Personal AI和Ambient AI結(jié)合的領(lǐng)域，通過軟件定義硬件，探索AI產(chǎn)品的發(fā)展?jié)摿ΑｊP(guān)系算法和空間交互，也是我認(rèn)為通往Persona AI必經(jīng)的路徑。

要實(shí)現(xiàn)這一點(diǎn)，核心問題就是數(shù)據(jù)集的構(gòu)建。通過垂直人群收集空間交互的數(shù)據(jù)，就像特斯拉通過大量司機(jī)真實(shí)駕駛數(shù)據(jù)構(gòu)建FSD（完全自動駕駛）系統(tǒng)一樣。特斯拉的優(yōu)勢在于不依賴高精度地圖，而我們靈宇宙則試圖通過相似的路徑，為 Personal AI 構(gòu)建閉環(huán)數(shù)據(jù)集，尤其針對那些最原生的 AI 交互智能終端使用者。

從策略上來說，如果我還在大廠里，可能會選擇眼鏡或耳機(jī)這樣的超級品類較量，但作為創(chuàng)業(yè)者，我的選擇會更加謹(jǐn)慎，一些看似邊緣甚至雞肋的領(lǐng)域，恰恰有足夠的市場空間，能夠保障初創(chuàng)公司真正做到位。越細(xì)分的市場，越能解決明確的特定價(jià)值，越容易取得成功。

現(xiàn)在市面上大多數(shù)通用人形機(jī)器人公司還在努力掙扎于 TPF 階段，都沒有真正迎來的 PMF 時(shí)刻，但創(chuàng)業(yè)那么多年的經(jīng)驗(yàn)告訴我，一旦跨越 PMF 只要是生意必然會面臨復(fù)雜競爭格局中如何定位找到自己的 7 Powers 實(shí)現(xiàn)可持續(xù)發(fā)展。

我之前一直在做連接內(nèi)容和交互的產(chǎn)品，創(chuàng)業(yè)選擇做內(nèi)容型產(chǎn)品的好處其實(shí)是，不太會像那些純工具類的產(chǎn)品大多會被巨頭清出局。像監(jiān)控?cái)z像頭、智能音箱這類產(chǎn)品，就容易在大公司的平臺生態(tài)中被卷得無路可走。但如果產(chǎn)品有足夠深的內(nèi)容厚度，它就能在一定程度上界定它的受眾范圍，創(chuàng)造出屬于自己的生存空間。所以對于創(chuàng)業(yè)公司來說，選擇這些賽道反而更有優(yōu)勢，因?yàn)樗粫惠p易取代。

在大模型出現(xiàn)之前，我們談交互和內(nèi)容的關(guān)系時(shí)，總覺得交互是輔助的，想靠它來提升內(nèi)容的體驗(yàn)，真的挺難的。雖然我們有技術(shù)優(yōu)勢，能創(chuàng)造更好的交互方式，但因?yàn)閮?nèi)容生產(chǎn)投入占的比重大，交互撬動的效果并不好。

不過，現(xiàn)在情況不一樣了。大語言模型及相關(guān)技術(shù)帶來的 AIGC 技術(shù)進(jìn)步其實(shí)在悄悄改變著交互和內(nèi)容的平衡，讓我們這些深耕交互技術(shù)的公司看到了新的機(jī)會。

我們堅(jiān)持“先數(shù)據(jù)后 AI”的原則，結(jié)合我們Luka 盧卡品牌過往近千萬臺產(chǎn)品在市場上已經(jīng)收集了百億參數(shù)用戶交互行為數(shù)據(jù)，為后續(xù)的模型優(yōu)化打下了堅(jiān)實(shí)的基礎(chǔ)。

張鵬：今天 AI 硬件要去往前走，即使只是在一個(gè)相對邊緣的場景中，但如果真的交付了足夠的價(jià)值，即使不是行業(yè)的“白馬騎士”，至少是為用戶解決問題的存在，而且解決的問題比過去的方式更好了，只要能夠在這些細(xì)微的場景中創(chuàng)造價(jià)值，創(chuàng)業(yè)團(tuán)隊(duì)就可以沿著這條路徑往前走。

那未來在像耳機(jī)、眼鏡這種顯然可能會成為某種交互入口的領(lǐng)域，會不會有新的補(bǔ)貼大戰(zhàn)？

顧嘉唯：除非未來出現(xiàn)像當(dāng)年智能音箱那樣的激烈競爭，并且所有大廠都把它視為“明牌”，否則很難看到再次出現(xiàn)大規(guī)模的補(bǔ)貼大戰(zhàn)。

當(dāng)時(shí)智能音箱至少被認(rèn)為是明顯的「明牌」。但如今硬件產(chǎn)品并沒有出現(xiàn)同樣的“明牌”路徑，市場更多樣化了。

另外，補(bǔ)貼的本質(zhì)是互聯(lián)網(wǎng)流量變現(xiàn)的方式�，F(xiàn)在的大型模型則采用不同的商業(yè)模式，更加注重成本控制。在這種情況下，單純依靠補(bǔ)貼很難產(chǎn)生根基效應(yīng)的復(fù)利。

回頭來看，怎么定義創(chuàng)業(yè)公司創(chuàng)造出獨(dú)有的稀缺性能力？我認(rèn)為關(guān)鍵在于找到一個(gè)有效的數(shù)據(jù)積累方式，這些數(shù)據(jù)源其實(shí)就是我們靈宇宙今天在核心投入的地方，希望能夠通過空間交互來完成更多樣的交互視角的數(shù)據(jù)閉環(huán)，然后來構(gòu)建一條類似于通往 Robotaxi路徑過程早期特斯拉FSD 的“南坡”路徑。同時(shí)明確所擅長的、能夠深入理解并持續(xù)鉆研的垂直人群的需求，才能來構(gòu)建一款以人為核心AI產(chǎn)品的核心軸線。

今天空間交互的數(shù)據(jù)閉環(huán)建設(shè)，尤其是高速建設(shè)是競爭的關(guān)鍵。只有行業(yè)競爭到了這一層面的階段，才有可能還會出現(xiàn)補(bǔ)貼大戰(zhàn)。

推出 AI 耳機(jī)，字節(jié)真正的野心是什么？
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-29 11:09:17 瀏覽：389次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

推出 AI 耳機(jī)，字節(jié)真正的野心是什么？ 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-29 11:09:17 瀏覽：389次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

推出 AI 耳機(jī)，字節(jié)真正的野心是什么？
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-29 11:09:17 瀏覽：389次