語(yǔ)音交互正在成為我們生活中的一部分。
十年前,如果讓你開口和手機(jī)對(duì)話。你會(huì)覺得非常違和。
十年后,我們現(xiàn)在每天都會(huì)對(duì)著手機(jī)講話,而且是和它交流的那種。
其實(shí)五年前我接觸過(guò)一個(gè)新產(chǎn)品,全智能電飯煲,產(chǎn)品方稱用戶可以與電飯煲對(duì)話,告訴它什么時(shí)候煮好飯。我當(dāng)時(shí)腦子里出現(xiàn)過(guò)一萬(wàn)個(gè)疑問(wèn),“它煮飯,誰(shuí)放米?” “我為什么要和一個(gè)電飯煲說(shuō)話?” “我瘋了吧我”......
使用豆包 AI 生成,提示詞:人類、語(yǔ)音、電飯煲、人工智能、對(duì)話換到今天,雖然交互會(huì)有一些差異,但我已經(jīng)習(xí)慣了在家叫智能音箱開電視、設(shè)置掃地機(jī)器人工作時(shí)間。你不得不承認(rèn),當(dāng)年 4G 的滾滾洪流來(lái)臨時(shí),主打發(fā)送語(yǔ)音的微信抓住了移動(dòng)互聯(lián)網(wǎng)的紅利,但飛信卻在那之后沒(méi)落,是有原因的。
小拇指的手繭見證了一次人與手機(jī)交互方式的轉(zhuǎn)變,語(yǔ)音則是在努力搶奪人機(jī)交互方式的話語(yǔ)權(quán)。
從鍵盤到觸屏,再跳出屏幕在 iPhone 風(fēng)靡全球之前,市場(chǎng)上并不缺乏觸屏手機(jī)。
Nokia、Motorola、BlackBerry 等等企業(yè)將實(shí)體按鍵的手機(jī)做得登峰造極,也鑄就了手機(jī)歷史上最璀璨的一個(gè)篇章。
精密的實(shí)體按鍵是手機(jī)的標(biāo)配。實(shí)體按鍵無(wú)疑有著非常明顯的優(yōu)勢(shì):精確、可盲打、可替換。這些優(yōu)勢(shì)如今依然在其它設(shè)備上有所體現(xiàn)。即使現(xiàn)在的品牌試圖將手機(jī)打造成純粹的 unibody 的產(chǎn)品,也跳不出實(shí)體按鍵的束縛。
只是蘋果將觸屏的優(yōu)點(diǎn)無(wú)限放大,為它匹配了自然的操作邏輯左滑右滑上滑下滑,當(dāng)然你也可以點(diǎn)擊,甚至向屏幕下重重地按下去。蘋果為這塊觸摸屏賦予了符合直覺的、豐富的操作方式。
盡管大家都覺得 iPhone 是觸屏手機(jī)的開創(chuàng)者,但它花了近 3 年時(shí)間優(yōu)化系統(tǒng),讓這個(gè)彼時(shí)的異類更加好用。
某種程度上來(lái)說(shuō),人類是懶惰的,科技的發(fā)展也促使人類更加懶惰。因此用戶自然會(huì)選擇省力的、不費(fèi)腦子的那條路就跟如今短視頻如此風(fēng)靡一樣。
站在交互邏輯的角度,觸屏跳脫出了硬件固定的位置,讓手指可以隨心所欲地在屏幕上進(jìn)行操作。就像 PC 時(shí)代,鼠標(biāo)剛出現(xiàn)時(shí),用戶能夠完成“所見即所得”的操作一樣。而軟件所需要做的,就是為這塊屏幕匹配一個(gè)合理的操作 UI。
屏幕越來(lái)越大,則是另一個(gè)趨勢(shì)。人們總是會(huì)追求更大的屏幕,甚至更多的屏幕。凱文凱利在他的著作《必然》當(dāng)中提到過(guò)“屏讀”,即任意表面都可以是屏幕,屏幕會(huì)越來(lái)越多,F(xiàn)在來(lái)看,預(yù)言正在成真。
充斥于我們生活里的科技產(chǎn)品,屏幕越來(lái)越多,就連智能汽車也在比拼誰(shuí)的屏幕大、誰(shuí)的屏幕多。于是到這里新的問(wèn)題出現(xiàn)了,當(dāng)屏幕越來(lái)越多、越來(lái)越大的時(shí)候,我們應(yīng)該如何與它們進(jìn)行交互?
烽煙傳訊,聲音遠(yuǎn)控人與屏幕的交互范圍受人體影響,即你的手掌有多大,就能覆蓋多大面積的手機(jī)屏幕喬布斯曾說(shuō)手機(jī)的黃金尺寸是 3.5 英寸不是沒(méi)有道理,那是正常人手掌尺寸能覆蓋整個(gè)屏幕的大校
在真實(shí)場(chǎng)景中,手臂與屏幕的距離也決定你是否能直接進(jìn)行操作。雖然你與電視能夠用遙控器進(jìn)行操作,但智能音箱不可能都配上一個(gè)遙控器。
遠(yuǎn)距離通信,古代有烽煙傳訊,今天有智能語(yǔ)音,尤其是 AI 時(shí)代。
語(yǔ)音交互的優(yōu)點(diǎn)顯而易見。你在家可以聲控智能家居,上車可以聲控智能汽車,躺在床上,你也可以向手機(jī)發(fā)出一堆語(yǔ)音指令。這符合科技發(fā)展規(guī)律,畢竟人就是這樣變懶的。
其次,語(yǔ)音對(duì)話是最基本的交流方式。文字出現(xiàn)之前,人類就有了豐富的語(yǔ)言系統(tǒng)。在即時(shí)通訊軟件高度發(fā)展的今天,你甚至可以不懂打字就能和千里之外的親戚朋友聊天。
過(guò)去我們之所以會(huì)覺得與手機(jī)“對(duì)話”奇怪,是由于沒(méi)有對(duì)象感。但是今天,即時(shí)通訊軟件讓我們習(xí)慣了對(duì)著手機(jī)發(fā)出對(duì)話信息,如 ChatGPT 一樣的 AI 語(yǔ)音助手又發(fā)展出了聊天技能,人與手機(jī)進(jìn)行對(duì)話已經(jīng)成為了現(xiàn)實(shí)。
從技術(shù)的角度來(lái)說(shuō),加入 AI 的自然語(yǔ)義識(shí)別正逐漸變得更加擬人化,AI 語(yǔ)音助手能夠接收、結(jié)合背景、分析你所說(shuō)的全部話語(yǔ),并給出相應(yīng)的答案。隨著技術(shù)的進(jìn)步,端側(cè)運(yùn)算能力增強(qiáng),從語(yǔ)音指令發(fā)出再到設(shè)備給出答案,時(shí)間間隔將會(huì)越來(lái)越小,無(wú)限接近人與人的自然對(duì)話。
這樣才不會(huì)出現(xiàn)你在發(fā)布會(huì)上,對(duì)著電腦喊計(jì)算表格,半天出不來(lái)結(jié)果的情況。
語(yǔ)音,最低成本的交互方式語(yǔ)音交互技術(shù)其實(shí)已經(jīng)有了數(shù)十年的發(fā)展歷史,從簡(jiǎn)單的單詞識(shí)別到現(xiàn)在的復(fù)雜語(yǔ)境識(shí)別,甚至做出推測(cè),從技術(shù)角度來(lái)看,語(yǔ)音已經(jīng)做好了登上前臺(tái)的準(zhǔn)備。
而對(duì)于用戶來(lái)說(shuō),語(yǔ)音是最低成本的交互方式。它符合直覺,即時(shí)響應(yīng),沒(méi)有學(xué)習(xí)門檻。在人機(jī)交互領(lǐng)域,它也能實(shí)現(xiàn)跨設(shè)備、跨系統(tǒng)、跨距離的交互,幾乎無(wú)處不在。
在 AI 時(shí)代真正來(lái)臨前,德勤就已經(jīng)發(fā)布過(guò)《德勤交互式人工智能白皮書:交互式人工智能正在重塑人機(jī)交互》,報(bào)告中稱“隨著技術(shù)的進(jìn)一步發(fā)展,預(yù)計(jì)語(yǔ)音交互將在更多領(lǐng)域展現(xiàn)其價(jià)值,成為人機(jī)交互的重要方式”。
邁過(guò)了對(duì)話違和感、技術(shù)門檻以及普及率三大關(guān)之后,語(yǔ)音交互無(wú)疑具有極大的潛力,去改變我們與設(shè)備、機(jī)器交互的方式,尤其是手機(jī)。蘋果從 Siri 到 Apple Intelligence 描繪出了一張碩大的 AI Phone 藍(lán)圖,而另一邊國(guó)產(chǎn)廠商也在奮起追趕,HarmonyOS NEXT、ColorOS 15、OriginOS 5 等等系統(tǒng),都將推出屬于更好用的 AI 語(yǔ)音助手和聊天機(jī)器人。
從鍵盤到觸屏,再到跨空間的高效語(yǔ)音交互,人機(jī)交互的時(shí)代即將翻篇。
而我在這一頁(yè)的最后,依舊用文字詢問(wèn)了 ChatGPT 和豆包,它們認(rèn)為語(yǔ)音是否能成為 AI 時(shí)代的主流交互方式,它們都給出了肯定的答案。
** 頭圖由豆包 AI 生成,提示詞:手機(jī)、人類、對(duì)話、斜45度角