譚暢使用AI工具生成
看不見電極、導(dǎo)線,亦無操縱桿,坐在輪椅上的人通過移動(dòng)頭部、眼球以及眨眼,便能自如地操控輪椅向四周移動(dòng)。
這樣的輪椅已經(jīng)在實(shí)驗(yàn)室里誕生。2024年12月13日,位于廣州市海珠區(qū)的琶洲實(shí)驗(yàn)室內(nèi),一位工作人員戴上特制頭環(huán),坐在一張電動(dòng)輪椅上向南方周末記者演示。
15年前,華南理工大學(xué)自動(dòng)化科學(xué)與工程學(xué)院教授李遠(yuǎn)清到新加坡做訪問研究,接觸到腦機(jī)接口領(lǐng)域。多年來,他的研究取得相當(dāng)進(jìn)展,成果之一便是以腦機(jī)接口技術(shù)為基礎(chǔ)的電動(dòng)輪椅。
然而,這款通過頭動(dòng)及眼動(dòng)方式操控的輪椅,在使用與推廣中仍有一大阻礙:受限于技術(shù),每一臺(tái)輪椅都是定制化的,用戶要操控它,需單獨(dú)采集數(shù)據(jù)并建模。
直到AI全面爆發(fā)。2022年前后,這個(gè)問題有了解決之道使用AI建立公共模型。至此,任何人經(jīng)過短時(shí)間的設(shè)備調(diào)試后,都可以使用同一臺(tái)輪椅,殘障者出行將變得更便利。
歷經(jīng)無數(shù)次升級(jí)迭代,如今,搭載AI技術(shù)的設(shè)備正逐漸成為視障者的眼、聽損者的耳、肢體殘障者的腿和手……雖然技術(shù)與設(shè)備還處于初級(jí)階段,但未來,AI或許能幫助更多殘障人士和弱勢(shì)群體重新連接世界。
需要“明眼人”幫助
2024年12月18日,在自家按摩店里,45歲的盲人按摩師王安平來回穿梭,取號(hào)碼牌、招呼來客。如果將他在按摩行業(yè)中的沉浮繪制成一條曲線,大致能看出曲折上升的態(tài)勢(shì):20歲那年,他學(xué)了盲人按摩手藝,此后幾十年在廣西老家、廣東數(shù)地奔波,以按摩為生,一雙手歷經(jīng)揉搓,拇指關(guān)節(jié)處都變了形,如同鼓了大包。2013年,他在深圳開了家按摩店,當(dāng)上小老板,結(jié)束了漂泊。
但對(duì)于眼前的世界而言,王安平經(jīng)歷的,則是一條下滑曲線。他出身農(nóng)家,先天視障,但年輕時(shí),在白天,他還能看見10米遠(yuǎn)的物體殘影,放牛也不在話下。隨著年歲漸長(zhǎng),王安平的視力逐步惡化,最終完全失明。
如今,店內(nèi)與家中的方寸天地,他靠記憶已摸得十分熟悉,但許多普通人抬手可為的小事,他處理起來仍然費(fèi)勁。接受采訪那天下午,王安平坐在沙發(fā)上,想拿腳底下的快遞包裹,卻找不準(zhǔn)位置,幾次都撈空了。
類似的麻煩還有許多。做菜時(shí),他取不準(zhǔn)鹽和油的量;收了快遞,他不知道寄送者的信息;在醫(yī)院拿了診斷,他也看不見上面的字跡。作為老板,他很難讀經(jīng)營(yíng)賬目,無法分辨按摩師號(hào)碼牌上的數(shù)字,連按摩床上被子掉落都不知道。他需要“明眼人”的幫助,才能擁有完整的事業(yè)與生活。
和王安平一樣,盲人程家家也想擁有自己的事業(yè)。短視頻平臺(tái)興起后,這位以擅長(zhǎng)模仿、脫口秀著稱的盲藝人入局做了盲人主播。
對(duì)盲人主播來說,最麻煩的是在直播間與觀眾互動(dòng)。觀眾在彈幕中說了什么,他們難以知曉,也無法回復(fù)。久而久之,觀眾索然無味,紛紛離開,直播事業(yè)難以為繼。
從2019年下半年開始,程家家找到一名視力正常的網(wǎng)友協(xié)助直播。開播后,網(wǎng)友需與他保持通話,實(shí)時(shí)閱讀觀眾的評(píng)論及刷禮物的情況。
最初,這個(gè)辦法效果不錯(cuò)。然而,3年過去,新的問題出現(xiàn)了。程家家稱,雖然他會(huì)與網(wǎng)友分享直播收入算作酬勞,但網(wǎng)友后來還是有些懈怠,時(shí)而跳過一些他認(rèn)為不重要的信息。
程家家試圖換個(gè)人選,可一時(shí)也不好找替代者。他擔(dān)心,好不容易有些人氣的直播事業(yè)將要下滑。
當(dāng)AI成為眼睛盲人最懂盲人的需求。
2022年開始,蔡勇斌陸續(xù)聽說,有盲人主播因無法看見直播彈幕,流失了不少觀眾。這位6歲時(shí)雙眼被石灰燒傷以致失明的碼農(nóng),突然起了興趣。他靠自學(xué)成為程序員,開過信息科技公司,開發(fā)過助盲軟件,也為許多App做過信息無障礙化工作。這一次,他決定利用AI,拉盲人主播們一把。
一年后,互聯(lián)網(wǎng)大廠員工李岸也看好AI浪潮,下海創(chuàng)業(yè)。思索具體進(jìn)軍領(lǐng)域之際,AI助盲也進(jìn)入了李岸的視線。他了解到,多年前,國(guó)外已有公司開發(fā)了AI視覺輔助眼鏡,能夠幫助盲人識(shí)別文本、人臉、商品、顏色與時(shí)間。不過,它運(yùn)用的還是早期的小模型,“只能做一些簡(jiǎn)單的識(shí)別,不能做理解”。如能與當(dāng)下的多模態(tài)大模型結(jié)合,產(chǎn)品功能上還可更進(jìn)一步。
一前一后,兩人分別走上開發(fā)的征途。
在蔡勇斌的敘述中,這項(xiàng)工作幾乎是順便的事情。文本轉(zhuǎn)語音的技術(shù)已經(jīng)成熟,此前已有云平臺(tái)提供基于AI算法的文本轉(zhuǎn)語音服務(wù)。他付費(fèi)使用該服務(wù),并開發(fā)了一款軟件,將服務(wù)嵌入。使用者開始直播后,啟動(dòng)該軟件,就能實(shí)時(shí)聽到觀眾的彈幕文本轉(zhuǎn)換成的語音。一兩個(gè)月后,彈幕助手軟件開發(fā)完成,并開放免費(fèi)使用。
2023年10月,李岸也帶著一個(gè)迷你初創(chuàng)團(tuán)隊(duì)開工了。他有芯片工程師的經(jīng)歷,又曾在互聯(lián)網(wǎng)大廠任職產(chǎn)品經(jīng)理6年,一直負(fù)責(zé)刷臉支付的產(chǎn)品線。李岸解釋,早前的刷臉支付也會(huì)用到判別式AI,雖與現(xiàn)在的生成式AI不同,但技術(shù)與產(chǎn)品架構(gòu)上均有延續(xù)性。
設(shè)備的工作原理不復(fù)雜:在眼鏡上安裝小型攝像頭以拍攝圖像或視頻,傳送給AI,AI識(shí)別出拍攝的內(nèi)容后,先將其轉(zhuǎn)化為文本,再讀給盲人聽。現(xiàn)實(shí)中,也有一些開源模型可供使用。
李岸團(tuán)隊(duì)要完成的關(guān)鍵任務(wù),是以圖像、文本一類數(shù)據(jù)大量訓(xùn)練AI,使其能在識(shí)別時(shí)舉一反三。用于訓(xùn)練的數(shù)據(jù)必須來自盲人生活場(chǎng)景,與普通數(shù)據(jù)不同,團(tuán)隊(duì)要在浩瀚的網(wǎng)絡(luò)中爬取零散信息,再做清洗。
盡量縮短AI的反應(yīng)時(shí)間也很關(guān)鍵。為此,他們不得不“掄起斧頭”,將過于智能的AI中一些無助于識(shí)別圖像、文字、視頻的功能悉數(shù)砍掉。模型縮小了,反應(yīng)時(shí)間才能縮短。
聲音與噪音
74歲的王水東不清楚自己是否達(dá)到聽力殘疾的標(biāo)準(zhǔn),但他很熟悉感官失靈后,與生活漸漸脫節(jié)的感受。古稀之年,王水東耳背了。家人說話,他聽不清;看電視時(shí),他要把聲音調(diào)得很大;在醫(yī)院窗口辦手續(xù),他得趴在窗口前聽工作人員講話,有時(shí)還要多聽?zhēng)妆椤?br/>
他嘗試過自我拯救。2022年,有親戚送了王水東一副電池式助聽器,他斷斷續(xù)續(xù)使用了一年,效果一言難盡。水龍頭的水流聲、汽車的喇叭聲、戶外的風(fēng)聲,經(jīng)助聽器放大后,在王水東的耳朵里就像爆炸一樣;聲音低的人和他說話,話語聲卻被助聽器當(dāng)成環(huán)境噪音降噪處理,他還是聽不清。
時(shí)間久了,王水東出門還會(huì)戴上助聽器,但在家里就漸漸“棄療”了!胺凑褪歉习闇贤ㄙM(fèi)點(diǎn)勁!庇錾蠜]字幕的電視節(jié)目,他“看都不看”。
事實(shí)上,在AI還不為大眾所知時(shí),已經(jīng)有研究者試圖用它改善助聽設(shè)備。騰訊天籟實(shí)驗(yàn)室是一支聚焦聲學(xué)領(lǐng)域研究二十多年的團(tuán)隊(duì),利用AI為騰訊會(huì)議軟件的音頻降噪是其研究項(xiàng)目之一。
降噪恰恰也是傳統(tǒng)人工耳蝸的技術(shù)難題。按照天籟實(shí)驗(yàn)室專家研究員甄廣啟的解釋,聽障者植入傳統(tǒng)人工耳蝸后,聽力雖有所恢復(fù),但在嘈雜環(huán)境中,時(shí)常要忍受噪音過大的折磨?吹郊夹g(shù)跨界克服難題的可能后,2020年,天籟實(shí)驗(yàn)室與耳蝸廠商達(dá)成合作,以AI助力廠商提升產(chǎn)品使用效果。
在那之前,已有超過300種從外界搜集而來的噪聲與其它海量數(shù)據(jù)被“灌輸”給AI大模型,用于訓(xùn)練其識(shí)別何為有效語音,何為噪音。“訓(xùn)練一個(gè)模型之后,我們?nèi)ピ囁慕翟胄Ч,有時(shí)它會(huì)把有效語音消掉,我們?cè)偃ノ⒄{(diào)參數(shù),不停迭代。”甄廣啟說,產(chǎn)品最終要能達(dá)到這樣的效果:輸入的是含噪音的語音,輸出的是干凈的語音。
但新問題仍層出不窮:為了適應(yīng)人工耳蝸的芯片,過往用在會(huì)議中的大模型,要改為降噪效果更弱的小模型。它去除的噪音種類要多,但還得學(xué)會(huì)留下一些必要的噪音,如過馬路時(shí)的汽車聲。此外,它的延遲要低,以確保使用者能正常與人交流。
優(yōu)化算法,將要處理的聲音片段切得更小……幾個(gè)月后,他們完成了第一代產(chǎn)品的開發(fā),通過人工耳蝸加手機(jī)伴侶的方式,把AI算法植入手機(jī)App中,以提升使用者的聽覺體驗(yàn)。
從2022年開始,天籟實(shí)驗(yàn)室的重點(diǎn)逐步轉(zhuǎn)向開發(fā)助聽器的AI算法。工作人員介紹,人工耳蝸開發(fā)周期過長(zhǎng)。同時(shí),全球范圍內(nèi),使用助聽器的聽損者數(shù)量更多,AI算法能使更多人受益。
生意還是公益
2024年年初,兒子為王水東買入一款植入AI的助聽器。
在王水東的耳道中,完成助聽器調(diào)試后,聲音在一瞬間清晰了不少。此后,坐在電腦前看小說、玩游戲時(shí),妻子做飯、孩子們聊天以及電視節(jié)目的聲音,他都能聽見。王水東主動(dòng)將助聽器戴回了耳邊。
甄廣啟介紹,為了使聽損用戶聽感更能適應(yīng)日常生活,研發(fā)助聽器的過程中,他們?cè)贏I算法優(yōu)化上下了不少功夫。例如,要使AI算法有針對(duì)性地保留說話人的聲音,去除周圍的環(huán)境噪聲和干擾人噪聲,抑制一些不想要的聲音,否則用戶在餐廳、街道這些多人場(chǎng)景,聽感上會(huì)很難受。針對(duì)助聽器,他們推出了適應(yīng)不同場(chǎng)景及需要的五大算法。
也是在2024年年初,李岸認(rèn)為,AI眼鏡的第一代樣品已經(jīng)可以試水。他在公司周邊尋找盲人按摩店,請(qǐng)按摩師們?cè)囉,王安平是其中之一?br/>
李岸對(duì)王安平第一次試用的場(chǎng)景印象深刻。王安平使用眼鏡上的攝像頭,對(duì)面前的物體拍照后,AI識(shí)別出了那是桌子,還說出了桌子上水果的大致數(shù)量;AI還描述了他女兒的穿著。
程家家的直播間里,AI戰(zhàn)勝了人力。比起雇用“明眼人”,彈幕助手不會(huì)漏掉信息。這款產(chǎn)品還開發(fā)了不少切中盲人痛點(diǎn)的功能。例如,它可以識(shí)別榜一、榜二、榜三的“大哥”,提示主播向其致謝;在有高級(jí)燈牌的粉絲進(jìn)入主播間時(shí)發(fā)出提醒,并為其制作單獨(dú)的入場(chǎng)音效,便于主播與其互動(dòng),留住大粉絲
“當(dāng)你知道公屏上有這么多人在跟你互動(dòng)的時(shí)候,當(dāng)然會(huì)調(diào)起你的積極性!背碳壹艺f,粉絲們?cè)谒闹辈ラg里感受到的溝通障礙更少了。
直播間,蔡勇斌卻漸漸生出開發(fā)者的煩惱:伴隨著彈幕助手的不斷迭代,其開發(fā)成本也在不斷增加,他不得不將最初的免費(fèi)軟件變?yōu)楦顿M(fèi)使用。目前,一年的使用費(fèi)是四百多元,有用戶抱怨收費(fèi)過高,可按照蔡勇斌的計(jì)算,收益不足成本的四分之一。
盲人主播少,付費(fèi)用戶更少,F(xiàn)階段,蔡勇斌只能減少人力投入,“大家沒有主營(yíng)業(yè)務(wù)干的時(shí)候,就干一干(彈幕助手)。”
事實(shí)上,這是助殘行業(yè)常見的困境:生意與公益性質(zhì)交織。AI助殘也是如此,開發(fā)者、生產(chǎn)者是否能從技術(shù)創(chuàng)新中獲得商業(yè)回報(bào)是個(gè)未知數(shù),也影響著創(chuàng)新可持續(xù)性。在邁出最初幾步后,AI對(duì)殘障人群的幫助會(huì)走向何方,仍無人知曉。
李岸還在AI助盲眼鏡的研發(fā)升級(jí)中摸索前行。王安平稱,第一代眼鏡確有幫助,但還有不少需改進(jìn)之處。其中一些,李岸后來陸續(xù)實(shí)現(xiàn)了,如將AI反應(yīng)時(shí)間縮短至數(shù)秒,并用手機(jī)App替換了第一代的外接設(shè)備。
也有問題未解決。王安平感覺眼鏡的設(shè)計(jì)戴著不舒服,他因此不常用眼鏡上的攝像頭,而是用配套App對(duì)物體拍照做識(shí)別,要對(duì)準(zhǔn)物體并不容易,有時(shí)識(shí)別文字、數(shù)字也會(huì)出現(xiàn)差錯(cuò)。此外,王安平期待它能進(jìn)一步完善導(dǎo)航等功能,甚至幫助他上街行走。
李岸觀察到,國(guó)內(nèi)也有AI避障眼鏡產(chǎn)品問世,但確實(shí)賣得不好。他判斷,核心原因還是技術(shù)不夠強(qiáng)。
不過,他對(duì)于AI助盲產(chǎn)品的市場(chǎng)前景依然樂觀,因?yàn)樗J(rèn)為,獲取信息對(duì)視障群體來說是剛需。“盲人也要生活工作的,很多時(shí)候他們職業(yè)道路受限,是因?yàn)闆]有辦法,沒有工具去幫他們做這個(gè)事情!
(文中王水東、王安平為化名)
南方周末記者 姜博文 南方周末實(shí)習(xí)生 宋宇玲
責(zé)編 譚暢