杭州的馬塍路,2022年夏天開了兩家特殊的店鋪,一家熟客靠小紙條、打字溝通的理發(fā)店,一家沒有“歡迎光臨”問候聲的面包店。這兩個靠聽障者經(jīng)營的店鋪格外安靜,但生意卻火熱,街道也因此得到了“無聲街道”的稱呼。
隔了一年的夏天,AIGC技術(shù)開始席卷國內(nèi)外的商業(yè)世界,互聯(lián)網(wǎng)公司紛紛投入到新一輪的技術(shù)浪潮中。AI技術(shù)的風(fēng)也吹到了這條街道。
今年45歲的聽障理發(fā)師沈師傅難得地?fù)芡俗约耗赣H的電話,通過用自己的音色合成的話,說出了自己對媽媽表示感謝的“人生第一句”。店里的熟客也終于聽到了這位長期為自己理發(fā)的“Tony”的聲音。
先天聽障的甜品師小陳,做出拿手的奶凍和牛角包,總是最快售罄。平時發(fā)不出完整聲音的她,也人生第一次跟顧客說了“歡迎光臨。”“甜品需要為您打包嗎?”
對一部分聽障人士來說,說出完整的句子、甚至音節(jié)都是現(xiàn)實(shí)的難題。普通人輕易可以做到的這件事,對他們卻是時間跨越幾十年后,才終于靠技術(shù)得到的一種完全的展現(xiàn)。技術(shù)讓這種缺憾有了彌補(bǔ)的可能性。
有數(shù)據(jù)顯示,中國聽力障礙殘疾人數(shù)約為2780萬。對比來看,聽障專業(yè)服務(wù)人士只有約1萬名,助聽器的應(yīng)用不到5%。這意味著,聽障人士需要主動或者被動地減少溝通。
正是有了網(wǎng)易互娛的聽障人士AI復(fù)原原聲的工具,聽障人士只需要上傳2分鐘沒有完整語義的發(fā)聲片段,就能重建出屬于自己獨(dú)一無二的聲音。之后,只需輸入文字,就可以通過個人音色傳達(dá)出來。這項新技術(shù)的成熟正在漸漸消除聽障人士溝通的困難和情感表達(dá)的阻礙。
被掛掉的電話和“歡迎光臨
45年來,沈師傅的母親已經(jīng)習(xí)慣了兒子聲音的“缺席”。沈師傅因?yàn)閮簳r的一場高燒,失去了聽力,世界的聲音逐漸消失。跟異地的妻子聯(lián)系時,兩人也只能通過手語交流。沈師傅的母親從來沒接到兒子電話,以至于第一次打去電話時,她下意識地選擇了掛斷。
一句屬于沈師傅聲線合成的“媽媽,謝謝你”,換來了電話那頭的母親隔著電話,傳過來的興奮,“太像太像了”。她用紹興話在電話那頭“嘰里咕嚕”地說著話,似乎已經(jīng)忘記兒子聽不見自己聲音。
這是一家同樣不會說“歡迎光臨”的理發(fā)店。價低,但手藝被熟客認(rèn)可。熟客們到發(fā)廊時,會用手比劃,或者在寫字板上,用盡量精簡的語言表達(dá)自己的理發(fā)訴求。再后來,店里又專門增加了一臺預(yù)約機(jī)器,用機(jī)器取締更多興許不順暢的溝通。
到訪的那天,沈師傅又迎來了一位熟客,對頭發(fā)的訴求就寫在隨便撕下的紙片上,“兩耳邊修一下,頭后也盡量短點(diǎn)”。沈師傅點(diǎn)開自己的聲音,跟他進(jìn)行了第一次剪發(fā)需求的溝通,不依賴機(jī)械的機(jī)器人聲,而是被媽媽認(rèn)可的,像他的聲線的聲音。
沈師傅的隔壁,就是筑夢無聲烘培。沈師傅的人生第一句說給了媽媽,烘培坊的小陳則完成了跟顧客的一次語言溝通。
小陳曾經(jīng)遇到過商品原材料質(zhì)量問題,當(dāng)面跟顧客道歉,又是比劃,又是打字。雖然最終沒有發(fā)生大的沖突,但沒法直接說出歉意,讓她很愧疚。她同樣也遇到過,因?yàn)闇贤ɡщy,遇到?jīng)]耐心的顧客,明知對方是聽力障礙人士,聽不到卻還是不斷動著嘴巴。
小陳說,這種表達(dá)語言的功能,可以讓他們和健全人一樣上班。“比如進(jìn)公司、實(shí)體門店就不會有阻礙了。”
小陳用完網(wǎng)易的AI聲音復(fù)原工具,店里終于有了“歡迎光臨”的聲音。屬于她的聲音,也開始幫助她跟顧客溝通。小陳試用后也開始向同學(xué)們推介,他們中多數(shù)人也同樣因?yàn)槁犃φ系K,而留有遺憾或難以言表的感謝。
網(wǎng)易互娛AI Lab團(tuán)隊曾經(jīng)接觸過一個咖啡師,沒有親口對女朋友說過情話,對他而言心中縱有萬千思緒,卻難以言表。他想用自己的聲音說,但原有的AI產(chǎn)品沒有一個能真正實(shí)現(xiàn)。
曾經(jīng)參與世界巡演的舞蹈家顧老師,在一歲左右時同樣因?yàn)榘l(fā)燒打針引起了耳聾,100多分貝的聲音對著她的耳朵,也毫無反應(yīng)。在很長的日子里,爸媽帶著她四處求醫(yī),針灸、吃藥成了家常便飯。但直到女兒出生,她的耳朵也未見好轉(zhuǎn)。如今,她能用自己的音色“說話”了,還彌補(bǔ)了曾經(jīng)的遺憾,“女兒學(xué)說話的時候不能陪她、教她。”
市場上,雖然文字轉(zhuǎn)換為語音的技術(shù)已經(jīng)高度成熟。比如從最早期的比較機(jī)械的聲音,到富有節(jié)奏韻律的語音合成效果,再到在短視頻中成熟應(yīng)用,可以帶著“情緒”的電影解說配音,這種進(jìn)化代表著文字到語音轉(zhuǎn)化技術(shù)更加趨近實(shí)用。但對聽障人士而言,相比于采用統(tǒng)一的聲線合成語音,他們更加渴望能夠使用他們自己獨(dú)特的聲線,向周邊人傳遞自己的心聲。努力讓每一個TA,在AI世界里,也能成為獨(dú)一無二存在,是技術(shù)團(tuán)隊追逐的目標(biāo)。
一場公益的共謀
在社交媒體上,越來越多的聽障人士被關(guān)注,也從更大程度上展現(xiàn)了房間里的大象。對他們來說,如何與社會自如相處,更便捷、準(zhǔn)確的溝通,是終身的難題。
今年5月,網(wǎng)易互娛AI Lab團(tuán)隊開始思考,在游戲場景之外,如何能把現(xiàn)有的技術(shù)拓展到更多的場景。幫助聽障人士“說話”的提議被拎出來討論。
技術(shù)是熟悉的,iSpeech技術(shù)曾在游戲很多場景應(yīng)用過,但要應(yīng)用到聽障人士群體,這個場景是陌生的,他們起初也不知道技術(shù)可以做到哪一步。
為了調(diào)研聽障人士是否真的有這個需求,網(wǎng)易找到了浙江省殘疾人福利基金會,做了一次調(diào)研。
調(diào)研結(jié)果顯示,僅有十分之一的受訪對象能夠通過簡單的口語與身邊的人進(jìn)行交流。更多時候,還是依靠手語、更傳統(tǒng)的寫字或借助手機(jī)。他們中的大多數(shù)人經(jīng)歷過太多想說但說不出的自卑與懊惱,說出“人生第一句”是一部分的“夢想”。
在社交媒體上,也有不少正在通過“音書”等App練習(xí)發(fā)音、通過實(shí)施轉(zhuǎn)錄語音聽網(wǎng)課的聽障人士,他們也在通過各種辦法,找回語感、訓(xùn)練發(fā)音、或者找到跟其他人交流更便捷、有效的辦法。
在確認(rèn)需求后,網(wǎng)易互娛AI Lab團(tuán)隊總結(jié)出來,在現(xiàn)有的技術(shù)方案下,音色克隆系統(tǒng)可以通過聽障人士的發(fā)聲片段學(xué)習(xí)聲線特色,但無論是聲線的錄制、錄音上傳后的處理,都需要更便捷地完成。
大多數(shù)聽障人士在闡述一句話時,嘴巴在動,但一句話中,興許有部分音節(jié)能出發(fā)聲音,或者只是不完整的句子,沒有語義的聲音。這些對采集聲音造成了不小的挑戰(zhàn),也是團(tuán)隊主要攻克的難題。最終,他們通過技術(shù)層面的升級,僅提取聽障人士的聲紋信息,摒棄了傳統(tǒng)語音合成需要采集上百個句子(超半小時)的語音量,將聲音收集的時間壓縮到最短2分鐘,進(jìn)而大幅度降低聽障人士的使用門檻。
為了盡可能提升訓(xùn)練和合成的效果,網(wǎng)易互娛AI Lab還邀請聲優(yōu)、內(nèi)部人員,設(shè)計了大量的文本進(jìn)行語音錄制,隨后花了大量的精力進(jìn)行模型的訓(xùn)練和調(diào)參優(yōu)化。終于,花了兩個月時間,工具在聚集了許多聽障人士的音書App上線。這才有了沈師傅、小陳說出的“人生第一句”。
事實(shí)上,由于大多數(shù)聽障人士無法完整清晰地表達(dá)一句話,因此在音頻被機(jī)器學(xué)習(xí)并轉(zhuǎn)化之后,他們的聲音中,仍然殘留著“嘶啞聲”。但在此過程中,聽障人士們的一次次努力,一次次溝通,也構(gòu)成了一些人情感“缺憾里的完美”。
技術(shù)如何向善?
在為聽障人士提供音色復(fù)原的技術(shù)之前,網(wǎng)易作為一家主營業(yè)務(wù)為游戲的公司,早早就把iSpeech技術(shù)應(yīng)用在游戲場景中。
簡單來說,網(wǎng)易的游戲產(chǎn)品中,NPC的語音生成、游戲中的系統(tǒng)播報、轉(zhuǎn)換音色等都有了基礎(chǔ)的應(yīng)用。當(dāng)一個成熟的新技術(shù)被驗(yàn)證,隨之而來的就是將其作用更極致化、鋪展開的過程。
在開始之前,團(tuán)隊反復(fù)考量,這事要如何更好地推進(jìn)下去。原本更多只是服務(wù)游戲的聲音合成技術(shù),在公益價值上得到了第二次的落地。
根本上,這更多旨在提供社會價值,而非商業(yè)價值。網(wǎng)易互娛AI Lab技術(shù)總監(jiān)林悅提到,現(xiàn)在沒有考慮(通過這個技術(shù))盈利賺錢。但相關(guān)技術(shù)除了游戲中應(yīng)用提高生產(chǎn)效率之外,也在不斷探索新的玩法。
他舉例說,在游戲開發(fā)過程中,一些聲優(yōu)遇到需要補(bǔ)錄的問題時,跨地域、實(shí)地到錄音棚的周期會很長,但現(xiàn)在已經(jīng)可以通過AI以及音色復(fù)原的算法,對相應(yīng)的少量臺詞進(jìn)行修改。在做聽障人士還原音色項目的過程中,也促使團(tuán)隊重新梳理語音合成技術(shù)的各個細(xì)節(jié)和可能提升的方案,這次合作也使得合成技術(shù)有了進(jìn)一步的提升,對未來在游戲中也有了更多應(yīng)用的可能性。
在做調(diào)研時,他們還發(fā)現(xiàn),一個現(xiàn)實(shí)的問題是,聽障人士在使用無障礙通信軟件主要面臨需支付較高費(fèi)用、語音轉(zhuǎn)文字準(zhǔn)確率不夠、翻譯器翻譯有延遲等問題。這也是網(wǎng)易將這個技術(shù)免費(fèi)開放給聽障人士的初心之一。能盡可能高準(zhǔn)確度地,為聽障人士的日常溝通創(chuàng)造“情感”的價值,這也是一定要做出“聲線”的根本所在。
林悅說,下一步的計劃就是能在合成后,還能準(zhǔn)確表達(dá)出相應(yīng)的情緒。傳統(tǒng)工業(yè)界的做法往往是基于大量的帶情緒的訓(xùn)練數(shù)據(jù),或者是通過文本判斷情緒并在合成時做情感的遷移,但靠聽障人士在錄制數(shù)據(jù)表達(dá)的語義信息,再帶上情感信息的仍然有難點(diǎn)。
在不少聽障人士的人生故事中,溝通的不便捷會消磨掉一部分時刻的完整性。一位參與該項目的人士提到,她記得一個父親說過,他不能說話的遺憾來自,在孩子的婚禮上,他沒辦法做致辭。親口說話不可替代,人生就是有很多時刻,可能就是得親自來講話。
在那場調(diào)研中,有超過67%的受訪對象表示“愿意使用音色復(fù)原技術(shù)”,超過一半的受訪對象表示“愿意將音色復(fù)原技術(shù)推薦給身邊有需要的人”,也有部分受訪對象表示除了手機(jī) APP 軟件以外,希望音色復(fù)原技術(shù)應(yīng)用于在公交、出租、飯店、超市、銀行等公共場所。但這仍然需要長時間的,社會各界的共謀。至少從現(xiàn)在開看,一些人找回了失去的聲音,盡管方式會更曲折。
沈師傅的故事在無聲街道上被多次關(guān)注,在許多的視頻、采訪中,沈師傅常常只是打著手語,由不同的人擔(dān)當(dāng)翻譯。他喜歡說“奮斗”,總是對來訪者提出的要求充分配合。但在使用了音色合成的工具后,沈師傅第一次在視頻中,通過自己的語言、聲音闡述自己的經(jīng)歷、思考和期盼,為自己完成了“配音”。
關(guān)鍵詞: