12月14日消息,彭博社發(fā)布文章稱,要能夠與我們的電子設(shè)備進行自然的對話,那語音識別技術(shù)必須要有更加顯著的改善。為此,各家科技巨頭紛紛積極收集任何它們能夠收集到的語言、口音和方言語音。

以下是文章主要內(nèi)容:
亞馬遜的Echo智能音響讓家家戶戶都有帶人工智能的個人助手變得切實可行。那些擁有該款聲控設(shè)備的人都對Alexa贊譽有加,稱贊它能夠幫助通過Uber叫車,訂購比薩餅,又或者檢查10年級學(xué)生的數(shù)學(xué)作業(yè)。亞馬遜稱,每天有逾5000人表達對Alexa的喜愛。
另一方面,Alexa信徒們也知道,除非你緩慢地用非常清晰而的語言去跟她說話,否則她很可能會跟你說,“對比起,我不知道那個問題的答案。”有位顧客在亞馬遜的網(wǎng)站上評價道,“我愛她,我恨她,我愛她?!辈贿^他還是給于Alexa五星評價?!澳愫芸炀蜁W(xué)會如何用一種她會明白的方式跟她說話,這就像是跟一個不高興的小孩子說話一樣。”
語音識別在過去幾年里取得了很大的進展。但這還不足以令該技術(shù)普及到日常生活的方方面面,還不足以引領(lǐng)人機交互新時代的到來,還不足以讓人們輕松自如地與身邊所有的設(shè)備(如汽車、洗衣機和電視機)進行交談。在可預(yù)見的未來里,這種情況可能還會延續(xù)。
發(fā)展障礙
那么是什么因素導(dǎo)致語音識別還不能更進一步呢?部分因為驅(qū)動該項技術(shù)的人工智能還有不小的改進空間。另外,所需數(shù)據(jù)嚴(yán)重缺乏——即往往嘈雜環(huán)境下多種語言、口音和方言的人類語音的音頻。
因此,亞馬遜、蘋果、微軟和百度紛紛著手在全球范圍內(nèi)收集海量的人類語音數(shù)據(jù)。微軟在全球各地設(shè)立據(jù)點,記錄志愿者在家庭環(huán)境中說話的聲音。亞馬遜無時無刻都在將Alexa請求上傳到其龐大的數(shù)據(jù)庫。百度在中國忙于收集各種方言的語音。收集過后,他們會將那些數(shù)據(jù)用于教導(dǎo)他們的計算機如何分析、理解和響應(yīng)語音指令和請求。
對于這些科技巨頭而言,挑戰(zhàn)在于找到方法去捕捉自然真實的對話。負責(zé)領(lǐng)導(dǎo)百度在加州森尼維爾的人工智能實驗室的亞當(dāng)·科茨(Adam
Coates)指出,語音識別的準(zhǔn)確率即便有95%也不足夠?!拔覀兊哪繕?biāo)是將錯誤率壓低到1%以下?!彼f,“做到了這一點,你才能夠真正相信設(shè)備理解你說的話。那將會是變革性的進展。”
不久以前,語音識別還處于非常初期的發(fā)展階段。在2006年的一次演示中,微軟運行于Windows的語音識別技術(shù)的早期版本在眾多分析師和投資者面前竟然將“mom”(媽媽)轉(zhuǎn)錄成“aunt”(阿姨)。蘋果5年前推出Siri時,該個人助手頻頻出錯,備受嘲笑。它經(jīng)常給出錯誤的結(jié)果,又或者不能夠準(zhǔn)確聽清問題。被問到吉莉安·安德森(Gillian
Anderson)是不是英國人時,Siri卻展示了一系列的餐館。如今,微軟稱其語音引擎的準(zhǔn)確率已經(jīng)不亞于專業(yè)轉(zhuǎn)錄員,Siri正贏得一定的尊重,Alexa也讓人們看到了未來的希望。
神經(jīng)網(wǎng)絡(luò)
這一進展很多程度上要歸功于神奇的神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)是一種基于人腦架構(gòu)的人工智能形式,它不需要明確的程序化就能學(xué)習(xí),通常只需要大量廣泛多樣的數(shù)據(jù)。語音識別引擎消化的語音數(shù)據(jù)越多,它就越能夠理解不同的語音,就越接近于實現(xiàn)在多種情景中用多種語言進行自然對話的最終目標(biāo)。
因此,各大巨頭在爭奪大批的語音資源?!拔覀兘o系統(tǒng)注入的數(shù)據(jù)越多,它的表現(xiàn)就會越好?!卑俣仁紫茖W(xué)家吳恩達(Andrew
Ng)表示,“正因為此,收集語音成為了一種資本密集型的活動;有這么多數(shù)據(jù)的機構(gòu)組織并不多?!?/p>
當(dāng)業(yè)界在1990年代開始積極發(fā)展語音識別技術(shù)時,微軟等公司主要依靠來自研究機構(gòu)公開的可用數(shù)據(jù),比如語言學(xué)數(shù)據(jù)聯(lián)盟。該語音與文本數(shù)據(jù)庫于1992年創(chuàng)立于賓夕法尼亞大學(xué),擁有美國政府的支持。后來,科技公司們紛紛開始收集自有的語音數(shù)據(jù),部分公司通過給志愿者錄音進行收集。如今,隨著聲控軟件日益普及,它們從自有的產(chǎn)品與服務(wù)收集大量的數(shù)據(jù)。
當(dāng)你叫你的手機去搜索內(nèi)容,播放歌曲,又或者提供導(dǎo)航路線時,你很有可能會被公司錄音。(蘋果、谷歌、微軟和亞馬遜均強調(diào)有匿名化用戶數(shù)據(jù)來保護個人隱私。)在你問Alexa天氣怎么樣或者體育比賽的比分時,設(shè)備會利用你的語音請求來改進其對自然語言的理解(盡管“她”不會偷聽你的對話,除非你有說她的名字)。Alexa項目首席科學(xué)家尼克·斯特羅姆(Nikko
Strom)指出,“通過我們的設(shè)計,Alexa會隨著你的使用的增多而變得越來越智能?!?/p>
兩大挑戰(zhàn)
語音識別的一大挑戰(zhàn)在于,使得該項技術(shù)熟悉各種各樣的語言、口音和方言。也許,這一點在中國尤為重要。為了采集全國各地的方言語音,百度今年在春節(jié)期間展開了一項營銷推廣行動。該搜索巨頭稱該舉是“方言對話項目”,并向人們承諾,如果他們參與進來,他們就能幫助引領(lǐng)人人都能用自己的方言跟百度對話的未來。在兩周的時間里,該公司錄得超過1000個小時的語音來接入它的計算機。很多人之所以愿意無償參與進來,是因為他們?yōu)樽约杭亦l(xiāng)的方言感到驕傲。四川的一位高中教師對于該項目感到非常興奮,因而他號召全班學(xué)生錄制了超過1000首用四川話朗讀的古詩語音。
另一挑戰(zhàn)是:教導(dǎo)語音識別技術(shù)理解嘈雜背景下(比如在酒吧和在體育場)傳來的指令。微軟部署了一款名為Voice
Studio的Xbox應(yīng)用來收集用戶在進行射擊游戲或者看電影時的對話聲。該公司為參與者提供包括積分和游戲裝備在內(nèi)的各種獎品,吸引了數(shù)百位愿意貢獻自己玩游戲時的聊天聲音的用戶。該項目在巴西尤其奏效,微軟在當(dāng)?shù)氐淖庸驹赬box主頁面上大力推廣Voice
Studio應(yīng)用。那些數(shù)據(jù)用來打造Cortana的巴西葡萄牙語版本。該版本于今年早些時候推出。
各家公司也在針對特定的情境設(shè)計語音識別系統(tǒng)。微軟一直在測試能夠回答機場旅客的請求的技術(shù),它希望其技術(shù)能夠不受機場持續(xù)不斷的航班通知聲音的干擾。該公司的技術(shù)目前還被應(yīng)用于麥當(dāng)勞外賣車道的自動訂餐系統(tǒng)。經(jīng)過訓(xùn)練,它能夠做到不受諸如孩子尖叫聲的各類雜音的感染,因而能夠準(zhǔn)確理解復(fù)雜的訂單指令,甚至能夠分辨出用戶想要的調(diào)味品。亞馬遜則在汽車中進行測試,它希望Alexa能夠克服道路噪聲和敞開車窗帶來的挑戰(zhàn)。
少用數(shù)據(jù)
在從世界各地收集數(shù)據(jù)的同時,科技巨頭們也在想方設(shè)法地用更少的數(shù)據(jù)來改進語音識別技術(shù)。在微軟研究語音識別逾20年的首席語音科學(xué)家黃學(xué)東指出,公司在麥當(dāng)勞測試的技術(shù)比其它使用多得多的數(shù)據(jù)的語音識別系統(tǒng)要更加精確?!凹幢闶褂玫臄?shù)據(jù)不是最多的,你也總能夠取得突破?!?/p>
谷歌總的來說也奉行少即是多的理念,它在部署零碎策略來利用難以理解的聲音單元構(gòu)建詞語和短語。該公司對于其語音識別系統(tǒng)的目標(biāo)是,只需一個變化就能解決多個問題。對于所積累的數(shù)據(jù)集,谷歌會將數(shù)萬個通常只有兩到五秒長的音頻片段連在一塊。谷歌的研究人員弗朗索瓦茲·
比倫發(fā)斯(Fran?oise Beaufays)指出,這一過程需要較少的運算能力,更加容易測試和調(diào)整。百度方面則在研究更加高效的算法來簡化語言的學(xué)習(xí)。
問問像吳恩達這樣的研究人員,什么時候才能夠跟數(shù)字助手進行自然的對話。沒有人知道答案。神經(jīng)網(wǎng)絡(luò)仍舊非常神秘,即便對于那些專家而言也是如此。研究人員目前的工作很多都是反復(fù)試驗;在一處地方進行一項改動后,你永遠都無法確定其它地方會產(chǎn)生什么樣的變化。鑒于當(dāng)下的技術(shù)和方法,這一過程很可能要持續(xù)很長一段時間。不過,吳恩達、黃學(xué)東、比倫發(fā)斯以及其他的科學(xué)家認為,你很難預(yù)料什么時候會出現(xiàn)那種大大加速研究進程,讓Alexa和Siri變成真正的交談?wù)叩耐黄啤?/p>