您現(xiàn)在的位置:智能制造網(wǎng)>新聞首頁(yè)>人物故事
鄧力:以獨(dú)特視角詮釋語(yǔ)音識(shí)別領(lǐng)域新技術(shù)進(jìn)展

著眼于端到端建模和訓(xùn)練,鄧力介紹了輸出端和輸入端的進(jìn)展,遷移學(xué)習(xí)、增強(qiáng)學(xué)習(xí)、非監(jiān)督學(xué)習(xí)在語(yǔ)音識(shí)別領(lǐng)域的應(yīng)用現(xiàn)狀和前景,并解釋了他對(duì)非監(jiān)督學(xué)習(xí)的獨(dú)特理解,重點(diǎn)總結(jié)了詞嵌入的利用和改善。他還展望了類腦機(jī)器智能突破現(xiàn)有的深度神經(jīng)網(wǎng)絡(luò)局限的方法。
有感于有監(jiān)督學(xué)習(xí)的局限,鄧力目前將很大部分的精力用到了非監(jiān)督學(xué)習(xí)上,并且與微軟目前的自然語(yǔ)言理解、對(duì)話系統(tǒng)、聊天機(jī)器人等核心工作相結(jié)合?春梅潜O(jiān)督學(xué)習(xí)語(yǔ)音識(shí)別,是由于語(yǔ)音識(shí)別領(lǐng)域“先驗(yàn)”知識(shí)的逐漸成熟,包括輸出端非常強(qiáng)的語(yǔ)言模型和多年積累的從輸出端到輸入端映射的生成式知識(shí)。鄧力認(rèn)為,將各種先驗(yàn)知識(shí)整合到一個(gè)完整而能快速計(jì)算和優(yōu)化的非監(jiān)督深度學(xué)習(xí)框架,語(yǔ)音識(shí)別的問(wèn)題將可以徹底解決。當(dāng)然,這需要新的深度非監(jiān)督學(xué)習(xí)算法和理論。
鄧力認(rèn)為,詞嵌入或音素嵌入用到語(yǔ)音識(shí)別領(lǐng)域,一項(xiàng)有意思的工作是把喬姆斯基的生成式音韻結(jié)構(gòu)整合到深度學(xué)習(xí)講的嵌入方法里。對(duì)抗式網(wǎng)絡(luò)的思路可以用來(lái)整合語(yǔ)音生成知識(shí)。不過(guò),詞嵌入的本質(zhì)是利用鄰近詞的預(yù)測(cè)特性,只是所應(yīng)該用的先驗(yàn)知識(shí)的一小部分。更重要的先驗(yàn)知識(shí)應(yīng)該是關(guān)于輸出序列變量的更強(qiáng)并比現(xiàn)有詞嵌入具有更長(zhǎng)距離的統(tǒng)計(jì)特性,以及從輸出到輸入的生成特性。
以下為采訪實(shí)錄:
非監(jiān)督學(xué)習(xí)語(yǔ)音識(shí)別將來(lái)會(huì)成功,但需要大量創(chuàng)新工作來(lái)鋪路
記者:能否介紹當(dāng)前語(yǔ)音識(shí)別領(lǐng)域讓您興奮的一些進(jìn)展,以及您目前所做的一些有趣的工作?
鄧力:從整個(gè)語(yǔ)音識(shí)別業(yè)界來(lái)講(包括中國(guó)和美國(guó)幾家主要大公司的工作),令人興奮的進(jìn)展涵蓋了輸出端和輸入端的端到端訓(xùn)練::
端到端建模和訓(xùn)練大規(guī)模神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別系統(tǒng)近期繼續(xù)降低識(shí)別錯(cuò)誤率,特別是成功用上CTC訓(xùn)練準(zhǔn)則使得端到端訓(xùn)練行之有效。CTC訓(xùn)練準(zhǔn)則忠實(shí)地代表了語(yǔ)音識(shí)別系統(tǒng)的訓(xùn)練目標(biāo),比我們?cè)贒NN時(shí)代之前用的MCE、MPE、MWE、MMI更合理,盡管CTC的優(yōu)化需要不少工程技巧。我在研究院的同事在這方面做了很多工作,包括對(duì)CTC的延伸并將CTC與傳統(tǒng)的MMI序列訓(xùn)練方法相結(jié)合。
行之有效的端到端訓(xùn)練在輸入端已經(jīng)擴(kuò)張到多麥克風(fēng)陣列的語(yǔ)音波形。這使得抗噪音的語(yǔ)音識(shí)別系統(tǒng)部分也整合進(jìn)入端到端學(xué)習(xí)。
我自己目前將不少時(shí)間用在關(guān)于讓非監(jiān)督學(xué)習(xí)用到離散序列輸出(比如自然語(yǔ)言)的應(yīng)用,包括語(yǔ)音識(shí)別、機(jī)器翻譯、看圖說(shuō)話,等等。為什么注重像自然語(yǔ)言這樣的離散序列輸出?這是因?yàn)樽匀徽Z(yǔ)言模型包含了非常豐富的“先驗(yàn)”知識(shí),使得不需輸入輸出匹配的學(xué)習(xí)的成功機(jī)會(huì)大于其他在輸出端缺乏豐富“先驗(yàn)”知識(shí)的應(yīng)用和任務(wù)。
靠輸入輸出匹配的學(xué)習(xí)是要花高代價(jià)準(zhǔn)備大訓(xùn)練數(shù)據(jù)的。這是目前很成功的有監(jiān)督深度學(xué)習(xí)的局限之一。相反,無(wú)需輸入輸出匹配的大數(shù)據(jù)成本要低得多,它遍地皆是,有取之不盡用之不竭的潛力。
要有效地利用比現(xiàn)有輸入輸出相匹配的訓(xùn)練數(shù)據(jù)高出幾個(gè)數(shù)量級(jí)的無(wú)輸入輸出匹配的大數(shù)據(jù)來(lái)訓(xùn)練深度學(xué)習(xí)系統(tǒng),有待于開創(chuàng)全新的深度非監(jiān)督學(xué)習(xí)算法和理論。一旦成功,這會(huì)給深度學(xué)習(xí)建立一個(gè)新的里程碑。比如用在語(yǔ)音識(shí)別,任何人們之間的對(duì)話和個(gè)人演講都可以成為非監(jiān)督學(xué)習(xí)語(yǔ)音識(shí)別機(jī)的語(yǔ)料,而我們并不需要去標(biāo)注這些自然的到處都有的語(yǔ)料。
為什么我認(rèn)為非監(jiān)督學(xué)習(xí)語(yǔ)音識(shí)別會(huì)成功?因?yàn)槲覀冊(cè)谳敵龆擞胸S富的“先驗(yàn)”知識(shí),就是非常強(qiáng)的語(yǔ)言模型,可以是嵌入式的,也可以是非嵌入式的。同時(shí)我們也有非常豐富的從輸出端到輸入端映射的生成式的“先驗(yàn)”知識(shí)。這就是語(yǔ)音科學(xué)家?guī)资攴e累下來(lái)的人類從概念到波形的語(yǔ)音motorcontrol和語(yǔ)音生成的知識(shí)。語(yǔ)音生成的motorcontrol要比機(jī)械人對(duì)手指的精細(xì)運(yùn)動(dòng)控制還復(fù)雜。
我當(dāng)年在MIT、ATR和在加拿大滑鐵盧大學(xué)任教時(shí)做了很多這方面的研究。當(dāng)時(shí)用的是動(dòng)態(tài)深度貝葉斯網(wǎng)絡(luò)來(lái)表達(dá)和實(shí)現(xiàn)這些知識(shí),模型中的一部分也用上multilayerperception。我和我的學(xué)生們?cè)?997-2003年發(fā)表了一系列論文。到微軟之后還寫了兩本關(guān)于這方面的書。記得當(dāng)年GeoffHinton教授同我就如何將這些動(dòng)態(tài)語(yǔ)音生成知識(shí)和模型用到有監(jiān)督深度學(xué)習(xí)討論了很長(zhǎng)時(shí)間。當(dāng)時(shí)得到的識(shí)別率結(jié)果跟丟開這些生成知識(shí)的DNN-HMM差不多,但計(jì)算上卻難以得益于用GPU訓(xùn)練,而且解碼要用很多近似,也很慢。所以我把動(dòng)態(tài)語(yǔ)音生成模型放棄了很長(zhǎng)時(shí)間專攻DNN,后者沒(méi)有這些弱點(diǎn)。見(jiàn)文末一些文獻(xiàn),回顧了以上講的這些古老的工作。
現(xiàn)在到了大家開始注重非監(jiān)督深度學(xué)習(xí)的時(shí)代。過(guò)去積累的研究經(jīng)驗(yàn)和有計(jì)算價(jià)值的語(yǔ)音生成知識(shí)真是可以派上用場(chǎng)。將多種類(輸入輸出端統(tǒng)計(jì)特性以及它們的關(guān)聯(lián)性)的先驗(yàn)知識(shí)整合到一個(gè)嶄新的非監(jiān)督深度學(xué)習(xí)框架,我相信語(yǔ)音識(shí)別的問(wèn)題可以徹底解決。
深度神經(jīng)網(wǎng)絡(luò)應(yīng)為主干
記者:概括地說(shuō),除了特征提取,深度學(xué)習(xí)在語(yǔ)音識(shí)別領(lǐng)域主要還發(fā)揮哪些作用?
鄧力:端到端訓(xùn)練高層動(dòng)態(tài)網(wǎng)絡(luò)是有監(jiān)督深度學(xué)習(xí)在語(yǔ)音識(shí)別領(lǐng)域應(yīng)用的精華。特征提取只是它的自然結(jié)果之一。
直到現(xiàn)在,單靠特征提取在非監(jiān)督深度學(xué)習(xí)上從未成功過(guò)。
記者:您與俞棟博士合著的新書《解析深度學(xué)習(xí)-語(yǔ)音識(shí)別實(shí)踐》系統(tǒng)地介紹了基于DNN的語(yǔ)音識(shí)別技術(shù),哪些人應(yīng)該讀這本書?他們會(huì)收獲些什么?這本書適合入門嗎?需要讀者具備什么知識(shí)基礎(chǔ)?
鄧力:我們?cè)谛蜓岳镏v到這本書的對(duì)象主要是語(yǔ)音處理及機(jī)器學(xué)習(xí)領(lǐng)域的在讀研究生、研究者、實(shí)踐者、工程師以及科學(xué)家的學(xué)習(xí)研究工作。但注意由于我們寫書時(shí)間緊迫,有些內(nèi)容沒(méi)有加上,包括CNN、CTC、麥克風(fēng)陣列、語(yǔ)音分離,等等。
閱讀本書的知識(shí)基礎(chǔ)包括微積分、矩陣代數(shù)和基本的概率統(tǒng)計(jì)等。
對(duì)于入門讀者,我們同年出版的英文版《深度學(xué)習(xí):方法和應(yīng)用》(由謝磊教授翻譯成中文)可能更適合。只是材料有點(diǎn)過(guò)時(shí)了。
記者:您介紹了很多魯棒性的方法,有哪一種是您喜歡的嗎?
鄧力:對(duì)speaker魯棒性的方法,我很喜歡KL-divergenceregularization,不但管用,而且方法巧妙,實(shí)現(xiàn)起來(lái)也簡(jiǎn)單。是subspace方法中的一種。
對(duì)抗環(huán)境噪音的魯棒性的方法,我在全力攻DNN之前很喜歡VTS的方法,也發(fā)明了整合語(yǔ)音-噪音相位的VTS方法,不但方法巧妙,在某些條件下也挺管用。但因?yàn)樗玫氖巧墒降母拍,幾年前很難用DNN方法來(lái)實(shí)現(xiàn),F(xiàn)在我們知道怎樣整合生成式模型和神經(jīng)網(wǎng)絡(luò)(見(jiàn)書中第6章和文末一些文獻(xiàn)),大家做這方面的研究可能就有成功希望了。
記者:書中專門談到了遷移學(xué)習(xí),舉了一些例子,如歐洲語(yǔ)言到中文普通話的成功遷移,那么哪些因素決定共享DNN隱層架構(gòu)在當(dāng)前語(yǔ)音識(shí)別領(lǐng)域的邊界和局限?遷移學(xué)習(xí)在語(yǔ)音識(shí)別領(lǐng)域推廣應(yīng)用的挑戰(zhàn)是什么?
- 凡本網(wǎng)注明"來(lái)源:智能制造網(wǎng)"的所有作品,版權(quán)均屬于智能制造網(wǎng),轉(zhuǎn)載請(qǐng)必須注明智能制造網(wǎng),http://m.caslcampaign.com。違反者本網(wǎng)將追究相關(guān)法律責(zé)任。
- 本網(wǎng)轉(zhuǎn)載并注明自其它來(lái)源的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性,不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個(gè)人從本網(wǎng)轉(zhuǎn)載時(shí),必須保留本網(wǎng)注明的作品來(lái)源,并自負(fù)版權(quán)等法律責(zé)任。
- 如涉及作品內(nèi)容、版權(quán)等問(wèn)題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。
- 01日盈電子擬6373萬(wàn)元收購(gòu)惠昌傳感器20%
經(jīng)過(guò)數(shù)次股權(quán)調(diào)整,至2024年,日盈電子持有惠昌傳感器80%的[詳細(xì)]
- 02甘孜州甘孜縣合力打造牦牛產(chǎn)業(yè)高質(zhì)量發(fā)
建成集屠宰分割、精深加工、倉(cāng)儲(chǔ)冷鏈物流等為一體的現(xiàn)代牦牛[詳細(xì)]
- 03橡塑行業(yè)正迎來(lái)新一輪技術(shù)升級(jí)與產(chǎn)業(yè)變
乙烯-乙烯醇共聚物樹脂(EVOH)是由乙烯與醋酸乙烯單體(VAM)經(jīng)[詳細(xì)]
- 0419個(gè)陸上風(fēng)電和光伏項(xiàng)目納入上海開發(fā)方案
《上海市2025年陸上風(fēng)電、光伏電站開發(fā)建設(shè)方案》印發(fā),本年[詳細(xì)]
- 05龍游縣 “三步走” 深化柑橘產(chǎn)業(yè)變革,
2024年深加工產(chǎn)值突破2億元,推動(dòng)產(chǎn)業(yè)由初級(jí)農(nóng)產(chǎn)品銷售向“[詳細(xì)]
- 06科技部新質(zhì)生產(chǎn)力促進(jìn)中心開展紡織鞋服產(chǎn)業(yè)發(fā)展情況調(diào)研
調(diào)研組一行實(shí)地考察晉江公司檢測(cè)、研發(fā)等重點(diǎn)實(shí)驗(yàn)室,聽取了[詳細(xì)]
- 07華晟新能源與中科融能達(dá)成戰(zhàn)略合作
6月11日,安徽華晟新能源科技股份有限公司與中科融能(北京)[詳細(xì)]
- 082025年福建省建筑材料供需交流會(huì)在福州召開
過(guò)去20年,福建省砂石協(xié)會(huì)協(xié)會(huì)在政府指導(dǎo)和會(huì)員支持下,發(fā)揮[詳細(xì)]
- 01《人臉識(shí)別技術(shù)應(yīng)用安全管理辦法》正式實(shí)施
《人臉識(shí)別技術(shù)應(yīng)用安全管理辦法》經(jīng)2024年9月30日國(guó)家互聯(lián)[詳細(xì)]
- 02京東集團(tuán)與華潤(rùn)集團(tuán)簽署戰(zhàn)略合作 拓展
6月6日,京東集團(tuán)與華潤(rùn)集團(tuán)戰(zhàn)略合作協(xié)議簽約儀式在華潤(rùn)集團(tuán)[詳細(xì)]
- 03機(jī)器人在智慧城市中的作用:未來(lái)趨勢(shì)
機(jī)器人在智慧城市建設(shè)中發(fā)揮著重要作用,其應(yīng)用場(chǎng)景廣泛,包[詳細(xì)]
- 04BOE(京東方)越南智慧終端二期項(xiàng)目提前量產(chǎn)
BOE(京東方)越南智慧終端二期項(xiàng)目總投資20.2億元人民幣,主[詳細(xì)]
- 052025年人工智能突破:技術(shù)創(chuàng)新躍升與應(yīng)
人工智能通過(guò)深度學(xué)習(xí)、機(jī)器視覺(jué)等技術(shù),能夠?qū)ιa(chǎn)流程進(jìn)行[詳細(xì)]
- 06將物聯(lián)網(wǎng)與傳統(tǒng)設(shè)備集成:為現(xiàn)有機(jī)器進(jìn)
物聯(lián)網(wǎng)與傳統(tǒng)設(shè)備的集成是未來(lái)數(shù)字化發(fā)展的重要趨勢(shì)。本文將[詳細(xì)]
- 07四巨頭啟動(dòng)戰(zhàn)略合作!共筑新能源產(chǎn)業(yè)鏈
儲(chǔ)能系統(tǒng)研發(fā)、新型電池材料應(yīng)用、儲(chǔ)能項(xiàng)目商業(yè)化推廣及綠色[詳細(xì)]
- 08六方面16項(xiàng)重點(diǎn)任務(wù)!《算力互聯(lián)互通行
工業(yè)和信息化部近日印發(fā)《算力互聯(lián)互通行動(dòng)計(jì)劃》,提出到20[詳細(xì)]

智能制造網(wǎng)2024年度積分抽獎(jiǎng)活動(dòng)現(xiàn)已正式開始;顒(dòng)時(shí)間為2025[詳細(xì)]