Warning: mkdir(): No space left on device in /www/wwwroot/X21X22X26Z2Z5.COM/func.php on line 127

Warning: file_put_contents(./cachefile_yuan/shengzhihan.com/cache/ac/5d283/7bba4.html): failed to open stream: No such file or directory in /www/wwwroot/X21X22X26Z2Z5.COM/func.php on line 115
工智能博士王贇:我搭上了深度學習的快車--星空人工智能美女福利导航網

星空人工智能美女福利导航網

工智能博士王贇:我搭上了深度學習的快車

8年博士生涯“弱標注下的音頻事件檢測”研究領先學界 可通過深度學習在海量音視頻素材中直接鎖定某些片段

  近日,博士王贇在網絡上寫了一篇回顧8年留學生涯的帖子,道出他在星空人工智能相關領域求學的點滴、感悟和精彩生活,引起網友熱議。從 2010 年 8 月到 2018 年 10 月,王贇把最好的青春年華獻給了博士學習。“其中前兩年是碩士,但由於碩士生活跟博士並沒有太大區別,都要做研究,所以說八年博士也並不過分吧。”在就讀期間,他換了2個研究項目,做了3個項目,拿到博士學位時間略微超出平均值。

  也正是走過這樣一段彎路,他在2014年搭上了深度學習的快車,也趕上2017年弱標注事件大數據公布的風口,做出了如今讓他滿意的“弱標注下的音頻事件檢測”研究成果,震驚學界。“我並不覺得我前四年是荒廢了的。整整八年的學習,讓我對語音識別、深度學習等各個領域的理論基礎有了紮實的掌握。”這打仗般的8年沒有把他壓垮,他整天樂嗬嗬地把留學生活過得多姿多彩——他走進社團、周遊城市、全世界旅遊,結識了許多非常有趣的朋友。

  王贇高中就讀於山東龍口一中,昔日的校友在網上直呼高中時代他就是一個學霸。

  他的眼中隻有語音

  “像數學物理化學這方麵從中學時代就已經有比較濃厚的興趣了,高中參加過信息學競賽,編程算法這些學得比較早。”在高中的時期,他對語音方麵就萌發了興趣,他記得,讀高一時了解到日本出的一款用電腦合成唱歌的軟件,“就覺得這個東西挺好玩,然後就想將來我也可以做一款類似的東西,然後從那個時候開始有了興趣。”在這背後還有他喜愛唱歌這一推動因,“我比較喜歡唱歌,學了好多首歌,這個東西正好可以合成歌曲。”為此,後來上了大學,他“自主研發”了一套係統。

  在清華,他完成了這個深藏已久的心願。2006年,王贇考入清華大學電子工程係,大一的時候,他就著手完成這個小心願,“寫了一個簡陋的合成係統出來,還湊合,很明顯是合成音,不過能聽出是唱歌聲。”牛刀小試後,他感到一些成就感,當時想如果以後有這種機會的話,希望往這個方向發展。

  語音合成隻是他縱身躍入興趣領域的入口,是語音識別還是語音合成都無所謂,“隻要跟語音信號有關係的東西,我都比較有興趣。”電子工程係中的一門課信號處理,王贇學得比較紮實,“因為語音本身就是一個信號,所以這個可以算是看家本領。”他說,語音本身就是一個信號,它是一個波形樣態,你怎麽對它處理來提取裏麵有用的信息,經過電子係的訓練之後,這方麵的功力會比較紮實一些。

  8年博士生涯

  在本科階段,王贇眼中關注的都是語音,也發表了第一篇署名為第一作者的論文。那時候星空人工智能還不是如現在這般火,他也陰差陽錯成了星空人工智能領域最早的一批先行者。

  本科畢業以後,王贇在發展語音興趣路上越走越遠,走出了國門去留學。他申請到兩所大學的研究生。一般而言,攻讀碩士學位比較難拿到獎學金,而其中一所大學的項目很特殊,給了獎學金,於是他選擇了這所大學。

  王贇前2年讀碩士,做的事跟博士幾乎沒有兩樣,一半時間上課一半時間做研究。從碩士到博士的中間需要再申請一次,但是因為他已經在那,教授們都見過,評價的依據就比較豐富,“就這樣自然而然申請上博士。”

  從入學到 2012 年春天,王贇跟隨老師研究說話人識別(分為說話人辨認和說話人確認)。他說,做說話人識別,一般不管說的是什麽內容,哪怕你聽不懂,也能聽出來是誰在說話。在這將近兩年的時間裏,王贇用 Matlab 語言親自實現了十幾種語音特征的提取。

  “那時候博士申請結果已經出來了,所以說不會有特別緊張,但從美女福利导航上來看是個遺憾,因為沒有在市場上火起來。”後來,王贇轉到一位高高胖胖的德國教授名下攻讀博士,名字發音和英語的花朵有些相似,於是在中文的語境中,王贇稱導師為“花哥”。

  博士三年仍未發論文

  投身花哥門下,王贇做的第一個項目是Babel,其任務是在多種小語種語音裏檢索關鍵詞,這個項目是由全世界許多大學和公司共同參與,大學或公司合作組隊伍,而隊伍之間互相PK,最後優勝劣汰,留下好的項目。

  這是一個規模很大的係統,前期要完成一個從無到有的過程,有了這個基礎之後,才能做研究。王贇形容前期搭建係統“與其說是像科研,不如說是像工作”。2014年6月,正當王贇在韓國遊玩的時候,實驗室的同學發來噩耗:王贇所在的隊伍被淘汰。這猶如晴天霹靂。那個時候他在想下麵做什麽好。

  “我一下子不知道將來的路該怎麽走。”而此時是王贇留學的第四年,到此時為止,他隻發出了一篇署名為第一作者的論文,另外一篇論文屢投屢不中,最後隻能將其塵封。他當時就知道這個博士可能會是一場馬拉鬆,經過前麵一兩年的熱身很正常,但到了第三年還沒科研產出,這對於博士來說,是一件很驚悚的事情。“知乎上有一個這樣的問題:博士第三年還沒有發論文是一種怎樣的體驗?我想我是最適合回答的,但終究沒有勇氣回答。”那時起,他做好了讀博六年七年八年的準備。

  第四年的這篇論文讓他的焦慮得以緩解。“感覺就是從0到1的質變。”2014年下半年,他經曆了近乎搏命的半年。在這半年他閱讀了近百篇論文,還在網上學習了“深度學習”三巨頭之一Geoffrey Hinton的課程,係統地學了其中的美女福利导航。這得益於2013年、2014年在做項目過程中學習到的最前沿的東西。在2014年9月新加坡舉行的 Interspeech 會議上,他嗅到了“深度學習”正在崛起的信號。“這個工具我已經掌握了,終究有爆發的一天。”

  搶占學術榮譽高地

  博士論文的最終選題王贇確定為事件檢測。他打比方說,事件有低層和高層之分,低層的事件,比如貓叫、狗叫、開關門;高層的事件,比如球賽、婚禮、聚會等。他的研究方向就是要在數以億計的海量音視頻素材中直接鎖定這些片段。當時選擇這個方向,王贇沒感覺到它的魅力,現在看來,自己運氣太好了。

  在2016 年 3 月的 國際聲學語音與信號處理會議(ICASSP )上,芬蘭坦佩雷理工大學的研究組與王贇同時發表了用深度學習做低層事件檢測的論文。在這場關乎學術榮譽的陣地戰中,王贇走在了前列。當時,王贇關注到芬蘭那邊有個實驗室也在做類似課題。最後他們平分秋色,“差不多同時發論文,所以在這個領域內,我也是並列第一個做研究的,算是先行者之一。”

  “就從這個時候開始,我覺得我這個博士研究算是走上正道了,開始以相對固定的節奏發論文了。”後來,他明顯感覺做研究的數據不足,總共就10多個小時的數據,在深度學習麵前這點數據無疑是杯水車薪,“沒有數據,就是巧婦難為無米之炊!”

  就在此時,他有如神助——每條長度為 10 秒的200 萬條視頻數據集被公布出來,這樣的大數據正合深度學習胃口。這組數據拯救了他的研究。

  果不其然,後續的許多相關研究或是全部或是部分使用了這組數據集。王贇則全部使用了,光是下載數據就花了整整一個月。這組數據還有一個特點就是弱標注——它沒有標注事件的起止時間,而隻標注了每段音頻中的事件種類。這幾乎和王贇的博士論文不謀而合。他的目標也就非常明確——如何在已有的檢測基礎上進行方法創新。

  從2007年10月開題以來,王贇在跟時間賽跑。“那時就想盡可能把東西往前趕,因為到2017年已是留學第七年了,已經開始超出(博士畢業時間)平均值了。” 8年的博士生涯,王贇走了不少彎路,但他沒有沉浸在失落的情緒中。

  “正如吃完第三個包子飽了不代表前兩個包子就白吃了一樣,我並不覺得我前四年是荒廢了的。整整八年的學習,讓我對語音識別、深度學習等各個領域的理論基礎有了紮實的掌握。”

  也正因為有了前期曲折道路的鋪墊,他在2014年搭上了深度學習的快車,也趕上2017年弱標注事件大數據公布的風口,而這些都需要時間的沉澱,“哪怕我前幾年沒走這些彎路,我如果(畢業)太早趕不上這兩波,也做不出現在這個成果了。”

  事實上,他的留學生活並不是外界感覺的那般苦悶,他走進社團、周遊城市周邊、全世界旅遊,把生活過得多姿多彩。他參加中國學生學者聯誼會,在其舉辦的才藝比賽中,抱著吉他彈唱一曲《老男孩》,一炮而紅。

  他參加pLayboycLub,與社團成員一起打狼人殺、一起做飯、滑冰、逛博物館,一起去看櫻花。他還在日語角、西語角和法語角跟外國人談笑風生。

  “我沒有把留學的目的僅僅是學習知識,我確實不像有些同學那樣有比如說有經濟壓力之類,我就覺得既然出來了就體驗一下國外的生活,在讀書的同時,盡可能豐富體驗。”

星空人工智能美女福利导航網 倡導尊重與保護知識產權。如發現本站文章存在版權等問題,煩請30天內提供版權疑問、身份證明、版權證明、聯係方式等發郵件至1851688011@qq.com美女直播全婐APP免费下载將及時溝通與處理。!:首頁 > 新聞 » 工智能博士王贇:我搭上了深度學習的快車

()
分享到:

相關推薦

留言與評論(共有 0 條評論)
   
驗證碼:
網站地圖