• 简中
    • 繁中
  • 注册
  • 查看作者
  • 獨家:“論文致謝刷屏”博士演講乾貨

    轉載:本文來自微信公眾號“InfoQ”(ID:infoqchina),編輯:李佳,嘉賓:黃國平,轉載經授權發布。

    提示:呢排,黃國平博士論文《致謝》刷屏。文度,黃國平回顧‌自己走出小山坳,同命運抗爭嘅故事。全文波瀾唔驚,卻能直擊人心,堪稱現代版《送東陽馬生序》。有網友評論說,“他活成‌呢個世界嘅一束光”,是無數“寒門學子”嘅希望。但於黃博士而言,故事只是過往嘅一部分,技術成果才是評述一位專家嘅最好佐證。2018 年 10 月,黃國平喺嘅 QCon 全球軟件開發大會(上海)上分享‌《人機交互式機器翻譯研究及應用》,從行業談到技術,再從技術具象為應用,全程乾貨十足,值得收藏細讀。我哋特別將演講內容整理出來,以饗讀者。

    獨家:“論文致謝刷屏”博士演講乾貨

    以下是演講嘅核心內容。

    喺今日嘅話,機器翻譯已經是人工智能當中一個非常古老嘅方向嘎啦,但是我喺前面加‌“人機交互式”這 5 個字,或者大家會有啲奇怪,點解要加呢個前綴?好,喺接下來嘅演講當度,我將一一揭曉。

    我是黃國平,來自騰訊 AI Lab,博士系喺中國科學院自動化研究所,我嘅研究方向就是機器翻譯,然後學位論文都系人機交互式機器翻譯研究同實現,進‌騰訊后嘅呢一段時間,基本上還是延續‌博士期間嘅一啲工作。

    今日我主要系喺這裏分享咁幾個方面,首先我會先簡單並且快速地過一下機器翻譯現狀。然後我哋討論一下人機交互式機器翻譯相關嘅行業技術應用,以及我做緊人工智能落地方面嘅一啲思考,因為喺呢個過程當中我哋遇到好多問題,然後我哋又想‌一啲辦法來一一克服。

    我做報告嘅目嘅,也並唔一定是為‌讓大家聽‌就能夠去下一套好好嘅機器翻譯系統,而是睇我哋解決問題嘅呢啲思路,睇系咪能夠為大家日常嘅工作當中提供一啲借鑒,噉樣嘅話我就覺得好值嘎啦。

    機器翻譯現狀簡介

    我相信大家喺閱讀文獻嘅時候,或者去查找資料嘅時候,或多或少都會用到機器翻譯,比如說比較出名嘅都系比較早嘅谷歌翻譯,然後有百度翻譯。後面也出現咗好多機器翻譯產品,比如搜狗,仲有騰訊翻譯君。我將所有呢啲截圖再放喺一齊嘅話,大家也覺得左右兩邊應該是概括得比較準確嘅,就是說“藕花深處田田恭弘=叶 恭弘,恭弘=叶 恭弘上初生並蒂蓮”。大家都像雙雙胞胎兄弟似嘅,好像也睇唔出來乜嘢區別。

    獨家:“論文致謝刷屏”博士演講乾貨

    喺呢種情況下,大家好像就是說呢個領域是古老嘅,但都系比較喧囂嘅。其實除咗喺呢啲新聞 PR 稿中經常睇到嘅公司之外,機器翻譯研究嘅背後,技術嘅進步是有好多人喺幕後做非常辛苦嘅工作嘅。

    獨家:“論文致謝刷屏”博士演講乾貨

    比如說喺呢啲單位入面,中科院自動化所、中科院計算所、清華大學、東北大學、哈爾濱工業大學、南京大學等等,佢哋有嘅研究機器翻譯至少都快 30 年嘎啦。

    當然也有一啲新生嘅,像蘇州大學,然後還包括而家更多嘅商業公司,投入資源和人力到呢個問題上來。

    我哋當然是比較開心嘎啦,畢竟大家都開始關注起呢個行業。

    技術發展到而家,我就唔喺這裏去科普傳統嘅經典嘅嗰種機器翻譯模型長乜嘢樣,我就直接到目前比較通用嘅,比如說以神經網絡為基礎嘅翻譯框架當中來。目前深度學習當中一個主流嘅框架就是端到端。概括來講嘅嘢,就是“編碼器 – 解碼器”結構,然後喺編碼器端我哋一般鐘意用 RNN 或者 CNN,將原文句子編碼成一個上下文向量,然後喺解碼端當中根據上下文向量來生成目標端嘅句子,呢系一個最樸實嘅一個機器翻譯模型。

    獨家:“論文致謝刷屏”博士演講乾貨

    但是翻譯模型會有好多問題,比如說我每生成嘅每一個詞,佢依賴嘅上下文向上系一樣嘅。舉個例子,比如我喺生成 secret 嘅時候,結果發現“成功”或者是“秘訣”或者第啲單詞對他貢獻系一樣嘅。

    當然這入面順帶住一個問題,如果是句子比較長嘅話,尤其系生成目標端好長,到最後發現會出現一個效果叫梯度消失,然後或者是長距離依賴,導致最後生成嘅句子翻譯質量並唔好。

    呢個時候大家好快提出注意力模型呢個嘢,佢嘅一個根本出發點就是當我要預測下一個詞嘅時候,我要結合已經生成嘅詞,仲有源端我去選擇家陣時比如說原裝邊啲詞對下一個詞預測影響最深?

    比如說喺呢個例子當中嘅話,我哋人都可以好容易想到,喺呢個時候我要預測下一個詞,比如說下一個詞可能系翻譯成 secret,好,源端嘅對下一個詞貢獻最大嘅應該是秘訣,而唔系第啲嘅嘢。注意力模型都可以比較順利嘅,抓到重點,呢樣喺翻譯比較長嘅句子嘅時候效果也好唔錯。

    獨家:“論文致謝刷屏”博士演講乾貨

    其實喺過去一兩年嘅時間,就是普通嘅 RNN 或者是 CNN,主要是 RNN 結構結合注意力模型,是線上機器翻譯系統嘅一個主流。

    但是情況好快就發生‌變化,我哋都知道谷歌發表‌一篇比較有名嘅論文叫 Attention is all you need,也就是所謂嘅 Transformer 框架。於是,從上年 5 月份開始,好多線上系統就逐漸切換到以 Transformer 為基礎嘅機器翻譯系統。

    其實到目前為止,喺絕大多數嘅情況下,效果最好嘅還是基於 Transformer 模型嘅機器翻譯系統,唔管系喺評測還是實際產品當中。

    當然相比前面RNN 加註意力模型,Transformer 也有他自身嘅問題。首先,Transformer 參數量肯定是增大‌好多倍。好多大學入面嘅課題組做 Transformer 實驗嘅時候,遇上嗰種規模比較大嘅數據集就跑唔動嘎啦。這當然唔系我哋願意睇到嘅。

    但是呢,目前從效果上來講,佢確實是最好嘅原理,好簡單,就是相比以前我哋基於 RNN 或者是 CNN 嘅方法,喺這入面都消除嘎啦,重點引入‌三個嘢。

    獨家:“論文致謝刷屏”博士演講乾貨

    第一個比較顯著嘅就是綠色方框嘅位置編碼,因為喺以前都睇唔到呢個嘢。

    位置編碼嘅話就是我喺原文端或者系喺目標端,進行 Encoding 嘅時候是會將位置考慮進去嘅,然後加上位置編碼之後就流入 Multi-Head 申請。

    可以睇到,Attention 嘅話佢本質上計算嘅系原文端到目標端嘅貢獻。Multi-Head 佢主要計算嘅系源端到源端嘅貢獻,也就是所謂嘅 self 嘅通信。比如說喺編碼嘅時候,佢會對源端嘅信息,相互去計算詞同詞之間嘅關係。生成目標端嘅時候,同時佢會掃描已經翻譯嘅部分和原端嘅部分來生成翻譯。

    這裏我哋應該有個直觀嘅印象,也就是說 transformer 嘅話效果確實是最好嘅,但是佢需要嘅算力嘅話都系比較驚人嘅。

    獨家:“論文致謝刷屏”博士演講乾貨

    這入面我特別需要提及嘅系,成個訓練過程同訓練第啲嘅任務也差唔多,比如說用於 CV 嘅任務,佢嘅整體流程同深度學習第啲任務都好相似,目前一比較遺憾嘅系喺計算損失呢一步。

    對於機器翻譯來講,真正嘅優化目標是自動譯文同參考譯文嘅相似度,但是目前我哋並沒有達到呢一步,我哋目前計算損失函數嘅話主要是去計算困惑度,其實困惑度同機器翻譯嘅質量並唔系那麼嚴格嘅正相關關係。

    這入面原因自然有模型嘅問題,但是也有機器翻譯方嗯呢個問題本身嘅挑戰。比如說我喺機器翻譯當中經常會遇到呢啲奇奇怪怪嘅現象,首先是歧義和未知現象,因為唔管我哋訓練嘅語料規模有多大,呢啲情況都唔可能完全畀包含喺入面。

    獨家:“論文致謝刷屏”博士演講乾貨

    比如說萬一邊一日南京市長真嘅叫江大橋嘎啦,嗰個時候估計我哋需要用規則去干預一下,但系一個例子能干預,兩個例子都可以干預,但是每天發生呢啲新嘅語言現象,我哋真嘅系無能為力。

    第二個問題就是說翻譯並唔剩只是字符串嘅轉換。唔管用乜嘢機器學習模型,他學到嘅更多嘅還是字面轉換嘅,呢個時候就會出好多問題嘎啦。這两天喺網上出‌一個例子,“一行行行行行,一行唔行行行唔行”?。呢個時候機器翻譯就只能啟動自殺程序‌吧?

    第三個問題就是說翻譯嘅解本身就是唔唯一嘅。我哋好難去衡量佢真正嘅翻譯質量同我哋計算出來結果相關性到底有多大。當然說翻譯嘅解唔唯一,呢都系人工翻譯需要面臨嘅問題。

    經過啱先嘅介紹,我始終喺強調一個觀點,也就是說目前嘅機器翻譯技術雖然說取得‌一個好大嘅進步,但系喺好多嚴肅場合,比如醫療、金融、法律,呢啲需要非常高質量嘅情況下,目前嘅全自動嘅機器翻譯還無能為力,喺好多時候還是需要引入人工翻譯嘅。

    翻譯需求同人工翻譯行業

    然後我哋來簡單睇一下,喺嚴肅場合我哋到底需要通過乜嘢樣嘅方法去來解決翻譯需求。

    獨家:“論文致謝刷屏”博士演講乾貨

    這裏其實有一個專門嘅行業,人工翻譯行業。呢個圖標明‌全球各個國家人工翻譯行業占成個產業嘅產值,我哋大家可以睇到一個好觸目驚心嘅事實,就是,歐洲和北美洲加起來超過‌全球翻譯市場總量嘅 90%,然後成個亞洲佔比百分之九點幾嘅樣。

    這是前年嘅數據,全球嘅人工翻譯產值是 400 億美刀好,我哋基本上能夠測算出來,我哋國內人工翻譯嘅產值其實並唔高,也就大概是 300 億人民幣嘅樣。從呢個角度來講,翻譯需求好像並唔系一個太重要嘅需求,但是呢個需求就是從市場產值來睇比較小,但其實呢個需求卻唔容忽視。

    大家都總結說翻譯是屬於非剛需非標準化嘅一種服務。但是翻譯又同我哋無處唔喺,比如說我哋好多時候比如說出國旅遊,然後需要查一啲資料,經常焦頭爛額,我哋去睇英文嘅理解速度肯定是明顯慢於睇我哋母語文本嘅,就是說呢個時候有好多翻譯需求其實唔產生商業價值,但是佢又好重要。我一直喺想這大概是點解咁多互聯網公司願意投入咁多人力物力來做呢個事。

    然後收回到人工翻譯行業嘅話,佢有一個好有趣嘅現象,呢都系我點解願意將我嘅主要精力花喺人機交互機器翻譯上,因為人機交互機器翻譯主要強調嘅系人機結合。呢個行業有一個好重要嘅現象,叫獨角獸唔獨,充分多樣性。多樣性到啥程度?前 10% 嘅翻譯服務公司加起來嘅市場份額唔超過 15%。

    獨家:“論文致謝刷屏”博士演講乾貨

    你想這放喺咱們互聯網行業,呢是無辦法想象嘅,因為我哋一般互聯網行業嘅話講究嘅系贏者通食,可能第一家就佔到 80%。佢呢個呢,前 100 家都唔可以都佔到都唔到 15%,所以說大家可以發現這入面有個有趣嘅現象,而且呢個行業佢屬於我哋更願意將佢睇作系一個傳統行業。

    獨家:“論文致謝刷屏”博士演講乾貨

    呢啲玩家比如說呢啲排名順序,市場份額一般系相對比較穩定嘅,也就是說好難睇到一次比較劇烈嘅抖動。

    獨家:“論文致謝刷屏”博士演講乾貨

    呢個行業仲有一個特點就是需求以筆譯為主。大家睇到嘅同傳,唔管是同傳翻譯機也好,仲要是嗰種會場展示,其實更多是屬於展示嘅需要,你從剛性來講嘅嘢主要還是筆譯。

    我這裡有個非正式嘅数字,就是口譯(包括‌傳和同傳)這兩個加起來嘅話,唔超過成個市場份額嘅 15%,也就是說筆譯是超過 80% 嘅。

    當然說喺呢個切入過程當中到目前而言,機譯嘅份額還是比較小嘅,也就是說機器翻譯想從現金流上去切嘅話仲系好難嘅,目前大家可以睇到機器翻譯一般系免費嘅,也就是說機器翻譯嘅商業化落地一直是比較難嘅事,但是呢個情況也喺好快發生變化。

    另外唔得唔提嘅一個現象就是呢個行業好分散,分散到乜嘢程度,10 人以內嘅團隊占絕大多數,呢是全球嘅統計數據,呢個唔系只是咱們國內行業嘅問題,佢哋是好多時候是需要專業工具嘅,但系佢們又無力支付正版。

    總結一下,前面介紹現狀和人工翻譯行業,我主要系想引出呢個人機交互式機器翻譯技術到底是為認識決乜嘢問題,然後接下來我哋才能聊乜嘢是人機交互式機器翻譯技術。

    人機交互式機器翻譯技術

    我哋團隊投入到人機交互式機器翻譯技術嘅原因,主要系喺目光可及嘅範圍內,全自動輸出嘅翻譯結果還無辦法保證譯文質量。

    獨家:“論文致謝刷屏”博士演講乾貨

    當然說大家也知道目前深度學習模型嘅魯棒性還系一個好大嘅問題。雖然說邊怕是識別率已經好高嘅人臉識別,說實話效果比機器翻譯嘅效果好多嘎啦,但是我哋仲系要要去想好多辦法去確保佢嘅魯棒性,然後喺機器翻譯嘅話就更明顯嘎啦。有可能喺同訓練語調相關嘅呢啲句子嘅翻譯表現嘅效果好好,但是我一旦畀一個奇怪一點嘅句子,或者是有時候多一個標點,少一個標點,他直接翻譯質量就急速下降,呢個時候就喺好多嚴肅場景嘅話,機器翻譯嘅能力還是比較微弱嘅。

    呢個時候我哋期待咁樣一種機器翻譯,你唔系話機器翻譯模型好牛嗎?那好,你機器翻譯能否同人去完成協作,目標是提高人工翻譯嘅生產效率,比如說以前我一日完成嘅量,而家我 20 分鐘就能完成。要達到呢個目嘅也並唔系唔可能,但是需要改造我哋底層嘅機器翻譯模型,比如說需要讓模型適應這三個要求。

    第一,接收用戶提供嘅譯文干預。

    第二,及時學習用戶嘅修改反饋。

    第三,喺人機交互過程當度,你機器翻譯能否實時提供翻譯嘅輔助信息。

    好多時候人工翻譯呢個行業是相當苦嘅,大家可以想象所有文字工作都系有一個共性嘅,都好枯燥,一直坐喺嗰個地方,呢種面臨一啲好難嘅問題,好你如果能適當嘅提供一啲更多更有用嘅輔助信息嘅話,呢個翻譯系統都系比較實用嘅翻譯系統。

    那問題來嘎啦,既然提到人機交互,好,我哋需要去找一個人機交互範式,所謂範式嘅話我是咁理解嘅,就是說喺人工翻譯流程當度,我哋點樣能點樣讓機器翻譯充分地發揮作用?

    獨家:“論文致謝刷屏”博士演講乾貨

    你想諗一提到就是說喺人工翻譯過程當中點樣用機器翻譯嘅話,大家肯定想到第一點可能就是我直接去改機器翻譯結果。是嘅,然後也有咁一個標準嘅方法,佢叫譯后編輯,但是佢有一個要求就是說被修改嘅機器翻譯結果得是質量非常好嘅。你想,如果一個句子質量比較差,我哋改嘅也好崩潰是吧?

    我哋主要是講這兩個嘢,一個是翻譯輸入法,然後仲有就是交互式機器翻譯。

    獨家:“論文致謝刷屏”博士演講乾貨

    我哋基於呢個技術,喺唔同嘅情況下畀人工譯員推薦唔同嘅工具來使用。喺呢種人機交互範式嘅情況下,機器翻譯嘅作用就唔只是提供一個自動譯文,然後對譯文唔負責任,他要完成嘅事其實系可以簡單概括為以下幾點。

    第一,儘力根據人工嘅反饋來生成更好嘅整句翻譯,也就是說當人工已經畀‌一啲提示之後,你能唔可以畀一個質量明顯更好嘅成個句子。

    第二,如果第一步辦唔到嘅話,你能唔可以提供質量比較好嘅翻譯片段?呢個時候人工翻譯如果直接採用嘅話,噉都可以減少好多工作量是吧?

    第三,說連靠譜嘅片段都提供唔‌嘅時候,系咪能夠幫助人工翻譯去提高生產效率?

    要完成上面三個點嘅話,其實還是需要底層一啲睇唔見嘅技術,比如說喺線學習技術、語義理解以及快速解碼,呢里快速解碼喺人機交互當中特別重要。因為你想我哋按‌一個鍵,然後等‌半天他卡得出唔來結果,肯定唔行。

    獨家:“論文致謝刷屏”博士演講乾貨

    接下來我哋簡單睇一下啱先提到嘅譯后編輯。通過 Quality Estimation 來判定我目前提供嘅自動譯文質量比較好嘅時候,就可以直接推畀人工翻譯,讓他來改,呢是比較理想嘅情況,85% 以上呢一步是達唔到嘅,也就是說是推薦唔出來譯文。

    然後接下來我哋就需要用交互式機器翻譯,所謂交互式機器翻譯,也就是說人工輸入一部分,然後機器結合輸入嘅這部分重新生成譯文,反覆交付。

    獨家:“論文致謝刷屏”博士演講乾貨獨家:“論文致謝刷屏”博士演講乾貨

    唔管是譯后編輯還是交互式機器翻譯,佢有一個前提,就是說自動譯文嘅質量還可以,我哋仲有修改價值,仲要值得我哋去閱讀理解。

    但是我哋知道翻譯呢類工作屬於文字工作,如果我哋畀一個垃圾,然後畀人工譯員,你去理解我呢個垃圾,然後你再將佢改好吧,呢個時候他肯定是唔干嘅系吧?然後呢個時候我哋就喺想我哋系咪能搵到一種交互方法?用戶喺唔閱讀機器翻譯自動譯文嘅情況下,仲夠曬提高翻譯效率。

    我哋諗來想去,最後想到嘅方法就是翻譯輸入法。

    獨家:“論文致謝刷屏”博士演講乾貨獨家:“論文致謝刷屏”博士演講乾貨獨家:“論文致謝刷屏”博士演講乾貨獨家:“論文致謝刷屏”博士演講乾貨

    人機交互式機器翻譯應用

    獨家:“論文致謝刷屏”博士演講乾貨

    我哋前面講‌咁多技術,點樣去構建一套人機交互方案系統來滿足家陣時業務嘅需求呢?我簡單總結一下嘅話,就是說為‌供應呢個系統,首先是要有明確嘅需求,所謂需求就是語種、領域、用途、業務系統嘅接口等;其次要有語料準備;仲有一個大頭就系點樣集成可用嘅 State-of-the-art 嘅技術,比如說輸入法、術語抽取、翻譯片段挖掘等;還要有一個調試 GPU 集群,部署上線並接待。睇起來好簡單,呢其實入面好多坑。

    獨家:“論文致謝刷屏”博士演講乾貨

    然後難點喺邊里?

    首先就系對自動譯文質量過高嘅期望。喺好多時候業務部門他覺得機器翻譯唔系已經被宣傳嘅好神奇嘎啦,好你就畀我自動翻譯出來。呢個時候但是我哋自己部署嘅系統並唔一定能達到要求。

    第二個就是我哋習慣用開源系統,但是開源系統入面嘅坑是遠比計劃嘅還多。

    第三個就系點樣甄別並且集成最新嘅技術,因為我哋知道目前喺人工智能領域有好多論文,但是說實話 10 篇論文當中能找出一篇能夠集成到業務系統,噉就已經好成功嘎啦,呢個時候點樣高效率嘅來甄別呢啲成果是個問題。

    然後最後一個挑戰就是說點樣拉通目標場景技術鏈條。人機交互式機器翻譯佢技術鏈條實喺太長嘎啦,涉及到就系一直到輸入法,然後仲有一啲比較傳統嘅統計,機器翻譯嘅技術都要用到,仲要包括像約束解碼呢啲嘢,呢入面會有好多嗰種比較艱巨嘅事需要做。

    獨家:“論文致謝刷屏”博士演講乾貨

    最後和你分享下喺成個過程當度,我嘅一啲思考,我相信大家能形成一啲共鳴。

    人工智能落地嘅一啲思考

    獨家:“論文致謝刷屏”博士演講乾貨

    首先就是說我喺招人嘅時候,到底該選用乜嘢樣嘅人,比如說是選“調參大師”還是“論文機器”,或者是“代碼工匠”。其實系喺一個團隊當度,呢啲人我哋都系需要嘅。但是點樣去調和佢哋相互之間嘅嗰種鴻溝,點樣加強交流,呢是個問題。

    第二個就是數據鴻溝同工程壁壘,因為好多時候如果公司大‌一點嘅話,就會有部門牆之類嘅嘢,呢個時候點樣將數據同我哋嘅算法進行打通就是個問題。

    另外就系喺設計產品嘅時候,我哋經常叫人工智能,噉好我哋到底系喺設計“人工智能產品”,仲要是剩只是“用人工智能嘅產品”,呢兩個嘢是有區別嘅。有啲時候,為‌真嘅從根子上解決用戶體驗嘅問題,我哋可能需要去設計人工智能產品,而唔系用人工智能嘅產品。

    我嘅分享就到這裏,謝謝大家。

    cantonese.live 足跡 粵字翻譯

    2021-04-20 17:35:10

  • 0
  • 0
  • 0
  • 153
  • 请登录之后再进行评论

    登录
  • 任务
  • 发布
  • 偏好设置
  • 单栏布局 侧栏位置: