• 简中
    • 繁中
  • 注册
  • 查看作者
  • 如何對抗不完美世界 ?最新算法幫助AI建立合理懷疑

    編者按:本文嚟自微信公眾號“學術頭條”(ID:SciTouTiao),作者:劉芳,36氪經授權發布。

    喺一個完美嘅世界入面,眼見即為現實。如果系咁樣嘅話,人工智能嘅操作就簡單多嘎啦。只可惜,世界並唔總系完美嘅。點樣等算法避免對抗性輸入(adversarial inputs)嘅干擾從而提高魯棒性便成為人工智能領域嘅一大難題。

    以自動駕駛汽車嘅防撞系統為例。如果車載攝像頭嘅視覺輸入信號準確無誤、完全可信嘅話,人工智能系統便可將信號直接對應到決策中,進而用右轉、左轉或直行嘅方法避開路上嘅行人。

    但如果車載攝像頭因故障產生 像素上嘅偏差,嗰又識點樣呢?事實系,如果人工智能系統盲目地相信 所謂嘅 “對抗性輸入”,嗰佢可可以識作出唔必要且危險嘅決策。

    日前,麻省理工學院航日控制實驗室(Aerospace Controls Laboratory)嘅研究人員開發 一種新嘅深度學習算法,通過喺輸入中建立合理 “懷疑” 嚟幫助計算機適應真實嘅、唔完美嘅世界。這篇以 “Certifiable Robustness to Adversarial State Uncertainty in Deep Reinforcement Learning” 為題嘅論文於近日發表於 IEEE 嘅 Transactions on Neural Networks and Learning Systems 上。

    如何對抗不完美世界 ?最新算法幫助AI建立合理懷疑

    圖片來源:IEEE

    以該團隊將強化學習算法同深度神經網絡相結合,建立 名為 “深度強化學習喺對抗性輸入下可驗證嘅魯棒性”(Certified Adversarial Robustness for Deep Reinforcement Learning,CARRL)。 

    研究人員喺幾個場景中測試 呢種方法,包括模擬自動駕駛防撞測試同乒乓球電腦遊戲(Pong。佢們發現喺面對唔確定嘅對抗性輸入嗰時,CARRL 比其佢嘅機器學習技術表現更好,佢可以避免更多碰撞,且贏得 更多嘅 Pong 遊戲。

    本文主要作者,麻省理工學院航空航日實驗室博士后邁克爾 (Michael Everett) 喺接受 TechExplore 採訪嗰時表示:“ 都許好多人認為對抗性系指人哋喺惡意侵入你嘅電腦。但可可以剩只系因為你嘅傳感器唔系幾好,或者測量結果唔准。這系經常發生嘅情況。我哋嘅方法有助於將呢種缺陷考慮進嚟,並做出安全嘅決定。喺任何涉及安全嘅關鍵領域,呢啲都系一個需要考慮嘅重大問題。”

    現實中嘅可可以性

    為 使人工智能系統對對抗性輸入產生魯棒性,研究人員嘗試畀監督學習算法提供防禦機制。傳統上嚟說,神經網絡被識將特定輸入同相關嘅標籤或決策關聯。例如,如果畀一個神經網絡輸入 數千張被標記為貓嘅圖像,嗰么呢個神經網絡應該可以將一張新圖像正確地標記為一隻貓。

    喺魯棒性較高嘅人工智能系統中,人們可以用略微改變嘅圖像對監督學習算法進行測試。但系,窮盡所有嘅細微改變喺計算上幾乎系唔可可以嘅,並且喺即將碰撞等嗰時間緊迫嘅條件下,算法都好難成功地做出反應。因此,如果算法唔具有較好嘅魯棒性嘅話,現有嘅方法唔可以識別正確嘅標籤,或者採取正確行動。

    論文作者之一 Björn Lütjens 說:“為 喺涉及安全嘅關鍵場景中使用神經網絡,我哋必須研究點樣喺最壞嘅現實情況下做出實嗰時決策。”

    如何對抗不完美世界 ?最新算法幫助AI建立合理懷疑

    圖片來源:WAYMO

    最好嘅獎勵

    為 解決以上問題,該團隊開始探索機器學習嘅另一種算法 — 強化學習。同監督學習唔同,強化學習唔需要通過標籤將輸入同輸出相關聯,而系通過嘗試搵到規律,根據結果得到獎勵從而強化特定行動。呢種方法通常用於訓練計算機下棋等遊戲。

    強化學習主要應用於假設輸入為真嘅情況。邁克爾同佢嘅同事們說,佢們系喺強化學習中畀唔確定嘅對抗性輸入帶嚟 “可驗證嘅魯棒性” 嘅第一人。

    佢們所採用嘅 CARRL 方法利用現有嘅深度強化學習算法嚟訓練深度 Q 網絡(DQN),並最終將輸入同 Q 值或獎勵水平相關聯。

    如果將一個有單個圓點嘅圖像作為為輸入對象 ,CARRL 可以考慮到對抗性嘅影響。換句話說,CARRL 可以考慮到圓點可可以實際所喺嘅成個區域。根據麻省理工學院 (MIT) Tsui-Wei “Lily” Weng 開發嘅一項技術,該區域內圓點嘅每一個可可以位置都識通過 DQN 進行反饋,以搵到最糟糕嘅情況下產生最優獎勵嘅決策。

    充滿對抗嘅世界

    喺一個名叫 “乒乓球” (Pong) 嘅測試中,兩名玩家喺屏幕兩側操作球拍嚟回傳球。而研究人員引入 一個 “對抗性因素”,將球拉得比實際位置略低。

    邁克爾說:“如果我哋知道一個測量結果唔完全可信,而且球可可以喺某個區域內嘅任何地方,嗰么我哋嘅方法就識講畀計算機,佢應該將球拍放喺嗰個區域嘅中間,以確保我哋就算喺最壞嘅情況下都可以擊中球。”

    該方法喺避免碰撞嘅測試中都同樣穩健。喺防撞測試中,研究小組模擬 藍色同橙色嘅計算機(自動駕駛系統),佢們試圖喺唔發生碰撞嘅情況下交換位置。由於團隊擾亂 橙色計算機對藍色計算機嘅觀察位置,CARRL 便引導橙色計算機繞過另一個計算機,達到 更大嘅安全距離。

    確實有一段嗰時間,CARRL 變得過於保守,導致橙色計算機認為藍色計算機喺其附近嘅任何地方。之後佢甚至完全避開 佢嘅目的地。邁克爾說,呢種極端嘅保守行為系有用嘅,因為研究人員可以將其作為一個極限嚟調整算法嘅魯棒性。例如,算法可可以識小小地繞開唔確定區域,但仍然到達目的地獲得較高回報。

    邁克爾說,除 克服唔完美嘅傳感器外,CARRL 可可以系幫助機器人安全應對變化莫測嘅現實世界嘅開始:“人們可可以充滿敵意。比如走喺機器人前面擋住佢嘅傳感器,或者並非出於好意對佢們做出一啲舉動。”“機器人怎麼可可以諗到人們諗要做嘅所有事,並試圖規避呢?我哋諗要防禦乜嘢樣嘅對抗模式?這系我哋正喺考慮嘅事。”

    參考資料

    链接

    链接

    cantonese.live 足跡粵字 智能翻譯

    2021-03-10 16:07:15

  • 0
  • 0
  • 0
  • 154
  • 请登录之后再进行评论

    登录
  • 任务
  • 发布
  • 偏好设置
  • 单栏布局 侧栏位置: