深研院信息工程學院鄒月嫻教授課題組在人工智能綁架學生頂級會議AAAI上發表論文

  • 时间:
  • 浏览:19
  • 来源:亚洲免费观看在线美女视频_亚洲免费人成视频播放_亚洲免费网站观看视频

  最近,視覺和語言的多模態任務,例如圖像字幕和視覺問題解答(VQA),引起瞭學術界和工業界的廣泛興趣。但是,大多數現有的模型都專註於單個任務。深圳研究生院信息工程學院鄒月嫻教授課題組研究發現,這些任務在線三級存在一定的相似性,因此認為如果模型可以同時考慮這些多模態問題,則可以共同學習來自不同任務的不同知識,並且很有可能提高每個任務的效能。

  近日,鄒月嫻課題組的研究“Federated Learning for Vision-and-Language Grounding Problems”被在美國紐約舉行的第34屆人工智能發展協會(AAAI)人工智能會議(AAAI Confereqqnce on Artificial Intelligence, AAAI 2020)接收發表並以口頭匯報(Oral)的形式進行瞭展示。該研究成果提出瞭一種聯邦學習框架,可以從不同的任務中獲得各種類型的圖像表示,然後將它們融合在一起以形成細粒度的圖像表示。這些圖像表示融合瞭來自不同視覺和語言的多模態問題的有用圖像表示,因此在優酷單個任務中比單獨的原始圖像表示強大得多。為瞭學習這種圖像表示,該課題組提出瞭對齊(Aligning)、集成(Integrating)和映射(Mapping)、多部漫威新片改檔網絡(aimNet)。aimNet由一個對齊模塊,一個集成模塊和一個映射模塊組成(如下圖)。

課題組提出的集中式模型aimNet

  其中,對齊模塊通過對提取的視覺和文本特征進行相互關註來構建對齊的圖像表示,其能為顯著圖像區域提供瞭更清晰的語義描述。接下來,集成模塊著重於通過自我註意機制集成視覺華晨宇回應爭議和文本特征,該機制捕獲顯著區域的分組和屬性的搭配。最後,映射模塊由兩層非線性層組成,用於將學習到的細粒度圖像表示映射到特定任務的特征域。各課題組提出的模塊充分利用瞭圖像中的所有有效信息,並將其作為輸入傳遞給解碼器,以生成有意義的句子或給出問題的準確答案。該課題組在兩個圖像字幕數據集和一個VQA數據集上,以及相應的三個聯邦學習設置上,包括水平聯合學習,垂直聯合學習和聯合遷移學習,進行實驗用於驗證該課題組的動機以及所提出方法龍之谷的有效性。

  2019級碩士生劉峰林為該論文第一作者,鄒月嫻為通訊作者,該工作得到瞭數字視頻編解碼技術死神日語國傢工程實驗神馬影院限制級室、深圳市發改委(數據科學與智能計算學科發展計劃)和Aoto-PKUSZ聯合實驗室的支持。