視覺(jué)語(yǔ)言交互中的視覺(jué)推理研究
定 價(jià):49 元
叢書名:CCF優(yōu)博叢書
當(dāng)前圖書已被 26 所學(xué)校薦購(gòu)過(guò)!
查看明細(xì)
- 作者:牛玉磊著
- 出版時(shí)間:2023/3/1
- ISBN:9787111723035
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP302.7
- 頁(yè)碼:
- 紙張:膠版紙
- 版次:
- 開(kāi)本:32開(kāi)
《視覺(jué)語(yǔ)言交互中的視覺(jué)推理研究》的作者牛玉磊博士于2020年在中國(guó)人民大學(xué)取得博士學(xué)會(huì),后前往美國(guó)哥倫比亞大學(xué)開(kāi)展博士后研究工作。本書從知識(shí)建模和知識(shí)推斷兩方面入手,深入研究了視覺(jué)語(yǔ)言交互任務(wù)中的視覺(jué)推理問(wèn)題。
《視覺(jué)語(yǔ)言交互中的視覺(jué)推理研究》共五章:
第1章主要介紹了計(jì)算機(jī)視覺(jué)與自然語(yǔ)言處理交叉領(lǐng)域中交互類問(wèn)題的研究背景,并分別從單輪交互、多輪交互、知識(shí)偏差三個(gè)角度選取了指稱語(yǔ)理解、視覺(jué)對(duì)話、視覺(jué)問(wèn)答三個(gè)經(jīng)典任務(wù)展開(kāi)討論。
第2章主要介紹了單輪交互情形的代表性視覺(jué)推理任務(wù),即指稱語(yǔ)理解問(wèn)題,提出了變分背景框架,根據(jù)視覺(jué)圖像和指稱語(yǔ)文本的聯(lián)系及視覺(jué)物體之間的關(guān)系提取語(yǔ)義背景信息,并根據(jù)背景信息對(duì)指稱語(yǔ)進(jìn)行定位。
第3章介紹了多輪交互情形的代表性視覺(jué)推理任務(wù),即視覺(jué)對(duì)話問(wèn)題,提出了遞歸注意力機(jī)制,通過(guò)視覺(jué)指代消解的思想對(duì)圖像、對(duì)話和問(wèn)題之間的聯(lián)系進(jìn)行建模,優(yōu)化視覺(jué)表示。
第4章介紹了知識(shí)偏差情形的代表性視覺(jué)推理任務(wù),即視覺(jué)問(wèn)答問(wèn)題,基于因果推理提出了反事實(shí)視覺(jué)問(wèn)答框架,在訓(xùn)練環(huán)境和測(cè)試環(huán)境的答案分布不一致情況下,通過(guò)因果效應(yīng)的視角提取并去除語(yǔ)言偏差。
第5章對(duì)本書進(jìn)行了總結(jié),并對(duì)未來(lái)研究方向進(jìn)行了展望。
適讀人群 :研究生、科研人員、從業(yè)者等
◆中國(guó)計(jì)算機(jī)領(lǐng)域具有重要突破或重要?jiǎng)?chuàng)新的博士研究生科研成果
◆2021年度CCF優(yōu)秀博士學(xué)位論文獎(jiǎng)
◆知識(shí)建模和知識(shí)推斷兩個(gè)方面
◆單輪交互和多輪交互兩個(gè)場(chǎng)景
◆去除直接因果效應(yīng),克服模型對(duì)語(yǔ)言偏差的依賴
視覺(jué)語(yǔ)言是計(jì)算機(jī)視覺(jué)與自然語(yǔ)言處理的交叉領(lǐng)域,對(duì)機(jī)器的感知和認(rèn)知能力均有較高的要求。隨著深度學(xué)習(xí)的發(fā)展和計(jì)算能力的提高,機(jī)器的感知能力得到了顯著提升,于是研究者們開(kāi)始探索機(jī)器的認(rèn)知能力,尤其是推理能力。本書從知識(shí)建模和知識(shí)推斷兩方面入手,對(duì)視覺(jué)語(yǔ)言交互任務(wù)中的視覺(jué)推理問(wèn)題進(jìn)行研究。其中,知識(shí)建模指通過(guò)模型的構(gòu)建,從視覺(jué)媒介和自然語(yǔ)言中提取視覺(jué)與語(yǔ)言知識(shí),并進(jìn)行特征表示;知識(shí)推斷指機(jī)器對(duì)視覺(jué)和語(yǔ)言兩個(gè)模態(tài)的知識(shí)進(jìn)行綜合考慮,并進(jìn)行無(wú)偏的推斷與估計(jì)。
牛玉磊,美國(guó)哥倫比亞大學(xué)博士后,2015年和2020年于中國(guó)人民大學(xué)分別獲得學(xué)士與博士學(xué)位。研究方向包括計(jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)、因果推理、多模態(tài)學(xué)習(xí)等,在國(guó)際著名學(xué)術(shù)會(huì)議和期刊上發(fā)表論文20余篇。擔(dān)任BMVC 2022領(lǐng)域主席,AAAI 2023、IJCAI 2021高級(jí)程序委員會(huì)委員等學(xué)術(shù)職務(wù)。獲2021年度CCF優(yōu)秀博士學(xué)位論文獎(jiǎng)、CVPR 2019視覺(jué)對(duì)話挑戰(zhàn)賽冠軍,被評(píng)為NeurIPS 2022、ICLR 2021、ICCV 2021的杰出審稿人。
第1章 引言
1.1 研究背景 1
1.2 研究現(xiàn)狀 5
1.2.1 指稱語(yǔ)理解 6
1.2.2 視覺(jué)對(duì)話 8
1.2.3 視覺(jué)問(wèn)答 11
1.3 研究?jī)?nèi)容與貢獻(xiàn) 14
1.4 組織結(jié)構(gòu) 17
第2章 單輪交互情形下的指稱語(yǔ)理解
2.1 研究概述 20
2.2 相關(guān)工作 23
2.3 變分背景框架 26
2.3.1 問(wèn)題表述 26
2.3.2 指稱語(yǔ)理解 29
2.3.3 指稱語(yǔ)生成 31
2.3.4 模型實(shí)現(xiàn) 32
2.4 實(shí)驗(yàn)結(jié)果 40
2.4.1 實(shí)驗(yàn)設(shè)置 40
2.4.2 指稱語(yǔ)理解實(shí)驗(yàn)結(jié)果 44
2.4.3 指稱語(yǔ)生成實(shí)驗(yàn)結(jié)果 55
2.5 小結(jié) 57
第3章 多輪交互情形下的視覺(jué)對(duì)話
3.1 研究概述 60
3.2 相關(guān)工作 64
3.3 預(yù)備知識(shí) 66
3.4 遞歸視覺(jué)注意力模型 66
3.4.1 判別模塊 68
3.4.2 匹配模塊 69
3.4.3 注意力模塊 72
3.5 其他模塊 73
3.5.1 語(yǔ)言特征表示 73
3.5.2 視覺(jué)特征表示 75
3.5.3 特征優(yōu)化與融合 76
3.5.4 非線性映射 78
3.5.5 Gumbel離散采樣 79
3.6 實(shí)驗(yàn)結(jié)果 80
3.6.1 實(shí)驗(yàn)設(shè)置 80
3.6.2 實(shí)現(xiàn)細(xì)節(jié) 82
3.6.3 對(duì)比方法 82
3.6.4 實(shí)驗(yàn)結(jié)果分析 85
3.7 小結(jié) 93
第4章 知識(shí)偏差情形下的視覺(jué)問(wèn)答
4.1 研究概述 96
4.2 相關(guān)工作 101
4.3 預(yù)備知識(shí) 104
4.3.1 因果圖 105
4.3.2 反事實(shí)表示 105
4.3.3 因果效應(yīng) 106
4.4 基于簡(jiǎn)化因果圖的反事實(shí)視覺(jué)問(wèn)答 107
4.4.1 反事實(shí)視覺(jué)問(wèn)答框架 108
4.4.2 技術(shù)實(shí)現(xiàn) 110
4.5 基于完全因果圖的反事實(shí)視覺(jué)問(wèn)答 115
4.5.1 反事實(shí)視覺(jué)問(wèn)答框架 115
4.5.2 技術(shù)實(shí)現(xiàn) 116
4.6 實(shí)現(xiàn)細(xì)節(jié) 119
4.7 實(shí)驗(yàn)結(jié)果 120
4.7.1 實(shí)驗(yàn)設(shè)置 120
4.7.2 簡(jiǎn)化因果圖實(shí)驗(yàn)結(jié)果 122
4.7.3 完全因果圖實(shí)驗(yàn)結(jié)果 134
4.8 小結(jié) 137
第5章 總結(jié)與展望
5.1 創(chuàng)新總結(jié) 139
5.2 未來(lái)工作展望 141
5.2.1 視覺(jué)推理任務(wù) 142
5.2.2 知識(shí)建模 142
5.2.3 知識(shí)偏差 143