《概率機(jī)器學(xué)習(xí):金融與投資實(shí)戰(zhàn)》深入探討了概率機(jī)器學(xué)習(xí)在金融與投資領(lǐng)域的前沿應(yīng)用,揭示了這一技術(shù)如何成為下一代金融分析與投資決策的框架。本書(shū)詳細(xì)闡述了概率機(jī)器學(xué)習(xí)如何從有噪聲的金融數(shù)據(jù)集中持續(xù)學(xué)習(xí),并實(shí)現(xiàn)概率推斷、回溯預(yù)測(cè)、預(yù)測(cè)及反事實(shí)推理。同時(shí),該技術(shù)還能將個(gè)人、實(shí)證及機(jī)構(gòu)知識(shí)系統(tǒng)地編碼進(jìn)機(jī)器學(xué)習(xí)模型中。書(shū)中通過(guò)實(shí)戰(zhàn)案例,展示了如何利用概率分布量化不確定性,從而做出更貼近現(xiàn)實(shí)的金融推斷與預(yù)測(cè),為決策制定與風(fēng)險(xiǎn)管理提供有力支持。
譯者序
這是一本將機(jī)器學(xué)習(xí)算法應(yīng)用于金融與投資領(lǐng)域的入門書(shū)籍。本書(shū)通俗易懂,沒(méi)有令人生畏的數(shù)學(xué)公式,還包含豐富的Python代碼,方便讀者更好地理解書(shū)中的內(nèi)容。如果你計(jì)劃在金融與投資領(lǐng)域應(yīng)用機(jī)器學(xué)習(xí)技術(shù),那么本書(shū)是你的極佳選擇。
本書(shū)聚焦于概率機(jī)器學(xué)習(xí)模型在金融與投資領(lǐng)域的應(yīng)用。選擇使用概率機(jī)器學(xué)習(xí)模型有諸多原因。首先,難以用模型刻畫(huà)金融與投資領(lǐng)域的所有變量,模型的參數(shù)、輸入和輸出都不可避免地存在錯(cuò)誤和不確定性,而概率機(jī)器學(xué)習(xí)模型能夠處理這些錯(cuò)誤與不確定性,將它們視為問(wèn)題的特征而非缺陷;其次,概率機(jī)器學(xué)習(xí)模型可以融合個(gè)人經(jīng)驗(yàn)和機(jī)構(gòu)知識(shí),使得模型既具備從數(shù)據(jù)中學(xué)習(xí)的能力,又能借鑒先驗(yàn)知識(shí),從而可以避免失敗的投資可能帶來(lái)的毀滅性后果;最后,概率模型作為一種生成式模型,具備對(duì)自身局限性的認(rèn)知能力,不僅能夠提供預(yù)測(cè)結(jié)果,還能給出預(yù)測(cè)結(jié)果的置信度。
此外,本書(shū)還介紹了概率論、機(jī)器學(xué)習(xí)以及金融與投資領(lǐng)域的一些有趣的知識(shí),如貝葉斯定理的起源、頻率學(xué)派和貝葉斯學(xué)派(本書(shū)稱為認(rèn)知學(xué)派)的分歧、蒙提霍爾問(wèn)題(也叫三門問(wèn)題)中的稟賦效應(yīng)、檢察官謬誤、沒(méi)有免費(fèi)午餐定理以及賭徒破產(chǎn)定律等。這些內(nèi)容不僅對(duì)金融與投資領(lǐng)域的從業(yè)者大有裨益,對(duì)其他領(lǐng)域的讀者也有所啟發(fā)。
正如作者所述,本書(shū)的讀者對(duì)象為金融與投資領(lǐng)域具有獨(dú)立思考能力的從業(yè)者。相信閱讀完本書(shū)之后,讀者不但能夠掌握金融與投資領(lǐng)域概率機(jī)器學(xué)習(xí)模型的相關(guān)知識(shí)與技能,還將欣賞到作者犀利的批判性思維及其對(duì)諸多問(wèn)題的獨(dú)到見(jiàn)解。
李波
前言
生成式人工智能,尤其是最近風(fēng)靡一時(shí)的 ChatGPT-4 ,是當(dāng)今備受矚目的技術(shù)。 概率機(jī)器學(xué)習(xí)(Machine Learning ,ML)是一種生成式人工智能,非常適用于金融和投資領(lǐng)域。與 ChatGPT 所使用的深度神經(jīng)網(wǎng)絡(luò)不同,概率機(jī)器學(xué)習(xí)模型不是 黑盒模型,能夠以相當(dāng)透明的方式根據(jù)結(jié)果推斷原因。這對(duì)金融和醫(yī)療等受到嚴(yán)格監(jiān)管的行業(yè)來(lái)說(shuō)很重要,因?yàn)槟惚仨毾虮姸嗬嫦嚓P(guān)者解釋模型決策的依據(jù)。
使用概率機(jī)器學(xué)習(xí),你能夠系統(tǒng)地將個(gè)人與機(jī)構(gòu)的經(jīng)驗(yàn)和知識(shí)編碼到機(jī)器學(xué)習(xí)模型中,以保持競(jìng)爭(zhēng)優(yōu)勢(shì)。與傳統(tǒng)機(jī)器學(xué)習(xí)相比,概率機(jī)器學(xué)習(xí)能夠根據(jù)觀測(cè)數(shù)據(jù)和模型假設(shè),生成高質(zhì)量的模擬數(shù)據(jù)和模擬事實(shí),而不受觀測(cè)數(shù)據(jù)的規(guī)模 和時(shí)序的限制。概率模型是一種生成式模型,它們知道自己的局限性,并通過(guò)擴(kuò)大推理和預(yù)測(cè)范圍來(lái)真實(shí)地表達(dá)自己的無(wú)知。與之不同,ChatGPT不會(huì)提供 類似的可度量的值來(lái)描述模型對(duì)幻覺(jué)的不自信程度。從概率機(jī)器學(xué)習(xí)的角度來(lái)看,ChatGPT 的幻覺(jué)就是謊言。
所有的機(jī)器學(xué)習(xí)模型都基于以下假設(shè):在訓(xùn)練數(shù)據(jù)或樣本內(nèi)數(shù)據(jù)中發(fā)現(xiàn)的模式 將在測(cè)試數(shù)據(jù)或樣本外數(shù)據(jù)中持續(xù)存在。然而,由于統(tǒng)計(jì)模型固有的基礎(chǔ)缺陷, 非概率機(jī)器學(xué)習(xí)模型在面對(duì)從未訓(xùn)練或測(cè)試過(guò)的數(shù)據(jù)模式時(shí),會(huì)做出極差的推 斷和預(yù)測(cè)。此外,這些機(jī)器學(xué)習(xí)模型在完成這一切時(shí)極其自信,而不會(huì)提醒決 策者注意模型決策中的不確定性。
在金融和投資決策中越來(lái)越多地采用非概率機(jī)器學(xué)習(xí)模型,可能會(huì)給個(gè)人和整個(gè)社會(huì)帶來(lái)災(zāi)難性的后果,包括公司破產(chǎn)和經(jīng)濟(jì)衰退。在根據(jù)未知數(shù)據(jù)做出 推斷和預(yù)測(cè)時(shí),所有機(jī)器學(xué)習(xí)模型都必須量化其推斷或預(yù)測(cè)的不確定性,以便在復(fù)雜且不確定的世界中做出明智的決策。一些領(lǐng)先的公司已經(jīng)意識(shí)到人工智能的局限性,并著手開(kāi)發(fā)概率人工智能技術(shù),以解決更加復(fù)雜的問(wèn)題。最近, Google 公司推出了 TensorFlow Probability,擴(kuò)展了其成熟的 TensorFlow 平臺(tái)。 同樣,Meta 公司和 Uber 公司也引入 Pyro,擴(kuò)展了 PyTorch 平臺(tái)。目前,最流 行的開(kāi)源概率機(jī)器學(xué)習(xí)平臺(tái)是 PyMC 和 Stan,其中 PyMC 由 Python 編寫(xiě),而 Stan 由 C 編寫(xiě)。本書(shū)使用用戶友好且擁有龐大生態(tài)庫(kù)的 Python 編程語(yǔ)言。
讀者對(duì)象
本書(shū)的主要讀者是金融和投資領(lǐng)域有思想的從業(yè)者。有思想的從業(yè)者是指那些 不想按照手冊(cè)指示行事的人。他們希望理解技術(shù)背后的基本概念,以及為什么 必須采用某一個(gè)流程、模型或技術(shù)。通常,他們求知欲較強(qiáng),喜歡學(xué)習(xí)。與此 同時(shí),他們并不尋求煩瑣的數(shù)學(xué)證明或閱讀冗長(zhǎng)的學(xué)術(shù)專著。本書(shū)每一章都提 供許多參考文獻(xiàn)供讀者參考,幫助他們尋找本書(shū)提到的概念和推導(dǎo)背后的數(shù)學(xué) 和技術(shù)細(xì)節(jié)。
有思想的從業(yè)者可以是個(gè)體投資者、分析師、開(kāi)發(fā)人員、經(jīng)理、項(xiàng)目經(jīng)理、數(shù) 據(jù)科學(xué)家、研究員、投資組合經(jīng)理或量化交易員。這些有思想的從業(yè)者明白, 他們需要不斷學(xué)習(xí)新概念和技術(shù),以推進(jìn)業(yè)務(wù)和職業(yè)生涯的發(fā)展。對(duì)新概念和 技術(shù)的深度理解使他們有信心應(yīng)用所學(xué)的知識(shí),為他們遇到的挑戰(zhàn)開(kāi)發(fā)創(chuàng)造性 的解決方案。這種深度理解也為他們提供了一個(gè)框架,使他們可以輕松地探索 和學(xué)習(xí)相關(guān)技術(shù)與概念。
本書(shū)假設(shè)讀者對(duì)金融、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)和 Python 有基本的了解,但不要求讀 者讀過(guò)指定的書(shū)籍或掌握指定的技能。
創(chuàng)作動(dòng)機(jī)
目前,關(guān)于通用概率機(jī)器學(xué)習(xí)的書(shū)籍相對(duì)較少,而且沒(méi)有一本是專門致力于金 融和投資問(wèn)題的。由于金融和投資領(lǐng)域的特殊性和復(fù)雜性,任何形式通用機(jī)器 學(xué)習(xí)的簡(jiǎn)單應(yīng)用,特別是直接應(yīng)用概率機(jī)器學(xué)習(xí),都注定要失敗。深入了解這 些領(lǐng)域?qū)Τ晒χ陵P(guān)重要。本書(shū)旨在為讀者提供扎實(shí)的概率機(jī)器學(xué)習(xí)基礎(chǔ)知識(shí),并使用簡(jiǎn)單的數(shù)學(xué)和 Python 代碼教會(huì)讀者將其應(yīng)用于金融和投資問(wèn)題中。
我寫(xiě)這本書(shū)還有另一個(gè)原因。時(shí)至今日,書(shū)籍仍然是一種嚴(yán)肅的信息傳遞媒介。 我想提醒讀者,現(xiàn)代金融理論和傳統(tǒng)統(tǒng)計(jì)推斷方法仍然存在嚴(yán)重缺陷。令人憤 慨的是,盡管這些看似科學(xué)的方法存在深刻的缺陷而且表現(xiàn)乏善可陳,但這些 方法仍然在學(xué)術(shù)界傳授,并在工業(yè)界被付諸實(shí)踐。
我們正處于人工智能技術(shù)發(fā)展的十字路口,大多數(shù)專家預(yù)測(cè)人工智能的使用將 以指數(shù)級(jí)速度增長(zhǎng),從根本上改變我們的生活方式、工作方式和交往方式。人工智能系統(tǒng)即將接管人類是科幻小說(shuō)中的情節(jié),因?yàn)楫?dāng)今即使是最先進(jìn)的人工智能系統(tǒng)也缺乏幼兒所具有的常識(shí)。真正清晰而現(xiàn)實(shí)的危險(xiǎn)是,不太聰明的人可能會(huì)使用傳統(tǒng)金融和統(tǒng)計(jì)學(xué)中的虛假模型來(lái)管理強(qiáng)大的專家。這很可能會(huì)導(dǎo) 致比以往更大的災(zāi)難,而且災(zāi)難來(lái)臨的速度會(huì)更快。
內(nèi)容導(dǎo)航
本書(shū)的內(nèi)容在邏輯上可以分為兩部分,交織在每一章中。一部分研究金融和投 資領(lǐng)域流行的經(jīng)濟(jì)、統(tǒng)計(jì)和機(jī)器學(xué)習(xí)模型,并說(shuō)明這些模型為什么沒(méi)有用。另一部分探討為何概率機(jī)器學(xué)習(xí)是這些領(lǐng)域更準(zhǔn)確、更有用的模型。本書(shū)的重點(diǎn)是讓你理解這一復(fù)雜的多學(xué)科領(lǐng)域的基礎(chǔ)知識(shí),因此只涵蓋關(guān)鍵概念和應(yīng)用。 本書(shū)每一章都介紹至少一個(gè)金融和投資領(lǐng)域的主要概念,并使用 Python 代碼付 諸實(shí)踐。本書(shū)的組織結(jié)構(gòu)如下:
第 1 章探討理論金融學(xué)的一些不足之處,解釋困擾所有金融模型的三種錯(cuò)誤, 以及為什么需要一種系統(tǒng)化的方法來(lái)量化推斷和預(yù)測(cè)的不確定性。該章將解釋 為什么概率機(jī)器學(xué)習(xí)為金融和投資提供了一個(gè)有用的框架。
第 2 章借助蒙提霍爾問(wèn)題(三門問(wèn)題)回顧概率論的基本概念,將探討概率的含義,并探索遍及世界的三種不確定性。該章還將探討歸納問(wèn)題及其算法重述、 沒(méi)有免費(fèi)午餐(No Free Lunch,NFL)定理,以及它們是如何支撐金融、投資 和概率機(jī)器學(xué)習(xí)的。
第 3 章回顧一些重要的統(tǒng)計(jì)概念,解釋作為最重要的數(shù)值技術(shù)之一的蒙特卡羅模擬(Monte Carlo Simulation ,MCS)如何生成近似概率來(lái)解決難以解析的問(wèn)題。
第 4 章揭露科研和工業(yè)界常用的傳統(tǒng)統(tǒng)計(jì)推斷方法的欺騙行為,并解釋為什么它們會(huì)導(dǎo)致社會(huì)學(xué)和經(jīng)濟(jì)學(xué)充滿虛假研究。
第 5 章將探討概率機(jī)器學(xué)習(xí)框架,并展示如何將數(shù)據(jù)推理和新數(shù)據(jù)模擬在邏輯上無(wú)縫地集成到這種生成模型中。
第 6 章揭示傳統(tǒng)人工智能系統(tǒng)的風(fēng)險(xiǎn),特別是它們?nèi)狈境WR(shí),以及它們不 了解自身的局限性,這給所有利益相關(guān)者和整個(gè)社會(huì)都帶來(lái)了巨大的風(fēng)險(xiǎn)。馬爾可夫鏈蒙特卡羅模擬是一種依存抽樣方法,用于解決金融和投資領(lǐng)域的復(fù)雜問(wèn)題。
第 7 章解釋概率機(jī)器學(xué)習(xí)本質(zhì)上是一種集成機(jī)器學(xué)習(xí)。該章將向讀者展示如何 使用 PyMC 、Xarray 和 ArviZ Python 庫(kù)為金融和投資領(lǐng)域的回歸問(wèn)題開(kāi)發(fā)生成 式線性集成模型。
第 8 章展示如何將生成式集成模型應(yīng)用于金融和投資中的風(fēng)險(xiǎn)管理和資本配置 決策。該章將探討遍歷性的含義和使用集成平均進(jìn)行金融決策的陷阱,還將研 究包括凱利準(zhǔn)則在內(nèi)的資本配置算法的優(yōu)缺點(diǎn)。
Deepak Kanungo是一名算法衍生品交易員、講師,也是對(duì)沖資本有限責(zé)任公司(Hedged Capital LLC)的首席執(zhí)行官,這家由人工智能驅(qū)動(dòng)的自營(yíng)交易公司是他于2009年創(chuàng)立的。自2019年以來(lái),迪帕克已向全球數(shù)萬(wàn)名OReilly Media的訂閱用戶傳授了使用Python進(jìn)行算法交易、投資和金融領(lǐng)域相關(guān)的概念、流程以及機(jī)器學(xué)習(xí)技術(shù)。在全球金融危機(jī)期間,他還曾擔(dān)任摩根士丹利(Morgan Stanley)的財(cái)務(wù)顧問(wèn)。
目錄
前言1
第1章 概率機(jī)器學(xué)習(xí)的需求9
1.1 金融學(xué)不是物理學(xué)10
1.2 所有金融模型皆有謬誤且大多無(wú)用12
1.3 三類建模錯(cuò)誤14
1.3.1 模型錯(cuò)誤14
1.3.2 模型參數(shù)錯(cuò)誤15
1.3.3 模型不能適應(yīng)市場(chǎng)的結(jié)構(gòu)性變化而導(dǎo)致的錯(cuò)誤17
1.4 概率金融模型18
1.5 金融人工智能和機(jī)器學(xué)習(xí)20
1.6 概率機(jī)器學(xué)習(xí)23
1.6.1 概率分布24
1.6.2 知識(shí)集成25
1.6.3 參數(shù)推斷26
1.6.4 生成式集成模型26
1.6.5 不確定性認(rèn)知27
1.7 本章小結(jié)27
參考文獻(xiàn)28
擴(kuò)展閱讀29
第2章 不確定性的分析與量化30
2.1 蒙提霍爾問(wèn)題31
2.2 概率公理33
2.3 反概率公式36
2.4 模擬解40
2.5 概率的含義42
2.5.1 頻率學(xué)派的概率43
2.5.2 認(rèn)知概率44
2.5.3 相對(duì)概率47
2.6 風(fēng)險(xiǎn)與不確定性48
2.7 三種不確定性50
2.7.1 偶然不確定性51
2.7.2 認(rèn)知不確定性53
2.7.3 本體論不確定性56
2.8 沒(méi)有免費(fèi)午餐定理57
2.9 投資與歸納問(wèn)題60
2.10 問(wèn)題歸納、沒(méi)有免費(fèi)午餐定理與概率機(jī)器學(xué)習(xí)64
2.11 本章小結(jié)65
參考文獻(xiàn)66
第3章 用于量化輸出不確定性的蒙特卡羅模擬68
3.1 蒙特卡羅模擬:概念驗(yàn)證69
3.2 關(guān)鍵統(tǒng)計(jì)概念71
3.2.1 均值和方差71
3.2.2 期望值:概率加權(quán)算術(shù)平均值72
3.2.3 為什么用波動(dòng)率來(lái)度量風(fēng)險(xiǎn)是荒謬的73
3.2.4 偏度與峰度74
3.2.5 高斯分布或正態(tài)分布75
3.2.6 為什么使用波動(dòng)率會(huì)低估金融風(fēng)險(xiǎn)76
3.2.7 大數(shù)定律79
3.2.8 中心極限定理79
3.3 蒙特卡羅模擬的理論基礎(chǔ)81
3.4 軟件項(xiàng)目的估值82
3.5 構(gòu)建一個(gè)健全的蒙特卡羅模擬系統(tǒng)85
3.6 本章小結(jié)87
參考文獻(xiàn)88
第4章 傳統(tǒng)統(tǒng)計(jì)方法的風(fēng)險(xiǎn)89
4.1 反向謬誤90
4.2 零假設(shè)顯著性檢驗(yàn)中的檢察官謬誤96
4.3 信心游戲100
4.3.1 股票的單因素市場(chǎng)模型102
4.3.2 基于Statsmodels的簡(jiǎn)單線性回歸103
4.3.3 和的置信區(qū)間106
4.4 揭秘信心游戲107
4.4.1 總體參數(shù)概率性陳述錯(cuò)誤107
4.4.2 置信區(qū)間概率性陳述錯(cuò)誤108
4.4.3 抽樣分布概率性陳述錯(cuò)誤108
4.5 本章小結(jié)111
參考文獻(xiàn)112
擴(kuò)展閱讀113
第5章 概率機(jī)器學(xué)習(xí)框架114
5.1 探究反概率規(guī)則115
5.2 估計(jì)債務(wù)違約的概率119
5.3 用預(yù)測(cè)概率分布生成數(shù)據(jù)124
5.4 本章小結(jié)127
擴(kuò)展閱讀129
第6章 傳統(tǒng)人工智能系統(tǒng)的風(fēng)險(xiǎn)130
6.1 AI系統(tǒng):缺乏常識(shí)是危險(xiǎn)的132
6.2 為什么最大似然估計(jì)模型在金融領(lǐng)域失敗了133
6.2.1 盈余預(yù)期的最大似然估計(jì)模型134
6.2.2 盈余預(yù)期的概率模型137
6.3 馬爾可夫鏈蒙特卡羅模擬143
6.3.1 馬爾可夫鏈143
6.3.2 Metropolis抽樣145
6.4 本章小結(jié)149
參考文獻(xiàn)150
第7章 生成式集成概率機(jī)器學(xué)習(xí)151
7.1 最大似然回歸模型153
7.1.1 市場(chǎng)模型154
7.1.2 模型假設(shè)154
7.1.3 基于最大似然估計(jì)的參數(shù)學(xué)習(xí)155
7.1.4 基于置信區(qū)間的參數(shù)不確定性量化156
7.1.5 模型輸出的預(yù)測(cè)與模擬156
7.2 概率線性集成模型156
7.2.1 先驗(yàn)概率分布P(, , e)158
7.2.2 似然函數(shù)P(Y| , , e, X)159
7.2.3 邊緣似然函數(shù)P(Y|X)159
7.2.4 后驗(yàn)概率分布P(, , e| X, Y)159
7.3 使用PyMC庫(kù)與ArviZ庫(kù)構(gòu)建概率線性集成模型160
7.3.1 定義集成模型的性能指標(biāo)161
7.3.2 數(shù)據(jù)分析與特征工程164
7.3.3 開(kāi)發(fā)和回溯先驗(yàn)集成模型167
7.3.4 訓(xùn)練和回溯后驗(yàn)集成模型174
7.3.5 測(cè)試和評(píng)估集成模型182
7.4 本章小結(jié)185
參考文獻(xiàn)186
擴(kuò)展閱讀186
第8章 基于生成式集成模型的概率決策187
8.1 概率推斷和預(yù)測(cè)框架188
8.2 概率決策框架191
8.2.1 融入主觀判斷191
8.2.2 估計(jì)損失192
8.2.3 最小化損失195
8.3 風(fēng)險(xiǎn)管理197
8.3.1 資本保全197
8.3.2 遍歷性197
8.3.3 生成式風(fēng)險(xiǎn)價(jià)值202
8.3.4 生成式預(yù)期虧空204
8.3.5 生成式尾部風(fēng)險(xiǎn)205
8.4 資本配置206
8.4.1 賭徒破產(chǎn)定律206
8.4.2 預(yù)期資產(chǎn)評(píng)估師的破產(chǎn)208
8.4.3 現(xiàn)代投資組合理論212
8.4.4 馬科維茨投資者的破產(chǎn)214
8.4.5 凱利準(zhǔn)則219
8.4.6 凱利投資者的破產(chǎn)222
8.5 本章小結(jié)224
參考文獻(xiàn)225
擴(kuò)展閱讀225