實(shí)體消解指南:使用Python進(jìn)行數(shù)據(jù)匹配 [英]邁克爾·希勒
定 價:69 元
- 作者:[英]邁克爾·希勒
- 出版時間:2025/6/1
- ISBN:9787111783299
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
在數(shù)據(jù)驅(qū)動時代,實(shí)體消解技術(shù)是打通數(shù)據(jù)孤島的核心利器。本書以Python為工具,系統(tǒng)講解從數(shù)據(jù)清洗到云端大規(guī)模部署的全流程技術(shù):·基礎(chǔ)原理:解析實(shí)體消解5大步驟(數(shù)據(jù)標(biāo)準(zhǔn)化、分塊、屬性比較、匹配分類、聚類),直面姓名模糊、數(shù)據(jù)缺失、跨源匹配等實(shí)戰(zhàn)難題;·算法攻堅:詳解編輯距離、Jaro-Winkler相似度等文本匹配技術(shù),結(jié)合貝葉斯定理、期望zui大化算法構(gòu)建概率匹配模型;·工具實(shí)戰(zhàn):基于Splink實(shí)現(xiàn)企業(yè)級數(shù)據(jù)消解,通過谷歌云平臺擴(kuò)展至百萬級數(shù)據(jù)集;·前沿拓展:引入隱私增強(qiáng)技術(shù)(PSI),平衡數(shù)據(jù)利用與合規(guī)風(fēng)險。全書配套GitHub代碼庫,以英國公司注冊署、海事署等真實(shí)數(shù)據(jù)演示跨領(lǐng)域(金融風(fēng)控、供應(yīng)鏈管理)場景應(yīng)用,助力讀者構(gòu)建可復(fù)用的數(shù)據(jù)資產(chǎn)整合方案。
本書是數(shù)據(jù)工程師的實(shí)戰(zhàn)寶典!從實(shí)體消解基礎(chǔ)概念切入,系統(tǒng)拆解數(shù)據(jù)標(biāo)準(zhǔn)化、文本模糊匹配(Levenshtein距離、Metaphone算法)、概率模型(Fellegi-Sunter模型、貝葉斯因子)、聚類分塊等核心技術(shù),更獨(dú)家涵蓋Splink框架、谷歌云Dataproc集群部署、企業(yè)知識圖譜API等前沿工具。作者以真實(shí)金融反欺詐案例貫穿全書,手把手教學(xué)Python代碼實(shí)現(xiàn),并前瞻隱私集合求交(PSI)等合規(guī)技術(shù)。經(jīng)Splink工具作者Robin Linacre力薦,既是新手入門教材,也是資深從業(yè)者的技術(shù)進(jìn)階手冊。
譯者序在當(dāng)今這個信息爆炸的時代,海量數(shù)據(jù)的涌現(xiàn)為各行各業(yè)帶來了前所未有的機(jī)遇與挑戰(zhàn)。如何從紛繁復(fù)雜的數(shù)據(jù)中精準(zhǔn)提取出有價值的信息,成為亟待解決的問題。而實(shí)體消解技術(shù),正是應(yīng)對這一問題的關(guān)鍵利器之一。無論是在商業(yè)智能領(lǐng)域助力企業(yè)精準(zhǔn)洞察客戶需求、優(yōu)化供應(yīng)鏈管理,還是在學(xué)術(shù)研究中整合多源異構(gòu)數(shù)據(jù)以挖掘新知識,乃至協(xié)助政府部門進(jìn)行公共事務(wù)管理、提升社會治理效能,實(shí)體消解技術(shù)都發(fā)揮著重要作用。顧名思義,實(shí)體消解就是將不同數(shù)據(jù)源中指代同一實(shí)體的多個記錄識別出來并將其合并為統(tǒng)一實(shí)體表示的過程。實(shí)體消解技術(shù)通過一系列復(fù)雜的算法和流程,實(shí)現(xiàn)數(shù)據(jù)的精準(zhǔn)對接與融合,從而為后續(xù)的數(shù)據(jù)分析、知識發(fā)現(xiàn)、業(yè)務(wù)決策等環(huán)節(jié)奠定堅實(shí)的基礎(chǔ)。本書正是對這一重要技術(shù)的全面而深入的剖析。從基礎(chǔ)概念的闡釋,到實(shí)際操作的指導(dǎo),再到前沿技術(shù)的探討,本書涵蓋了實(shí)體消解的方方面面。書中對每個步驟都進(jìn)行了細(xì)致的講解,不僅提供了豐富的理論知識,還結(jié)合實(shí)際案例,展示了如何在具體場景下應(yīng)用這些技術(shù)和方法。本書既有高屋建瓴的理論闡述,又有細(xì)致入微的代碼示例與案例剖析,相信無論讀者是初涉該領(lǐng)域、渴望構(gòu)建扎實(shí)的知識根基的新手,還是經(jīng)驗頗豐、尋求創(chuàng)新思路與技術(shù)進(jìn)階的專業(yè)人士,都能從這本書中覓得所需。衷心期望本書的問世,能夠為讀者的事業(yè)與研究注入新的活力,助力更多讀者跨越知識鴻溝,在實(shí)體消解乃至更廣闊的數(shù)據(jù)處理天地中自由馳騁,開啟數(shù)字化智慧之旅。讀者在閱讀過程中,如果發(fā)現(xiàn)問題或錯誤,歡迎與我聯(lián)系,我的電子郵箱是seancheney@qq.com。林潤前言人們都希望做出更好的決策。無論是為了更好地服務(wù)客戶,還是為了保障客戶的安全,人們都希望做出正確的判斷并開展正確的工作。為了能夠自信地行動,人們需要了解服務(wù)對象及其信息。雖然人們時常有大量數(shù)據(jù)可以使用,但這些 數(shù)據(jù)往往是孤立的,難以完整描述個體全貌。實(shí)體消解是連接數(shù)據(jù)、串聯(lián)數(shù)據(jù)并揭示全貌的技術(shù)。本書是一本實(shí)操指南,旨在幫助讀者了解實(shí)體消解廣闊的知識背景,掌握實(shí)體消解技術(shù)并靈活運(yùn)用它。 數(shù)據(jù)匹配看起來很容易,但通過本書,讀者將了解到數(shù)據(jù)匹配并非總是一帆風(fēng) 順的。不過不用擔(dān)心,閱讀完全書,讀者就能夠克服這些挑戰(zhàn),讓數(shù)據(jù)集煥發(fā)生機(jī)。本書讀者本書適合金融服務(wù)、制藥業(yè)或其他大型企業(yè)的產(chǎn)品經(jīng)理、數(shù)據(jù)分析師或數(shù)據(jù)科學(xué)家閱讀。如果你正面臨數(shù)據(jù)孤島難題、不同數(shù)據(jù)庫中的客戶信息存在分歧, 或者你要合并來自不同組織或附屬公司的信息,本書也適合你。負(fù)責(zé)防范金融犯罪、管理聲譽(yù)及供應(yīng)鏈風(fēng)險的風(fēng)險管理專家,也能從本書對數(shù)據(jù)匹配挑戰(zhàn)及其解決策略的深入討論中受益。為什么撰寫本書實(shí)體消解的挑戰(zhàn)無處不在。雖然我們可能不常用這個術(shù)語,但實(shí)體消解過程每天都在重復(fù)發(fā)生。在完成本書的幾周前,妻子讓我?guī)椭藢︺y行對賬單上的 付款人名單,以確認(rèn)名單上的人是否都付款了。這正是實(shí)體消解的實(shí)際應(yīng)用!創(chuàng)作本書的想法,源于我想要闡釋為什么核對名單上的匹配項并不像聽起來那么簡單,還想展示一些現(xiàn)在可用于高效處理實(shí)體消解問題的優(yōu)秀工具和技術(shù)。通過介紹一些真實(shí)案例,我希望讀者能夠自信地對數(shù)據(jù)集進(jìn)行匹配,從而更好 地服務(wù)并保護(hù)客戶。非常歡迎讀者向我分享讀書的心得體會,或是對本書的任何反饋。如果對本書附帶的代碼有任何疑問,歡迎在 GitHub(https://github. com/mshearer0/HandsOnEntityResolution )上提出。若想討論實(shí)體消解問題,請通過 LinkedIn(https://www.linkedin.com/in/mshearer0)聯(lián)系我。實(shí)體消解既是一門技藝,也是一門科學(xué)。不存在適用于所有數(shù)據(jù)集的通用解決方案,因此開發(fā)者需要根據(jù)自身需求調(diào)整算法,以達(dá)成期望結(jié)果。希望本書讀 者能夠相互幫助,找到最佳解決方案,通過分享彼此的經(jīng)驗,讓眾人受益。本書導(dǎo)覽本書旨在提供實(shí)體消解的實(shí)操指南,因此鼓勵讀者在逐章學(xué)習(xí)時動手運(yùn)行代碼。本書的核心原則是通過使用真實(shí)的開源數(shù)據(jù),展示實(shí)體消解中的挑戰(zhàn)與解決方案。但是,使用開源數(shù)據(jù)可能會面臨一些挑戰(zhàn),因為開源數(shù)據(jù)集在發(fā)布后可能 會有更新,導(dǎo)致讀者的運(yùn)算結(jié)果略有不同。請查看 GitHub頁面(https://github.com/mshearer0/HandsOnEntityResolution),以獲取及時更新,并訪問最新代碼。本書各章內(nèi)容如下:? 第 1 章簡要介紹實(shí)體消解,解釋為什么需要進(jìn)行實(shí)體消解,及實(shí)體消解包含的主要步驟。? 第 2 章闡述在嘗試匹配記錄之前,數(shù)據(jù)標(biāo)準(zhǔn)化的重要性。? 第 3 章至第 6 章展示如何使用模糊匹配和概率匹配方法,比較數(shù)據(jù)記錄以消解實(shí)體。? 第 7 章介紹對于描述同一實(shí)體的記錄,將其聚類到唯一可識別簇的過程。? 第 8 章和第 9 章展示如何使用云計算服務(wù)大規(guī)模實(shí)施實(shí)體消解。? 第 10 章介紹如何利用記錄關(guān)聯(lián)技術(shù)保護(hù)數(shù)據(jù)所有者隱私。? 第 11 章介紹對實(shí)體消解算法設(shè)計的進(jìn)一步思考,并展望實(shí)體消解技術(shù)的未來發(fā)展。建議讀者連續(xù)閱讀第 2 章至第 9 章,因為這些章節(jié)會使用相同的數(shù)據(jù)集逐步構(gòu) 建出實(shí)體消解解決方案。本書假定讀者具備 Python 基礎(chǔ)知識。如有學(xué)習(xí)需要,可訪問互動教程網(wǎng)站 http://learnpython.org。此外,強(qiáng)烈推薦 Wes McKinney 所著的 Python for Data Analysis一書。對于更有經(jīng)驗的讀者,建議學(xué)習(xí) pandas、Spark 和 Google Cloud Platform,肯定能有所收獲。
Michael Shearer是HAWK:AI公司的首席解決方案官,該公司致力于幫助金融機(jī)構(gòu)偵測金融犯罪活動。作為匯豐銀行前董事總經(jīng)理,他在2014—2023年間主導(dǎo)開發(fā)了一套合規(guī)系統(tǒng)。此外,邁克爾還在英國政府部門擁有20年的工作經(jīng)驗,曾擔(dān)任多個關(guān)鍵的管理和技術(shù)角色。
目錄前言1第1章 實(shí)體消解入門71.1 什么是實(shí)體消解71.2 實(shí)體消解的作用81.3 實(shí)體消解的主要挑戰(zhàn)91.3.1 姓名缺少唯一性91.3.2 命名約定不一致91.3.3 數(shù)據(jù)獲取不一致101.3.4 示例111.3.5 故意模糊處理121.3.6 匹配組合121.3.7 盲目匹配131.4 實(shí)體消解過程131.4.1 數(shù)據(jù)標(biāo)準(zhǔn)化141.4.2 記錄分塊141.4.3 屬性比較141.4.4 匹配分類141.4.5 聚類141.4.6 規(guī)范化151.4.7 示例151.5 評估結(jié)果161.6 正式開始17第2章 數(shù)據(jù)標(biāo)準(zhǔn)化192.1 案例192.2 設(shè)置環(huán)境202.3 獲取數(shù)據(jù)222.3.1 維基百科數(shù)據(jù)222.3.2 TheyWorkForYou數(shù)據(jù)242.4 清洗數(shù)據(jù)262.4.1 清洗維基百科數(shù)據(jù)262.4.2 清洗TheyWorkForYou數(shù)據(jù)272.5 比較屬性282.6 選區(qū)292.7 評估結(jié)果332.8 計算樣本342.9 總結(jié)35第3章 文本匹配363.1 編輯距離匹配363.1.1 Levenshtein距離373.1.2 Jaro相似度383.1.3 Jaro-Winkler相似度393.2 語音匹配413.2.1 Metaphone算法413.2.2 MRA算法413.3 技術(shù)比較413.4 案例423.5 全面相似度比較443.6 評估結(jié)果473.7 總結(jié)48第4章 概率匹配494.1 案例494.2 單一屬性匹配概率514.2.1 名字匹配概率514.2.2 姓氏匹配概率524.3 多屬性匹配概率534.4 概率模型554.4.1 貝葉斯定理554.4.2 m值564.4.3 u值574.4.4 λ值574.4.5 貝葉斯因子584.4.6 Fellegi-Sunter模型584.4.7 匹配權(quán)重594.5 期望最大化算法604.5.1 第一次迭代604.5.2 第二次迭代624.5.3 第三次迭代634.6 Splink入門654.6.1 配置Splink654.6.2 Splink匹配結(jié)果684.7 總結(jié)71第5章 記錄分塊725.1 案例725.2 獲取數(shù)據(jù)735.2.1 維基百科數(shù)據(jù)735.2.2 英國公司注冊署數(shù)據(jù)745.3 數(shù)據(jù)標(biāo)準(zhǔn)化755.3.1 維基百科數(shù)據(jù)755.3.2 英國公司注冊署數(shù)據(jù)765.4 記錄分塊與屬性比較765.4.1 使用Splink進(jìn)行記錄分塊775.4.2 比較屬性785.5 匹配分類825.6 評估結(jié)果845.7 總結(jié)84第6章 匹配公司856.1 案例856.2 獲取數(shù)據(jù)866.3 數(shù)據(jù)標(biāo)準(zhǔn)化866.3.1 英國公司注冊署數(shù)據(jù)876.3.2 英國海事及海岸警衛(wèi)署數(shù)據(jù)886.4 記錄分塊與屬性比較896.5 匹配分類926.6 評估結(jié)果946.7 匹配新實(shí)體966.8 總結(jié)97第7章 聚類987.1 簡單精確匹配聚類997.2 近似匹配聚類1017.3 案例1047.3.1 獲取數(shù)據(jù)1047.3.2 數(shù)據(jù)標(biāo)準(zhǔn)化1057.4 記錄分塊與屬性比較1057.4.1 數(shù)據(jù)分析1067.4.2 期望最大化分塊規(guī)則1067.5 匹配分類與聚類1107.6 簇可視化1127.7 聚類分析1137.8 總結(jié)117第8章 使用谷歌云平臺進(jìn)行擴(kuò)展1198.1 谷歌云設(shè)置1208.2 創(chuàng)建Dataproc集群1248.3 配置Dataproc集群1288.4 使用Spark進(jìn)行實(shí)體消解1308.5 評估結(jié)果1338.6 整理工作1338.7 總結(jié)134第9章 實(shí)體消解云服務(wù)1359.1 BigQuery簡介1359.2 企業(yè)知識圖譜 API1389.2.1 模式映射1389.2.2 消解作業(yè)1409.2.3 處理結(jié)果1459.2.4 實(shí)體消解Python客戶端1479.3 評估結(jié)果1499.4 總結(jié)150第10章 利用記錄關(guān)聯(lián)技術(shù)保護(hù)隱私15110.1 隱私集合求交簡介15110.2 PSI原理15210.3 基于ECDH的PSI協(xié)議15410.3.1 布隆過濾器15410.3.2 格倫布編碼集15710.4 案例:使用PSI16010.4.1 設(shè)置環(huán)境16010.4.2 服務(wù)器代碼16310.4.3 客戶端代碼16510.4.4 完整的MCA和公司注冊署樣本示例17010.5 總結(jié)172第11章 進(jìn)一步探討17311.1 數(shù)據(jù)問題探討17311.1.1 非結(jié)構(gòu)化數(shù)據(jù)問題17311.1.2 數(shù)據(jù)質(zhì)量問題17411.1.3 時效性問題17411.2 屬性比較17511.2.1 集合匹配17511.2.2 地理編碼位置匹配17511.2.3 匯總比較17611.3 后處理17611.4 圖形表示17811.5 實(shí)時性問題17811.6 評估結(jié)果17911.6.1 成對方法18011.6.2 基于簇的方法18011.7 實(shí)體消解的未來181