本書以項目化實踐為設(shè)計理念,專注于引導(dǎo)讀者通過Python探索并提升數(shù)據(jù)分析的實戰(zhàn)技能。在數(shù)據(jù)驅(qū)動時代,本書結(jié)合前沿技術(shù)和實際操作,通過精選案例,使讀者能夠在實踐中理解并掌握數(shù)據(jù)分析的關(guān)鍵技術(shù)和方法。本書以掌握Python基礎(chǔ)為前提,從10個精簡案例入手,循序漸進(jìn)地介紹數(shù)據(jù)分析工具在不同業(yè)務(wù)領(lǐng)域中的應(yīng)用。本書強調(diào)實用性和操作性,每個項目都給出了具體實施步驟,幫助讀者在實際操作中不斷試錯、學(xué)習(xí)和提高。
陳清華,女,博士,教授、高級工程師,從事計算機研發(fā)及教學(xué)工作15余年,主要從事方向為數(shù)據(jù)挖掘、人工智能和群智感知,是"大數(shù)據(jù)技術(shù)”國家級職業(yè)教育創(chuàng)新教學(xué)團隊核心成員,溫州市"特支計劃”科技創(chuàng)新青年拔尖人才、高層次D類人才,金磚國家職業(yè)技能大賽區(qū)塊鏈技術(shù)賽項全國優(yōu)秀專家。
項目1 環(huán)保調(diào)查問卷系統(tǒng)實現(xiàn) 1
任務(wù)1 使用Python創(chuàng)建問卷 6
1.1.1 Python腳本文件 8
1.1.2 Python編碼設(shè)置 9
1.1.3 print()函數(shù) 9
1.1.4 運行Python腳本 9
任務(wù)2 實現(xiàn)用戶信息交互 10
1.2.1 變量與字面量 12
1.2.2 數(shù)據(jù)類型 12
1.2.3 注釋 13
任務(wù)3 校驗用戶信息 14
1.3.1 控制結(jié)構(gòu) 16
1.3.2 分支結(jié)構(gòu) 17
任務(wù)4 采集并評估用戶問卷數(shù)據(jù) 18
1.4.1 for循環(huán) 20
1.4.2 while循環(huán) 21
1.4.3 第三方包的安裝與導(dǎo)入 22
拓展實訓(xùn):隨機加減法出題程序的實現(xiàn) 23
項目考核 23
項目2 疫苗物流信息監(jiān)測系統(tǒng)實現(xiàn) 25
任務(wù)1 管理員登錄功能的實現(xiàn) 28
2.1.1 函數(shù)的定義 30
2.1.2 函數(shù)的調(diào)用 31
任務(wù)2 疫苗數(shù)據(jù)添加功能的實現(xiàn) 31
2.2.1 函數(shù)的返回 35
2.2.2 變量的作用域 37
任務(wù)3 疫苗信息統(tǒng)計功能的實現(xiàn) 38
2.3.1 形參與實參 41
2.3.2 位置參數(shù)與關(guān)鍵字參數(shù) 42
2.3.3 默認(rèn)參數(shù) 44
2.3.4 可變參數(shù) 45
任務(wù)4 疫苗物流信息異常檢測功能的實現(xiàn) 46
拓展實訓(xùn):自定義難度的出題程序?qū)崿F(xiàn) 49
項目考核 50
項目3 尋寶游戲?qū)崿F(xiàn) 51
任務(wù)1 地圖類的實現(xiàn) 54
3.1.1 面向?qū)ο?56
3.1.2 類的定義 57
3.1.3 類的實例化 58
任務(wù)2 玩家類的實現(xiàn) 59
3.2.1 類的成員 61
3.2.2 構(gòu)造函數(shù)和析構(gòu)函數(shù) 62
3.2.3 類成員修飾符 63
3.2.4 私有函數(shù) 63
任務(wù)3 戰(zhàn)績類的實現(xiàn) 64
3.3.1 公有屬性和私有屬性 67
3.3.2 get方法和set方法 68
任務(wù)4 超級玩家類的實現(xiàn) 70
3.4.1 父類和子類 73
3.4.2 屬性的繼承 73
3.4.3 方法的繼承 74
拓展實訓(xùn):飛機大戰(zhàn)游戲的實現(xiàn) 75
項目考核 78
項目4 新能源汽車登記數(shù)據(jù)統(tǒng)計分析 79
任務(wù)1 登記數(shù)據(jù)的獲取 82
4.1.1 數(shù)據(jù)來源 84
4.1.2 read_csv()函數(shù) 85
任務(wù)2 登記數(shù)據(jù)的解析 86
4.2.1 數(shù)據(jù)解析 88
4.2.2 缺失值處理 89
4.2.3 數(shù)據(jù)篩選 89
任務(wù)3 登記數(shù)據(jù)的描述性統(tǒng)計分析 90
4.3.1 描述性統(tǒng)計分析指標(biāo) 92
4.3.2 groupby()函數(shù) 92
任務(wù)4 登記數(shù)據(jù)的可視化展現(xiàn) 93
4.4.1 數(shù)據(jù)可視化 95
4.4.2 統(tǒng)計分析結(jié)果展現(xiàn)形式 96
4.4.3 Matplotlib中的中文顯示 96
4.4.4 Matplotlib圖表繪制基礎(chǔ) 96
拓展實訓(xùn):數(shù)據(jù)統(tǒng)計分析應(yīng)用 99
項目考核 102
項目5 用餐數(shù)據(jù)多維分析 104
任務(wù)1 用餐數(shù)據(jù)的集成和處理 107
5.1.1 數(shù)據(jù)集成 110
5.1.2 數(shù)據(jù)映射 111
5.1.3 數(shù)據(jù)類型轉(zhuǎn)換 111
任務(wù)2 用餐數(shù)據(jù)的重復(fù)值檢測和處理 112
5.2.1 檢測重復(fù)值 113
5.2.2 刪除重復(fù)值 113
任務(wù)3 用餐數(shù)據(jù)的缺失值檢測和處理 113
5.3.1 檢測缺失值 115
5.3.2 處理缺失值 115
任務(wù)4 用餐數(shù)據(jù)的異常值檢測和處理 116
5.4.1 檢測異常值 120
5.4.2 處理異常值 120
任務(wù)5 對用餐數(shù)據(jù)進(jìn)行多維分析 121
5.5.1 分組分析 125
5.5.2 分布分析 125
5.5.3 交叉分析 126
5.5.4 結(jié)構(gòu)分析 126
5.5.5 相關(guān)分析 127
拓展實訓(xùn):對觀影數(shù)據(jù)進(jìn)行統(tǒng)計分析 128
項目考核 129
項目6 發(fā)電量數(shù)據(jù)推斷統(tǒng)計分析 131
任務(wù)1 從MySQL數(shù)據(jù)庫中讀取數(shù)據(jù) 134
6.1.1 連接MySQL數(shù)據(jù)庫 136
6.1.2 讀取數(shù)據(jù) 136
任務(wù)2 對發(fā)電量進(jìn)行時間序列分析 137
6.2.1 時間處理函數(shù) 139
6.2.2 時間序列分析 140
任務(wù)3 對發(fā)電量進(jìn)行假設(shè)檢驗 141
6.3.1 獨立性檢驗和自相關(guān)函數(shù) 144
6.3.2 正態(tài)性和S-W檢驗 145
6.3.3 方差齊性和Levene檢驗 146
任務(wù)4 對發(fā)電量進(jìn)行方差分析 146
6.4.1 方差分析與F統(tǒng)計量 147
6.4.2 假設(shè)檢驗的步驟 147
拓展實訓(xùn):風(fēng)力發(fā)電數(shù)據(jù)推斷統(tǒng)計 148
項目考核 149
項目7 電商平臺用戶消費數(shù)據(jù)分析 151
任務(wù)1 用戶數(shù)據(jù)的創(chuàng)建 154
7.1.1 數(shù)組創(chuàng)建 156
7.1.2 數(shù)組數(shù)據(jù)類型 157
7.1.3 數(shù)組的索引和切片 159
任務(wù)2 用戶數(shù)據(jù)的更新 161
7.2.1 隨機數(shù)生成 164
7.2.2 數(shù)組操作 164
任務(wù)3 用戶數(shù)據(jù)的分析 168
7.3.1 矩陣創(chuàng)建 169
7.3.2 基本數(shù)學(xué)函數(shù) 172
7.3.3 統(tǒng)計函數(shù) 175
拓展實訓(xùn):用戶數(shù)據(jù)RFM模型分析 176
項目考核 177
項目8 AI生成圖像的處理和優(yōu)化 179
任務(wù)1 圖像基本操作 181
8.1.1 圖像讀取和保存 186
8.1.2 數(shù)組索引和切片的應(yīng)用 187
8.1.3 數(shù)組基本運算 187
8.1.4 meshgrid()函數(shù) 188
任務(wù)2 圖像縮放處理 188
8.2.1 repeat()函數(shù) 190
8.2.2 tile()函數(shù) 191
任務(wù)3 為圖像添加框線 191
8.3.1 pad()函數(shù) 194
8.3.2 數(shù)組賦值運算 194
任務(wù)4 圖像濾波和增強 195
8.4.1 NumPy聚合函數(shù) 198
8.4.2 NumPy隨機數(shù)應(yīng)用 199
8.4.3 clip()函數(shù) 199
任務(wù)5 圖像邊緣檢測 199
8.5.1 Sobel算子 202
8.5.2 hypot()函數(shù) 202
拓展實訓(xùn):醫(yī)學(xué)影像的處理和優(yōu)化 203
項目考核 204
項目9 房屋租賃數(shù)據(jù)可視化分析 206
任務(wù)1 房屋租賃價格統(tǒng)計分析 209
9.1.1 常用的統(tǒng)計分析函數(shù) 212
9.1.2 柱狀圖 213
9.1.3 直方圖 214
9.1.4 hist()函數(shù) 214
任務(wù)2 房屋租賃價格分布分析 215
9.2.1 箱形圖 216
9.2.2 boxplot()函數(shù) 217
任務(wù)3 房屋租賃價格相關(guān)因素分析 217
9.3.1 散點圖 220
9.3.2 scatter()函數(shù) 221
任務(wù)4 房源占比分析 222
9.4.1 餅圖 224
9.4.2 pie()函數(shù) 224
任務(wù)5 房屋租賃價格預(yù)測分析 225
9.5.1 sklearn簡介 227
9.5.2 sklearn實現(xiàn)線性回歸分析 227
9.5.3 折線圖 228
9.5.4 plot()函數(shù) 228
任務(wù)6 房源地理位置分布分析 228
拓展實訓(xùn):二手房數(shù)據(jù)可視化分析 232
項目考核 235
項目10 二手車數(shù)據(jù)可視化分析 237
任務(wù)1 使用常見圖表對二手車數(shù)據(jù)進(jìn)行分析 240
10.1.1 Seaborn簡介 243
10.1.2 lineplot()函數(shù) 244
10.1.3 catplot()函數(shù) 244
任務(wù)2 使用詞云圖展現(xiàn)二手車市場的熱門車型和城市 245
10.2.1 詞云圖 247
10.2.2 wordcloud簡介 247
任務(wù)3 使用熱力圖展現(xiàn)二手車地理分布情況 248
10.3.1 Pyecharts簡介 249
10.3.2 使用Pyecharts繪制地圖 249
任務(wù)4 對二手車車齡、里程數(shù)進(jìn)行分布分析 250
10.4.1 histplot()函數(shù) 254
10.4.2 violinplot()函數(shù) 254
10.4.3 swarmplot()函數(shù) 255
任務(wù)5 對二手車價格影響因素進(jìn)行相關(guān)分析 255
10.5.1 heatmap()函數(shù) 258
10.5.2 jointplot()函數(shù) 258
10.5.3 pairplot()函數(shù) 259
任務(wù)6 對二手車數(shù)據(jù)進(jìn)行回歸分析 259
10.6.1 多項式回歸 262
10.6.2 sklearn實現(xiàn)多項式回歸 262
拓展實訓(xùn):招考數(shù)據(jù)可視化分析 263
項目考核 264
附錄A 266
附錄B 267
參考文獻(xiàn) 275