中文字幕一区二区AⅤ无码,国产毛片在线,日韩中文网

本書主要以純案例驅動的形式，分別使用和結合使用requests庫、selenium庫，從互聯(lián)網上收集數(shù)據(jù)。主要內容包括收集靜態(tài)網頁數(shù)據(jù)，網頁解析，JSON數(shù)據(jù)，JSON解析，多級翻頁，cookie和session，驗證登錄，多線程，數(shù)據(jù)的存儲，收集到的數(shù)據(jù)包括靜態(tài)網頁數(shù)據(jù)、json、圖片、音頻、視頻等數(shù)據(jù)，并對獲取的數(shù)據(jù)進行清洗。適合Python初學者，也適合研究Python的廣大科研人員、學者、工程技術人員。本教材采用純的案例，和簡單的注釋，其他一些先修的知識是在其他課程有開設。

現(xiàn)階段，隨著大數(shù)據(jù)和人工智能技術的研究不斷深入發(fā)展，網絡數(shù)據(jù)采集與清洗越來越具有較為廣泛的應用范圍。本書是為數(shù)據(jù)采集與清洗課程編寫的教材，其內容選取符合教學大綱要求，以案例驅動展開，兼顧內容的廣度和深度，適用面廣。
本書的第1章主要闡述網絡爬蟲的基本概念、基本流程、爬蟲合法性問題、反爬蟲技術以及爬蟲的預備知識。第2~9章主要講解爬蟲的各種技術，分別討論Requests庫、JSON數(shù)據(jù)爬取、XPath解析及網頁數(shù)據(jù)爬取、IP代理、Selenium庫、Selenium與Requests結合使用、異步爬蟲、正則表達式等基本技術的實現(xiàn)；爬取的內容包括HTML文檔、JSON數(shù)據(jù)、圖片、音頻、視頻，以及這些類型數(shù)據(jù)的持久化保存。第10章講解數(shù)據(jù)的簡單清洗。第11章講解一個綜合案例，結合Requests和Selenium，分別采用單線程和多線程實現(xiàn)對不同網站的數(shù)據(jù)爬取，并進行相應的數(shù)據(jù)清洗操作。
全書采用Python為主要描述語言。Python是一種面向對象的高級通用腳本編程語言，其語法簡潔，簡單易懂。相比其他語言，Python更容易配置，在字符處理方面靈活，并且在爬蟲程序開發(fā)中具有先天的優(yōu)勢，是開發(fā)者的首選編程語言。Python最初被用于編寫Shell(自動化腳本)，伴隨著版本不斷更新以及語言新功能的加入，其作為爬蟲編程語言優(yōu)勢更加突出。因此，越來越多的開發(fā)者選擇Python用于大型爬蟲項目開發(fā)。Python自帶有多種爬取模板，可以利用Requests和Selenium第三方庫模擬人工瀏覽器訪問的行為，實現(xiàn)起來便捷；爬蟲程序爬取網頁之后，需要對網頁進行諸如過濾標簽、提取文本等處理。Python擁有簡短的文檔處理功能，能夠用簡短代碼處理絕大部分文檔。
從課程性質上來講，數(shù)據(jù)采集與清洗是一門專業(yè)選修課，側重于應用。它的教學要求是：理解互聯(lián)網大數(shù)據(jù)采集的主要技術；掌握各種典型爬蟲的技術原理、技術框架、實現(xiàn)方法、主要開源包的使用；理解對爬蟲采集到的網頁數(shù)據(jù)的處理方法及文本處理，并會使用Python進行技術實現(xiàn)。本書的學習過程通過案例驅動的方式展開，幫助讀者貫穿爬蟲、數(shù)據(jù)清洗的過程，培養(yǎng)讀者掌握從互聯(lián)網上采集數(shù)據(jù)的技術，能夠獨立完成數(shù)據(jù)采集和清洗工作，對培養(yǎng)學生的數(shù)據(jù)處理能力、信息分析與應用能力、信息表達能力具有重要作用，為后期的生產實習、畢業(yè)設計以及未來的工作奠定一定的實踐基礎。
本書內容以實戰(zhàn)為主，適合高等院校相關專業(yè)的學生閱讀，可以作為數(shù)據(jù)科學與大數(shù)據(jù)專業(yè)的本科或�？平滩�，也可以作為信息類相關專業(yè)的選修教材，也適合Python培訓機構作為實訓教材。講課學時可設置為30~40學時。本書文字通俗，簡單易懂，便于自學，也可供從事大數(shù)據(jù)處理等工作的科技人員參考。只需要掌握Python程序設計便可以學習本書。

配套資源
為了方便教學，本書配有微課視頻、教學課件、源代碼。
（1）獲取微課視頻方式：
讀者可以先掃描本書封底的文泉云盤防盜碼，再掃描書中相應的視頻二維碼，即可觀看教學視頻。
（2）其他資源可先掃描本書封底的文泉云盤防盜碼，再掃描下方二維碼，即可獲取。

教學課件

源代碼

你還可能感興趣

我要評論