采集地址:
http://lib.cqvip.com/Qikan/Search/Index?from=Qikan_Search_Index
采集字段:
標題,摘要、作者、出處、作者簡介、郵箱。
采集結果:
使用“互聯網”作為關鍵詞進行搜索,采集搜索結果,并保存到Excel。
首先先點擊下一頁,發現網址沒有改變,說明這個網址需要通過抓包來獲取真實地址。
打開fiddler,點擊下一頁進行抓包,使用Ctrl + F 查找有數據的網址,點擊進去發現確實是我們需要的真實網址。
5、接下來開始采內容,要采集的幾個字段內容源碼中都存在,直接從源碼獲取即可,這里標題標簽可以先用h1截取,然后用內容替換和HTML標簽過濾將不需要的內容去除,其他幾個標簽設置方法類似。
6、值得一提的是,郵箱是從作者簡介里提取的,這里可以使用組合標簽來獲取作者簡介的內容,在數據處理里使用智能提取郵箱功能來自動獲取內容里的郵箱信息。
7、最后,保存到本地Excel。
