淄博房產信息網如何抓取信息?
先研究了一下樓盤詳情頁結構,想爬取的結構信息是如下這樣的,每個信息在一條li的下面有兩個<div>,一個是信息名稱,一個是信息值,90%的信息都是這樣的結構,除了部分標題,主圖等:
開始的想法是針對信息條目,一條條分析進行抓取,根據每個想要的信息構造對應的抓取函數:
但是這樣做,首先是發現如果有的信息名稱是三個字的話,搜房網會在中間插入i標簽,像下面的例子,導致抓取函數無法抓取到正確的<div>。
于是在這里研究了好久,先是換搜索正則表達式,怎么都搜不到,后來突發奇想,能不能在抓取之前把i標簽去掉,于是查文檔,寫了代碼
這樣先對下載到的文檔進行處理再抓取淄博房產信息網樓盤信息應該是可以的,但是很奇怪,去掉i標簽后文字還是無法查找到,這回真的卡殼了。
然后經過一番冥思苦想,忽然想到,干嘛要一個個信息來針對性抓取啊,既然它結構大部分都是相同的,干脆全抓取出來存入一個字典里好了。于是開始寫代碼:
抓取成功!發現這樣做不光效率高,而且既方便又能容錯,獲得的淄博房產信息網也全,唉怎么不早點想到呢,折騰好久。
另外在頁面結構中發現有一個<script>標簽內有樓盤的主圖,因此也想把這部分抓取下來,這段的原始結構是這樣的:
先初步寫了個節點抓取語句,成功找到該<script>標簽
但是抓取之后怎么轉成字典的鍵值對呢,搜索加研究,使用split()函數可以實現。
上一條: 淄博房產網應發布優良房源
下一條: 淄博房產信息網的創建是潮流趨勢的要求
相關行業知識
- 臨淄房屋過戶手續的相關問題有哪些?
- 臨淄二手房交易合同文本出爐,快來看看!
- 在進行臨淄二手房交易的時候,要注意房產證的重要性
- 淄博二手房交易的時候要注意以下幾類房產
- 要怎樣進行臨淄二手房的過戶?
- 淄博房產信息網教你怎樣進行淄博房產過戶?
- 臨淄房產中介教你如何檢查房源的好壞?
- 進行臨淄房產交易的時候要注意哪些問題
- 臨淄房屋過戶注意事項
- 臨淄房產信息為業主提供交易幫助
- 淄博房產網應發布優良房源
- 淄博房產網都有什么功能
- 臨淄二手房的過戶交易方法和步驟
- 臨淄房產交易具備什么特征
- 臨淄二手房貸款停止會對市場造成什么影響
- 淄博房產信息網管理系統可行性分析
- 臨淄房產網發布信息注意事項
- 買淄博二手房要注意什么
- 淄博房產網的推廣步驟(下)
- 按揭貸款買二手房流程