<button id="9wqcq"></button>

<tbody id="9wqcq"><noscript id="9wqcq"></noscript></tbody>
    1. Banner
      首頁 > 行業知識 > 內容
      淄博房產信息網如何抓取信息?
      - 2019-07-15-

        淄博房產信息網如何抓取信息?

        先研究了一下樓盤詳情頁結構,想爬取的結構信息是如下這樣的,每個信息在一條li的下面有兩個<div>,一個是信息名稱,一個是信息值,90%的信息都是這樣的結構,除了部分標題,主圖等:

        開始的想法是針對信息條目,一條條分析進行抓取,根據每個想要的信息構造對應的抓取函數:

        但是這樣做,首先是發現如果有的信息名稱是三個字的話,搜房網會在中間插入i標簽,像下面的例子,導致抓取函數無法抓取到正確的<div>。

        于是在這里研究了好久,先是換搜索正則表達式,怎么都搜不到,后來突發奇想,能不能在抓取之前把i標簽去掉,于是查文檔,寫了代碼

        這樣先對下載到的文檔進行處理再抓取淄博房產信息網樓盤信息應該是可以的,但是很奇怪,去掉i標簽后文字還是無法查找到,這回真的卡殼了。

        然后經過一番冥思苦想,忽然想到,干嘛要一個個信息來針對性抓取啊,既然它結構大部分都是相同的,干脆全抓取出來存入一個字典里好了。于是開始寫代碼:

        抓取成功!發現這樣做不光效率高,而且既方便又能容錯,獲得的淄博房產信息網也全,唉怎么不早點想到呢,折騰好久。

        另外在頁面結構中發現有一個<script>標簽內有樓盤的主圖,因此也想把這部分抓取下來,這段的原始結構是這樣的:

        先初步寫了個節點抓取語句,成功找到該<script>標簽

        但是抓取之后怎么轉成字典的鍵值對呢,搜索加研究,使用split()函數可以實現。


      咨詢熱線
      13053381099

      18未满禁止免费观看黄瓜视频69影院
      <button id="9wqcq"></button>

      <tbody id="9wqcq"><noscript id="9wqcq"></noscript></tbody>