看我如何抓取二手房价数据

上次为大家介绍了如何通过 Python 抓取新房楼盘价格信息，很多朋友都在问，那二手房最新的价格信息要如何抓取呢?好!今天就再来为大家讲一讲，二手房的房价信息要怎么抓取。

模块安装

同上次新房一样，这里需要安装以下模块(当然如果已安装就不用再装了)：

 
 
 
 
  
  
  
  # 安装引用模块
  
  
  
  pip3 install bs4
  
  
  
  pip3 install requests
  
  
  
  pip3 install lxml
  
  
  
  pip3 install numpy
  
  
  
  pip3 install pandas

好了，安装完成后，就可以开始写代码了。至于配置请求头和代理IP地址的代码，上次介绍新房已经说过了，这里不再赘述，下面直接上抓取代码。

二手房价数据对象

在这里我们将二手房的房价信息，创建成一个对象，后续我们只要将获取到的数据保存成对象，再处理就会方便很多。SecHouse 对象代码如下所示：

 
 
 
 
  
  
  
  # 二手房信息对象
  
  
  
  class SecHouse(object):
  
  
  
      def __init__(self, district, area, name, price, desc, pic):
  
  
  
          self.district = district
  
  
  
          self.area = area
  
  
  
          self.price = price
  
  
  
          self.name = name
  
  
  
          self.desc = desc
  
  
  
          self.pic = pic
  
  
  
      def text(self):
  
  
  
          return self.district + "," + \
  
  
  
                  self.area + "," + \
  
  
  
                  self.name + "," + \
  
  
  
                  self.price + "," + \
  
  
  
                  self.desc + "," + \
  
  
  
                  self.pic

获取二手房价信息并保存

准备好了，下面我们依然以贝壳为例，批量爬取其北京地区二手房数据，并保存到本地。这里我主要想说的是如何抓取数据过程，所以这里依然就保存成最简单的 txt 文本格式。如果想保存到数据库，可以自行修改代码进行保存数据库处理。

获取区县信息

我们在抓取二手房信息时，肯定想知道这个房源所在地区，所以这里我写了个方法把北京市所有区县信息抓取下来，并临时保存至列表变量里，以备后续程序中使用，代码如下：

 
 
 
 
  
  
  
  # 获取区县信息
  
  
  
  def get_districts():
  
  
  
      # 请求 URL
  
  
  
      url = 'https://bj.ke.com/xiaoqu/'
  
  
  
      headers = create_headers()
  
  
  
      # 请求获取数据
  
  
  
      response = requests.get(url, timeout=10, headers=headers)
  
  
  
      html = response.content
  
  
  
      root = etree.HTML(html)
  
  
  
      # 处理数据
  
  
  
      elements = root.xpath('///div[3]/div[1]/dl[2]/dd/div/div/a')
  
  
  
      en_names = list()
  
  
  
      ch_names = list()
  
  
  
      # 循环处理对象
  
  
  
      for element in elements:
  
  
  
          link = element.attrib['href']
  
  
  
          en_names.append(link.split('/')[-2])
  
  
  
          ch_names.append(element.text)
  
  
  
  
  
  
  
      # 打印区县英文和中文名列表
  
  
  
      for index, name in enumerate(en_names):
  
  
  
          chinese_city_district_dict[name] = ch_names[index]
  
  
  
      return en_names

获取地区板块

除了上面要获取区县信息，我们还应该获取比区县更小的板块区域信息，同样的区县内，不同板块地区二手房的价格等信息肯定不一样，所以板块对于我们来说也很重要，具有一次参考价值。获取板块信息代码如下：

 
 
 
 
  
  
  
  # 获取某个区县下所有板块信息
  
  
  
  def get_areas(district):
  
  
  
      # 请求的 URL
  
  
  
      page = "http://bj.ke.com/xiaoqu/{0}".format(district)
  
  
  
      # 板块列表定义
  
  
  
      areas = list()
  
  
  
      try:
  
  
  
          headers = create_headers()
  
  
  
          response = requests.get(page, timeout=10, headers=headers)
  
  
  
          html = response.content
  
  
  
          root = etree.HTML(html)
  
  
  
          # 获取标签信息
  
  
  
          links = root.xpath('//div[3]/div[1]/dl[2]/dd/div/div[2]/a')
  
  
  
  
  
  
  
          # 针对list进行处理
  
  
  
          for link in links:
  
  
  
              relative_link = link.attrib['href']
  
  
  
              # 最后"/"去掉
  
  
  
              relative_link = relative_link[:-1]
  
  
  
              # 获取最后一节信息
  
  
  
              area = relative_link.split("/")[-1]
  
  
  
              # 去掉区县名称,以防止重复
  
  
  
              if area != district:
  
  
  
                  chinese_area = link.text
  
  
  
                  chinese_area_dict[area] = chinese_area
  
  
  
                  # 加入板块信息列表
  
  
  
                  areas.append(area)
  
  
  
          return areas
  
  
  
      except Exception as e:
  
  
  
          print(e)

获取二手房信息并保存

 
 
 
 
  
  
  
  # 创建文件准备写入
  
  
  
  with open("sechouse.txt", "w", encoding='utf-8') as f:
  
  
  
      # 定义变量
  
  
  
      total_page = 1
  
  
  
      # 初始化 list
  
  
  
      sec_house_list = list()
  
  
  
      # 获取所有区县信息
  
  
  
      districts = get_districts()
  
  
  
      # 循环处理区县
  
  
  
      for district in districts:
  
  
  
          # 获取某一区县下所有板块信息
  
  
  
          arealist = get_areas(district)
  
  
  
          # 循环遍历所有板块下的小区二手房信息
  
  
  
          for area in arealist:
  
  
  
              # 中文区县
  
  
  
              chinese_district = chinese_city_district_dict.get(district, "")
  
  
  
              # 中文版块
  
  
  
              chinese_area = chinese_area_dict.get(area, "")
  
  
  
              # 请求地址
  
  
  
              page = 'http://bj.ke.com/ershoufang/{0}/'.format(area)
  
  
  
              headers = create_headers()
  
  
  
              response = requests.get(page, timeout=10, headers=headers)
  
  
  
              html = response.content
  
  
  
              # 解析 HTML
  
  
  
              soup = BeautifulSoup(html, "lxml")
  
  
  
  
  
  
  
              # 获取总页数
  
  
  
              try:
  
  
  
                  page_box = soup.find_all('div', class_='page-box')[0]
  
  
  
                  matches = re.search('.*data-total-count="(\d+)".*', str(page_box))
  
  
  
                  # 获取总页数
  
  
  
                  total_page = int(math.ceil(int(matches.group(1)) / 10))
  
  
  
              except Exception as e:
  
  
  
                  print(e)
  
  
  
  
  
  
  
              print(total_page)
  
  
  
              # 设置请求头
  
  
  
              headers = create_headers()
  
  
  
              # 从第一页开始,遍历到最后一页
  
  
  
              for i in range(1, total_page + 1):
  
  
  
                  # 请求地址
  
  
  
                  page = 'http://bj.ke.com/ershoufang/{0}/pg{1}'.format(area,i)
  
  
  
                  print(page)
  
  
  
                  # 获取返回内容
  
  
  
                  response = requests.get(page, timeout=10, headers=headers)
  
  
  
                  html = response.content
  
  
  
                  soup = BeautifulSoup(html, "lxml")
  
  
  
  
  
  
  
                  # 获得二手房查询列表
  
  
  
                  house_elements = soup.find_all('li', class_="clear")
  
  
  
                  # 遍历每条信息
  
  
  
                  for house_elem in house_elements:
  
  
  
                      # 价格
  
  
  
                      price = house_elem.find('div', class_="totalPrice")
  
  
  
                      # 标题
  
  
  
                      name = house_elem.find('div', class_='title')
  
  
  
                      # 描述
  
  
  
                      desc = house_elem.find('div', class_="houseInfo")
  
  
  
                      # 图片地址
  
  
  
                      pic = house_elem.find('a', class_="img").find('img', class_="lj-lazy")
  
  
  
  
  
  
  
                      # 清洗数据
  
  
  
                      price = price.text.strip()
  
  
  
                      name = name.text.replace("\n", "")
  
  
  
                      desc = desc.text.replace("\n", "").strip()
  
  
  
                      pic = pic.get('data-original').strip()
  
  
  
  
  
  
  
                      # 保存二手房对象
  
  
  
                      sec_house = SecHouse(chinese_district, chinese_area, name, price, desc, pic)
  
  
  
                      print(sec_house.text())
  
  
  
                      sec_house_list.append(sec_house)
  
  
  
              # 循环遍历将信息写入 txt
  
  
  
              for sec_house in sec_house_list:
  
  
  
                  f.write(sec_house.text() + "\n")

到这里代码就写好了，现在我们就可以通过命令 python sechouse.py 运行代码进行数据抓取了。抓取的结果我们可以打开当前目录下 sechouse.txt 文件查看，结果如下图所示：

总结本文为大家介绍了如何通过 Python 将房产网上的二手房数据批量抓取下来，经过一段时间的抓取，我们就可以将抓取的结果进行对比分析，看看二手房价最近是涨还是跌?如果喜欢我们的文章，请关注收藏再看。

本文题目：看我如何抓取二手房价数据
分享路径：http://www.csdahua.cn/qtweb/news21/351721.html

网站建设、网络推广公司-快上网，是专注品牌与效果的网站制作，网络营销seo公司；服务项目有等

声明：本网站发布的内容（图片、视频和文字）以用户投稿、用户转载内容为主，如果涉及侵权请尽快告知，我们将会在第一时间删除。文章观点不代表本网站立场，如需处理请联系客服。电话：028-86922220；邮箱：631063699@qq.com。内容未经允许不得转载，或转载时需注明来源：快上网

成都快上网为您推荐相关内容