基于Selenium自动化网络爬虫的兰州市房价可视化分析

数媒竞赛获奖作品信息及简介
作品名称基于Selenium自动化网络爬虫的兰州市房价可视化分析
参赛院校兰州文理学院
指导老师赵世林
团队成员谈天娇、石艳、程思源、潘黎明
奖项等级二等奖
竞赛年份2022

本作品主要是利用 selenium框架自动爬取链家网上兰州市房源租赁及销售情况进行预测分析,为了了解目前城市新盘的房价情况,从房价的角度探究最宜居地区概况作此分析。在“房住不炒”定位下,住房选购成了广大市民比较关心的问题。把大数据分析技术引入到房价分析,利用Scrapy爬虫框架对兰州市房价线上数据的爬取,经清洗和可视化,把影响房价的要素以可视化的形式予以呈现。与传统方法相比,大数据分析技术在数据采集及可视化应用方面优势明显。 作品主要有5个部分,分别是数据采集,数据预处理,数据存储,数据分析,数据可视化。 第1部分是数据采集,执行程序爬取,选取的数据是链家网的数据,着重对于兰州市的数据进行爬取,主要的功能就是利用 selenium框架自动爬取链家网上兰州市房源的数据。 第2部分是数据预处理,是对原始数据进行处理,得到更高质量的数据。去掉面积大于1万平米的房源记录删除全为空的列。按照家具类型,户型和房屋所在的方位和区域进行分类汇总,对房价进行分段处理。 第3部分是数据存储,存储到数据库中。 第4部分是数据分析,对数据进行整合分析, 使用SQL语句中update更新,每一次执行程序都会更新数据,使数据能够达到实时动态的效果。 第5部分是数据可视化,核心就是把枯燥无味的数据转化成图表的格式,使数据更加直观。 经过调查发现城关区是兰州主要的商业区,工业污染源较少,主要来自于交通污染,但城关区是兰州最先发展的城市区域,也是兰州政治、经济、文化中心,配套资源和城市职能也更加丰富,所以租赁和购买城关区房源的人较多。