基于Hadoop的用户行为分析平台

数媒竞赛获奖作品信息及简介
作品名称基于Hadoop的用户行为分析平台
作品分类数据可视化
参赛院校江苏师范大学科文学院
指导老师陈祥、田梦婕
团队成员曹汉清 、顾朗
奖项等级二等奖
竞赛年份2020

近年来,新型社交网络以及移动互联网技术促使网络用户数量的飞速增长,网络数据呈现爆炸式的增长。“大数据”成为一种关键技术,用来分析和挖掘网络数据的潜在规律和应用价值。网络数据的产生离不开用户的上网行为。准确、快速地从海量数据中挖掘用户的具体网络行为信息、提取用户行为特征对策略管控和智能服务以及推动未来智慧协同网络发展至关重要。对此,本团队设计出基于Hadoop的用户行为分析平台。

本产品采用基于Hadoop 分布式集群为基础的大数据平台结合数据分析算法对贴吧数据集进行清洗、规范化、分析与处理;模块化处理,增强了系统重用度;以并行的方式工作,提高了系统的运行速度;分布式计算平台可以更快捷的处理海量的用户行为数据。设计基于K-means算法模型,建立用户画像,分析判断访客来源、地域分布、系统环境等行为信息。设计实时数据流式计算模型,在这个框架下可以自由实现业务逻辑,加快分析速度,具有较高的并行计算扩展性。采用功能强大的HiveQL技术作为数据仓库处理手段,减小了数据调用的难度,加快系统的运行速度。最后利用H5对处理好的数据进行可视化展示,互动性强,视觉效果佳,用户的感官体验好,可以提高流量转化,加快获客的效率和速度。