基于“互联网+电视购物”多源大数据云平台的关键技术研究

发表时间:2016-01-11   来源:浙江广播电视集团   作者:郑磊

摘要:本文以浙江广电集团好易购电视购物频道精准营销大数据云平台建设为基础,研究建设“互联网+电视购物”多源大数据云平台的技术路线和关键技术。大数据云平台设计和实施的技术路线主要分为以下四个层次:核心服务层、系统云平台、数据融合中间件、多源数据接入层。各个层次对应的关键技术主要包括:核心服务层主要围绕用户画像、精准营销、商品推荐、物流调度、热品预测、数据报表、基础算法库、数据预处理等技术来展开;系统云平台着重研究相关云计算、云存储、云监控、云推送等技术;数据融合中间件侧重于企业服务总线(ESB)和数据适配器设计和研究;多源数据接入层重点关注电视购物数据、电子商务数据、社交媒体数据、商用WIFI和政府类公共数据等多元化数据源引入,增加数据体量和维度,提升数据特征完备度。

本文旨在通过研究和分析“互联网+电视购物”多源大数据云平台的技术路线和关键技术,探索电视购物与互联网融合技术平台设计和建设的关键点和新途径,开拓融合大数据和云平台技术的“互联网+电视购物”的技术创新之路。

一、研究背景

伴随着两会上李总理“互联网+”的国家战略提出,推动了以大数据、精准营销和云平台为首的IT技术发展和应用,跨界的“互联网+”的理念深入人心,而电视购物行业作为现代服务业的新军如何与互联网去嫁接融合来提升产业价值和核心竞争力?如何通过“互联网+”的科技理念和技术手段达到科技引领业务创新和突破?这些是摆在电视购物技术团队面前的任务和使命。好易购经过多年的酝酿和摸索,确定运用大数据和云平台技术来构建基于“互联网+电视购物”数据资源的精准营销业务平台,最终实现以用户需求为核心的P2P精准营销模式。

二、技术路线

本文围绕“互联网+电视购物”多源大数据云平台技术路线的研究而展开,将“互联网+电视购物”多源大数据云平台的技术实现主要分为四个层次(如图1所示):

1)核心服务层:核心服务层为大数据云平台提供数据分析模型,如精准营销、用户画像、热品预测、物流优化等,这些模型为上层服务接口提供数据分析支撑,上层应用可方便的调用模型接口实现相关服务。

2)系统云平台:系统云平台是大数据算法正常运行的基础支撑系统,包括云计算平台、云存储平台、云监控平台与云推送平台。

3)数据融合中间件:数据融合中间件是大数据云平台高效运行的保障,主要涵盖企业服务总线(ESB)、数据适配器两大模块。本研究所涉及数据来源众多,因此异源异构数据的融合存储是面临的重要技术难点之一。

4)多源数据接入层:多源数据引入和采集是本研究的基础工作,目前绝大部分电视购物、电子商务均采用单一站内数据,不利于构建完善的数据服务,本研究通过引入好易购电视购物数据、好易购电子商务数据、社交媒体数据、IPTV、商用WIFI、公共WIFI、政府类数据等数据源来扩充数据体量和维度。 

1.jpg

 图1 :“互联网+电视购物”多源大数据云平台框架图
三、关键技术

1、核心服务层

1.1用户画像

用户画像就是对所有用户的进行标签化、信息结构化,构造用户特征集。用户画像核心价值在于了解用户,猜测用户对产品的需求或者潜在需求,精细化的定位人群特征,挖掘潜在的用户群体,为销售商找到营销机会、运营方向,全面提高销售商的核心影响力。用户画像在产品开发的整个流程中都会使用到,是营销系统个性化的重要一环。

通过对多元化大数据环境下的用户画像进行研究,准确刻画用户模型,实现精准营销。多元化大数据为用户画像提供了维度更高的用户特征,利用这一优势依靠四种手段实现用户画像:基于统计的方法、基于聚类的方法、基于话题模型、基于图的方法。通过对用户数据的进行统计,可以粗略刻画出用户习惯,从较大粒度上描述用户;基于聚类的方法是将用户视作高维模型上的点,利用聚类方法如k-means[1]、Dirichlet Process等为数据点聚类,通过用户群组特征刻画用户特征,这种方法比统计分析更加准确,但个性化程度仍然不高;基于话题模型的方法是通过对用户历史产生的文本数据进行分析,如采用PLSI、LDA[2]等方法,对用户博客、微博等数据进行分析,挖掘用户兴趣点,实现较高个性化的用户画像;基于图的方法利用了用户的购物关系、社交关系,通过购买商品,用户建立了隐式链接,而社交媒体反应了用户的强关系,通过在隐式与显示网络中根据邻居特点构建用户画像,也是研究的重点之一。

1.2精准营销

多元化大数据营销平台集成了电视购物、网上商城等站内数据,同时还可以扩展采集社交媒体、移动应用等数据,如微博账户登录、个信推送服务数据等,这就为精准广告投放提供了良好的基础。结合多元化大数据进行精准广告研究,提高电视购物呼出系统交易成功率,增加商城广告点击率(Click-through rate, CTR)[3]。

电视购物环境下的精准广告代价较大,每次广告即人工客服针对目标客服进行电话推广。但电视购物的会员信息准确度和完整度较高,数据代表性强,这既为精准广告带来了挑战,也带来了契机。精准广告投放涉及多个模型,如广告点击率(Click-through rate, CTR)[3]预估、用户画像、商品特征抽取等,同时还需要使用博弈论知识进行广告投放策略与竞价分析,因此精准广告投放是一个融合多模型的混合模型。本课题拟针对多元化大数据特点,利用浏览器cookie、用户画像及智能设备位置信息等手段,结合分类技术如Learning-to-rank[4]、分布式逻辑回归算法[5]等技术,进行广告精准投放。同时设计在线反馈算法,根据电话沟通中用户拒绝购买原因进行分析,迭代进行模型运算,逐渐对模型进行修正。

1.3商品推荐

商品推荐是推荐系统的一个重要应用,自亚马逊网上购物平台推出这一功能,商品推荐已经成为购物网站的核心功能。在电视购物中,商品推荐也有重要作用,通过对注册会员进行用户画像,利用商品信息预测用户喜好商品进行电话营销,或者为群体针对性的投放电视节目,是商品推荐的典型形式。

多元化大数据增强了对用户画像的刻画程度,同时电视购物、B2C网上商城的商品属性描述更加准确,本课题研究的商品推荐将较传统电视购物和网上商城具有数据优势。根据数据特征及算法模型,商品推荐拟从三方面出发:基于多元化数据中共同用户行为进行商品推荐、基于矩阵、张量模型的推荐、基于内容的推荐、基于内存的推荐。基于多元化数据中共同用户行为进行商品推荐是从多个数据源中探测同一个用户,根据用户在不同平台上的行为为另外一种平台进行推荐。基于矩阵、张量模型的推荐是将用户购买记录抽象为矩阵、张量形式,利用优化算法求解,计算用户-商品相关度进行推荐。基于内容的推荐从商品特征出发,根据商品间的相似度进行商品推荐。基于内存的方法是利用分布式协同过滤算法[6],如User-Based、Item-Based等进行推荐。这集中模型均构建在多元化大数据下,需要对各种算法进行并行化设计,这也是研究的难点之一。

1.4物流调度

物流是用户体验的关键环节,也是网上商城、电视购物销售商消耗巨大成本的环节,高效的物流调度不仅对消费者体验大有改善,对经营者节约成本也有重大贡献,多元化大数据为物流调度提供了更多参考。

依据多平台的优势,优化物流调度策略,是研究需要解决的技术问题之一。本研究通过采用订单合并、路线规划、预判销量、在线调度等技术来提高物流调度效率。订单合并,通过融合好易购网上商城及电视购物两类数据,通过合并物流从而减少配送频次,同时节约物流成本;路线规划可采用有约束的非线性规划问题,在云平台下利用优化算法进行求解,使用代价最小的路径进行配货;预判销量技术是通过回归分析技术或其他集成技术对销量进行预判,也可以用热品预测服务,通过对仓库的合理预存货缩短物流距离;针对物流新入货件不可预知的问题,可以采用在线调度技术,实施优化调度策略,实现调度的动态优化功能。

1.5热品预测

热品指热销商品,热品预测无论在传统销售行业、网上购物还是电视购物等行业,都具有极其重要的意义。网上购物、电视购物的热品销售不仅仅能够极大地促进该种商品销量,同时可以带动网站、电购频道的关注度,加强品牌推广,迅速聚集大量用户,因此会出现有的商家不惜接近成本价炒作热品,以达到品牌推广的目的。

热品预测需要考虑众多维度因素的影响,如季节性、性别、社会经济状况、产品概念等,在单一类型数据上,很难获得全面的数据,导致预测准确率不高。在多源大数据环境下,预测的结果相对较好,可以作为首页广告、电视购物上架商品策略指导。本研究将用三种方法实现热门预测:基于规则的方法、基于不平衡分类的方法和基于时间序列分析的方法。基于规则的方法是根据一些客观的外在因素变化,导致某些商品会在很短时间内变成热门商品,比如一些季节气候的影响,或是商品价格的降低等。基于不平衡分类的方法是把以往数据作为样本,把商品分为热门的和非热门的,然后用分类学习训练模型,预测未来趋势。基于时间序列的方法是收集热门商品的历史数据,构建一个时间序列模型,预测哪些商品可能成为新的热门。

1.6数据报表

数据报表已经逐渐成为现代企业核心竞争力的必不可少的一部分,因为企业决策需要报表所反映的基础数据。但是传统的报表服务往往依赖于既定的规则和工作人员人为的统计,对单一数据源的数据进行分析,因此很难全面地反映行业的整体状况。

依赖多元化大数据,数据报表服务可以提供综合的数据统计信息、数据预测以及数据可视化。综合的数据统计信息是指通过电视购物、网上商城的业务数据、社交媒体中的关系数据以及其他数据源的异构数据,从更高的维度上进行数据统计,从而可以反映出运营过程和企业经营的潜在状况。比如将社交网络中用户对产品的关注和产品的销量数据关联起来,既可以在报表中反映销量变化也可反应在人群中的传播热度。数据预测,是指使用时间序列分析等数据挖掘技术,来检测公司运营中的异常现象,这样能够更好地帮助企业调整经营战略。数据可视化是数据报表服务中的重要一环,借助可视化技术,使用丰富的可视化的图表方式将数据直观地表示出来,再结合人工干预来进行决策分析。

1.7基础算法库

基础算法库中的单机算法虽然已经在学术界与产业界得到广泛研究,但是在分布式环境下并没有统一的标准,需要根据所使用计算平台架构进行算法改进,如话题抽取算法LDA[2],在分布式环境中就有多种实现方式。本课题将基于多源大数据营销云平台,对基础算法库中的算法进行并行化设计。

基础算法库是核心服务层的通用算法集,包括基础聚类算法,如基于中心的k-means[1]、k-medoids等,基于隐变量高斯混合模型[7]等,聚类算法被很多服务模型调用,如用户画像、精准广告等;基础分类算法,如逻辑回归、决策树等,分类算法由于需要标注数据,因此在大数据环境下应用相对聚类较少,但热品预测等服务均需调用;推荐系统设计的算法,如协同过滤、矩阵分解及其变种,这些算法在分布式环境下实现具有一定难度;本体建模工具,如实体名词抽取等,是很多工作的基础;集成算法,如AdBoost及其变种;此外,研究还涉及供众多算法求解的优化算法,如梯度下降等。

1.8数据预处理

数据预处理是数据进入算法进行模型训练的前置环节,包括数据清洗、特征提取、数据降维、格式转换、抽样算法、编码转化等,虽然数据预处理很多步骤是根据规则进行,但是规则制定的优劣影响到算法工作的效率,如数据格式、抽样特征等。

多元大数据使得数据预处理过程更加复杂,主要表现在对异构数据的处理、多元大数据的抽样、数据的降维。对于异构数据,整合过程包括几个步骤:界定数据交互的项目和内容、指定数据交互周期、选择交互方式、由交互调度程序实现数据上载或自行实现数据下载。对于异构数据的抽样,课题组综合了分层抽样和随机抽样,即对不同种类的数据采用分层抽样,按照相应的比例在这不同种类的数据中抽样,在同一种类下采用随机抽样。对于高维数据,使用主成分分析,特征提取中的特征合成等方法对其降维。经过数据预处理形成的训练数据,其直接制约着核心服务的优劣。训练数据作为算法的输入,对算法结果起着指导意义,因此高度重视数据预处理模块的设计。

2、系统云平台

2.1云计算平台

云计算平台承担了多源大数据营销系统各种算法的计算任务,是营销平台核心服务正常运作的保障。目前国内外对通用计算平台的研究已经相对成熟,但是行业内,如多元化交易大数据算法定制的分布式计算平台仍没有成熟的解决方案,即使是阿里巴巴集团的计算平台,也没有引入关于电视购物数据分析算法的计算平台。

多元化大数据营销系统核心服务层的服务模型,根据特性可分为实时计算模型与离线计算模型。本课题拟构建针对两种计算类型的计算平台。离线计算耗时较长,但运行频率较低,一般在一定时间内运行一次,平台拟采用运行效率较高MPI及部署方便的Hadoop两种技术框架,在分布式集群上进行改进适应业务算法需要。实时计算要求在有限的时间内尽快返回结果,否则将严重影响用户体验,研究拟采用Storm、Spark框架进行改进,确保在线计算能够在规定时间内尽快返回结果,节约使用者时间。

2.2云存储平台

云存储技术用于对分布式环境下的大规模存储空间进行管理,以支持海量数据的存储和使用。在大数据的背景下,云存储技术的主要表现方式有三种:分布式文件系统、分布式数据库系统以及分布式对象存储系统。

分布式文件系统以传统意义上的树状目录将文件结构组织在分布式环境中,开源分布式文件系统HDFS的默认块大小是64MB,存放多元异构数据会浪费资源,研究将基于HDFS定制多元大数据的文件系统,节省空间并加速读写。根据业务需求,综合使用关系数据库和非关系型数据库。用关系数据库存储用户数据,加强用户隐私保护;用非关系型数据库存储视频等非结构化数据,加快存储速度和提高吞吐量。分布式对象存储系统进一步消除了异构数据的之间的性质差异,它将所有的数据,结构化的,半结构化的,非结构化的,统一视为一个个的对象,并且通常在分布式对象存储系统中,摒弃了传统的目录式的文件组织方式,而取而代之的是扁平化的命名空间。

2.3云监控平台

整个云平台中,云计算承担多元数据间的计算工作,包括了多个计算子系统;云存储承担多元数据的存储和备份,其中既有结构化数据也有非结构化数据。它们的稳定运行对整个系统至关重要。因此云监控平台主要致力于对云计算过程和云存储过程进行监控。因为多源大数据营销系统中的计算和存储过程涉及到交易数据、用户的隐私数据以及多种异构数据间的同步,因此对保持数据的一致性、安全性和隐私性要求很高。

同时,和传统的云运算和云存储过程不同,本系统中的数据既存在结构化数据,比如说用户的交易数据,也存在非结构化的数据,比如说社交网络中用户上传的图片和视频。对不同数据的计算平台和存储平台会存在很大的差异,这就为云监控提出了技术挑战。非结构化数据往往是大规模数据,大规模数据下的性能监控;同时对结构化数据和非结构化数据的共同监控需要在传统的云监控系统架构上进行创新,尤其是目前传统的IT系统都是面向结构化数据和应用设计的在多元数据的情况下,云平台上涉及到的系统较多,多数据源的计算和存储系统往往不同,但是又要彼此协作。如何让云监控自适应于各种系统工作也是研究的重点工作。

2.4云推送平台

推送服务是将客户端主动查询信息改为服务器主动发送信息,服务器发送一批数据,客户端接收数据进行处理、展示,同时保证与服务器的连接。这是随着移动互联网产生而兴起的技术。云推送服务基于云环境智能算法,确保推送的及时性与智能化。

传统的推送服务仅基于长链接技术,维持客户端与服务端的通信即可。但是由于智能设备功能越来越多,基于位置的服务、针对用户个性化的服务不断涌现,如何综合用户在电视购物、网上商城、智能设备数据(如已安装应用、位置信息、运动信息等),提供针对性的推送服务。如在吃饭时间推动附近餐馆,旅游到一个城市推送相关景点与宾馆等。云推送可采用核心服务层的用户画像、商品推荐等功能,利用多元化大数据的优势进行智能推送。

3、数据融合中间件

3.1企业服务总线(ESB)

企业服务总线(ESB) 支持异构环境中的服务、消息,以及基于事件的交互,并且具有适当的服务级别和可管理性。在多源大数据营销平台系统中主要研制如下功能的ESB:支持事件规则的ESB引擎、支持流程规则的ESB引擎。

基于事件的ESB是SOA和事件驱动框架 (EDA)两种体系架构的混合实现,ESB 通过实施事件处理以将服务集成在一个基于事件的范例中,并通过基于内容或基于规则的路由,以便可以根据事件内容和任何外部因素的规则将事件路由到相应的服务上。分析和设计面向BPEL的流程规则模型[8]来支撑支持流程规则的ESB引擎,可执行业务流程模拟业务交互中参与者的实际行为,抽象流程描述业务协议,指定协议各方相互可见的消息交换行为并隐藏他们的内部行为,是中间件技术中提供建模工具的核心技术。

3.2数据适配器

大数据营销平台涉及多个来源数据,多源异构数据适配器可将不同类型数据封装为ESB总线可传输的数据类型,是在使用ESB引擎进行数据传输之前的必要步骤。这可以有效节约因数据传输带来的系统开发与维护工作量。

针对多元大数据营销系统涉及数据类型较多及相应类型数据特点,本课题组将研发多源异构适配器。其一,设计将适合于系统的异构数据交换模式或数据格式,以加快数据传输效率和数据解析速度。其二,研发针对基于XML、GML、JSON等通用数据交换格式的适配器,以兼容来自外部环境的数据。其三,研发Mysql、Oracle等关系型数据库和MongoDB[9]等非关系型数据库的适配器,实现不同源之间数据的传导。其四,将多源异构数据整合平台进行SOA化,以提供服务的形式让ESB引擎使用异构数据适配器。有中间件等底层软件支持异源异构数据,会给上层的云平台及核心服务平台带来极大的方便。

4、多源数据接入层

4.1电视购物数据源

电视购物是指通过电视媒体发布商品信息广告以及相应的热线电话号码,由训练有素的话务员进行“一对一”的悉心讲解及热情推荐最终达成销售,然后通过物流单位将商品送货上门、收回货款,这种模式就是电视购物。电视购物的销售对象主要是电视观众,一般集中在家庭主妇和中老年人。

电视购物数据主要包括销量、产品的特征数据(价格、品类等)、用户的特征数据(年龄、性别、区域等)这些结构化数据,同时也包括购买过程中的语音内容等非结构化数据。这些数据是多源大数据营销系统中最关键的数据,因为电视购物数据来源于订单信息及客服与用户的网络、电话沟通,由于客户与客服的直接交流,增加了用户信息的可靠性和完整性,使得该数据源具有有效性强的特点。好易购家庭购物公司是目前业界最重要的电视购物平台之一,有多个电视购物频道,拥有大量的电视购物数据,是研究的重要数据来源。

4.2电子商务数据源

网上商城是没有实体店的在线销售模式。用户的购物过程全部在网上进行,包括网站浏览、选择商品、在线支付、物流配送等过程。经过多年的发展,已经成为重要的商业模式之一。目前比较成熟的电子商务公司有天猫商城、京东商城等。网上购物的销售对象主要是网络使用者,一般集中在年轻人和中年知识分子等群体中。

网上商城数据主要包括商品的销售数据和特征数据,用户的特征数据,以及能放映用户偏好的显性行为数据(点赞、收藏和评论等)和隐性行为数据(浏览商品的时间),数据准确性相对通过电话形式达成交易的电视购物较弱,同时对中老年群体的覆盖度欠缺,电视购物数据能够形成很好的补充,由此也可以看出使用多元数据的必要性。研究通过将好易购的电视购物与网上商城数据融合统一,不仅可以探索出两种购物模式通过互补来实现O2O商业模式的方法,还能够增大数据集的覆盖度和信息蕴含量,更好的服务和支持业务发展。

4.3社交媒体数据源

网络的不断发展,使用户产生了在互联网上交流的需求。社交媒体就是这样的平台,人们用来创作、分享、交流意见、观点及经验,同时建立关系。很多网上商城本身就提供了社交功能或者可以绑定社交媒体账户,这就为多源大数据营销平台融合社交媒体数据提供了可能。

社交数据媒体数据主要有非结构化数据,比如用户上传的图片、视频、发表的状态和文字;以及若结构化的数据,比如用户的基本资料和偏好;最重要的是强结构化数据,就是整个社交媒体的图结构,用户和用户之间是有连接的,比如好友关系、相互关注、评价等等。这些媒体数据的使用为多源大数据营销平台带来新的可能,同时也带来新的挑战。本课题拟采用在好易购商城中集成社交媒体账号绑定服务,包括新浪微博微博账号、网易博客账号、豆瓣账号等社交媒体账号,通过用户授权获得用户社交媒体信息,为上层的核心服务中的用户个性化提供数据支撑。

4.4商用、政府等其他数据源

除了电视购物、网上商城及社交媒体数据源,采用其他商用WIFI及政府类数据源(如商户WIFI信息、免费公共数据等)进行研究有助于提高大数据分析的多样性和准确性。这些数据蕴含了大量用户上网行为信息,如用户常用地址、上网时长、浏览网络地址类型等,可以对用户画像中用户工作地、目前生活状态、收入等级等作出更精准的预测。

在智能终端时代,WIFI信息是智能设备接入互联网的重要接口,拥有重要的门户地位。随着技术发展,商铺WIFI已经相当成熟并得到用户广泛使用,在使用过程中用户授权WIFI服务商获得上网时长、上网地点等涵盖用户信息的数据,利用进一步利用用户画像建模用户特征。IPTV利用计算机或机顶盒与电视完成接收视频点播节目、视频广播及网上冲浪等功能,记录了用户家庭娱乐信息,不仅可为电视购物提供重要参考依据,也是精准广告、商品推荐等核心服务的重要数据支撑。 

四、总结

本文以浙江广电集团好易购电视购物频道精准营销大数据云平台设计为蓝本,旨在通过研究和分析“互联网+电视购物”多源大数据云平台的技术路线和关键技术,探索电视购物与互联网融合技术平台设计和建设的关键点和新途径,开拓融合大数据和云平台技术的“互联网+电视购物”的技术创新之路。