市场研究协会 会员登录 | 入会申请
  会议交流
会议交流
专题报道
行业活动
  当前位置:网站首页 > 会议交流 > 专题报道 > 大数据分析与商业预测
大数据分析与商业预测
发布时间:2016-11-08 13:51:24  访问量:2687
0



大家好!感谢主办方邀请,我今天非常高兴,因为我去年在这儿给大家做了一次分享,去年的时候没有沈浩老师,今天我一定要当面认识一下沈浩老师。

我今天给大家分享的主题是大数据分析与商业预测,可能是比较少的,我主要是从大数据的角度,而不是市场研究的角度来给大家讲一下如何做商业分析和商业预测。主要有三个方面的内容,第一方面是数据挖掘是如何驱动商业价值的,然后给大家深入分析两个案例,一个是我们给某一个烟草企业做的,另外一个是制造企业的精准案例的分析。

我们说大数据的核心其实是预测,因为我们利用大数据做分析,其实有四个层次,一个最浅的层次,是描述性的分析,我们主要说这件事是什么,我的消费者是什么样的,再往上一个层次我们叫解释性的分析,也就是说我要知道这是为什么,为什么我的销量不好,为什么A版本的素材会比B版本的好。再往上一层是预测性的分析,比如说我预测一下明年的销量是多少,我预测一下某一个省明年有多少电商企业,预测一下明年的降水量如何影响农作物的产出。再往上就是比较难的决策性的分析,我面对这个情况我应该怎么做,我应该如何定价,我应该发放多少面额的优惠券。我们认为做得比较多的是预测一下会发生什么,上面有决策性的,下面有描述性的,我们用大数据做有广泛的数据源的采集,有消费者的数据,有线上,有线下,我们有第三方的抓取等等,我们把多样的数据会聚到一起,进行挖掘,利用统计模型、计算模型去做交叉比对。

去年我分享的是大小数据的融合,如何把大数据和小数据调研的方式融合起来,我们今年发现越来越多的广告主、客户用到更多大数据的量化分析。大数据和传统数据有一些差异,这个已经被广泛地提到过了。首先是数据源,大数据是比较多种的数据源,传统数据是比较单一,我们在大数据要帮助企业打通一方数据,二方是官方微博、官方微信的数据,比如说这个人在王府井百货里是如何逛的。包括线上数据、门店数据、维修数据,大数据分析的一个普遍特征就是多种数据,传统的数据比较偏单一,销售部可能就分析销售数据,营销就是分析营销数据,服务就分析服务的数据。大数据的数据结构我们以非结构化数据为主,这里面有图象、影音的数据,小数据就是结构化为主,另外就是结构很清晰的数据。从样本来看,大数据处理可以不用抽样,可以全样本做。从传统数据来看,因为我们的分析能力、软件的能力有限,我们大概是用随机抽样去代表总体的一个分布。传统的数据有一个好处就是它非常干净,我可以剔除掉我所有不想研究的因素,只研究X对Y的影响,这是小数据的优势。大数据比较关注的是关联关系,其实也是它的一个劣势,因为这里面的数据太多、太复杂,变量太宽,我无法准确地研究某两个因素之间的因果关系,这是小数据对大数据的互补。从时效上来说,大数据的实时性要求比较高,比如说在线推送,互联网广告等。传统数据离线做数据分析比较多,这是一些差异。

我们可以看到数据可视化的应用。AI是不太需要人工干预,机器可以自动地推演、迭代算法。另外一个就是BI,就是商务智能,营销能否完全被机器替代,我们觉得应该不会。BI里有很多营销相关的东西,定价、促销、客服等和经验相关的工作,是不可以被AI完全替代的。底层的分布式系统存储中我列了一些我们用的比较多的工具。

接下来给大家做一个分析是我们的大数据分析平台,这一页我想给大家讲这么一个理念,在传统的数据分析的时代,我可能招一两个数据分析人员,他会用SPSS可能就能把我的数据库进行一个很好的分析了。但是在大数据的时代,数据分析已经变成了结构化、体系化的事情。我们有数据工程师,有算法科学家,有优化科学家,有商业分析师、运营分析师,有可视化工程师,我们可以想像在大数据的时代,基本上没有一个人能横跨这七层的结构去做一个大数据的分析,当然有沈浩老师这样的数据科学家在,但是数据科学家是很少的。

在大数据分析的领域,首先要做需求层的数据设计和业务拆解。比如我想做个性化的定价,我首先要跟他们沟通什么样的是个性化的定价,你要做到多大的粒度?是个体的粒度还是群体的粒度,首先你要把业务问题转化为数据问题。另外我要做模型的选型,我要用统计学的模型做这件事情,还是要用计算机学的算法,还是优化学的算法。再往下,比如说我选定了,我要做决策树,有很多软件可以做,我到底要用哪一个软件去做,这取决于我的数据情况。比如说我都选定了,我如果想用R去求解这个问题的话下一步就到了接口层,我是要和哪一个底层去对接,也就是说和不同的地层数据库的交互会用到不同的数据分析的接口。再往下就是数据层在哪?我们会有一些传统的数据库,现在比较多的异军突起的是“图数据库”,现在存在着很多关系型的数据,人跟人的关系、人跟商品的关系、商品跟商品的关系,以图的形式存储在一起。再往下就是数据文件的系统层,比如说Hadoop里的数据,Spark里的数据。大数据里你需要不同的人员,需要运维工程师,需要运营工程师,需要顶层的格式化,我们一般都是流水作业,一步一步地做。

今天我主要跟大家讲商业预测、商业分析,它其实是从消费者洞察、产品洞察和品牌洞察这三部分入手,去支撑企业这四个非常重要的业务流程的分析,包括产品的分析、销售、营销和服务。这里面每一个维度都会解决企业的核心问题,比如说产品,谁是我的客户,我应该出什么新品,什么时候推广,这里面都是可以用量化的方式解决。销售,我们今天谈得比较多的营销,我应该做什么样的营销方案,我的目标群体是什么样的,包括我的客户、售后,这些都是可以用数据做量化分析的。

我们发现每一个维度、每一个方面,企业最关心的问题是什么,产品最关心的是我的迭代创新,什么时候推出新产品,退出什么样的新产品,销售很简单,如何提升销售收入,营销主要关注的是营销效果,我投的钱都投到哪些渠道,哪些渠道效果好,我应该倾斜我的营销预算到哪个遇到。服务就是售后比较关注用户体验的提升,售后的方面,其实也在做很多有意思的研究,比如说我们之前和一家保险公司聊,他想通过语音数据的分析,去看消费者的情绪,这里面就要有语音的情绪标注,以及语音转文本之后的文本分析,这个语音可以看到消费者打电话抱怨的情绪,在你的服务人员服务的五分钟之后有没有好转,同时你把语音数据的分析,和他对这个服务人员的评价挂钩之后就非常有意思。另外还做了很多再营销,什么样的客户应该推荐什么样的产品,能提升我再营销的效果。核心都是企业的核心竞争力。企业关注的就是这四方面。

接下来给大家讲两个真实的案例,我们做的数据分析,或者说量化的数量分析。第一个是我们给某一个烟草企业做搭售的分析。烟草是一个垄断行业,但是它又分区域,比如说北京有中南海,云南中烟有云烟,上海有中华,大家可以想一想。在各省烟草行业有一个厂商,但是他不能直接去卖,他要通过当地的零售部去卖,他就要研究零售部有没有存在一些搭售的行为,比如说河南有没有你在卖外省烟的时候,大量地搭售你本省的烟。在做之前,首先要跟大家分享的是千万不要马上拿数据,马上做分析,马上进入建模的过程,这些都是为你以后埋的坑,一定要先和业务人员了解他到底想要了解什么问题,他到底想要分析什么,然后把这些转化成你想要的数据,把数据提取出来。第二在建模前一定要做大量的描述性的分析,每一个消费者的购买周期是什么样,这样才能确定在建模的时候把多长时间定为一次购买,而不是拍脑袋定。包括我到底要分析几种烟之间的关联关系,这也是要数据说话的。是三种比较合适,还是四种,还七种比较合适,最后我们经过数据分析选择的是四种。算法流程就不给大家展开了,我们会用用户的购买数据,关联关系的挖掘,整理出数据的规则,用行业的知识,删除伪规则,得出规则。我们找到了搭售省产烟的外地烟有多大。在经过一轮商业分析之后,我们把它分成可能性高中低。我们可以看到,10%的C类烟、B类烟和H类烟,都会有搭售省产烟的行为,它搭售的可能性比较高。我们把这个结果提供给企业之后,他就可以对零售部进行监测。

第二个案例,给大家简单分析一下我们某一个制造企业的精准营销案例。在精准营销的领域,现在有一些问题,第一个是消费者洞察和产品洞察不足,第二营销的过程可见性确实,第三个是严重以来渠道商数据和平台数据。企业对营销的掌控度会越来越高,很多都在从自己的设计到全案投放的东西。这里我们帮他解决什么呢?首先做用户洞察和产品洞察,第二个是做投放的数据追踪,第三是把他的可用数据传回到他的平台上。我们拿了他的种子数据,就是真实的一方的购买人群,我们数据拿到之后,和我们的全网数据做匹配,我们为什么可以做这件事情,就是我们覆盖了两千多家的电商媒体,大概有5.5亿的互联网消费者数据,每天的增量是15个TB级,我们存在全球大概一千多家的服务器,所以我们拥有大量的消费者的行为数据,而不是说我抓取下来的数据,抓取数据的价值非常低。比如说我通过第三方网页爬取也可以获得天猫数据,也可以获得销售数据。我们的数据是直接的行为数据,消费者对于某一个产品的点击、浏览、加购物车、看了多长时间,有没有购买,这些数据我们都有,我们把它的某一个生产电脑的企业,你给了我一万个种子人群,我告诉你,这一万个人除了买了你的东西,还在全网看了你的什么竞品,这是客观地告诉企业你的用户画像是什么样。第二个部分是投放,第三个部分是回流数据做分析。我们在这栏里用了用户行为数据是1.3亿条。画像数据就是我们全网数据,帮他做浏览某一个品牌和竞品电脑的用户,大概359万人,这里面爱他的潜在消费者群体,它的所有的性别、年龄、偏好都是从我们的全网数据里提取的。当然我们也会用辅助的数据,天猫、京东的数据,一共有4.7万条数据。比如产品的评论是什么样的,产品型号是什么样的,页面上都可以抓,它有没有消费者,这个是非常有价值的。第四个就是它提供的投放效果的数据。

首先我们把种子用户做扩散。客户用户画像分析里面有各种各样的维度,帮他更好地了解用户群体,帮他做配置投放的规则。他有大概3家DSP的数据,我们做了数据的匹配,我们和他的DSP都是百分之八十。有一个非常有意思的是这三家DSP匹配的重合率只有5%,不同的DSP人群真的不一样,你选任何一家,哪怕这家很大,都可能不会照顾到你整个的群体,所以建议还是多选几家。我们做竞品的分析,你这两款产品相对的竞品有哪些,你所有的用户的行为,看了你的A产品3次,看了你的B产品9次,看了你的竞品大概几次,我们就可以做看了又看的数量分析。浏览的行为分析,帮他找到潜在的竞品都有哪些,然后我们做聚类的分析。可以看到消费者关注3C笔记本分为商务、游戏、学生,有一些竞品是他的产品人员都没有想到的,消费者浏览行为表示这是你的潜在的竞品,为什么?因为你的消费者群体同时看了你的产品,和其他这些产品。他就会根据这些行为去定制营销素材。为什么我用浏览,不用购买呢?因为很少有人会同时购买几个电脑,比如说我买了一个华为的,又买了一个TCL的,又买了一个联想的,但是浏览是体现他要去选择、要去购买。DSP会去做投放,内部有一些邮件短信去做投放,运营的事情是营销里最需要人工的,这部分其实是大数据分析比较少关注到的地方。投放了之后,我们都可以去对比三家DSP的效果。我们可以看到,他们的曝光人群占比,到站人群占比怎么样。我们看到A的移动端做得不错,关注度非常高,到站率也很高,相比之下PC端的不太好。数据如何回流到第一方的DSP去,包括我们发现渠道的浪费问题,也就是说你从频次的控制上来看,我们发现一到四次就可以了,不用太多。你的三个DSP的重合有8.3%左右曝光的重合,这个8.3%其实就是你投重了的这部分人。投重的这部分人站A渠道的13%,占B渠道的17%,你就可以降低这部分人的投放,去优化你的营销的预算。我们也可以做引流的转化分析,看看哪个渠道的转化率低,哪个渠道的流量来源质量好,其实是会有一些渠道之间的协同作用。

最后整体框架我想说是一个结构化的东西,很多的分析都是要在系统里做的。这里面会有数据源的打通,到大数据的采集、清洗、标准化,我们的团队拿到的数据已经比较干净了,这些数据在前期数据工程师已经帮我们做好的解析和清洗。

最后想跟大家分享的,第一我们做数据分析的重要点是一定要从企业的需求出发。很多技术型人非常准求技术的复杂度,但事实上线性回归和决策树解决了大部分的问题。第二点,好数据胜过复杂模型,数据源非常重要,数据源直接决定了你能否解释问题,不要追求模型的复杂性。数据源的复杂性也非常重要,你需要有大数据的分析,你需要有小数据,百分点其实是大数据的行为数据,我们有一个很好的合作伙伴,聚思,他们在互联网上运营了一个几百万的群体,我们可以做大小数据的融合,一方面我有这些人的行为数据,另一方面,我通过聚思收集的问卷,直接反映消费者对品牌的态度,还有心理上的考量,这两个数据融合起来才是完整的数据,数据源非常重要。第三,数据分析不是一次性的事情,它需要不断地迭代,不断地循环,不断找到你这次分析的问题,通过增加分析如何解决。这三个问题是我认为最重要的三个问题。

今天因为时间没有太多,我主要给大家讲这些。欢迎大家关注我们的官方微信号和我个人的微信号,有什么问题可以跟我交流。我们百分点的微信号会做定期的文章分享,包括商业的分析,包括行业的分析。我们刚推出的医药行业的数据,在线医药电商的用户分析,以及五大类病,比如说心脑血管、肿瘤等等的行业报告,大家回顾行业报告的话,可以从官方微信号上下载。我今天给大家分享这些,谢谢大家!




友情链接
中国信息协会    国家统计局    涉外调查许可证办理    中国数据分析师官网    APRC    ESOMAR    GRBN    
 
CMRA微信公众号   CMRA微信号

关于协会 | 会员专区 | 招聘信息 | 联系我们

地址:北京市东城区东四十条21号北京一商集团大厦308室 电话:010-64087451

Copyright 2015-2024 www.cmra.org.cn All Rights Reserved

中国信息协会市场研究业分会 版权所有 京ICP备18038404号-4 京ICP备18038404号-5