市场研究协会 会员登录 | 入会申请
  会议交流
会议交流
专题报道
行业活动
  当前位置:网站首页 > 会议交流 > 专题报道 > 大数据现状与未来
大数据现状与未来
发布时间:2016-11-04 10:21:39  访问量:1137
0


大家早上好!非常荣幸有这个机会到这来跟参加峰会的同仁交流一下,我作为一个在美国大学,实际我是做数据出身的,和 Frank是2000年认识,也是兄弟,我跟大家交流一下我做学术,由于做数据出身,在科研,在咨询方面跟业界这么多年有一些交流,我想谈一谈我个人对大数据的一些看法。题目是现状与未来,我把它嵌在这个报告里面。主要谈一谈现在的情况,还有这个数据本身,我们做数据的对数据的理解和大家从业界来看要解决的实际问题,现在有一定的差距,这中间怎么能够把这个差距拉近或者缩小。我的PPT是用英文写的,中间有些中文,我试着用中文给大家讲一下。

我是第一届来参加的,所以我先自我介绍一下,这是我大概94年到现在走过的一个路程,94年到98年在北大数学系,98年去了美国沃顿商学院商业统计分析这个系读博士,03年毕业以后,南下到北卡大学的运营与管理系,一直到05年,05年香港请我,然后一直到现在。王会长讲协会的发展历程,下一步可以更好的发展,像我,没准两年以后我也回到北京。

我科研的方向大概分三部分,为什么我今天会讲大数据?现在大数据从业界,从学术界对这个讨论越来越多。第一个我本身是做方法论,刚才也讲了,2012年才提大数据这个概念,现在越来越火。但是在我们学术界大数据本身虽然没有提出来,但是很多年前已经开始在做这方面的研究。当你有很多数据,有很多维度,从不同的渠道来的时候,你怎么来做分析?这个方法很多年前已经在开始做研究,现在已经非常成型的,像最近的深度学习,已经可以回到98年、2000年时候的神经网络,是为现在特别流行的深度学习提供了一个基础,只不过最近由于计算方面的改进,现在这个东西可以做了。

另外第二点,我跟业界的合作主要是在金融系统的运营管理和医疗系统运营管理方面,待会儿我讲大数据会有一些例子。大家从市场的角度来看,从决策角度来看,从运营角度来看也有很多相关的问题。

第三点,从98年到现在,我主要的精力是在做医疗,一个是跟癌症有关的,包括慢性病,慢性病方面主要涉及到脑神经、脑卒中方面的研究。

咱们要讲大数据,什么东西是数据?可能每个人对数据本身的理解是不一样的,我有一个很好的朋友,现在在光华管理学院是他们统计计量经济系的系主任。他提了这么一个概念,我不知道他是不是第一个提出来的,你只要可以记录的东西,现在都可以是数据。以前能不能分析是一回事,现在只要能记录都是数据。现在有更好的方法可以分析,包括结构化的数据,包括非结构化的数据,有很多方法可以做。只要能记录,为什么大数据现在这么火?因为很多东西现在都可以记录,很多东西都可以收集下来,你怎么从这个东西里面去挖掘信息,挖掘价值,大数据本身你如果不去挖掘的话,它本身没有任何价值,你要从它中间来发掘价值。

接下来我准备了一个东西,当时给一些公司开高端培训的时候,大数据大家都在讲,我能不能看,能不能大概有一个概念,大数据是什么,这有几个数字,大数据一个基本概念,数据量大,什么样的量?能不能可视一下?这是从最基本的计算机,当时咱们开始记录的是一位,然后到两位,然后到八位,再往下数据量存储方面一直在往上增。现在咱们人类整个发展历程到目前为止,2010年进入到这个阶段,我们现在所有的数据量加在一块已经在Zettabyte这个单位上。

大家经常听到有六个V,七个V,这我列了五个,大数据本身是从这几个角度来讲的。第一个就是数量,存储量越来越大,占的空间越来越多,另外一个就是类型,刚才王会长提到咱们现在数据收集的越来越多。另外就是速度越来越大,接下来这两个是数据本身能够让咱们从里面挖掘一些信息的,所谓的差异性,很简单的一个道理,如果你的数据完全都是一样的,这个数据量再大,一点用没有,之所以有价值,就是因为里面有差异性,我可以做分成不同的人群,可以做市场营销的这种策略。就是由于这个差异性,才能做这件事情。由于这个差异性本身是一个好的事情,但它带来另外一件事情,就是质量。大数据因为量特别大,很多时候很难控制这个质量怎么来把控。最后是价值,就是因为我们要追求价值,所以才去考虑大数据,才去考虑这些东西。这就涉及到后来一个问题,我是不是应该盲目的去追求大数据,我有没有什么目的,我在收集这个数据的时候,包括分析的时候,应该以什么东西来衡量?

接下来我想有几个例子,大家对大数据很熟了,有很多成功的例子,我挑了几个。这是跟市场营销有一定的关系,这个女孩在她爸爸知道她怀孕之前,这个系统已经她怀孕了,由于她买了一些怀孕的人会买的东西。另外一个就是在电影,是做视频供应的,他可以对客户进行分析,我来给你推荐,这是他开始做的。最近做了一件事情,由于他现在收集的数据量越来越大,对整体人群的喜好是非常了解的,他根据这个拍了纸牌屋,他就知道这个东西会非常流行的,因为根据他之前的数据,他知道大家的喜好。这个大家都知道,大家想吃中国饭,这是一个连锁店,这个妻子是计算机博士,她讲了这么一段话,虽然我卖快餐,但是我可以用书据帮我分析什么东西卖的好,我需要怎么进货,供应链怎么管理。

这个跟医疗有关,对癌症方面他们来收集很多癌症病人的信息,如果我收集的数据量足够大,可以发现一些跟我诊断的这个病人匹配的一些样本,可以做治疗方案,资本对这个事情非常感兴趣。接下来在运动方面也都有一些大数据的应用,在NBA西部决赛的时候,524号这个队落后,一个礼拜以后,他们是43赢的,这是历史上第一次创造了这件事情,通过数据分析怎么来做。

通过这些不同的例子,总结了一些点,怎么从大数据里面来提取商业价值,第一点,首先你的数据要数字化,否则就没法做。尤其是这件事情在香港,我在咨询的时候,大陆可能好一点,大家现在对数据都很感兴趣,有些老牌的企业他们数据很多,但都不是数字化的,他没有办法对它进行分析,所以他们现在在做的一部分的精力,投入IT,怎么来把这个东西进行数字化,然后才能去做接下来的事情。数字化越高,就有越多的信息来支持你的决策。大数据量大的时候,你可以回到非常细的个体,由于你的样本量大,你可以做的非常细,这样的话,你可以做预测,这是在平时讲课的时候有一个人提到的,亚洲有家智能电视的厂商,之前用户不可能给他反馈信息,后来他们加了一个功能,通过这个功能,他可以监测这些用户在用我这个电视的时候,经常用的是哪些功能。接下来他们发现有一个接口,客户都不用,他这个接口拿掉了,节省了1500万。大数据可以帮助开发下一代的产品,这都是一些好的例子。

因为我本身做数据,刚开始大数据热的时候,我也觉得很好,大家对这个感兴趣。后来想的多了一点,有一个问题,这个数据量大是不是就能够给你想要的东西?如果数据量大,是不是能达到这个目标?大家可能今年还记得一件事情,英国脱欧这件事情。因为香港跟英国的关系,所以香港微信朋友圈里,很多朋友都在说最后的结果是什么样的,还有一些公司在研究。这是最后的结果,最后的结果是52%的人支持,但是在之前大家在做预测,现在反过来看,数据量达到什么程度,这个预测是准的。

这是其中一个截屏,我从朋友圈里面拿到的,这个大概是四百万的人已经支持,根据这个结果,是留下的。如果你用这个,大家做市场营销,做抽样调查的时候都会做一个假设检验,咱们做一个假设检验,最后的结果是离开还是在这待着,如果拿这个四百万的数据去做,统计上是非常显著的,肯定是留下。接下来样本量更大,还是留下,到了一定程度,做往后走,开始我要离开。网上有一个帖子说最后不会离开的,后来这个帖子被拿掉了。四百万量已经够大了,数据量大的时候有差异性,差异性也大,这里面有两个显著性,与年龄层有关,年老的人想离开,年轻的想留下,英国北部都想留下,南部经济发展更好一点,英格兰他们想离开。这些因素在四百万里面不是很均匀分布的,四百万样本不够大。大数据不新,1936年美国选举的时候,已经出过一个大数据分析的例子。当时选共和党和民主党,这个杂志用了一千万人来预测,最后预测结果是说共和党会赢,57%的支持。最后出来的结果,共和党输了,只拿到38%的支持。什么原因?因为他一千万抽样的时候是有误差的。

谷歌做流感预测,09年非常好,我对美国的流感人群数量的预测,我可以比真实报的数据提前一个礼拜,非常准。结果五年以后,同样的方法,数据量更大了,但是误差是一倍的误差。最近又有一篇文章,要把方法改进,数据量大了以后,不知道怎么分析它,你最后得到的结果不一定是对的。什么原因?大数据是一种基础,但是咱们用大数据是为了解决一个问题,你在解决问题的时候,不管数据量有多大,最后你都不知道所有的信息。这里面有一些不确定性在里面,通过统计方法来做。我在大数据的情况下,非常重要的一部分,除了我要有这个数据,有两部分应该是更重要,第一个,我要解决什么样的问题,第二个,我中间这个数据分析的过程,他们提到从数据开始,整个公司要支持这个事情,高层要支持,最后要有这个分析的人员能把这两件事情联系起来。

问题,数据,Analytics问题是你最后的你要解决的问题,这是前提。虽然我本身做数据,但是我在跟不做数据的人交流过程中,我一直在问你的问题是什么,这是我先要搞清楚的。在这个前提下,我去收集数据,我去找数据,我看现在的数据能不能解决这个问题,根据数据量大小,来解决这个问题。中间是双向的,最后达到一个共识。Analytics是中间一步,是手段。

这是我在UNC商学院的一个同事准备的一个图片,你为了要做好这件事情,你需要一个很好的平衡,这个凳子的三个腿要非常平衡。问题、数据、Analytics,而且三方要交流。现实当中最大的不知道是什么问题。

接下来我用五分钟的时间来讲一下医疗,当时我做医疗的一个前提,因为我确实是站在这中间,某一天我站到这里面等着排队。现在也越来越危险了,精准医疗是非常的热。我个人包括跟弗兰克交流的时候,整个医疗流程是比较简单的,大数据如果真的要对这个东西了解,各个环节之间都会有很多数据可以收集。

接下来我想展示我做的一个例子,每个环节有很多数据,各种维度的数据,你可以去收集。中间在医院里面,这个是我们从一个医院拿到的真实数据,真实数据我当时考虑的一个因素,我想考虑的是医院它的运营,这个医院作为一个服务系统,它的效率有多高,我能不能把它的效率提高,能不能把里面的一些瓶颈给它打通。首先我要看,这个数据量很大,我要看这件事情。这是一家医院,这个大概是他一个月的数据,我通过一种方法,把他的数据整个病人在医院里面的流程可以实时的展示,这是急诊,他从急诊进来的,在不同的科室,长方形是不同的科室,进到科室以后他接下来去哪了,是回家了还是转到别的地方去了,还是从来没有离开过这家医院,这是有可能的。

你可以实时看到他在这个医院里面从一个科室到另外一个科室是怎么移动的,这里面的速度跟他现实生活中的等待时间是有关系的,如果走的比较慢,说明这有一些瓶颈。这个数据是运营的,在任何一个节点,哪个医生来看的这个病人,跟病人有关的信息,跟医生有关的信息,跟护士有关的信息,包括医疗方面的监测,包括影像,包括基因数据,为了最后要解决问题,不光要对他用药,而且要在合适的时间用药,这个流程对最后的治疗效果也是非常有用的。

我们现在在做的一些研究,包括一些方法,我把这个流程数据跟它的医疗这方面的数据结合起来做这件事情。从医院的角度来讲,他们对这个东西感觉我知道接下来如果我能知道哪是我的瓶颈,或者我可以对病人进行分类,有一部分病人走的路径是一样的,到了这一步,下一步会去这个地方,我可以提前做一些预测,把数据就用活了。原来在电子病例这些东西他们基本不会看的,在临床数据里面有各种各样的类型。最近我们做了一件事情,慢性病对脑卒中方面,这是我从天坛医院一个王院长的PPT里面拷过来的,中国的脑卒中发病率现在越来越高了,在欧美是越来越低了,中间有一个很大的差距,改进的空间还是很大的。

我用这个例子解释大数据给我们以前没有的一些东西,以前通过不同的科研项目或者公司的项目,业界的项目,收集了很多数据,这些数据都是为了当时的目的收集的,用过数据就放一边不用了。现在我们在做的这个事情,各种各样的数据,纵向是不同类型的数据,包括高度就是时间,我现在通过大数据的方法,可以把这些大数据整合起来,我把它们并到一块以后可以互补了,我用一些方法,把这些差异性给它补上,缺失的一些数据给它补上,这个数据可以再用,具体的结果不跟大家讲了,如果有兴趣会后可以交流。

最后,我用这页结束,问题和数据之间是什么关系,很多年前大家已经在讨论这个问题,在大数据的情况下,由于大家对大数据问题本身的考虑,包括这两个之间的关系有的时候还是值得去好好考虑一下的。谢谢大家!



友情链接
中国信息协会    国家统计局    涉外调查许可证办理    中国数据分析师官网    APRC    ESOMAR    GRBN    
 
CMRA微信公众号   CMRA微信号

关于协会 | 会员专区 | 招聘信息 | 联系我们

地址:北京市东城区东四十条21号北京一商集团大厦308室 电话:010-64087451

Copyright 2015-2024 www.cmra.org.cn All Rights Reserved

中国信息协会市场研究业分会 版权所有 京ICP备18038404号-4 京ICP备18038404号-5