市场研究协会 会员登录 | 入会申请
  会议交流
会议交流
专题报道
行业活动
  当前位置:网站首页 > 会议交流 > 专题报道 > 大数据在医药市场研究行业的采集和应用初探
大数据在医药市场研究行业的采集和应用初探
发布时间:2016-11-04 12:49:43  访问量:1098
0

各位同道下午好!今天我跟大家汇报的题目跟大数据有关,我们医药行业如何采集和应用大数据,希望给大家一些启发,对未来的工作有一个帮助。 

第一个,先准确定义一下今天我所讲的大数据。大数据有很多,比如昨天讲到的医保大数据,但今天我只讲在线数据,通过PC端和移动端收集的上网数据。第二点,昨天我们说到参加这次会议的人员很多,分成甲方乙方,我的分类跟这个不一样,我把今天我们参会的人员分成传统的研究人员,开座谈会做深度访谈做定量问卷研究的,传统的市场研究公司以及传统的市场研究人员,第二类,有很多土豪新贵,获得了风险投资的网络公司,他们天生具有数据,比如丁香园这些网站,这些供应商以前是从来不出席我们这种峰会的,但今天他们也来参会了。这两类人员可能对市场研究,对数据的理解都不太一样。今天我的汇报同时兼顾两类人员的需求,对于我们传统市场研究人员怎么来利用大数据?对于这些天生拥有数据资源的网站,他们如何能够更好地跟我们的传统研究结合?第三,像我们这些以市场研究为主要职业生涯的人,未来下一步如何来提高我们的个人能力,提高我们整个市场研究系统的能力,来让我们这个职业更好地发展。我希望在今天我的汇报中间也给大家有一些展示,这是我在讲之前,先说一下我的内容会包含哪些。 

还有几句话,有用,所以我写了出来,叫做“说在前面的话”。第一点,今天我的汇报只能跟各位启发思路,不要指望我给你们提供什么样的解决方案,你们可能听到一点两点,挺有意思的,对你开阔思路有帮助。第二点,他山之石可以攻玉,我们不局限于处方药行业,我自己最近几年做了一些其他方面的研究,可能获得了耐用消费品行业,汽车行业,快消行业的研究经验,我们看看这些经验能不能复制到医疗行业来,对我们有一些启示,他山之石可以攻玉。第三点,知耻而后勇,像我面对大数据,不具备专业的知识,我们需要学习。我下定决心要去学习,我们能够进步,学而时习之。第四点,不要观望,在2000年左右曾有研究公司开网上座谈会,那不就是今天的群聊嘛,那时候觉得没意思,就观望,后来发现网上座谈会没用,慢慢没有研究公司用这种方法了。但是对于大数据,今天我的粗浅感受,它会改变整个我们的研究行业。无论我们是甲方还是乙方,传统的研究人员还是网络公司,都需要尽快地付诸行动,不要再观望,不要再等待看看别人怎么做。这是我写在前面的四句话。 

下面开始我的演讲。我想问大家一个问题,我们做市场研究最关注什么问题?这个问题不需要大家回答。对用户的了解是最关注的。那么,谁是我的目标客户,我在卖这么一个产品,我是卖一个抗肿瘤药的,我的患者他到底是一群什么样的人?目标医生到底是一群什么样的人?这些人的治疗需求到底是什么样的?用户特征和分类是市场研究最基础的问题,但是我们整个市场研究的行业,我的个人观点,我们95%的市场研究项目不能给用户做一个准确、深刻且具备营销价值的用户画像,他的年龄性别受教育程度,平均收入,他得病多少年了,你知道之后,那又怎么样呢?如何获取这些用户呢?这种数据一点营销意义都没有,市场研究公司提供的这些数据,无法产生真正的使用价值。

我们发现市场研究行业面对关键问题,用户是谁都描述不清楚,这是我们采用传统的抽样调查方式最大的痛点之一,我们到现在都没有很好地解决这个问题。无论是处方药行业还是OTC还是隔壁会议室在讲的快消行业。今天我们市场研究公司怎么来做的呢?我先不说定性的描述,先说定量研究方法。定量方法最重要的一种就是基于因子分析的聚类分析。我第一次做因子分析是在2001年的时候,数据处理员是一位学统计的女孩,我发现原来我能够把中国的骨质疏松患者聚类成六大类,每一类人还能描绘得绘声绘色,他们有不同的人文学特征,有不同的治疗需求,其实这种类似的项目,我在OTC行业做了很多回,后来我在其他行业也做过很多回,再后来我发现真是没啥用。为什么在今天更加显得没啥用呢?因为今天的电视媒体,如央视的投放不再是一个主流的投放渠道,不大可能再通过大规模投放的方式获取大量人群,品牌也无法和消费者产生互动。传统的聚类分析,调研报告一般聚类成五类、六类、七类的比较多,大数据能分多少类呢?基于在线行为的大数据能给你分一百类出来,这就是数据之大,我可以跟踪上亿人的行为,汽车用户能够跟踪两百万人,高血压用户能够跟踪一千万人。我们抽样调查一千个样本,但是大数据可能是基于五百万样本,这样能够根据他们的线上行为,做很多的分类出来。好处是显而易见的,第一,分类的准确度更高。第二,价值在营销应用中间。以往做聚类分析之后,分类完就分完了,但是用大数据分类之后,可以跟企业的内部用户数据匹配打通,从而实时跟踪目标人群。这张片子举了个例子,某些用户,比如这个地方是我的高价值的用户,某些地方用户可能是没有价值的用户,我会采取不同的市场营销策略。我们在座的女性同行,你们对优惠券感兴趣,你们发现没有,你们有些人老收着优惠券,有些人老是收不着,基本上是电商采取了个性化的营销方式,这些都是采用大数据的算法。这是大数据第一个优点,什么优点呢?跟传统研究完全不一样的地方,他能做更多的消费者分类出来,而且够做实时跟踪,指导我们的日常销售管理。 

第二张片子也很关键。以前我们做聚类分析,都是基于价值观的调查。上个礼拜在微信上我看一篇讲聚类分析的文章,看到第三段,我赶紧把它拷屏了出来,这就是上面展示的。这兄弟是做汽车研究的,因为以往我们的聚类分析都是基于价值观的调研。价值观是虚幻飘渺的,一个问卷五、六十道题目,让用户用5分制评分选最合适的回答。这种问题设计的缺陷在什么地方?所需要的访问时间太长。一般主问卷的访问长度最少需要50分钟,最后还要花20、30分钟回答50-70道价值观题目,一般的人,回答完主问卷,脑子就筋疲力尽了,后面的价值观问题基本都是胡答的。所谓价值观调研项目,它的数据可靠程度比较差,差强人意。所以,我们用传统方法做出来的用户分类模型不是那么准确。但是,线上行动轨迹不是价值观,你访问什么网站,什么时候去的,网上轨迹全是事实,不是什么价值观。我是根据他的事实记录,所以你看我把人群分成了年轻族、乐活族,等等,这是基于访问事实/行为的细分,行为是几乎100%的准确记录。而你的价值观是调查来的,调查偏差也好,误差也好,都很大,自然它的准确率远远不如大数据。 

以上我介绍了两张片子。在我们市场研究最重要的用户形象、用户特征描述中间,大数据所展示的威力,给我们传统研究人员是一个很大的刺激。我就感觉是新的时代来了,什么叫新的时代?我感觉我是老司机,北京的远郊区县在北京开出出租车的,滴滴出行来了,我的饭碗快没了。我们还能怎么玩?大数据能够产生的东西跟我们传统研究是完全不一样的,或者说,它有了革命性的突破,我们不要再等待。 

我们这个峰会是市场研究峰会,都是搞数据的,但是这两年在市场中出现了很多新的数据服务供应商,第一类是大数据供应商,大数据国家扶持啊,成立了很多新公司,都是最近两年成立的。第二类,广告公司公关公司,这些公司由于要做程序化投放,比我们早两年就使用大数据了。第三类综合网站,BAT都在做大数据营销,也在卖大数据服务的产品。比如我们昨天说的可视化,阿里已经上线了,你可以去买。百度也上线了,他不是提供百度的搜索数据,而是提供大数据产品,供你企业来整合你的信息。腾讯也已经开始部署了。下面一个是专业网站,丁香园也能做调研,今天肿瘤大数据公司也说要做调研,抢我们生意了。还有很多管理咨询公司,这些公司的人员有聪明的头脑,他们完全可以自己做市场研究啊,以前他们的活可都是分包给我们做的。我就知道有咨询公司自己雇了学数学和计算机的,这种大数据项目不分给市场调研公司了,自己做了,当然原因之一也在于我们调研公司做不了。在整个市场调研行业已经出现了很多新的信息供应商,他们完全能够提供大数据服务。那我们研究公司,没有数据怎么玩?有了数据谁都能玩,没有数据怎么玩?大家思考过没有?我思考了大半年快一年时间了,我觉得只有一个办法:买。我们天生没有数据,只能买。网站不卖底层数据啊,特别是未上市的公司,那个数据对他来说是生死攸关,我们还买不着。但是,购买底层脱敏数据是我们市场研究公司做大数据研究唯一的解决方案。 

那么,现在IT行业能够提供哪些数据?在座的你们,手机的无线是设置在自动连接状态还是非连接状态?你家里包年上网,你家里的IP地址被人记录了;你手机上网,你手机的地址被人记录了;这些都是你这个人和你的家庭唯一的网上身份标识,今天公共场合的wi-fi全是商业模式,你去咖啡馆上网,这个wi-fi不是咖啡馆提供的,是第三方提供的,你的所有数据全被第三方公司掌握了,被第三方拿到之后,他能变现,卖钱,很多公司是以此为商业模式的。他跟这些公共场所去谈,你只要让我安装,设备、软件、服务器全部我来提供,你什么都不需要做。只要第三方公司能提供这些服务,他就拥有了你的上网入口,你的所有网络行为都能被第三方公司所获得。举个例子,今天在座的各位,我们这里假设一百个人,如果你们都开着无线,即使你们不上网,但手机会自动连接上网啊,我设置一个采集器,你们的手机地址我就知道了,你的信息被别人采集了。如果你还用公共wi-fi上网,可能不知不觉之中,你的上网行为已经被别人知道了。今天移动互联时代确实很方便,但我们的网上行为和裸奔真是没什么区别。你家里的上网行为,你的手机上网行为,现在在技术上可以打通的,看起来什么信息都没有暴露给第三方,但是他拥有了你所有的数据。这些数据,一经脱敏化,整合成群体而非个人的数据,就可发挥极其巨大的价值。上面是我所要讲的,流量数据会被变现,成为新的数据来源。 

线上大数据怎么玩的,归根到底,大数据的主要玩法就在这个片子说的这个地方,他是基于页面结构,你关注什么网页我全都知道了。做编码以后,对页面的全部基础数据做定义,全部爬下来,这样,你的网上一举一动全部被记录了。假设一个医生来访问好医生网站的时候,我能够把这个客户的行为,在本网站的行为跟外网行为连接起来,我不但能看到用户在我好医生访问的行为,还能知道用户的全网访问的行为。现在大数据能追踪所有的合法网站,都能抓取到。这个并不是说我自己做了一个医学网站,医生来访问一下获得其数据,这个数据还远远不够。作为全景描述,我要的是用户所有的线上行为,这是第一点,跟网站有关。第二点,APP可以抓包,比如你打开某一个APP,APP公司他自己设计很多编码,你的行为也都能被观察到的,如果我是第三方的话,我可以抓包,你的APP数据可以抓下来。现在不能获得的数据就是微信的数据,还不开放,百度的数据,阿里系的数据也都抓不到,他们有严密的防火墙啊。但像京东,一些著名旅游网站,数据全部都可以抓到。今天我们的各种在线售药网站,那些数据全部被别人抓的妥妥的。 

下面说一下底层数据供应商,刚才说过了,大数据怎么玩?没有数据只能买,但是我想强调这个大数据公司,大部分公司提供的信息差强人意。另外,购买底层数据都是非常昂贵的,还是脱敏的数据,不要觉得大数据很便宜,三万五万做个调研,没这个可能。目前的大数据公司能够提供什么消费者洞察呢?他们也有的,关注某品牌的用户特征,比如男女,性别标签等,大概的描述一下,这些他也有,而这些数据是我们抽样无法获得的,他跟踪你所关心的某一类用户,他们的消费热点、特点,消费倾向等等,虽然不像我们研究行业那么深入,但是也有一些干货,可以被我们用于进一步分析。 

医药行业的大数据采集,其实已经有三、四年的历史了,只是我们研究人员不知道而已。现在展示的这个,主要是四个步骤,第一抓取数据,第二及时应答,第三消费者回应,第四步对回应的转发,这是以前微博流行的时候做的大数据采集,微博数据全部被人抓了。基于微博识人只要微博上提到我,我全网监测,马上反馈,微博也能知道客户分布于哪些地区,给你一些类似的数据。 

下面这张图介绍一下,我是医药公司,我只关心自有品牌。怎么玩大数据,第一步还是抓取数据,抓取数据的方式很多,爬是方式,买也是。第二步,数据清理,我抓了五十万条数据,抽五万条做分析,基于五万人做人群画像。理论上大数据是基于所有样本的分析,样本等于总体,但是发现抓取数量太大的时候,再抽样分析,这个不符合大数据的理念,但现在可以做做试试看,探索一下,不然太费钱和人力。现在我们能抓取在所有社交媒体的用户的声音,做完所谓的社会化聆听之后也能做定量定性的分析。 

刚才讲的都是快消,好像都是OTC,其实你的专业产品也有很多人在网上留下他关注你的足迹,比如用户在搜索这个产品,他关注什么,关注疗效还是副作用,从用户搜索行为中间,我们发现的问题。我们能做用户画像,也能看用户分布在什么区域。我的片子上随便举了一个例子,赫赛汀,是一个专业的单抗产品,每个月有1000多次搜索,我们看看用户到底在关注什么。 

未来的大数据希望做成什么样?就是基于用户的全网线上访问行为,我们给他做统计学的聚类和机器学习分类方法,把用户分成很多的类,然后根据他的客群规模,来做进一步的分析。如果能实现这个,对现有的传统研究方法是一个巨大的提升。 

下面说一下大数据在医药市场研究行业应用的限制因素。第一点就是数据源和成本,不展开细说了,结论就是成本很高。第二点,客户对大数据的认同度和期望,这个需慢慢培养。第三,知识和人力储备,今天我们传统研究人员不太具备对大数据做分析的能力。大数据能够做什么样的分析,对我们来说是完全不同的世界,所以我们需要虚心学习,提高自己。另外一点,我们希望从电商行业能够获得一些他们已经先行的大数据经验,借鉴应用到我们医药行业里面来。

在这么一个变革的时代,我们传统市场研究的人员价值何在?无论传统研究,还是创新的大数据分析,还都是为营销服务。营销的对象无论患者还是医生,都是活生生的人。机器不能代替人。研究人员的价值在于对人的观察,对人性的观察,市场研究永远会有他自有的价值。我今天的汇报就这么多,感谢各位!


友情链接
中国信息协会    国家统计局    涉外调查许可证办理    中国数据分析师官网    APRC    ESOMAR    GRBN    
 
CMRA微信公众号   CMRA微信号

关于协会 | 会员专区 | 招聘信息 | 联系我们

地址:北京市东城区东四十条21号北京一商集团大厦308室 电话:010-64087451

Copyright 2015-2024 www.cmra.org.cn All Rights Reserved

中国信息协会市场研究业分会 版权所有 京ICP备18038404号-4 京ICP备18038404号-5