大数据语境下营销洞察手段的微创新 - 专题报道 - 会议交流

会议交流

当前位置：网站首页 > 会议交流 > 专题报道 > 大数据语境下营销洞察手段的微创新

大数据语境下营销洞察手段的微创新

发布时间：2018-10-31　　访问量：2425

吴长江：各位下午好，下面我给大家介绍一下我们公司在大数据新领域文本分析这一块的经验。我们主要专注于文本分析，包括成熟的文本分析系统、庞大的词库资源、高效的爬虫系统、文本分析可视化系统。在文本分析这一块它是蛮复杂的，为什么呢？是有几大方面，我自己个人，第一个除了具有大数据特性之外，它还有它自己的特点，它的复杂度太多了，第一个记录数据里面有5%是结构化数据，95%是非结构化数据，这样一个空间就给了复杂度太多的可能。第二我们在做调研的时候，我们往往看分析的长度，对于文本分析是基于G和T来做判断的。另外是它的高维，从分析的角度来讲，还是从可视化的角度来讲，还是算力的角度来讲，都是比较大的问题，对于一些关键点并没有非常完美的方案，更多是不同技术的嵌套和叠加，在应用的时候基本主流分析方法都已经纳入进去了，我们也试着把图像分析里面常用的CNN也纳入到我们体系里面去，市场的效果也不错。

文本分析这一块它从影响的方面来讲，包括它的领域、语言，以及它在跟空间、跟时间的变化来讲还是非常多的，在座的做工程性项目的时候，交付的时候，垂直领域的这些支付是非常关键，它直接影响到最基础的东西。对于文本分析这一块我的感觉是说，分成五大方面，第一是算法，算法赋予整个系统思维的能力，第二个就是语调，训练语调，是给这个系统判别能力，第三个就是可视化，可视化这一块非常重要，它赋予这个系统沟通能力。另外还有一个算力，它的设备是非常不错的，在这些点上都有很多可以创新的地方，我就找了一个更是跟今天会议场景的一些点做了融合，第一是云词网，第二个是与用户画像大数据的联合分析。下面演示一下，这个大家很熟悉，这是一个云数云词网，这个云词很漂亮，是我们项目里面拿出来的时间切片数据，看的话就感觉有一些问题，第一很客观，第二个可以用它自己的颜色做区隔，它们都是断头数，这张图片所携带的信息是非常有限的，更多是词的本身和词的量级信息。第二个当这么多信息一下送到你面前的时候，人在进行处理或者短暂的记忆都会有很大的困难，所以我们做了云词网，我们数据的来源是从电商上抓取的，以某种功能为特征来去细分的抓取数据，它的应用场景有很多。假设这个是护肤品，有的企业想做一个价格是在一百到两百之间的产品，他想了解这个产品销量单价具体分布，以及其他的产品特性有哪些，这个是通过文本分析得到的数据。这里来看这一些数据，我不知道大家能不能看得清楚，前面L是做的分层，这个就是单价，单价就是它的标签，标签下面又做了分类，后面的几个数字是指SKU的数量，单价在100到200之间SKU是有86个，这个可以展现它有品牌，单价的分布是什么样子以及月销量，包括产品的特性、口碑、适用场景，这些分类是通过文本分析的方式来去做的。看到这儿之后我们的信息还是不到位的，再往下看想了解一下到底是哪些品牌，这个是对品牌的细分，本土品牌在这里有49个，主要是这三个品牌，颗粒度在这里看到品牌，具体做项目的时候是要看到SKU是什么样子，这个SKU后面具体的分类信息是什么。这个展示页比较窄，我们可以做一下调整，这是单价的情况，然后看月销，月销分为三个细节，再往下可以做细分。然后再看功效，功效下面又做了第二组分类，再往下面产品机理分为这些内容，从信息上进行了规整，在展示上可以分为上阵和下阵，同时在颗粒度方面最细的可以展示到SKU的信息，这个系统它的柔性还是比较大的，这是我们可视化的一种方式。这是另外一种展示方式，就是解析这些品牌以及具体属性之间的关系，这个里面会出现一些中心点、副中心点，对于竞争的观察来讲，会看他们之间的距离有哪些，品牌之间的特点有哪些，可以看全局数据，也可以看切片数据，如果对哪个感兴趣的就可以把鼠标放在这个地方，然后就有局部的展示，也可以进行其他更有趣的操作，这就是我们在可视化方面的系统展示。我们做文本分析以后要了解它背后是什么样的一些人，仅仅用文本分析的数据是无法达到这样的目的，我们把文本分析也和搜索数据、地理位置数据结合在一起，可以对这个用户进行画像。维度是很多的，包括基本属性、消费场景、位置属性、信用屏风和兴趣爱好，这个人他的需求是什么，竞争态势是什么，这些消费者他是什么样的人，这样再去做营销建议的时候，就更加能够把这些信息整合起来，提供的信息更加实用。

下面再看一下文本分析在线调研系统的结合，我们公司有自己的在线调研系统，它的特点可以满足各类应用场景，主要想讲的是语音问卷，我们在做问卷的时候，往往会有一些开放题，如果在线的情况下他去敲，他的耐性是不够的，肯定会有很多信息的流失，如果给他另外的一种方式，比如说去录音，这样收集的信息就会多一些，我们的页面可以采集他的语音，然后进行语音识别，最后可以实现自动编码。我分享一下我们做下来的经验，自填答卷同样的被访者，单题人均编码总数是1.9个，而语音答题单体编码量达到了2.6个。第二个就是对于我们来讲，有一个问题是在语音解析、语音识别这一块，我们是用语音识别的HM做的工作，这部分工作对于后面分析的影响是比较大的，第一不同厂家后面的识别率是不一样的，如果你做这一块东西的时候，可以做一些对比，看哪些领域和哪种语音识别系统更加贴合，要做这个测试，我们测试下来，除了跟厂家之外，还跟题目类型、调研行业很有关系。这个展示我们是做了这些类型产品的测试，我们看到桶装水是最高的，游戏是最低的，包括智能家居，我们判断说越熟知的品类识别率越高。另外是回答的内容，比如说是什么品牌，它的识别率是蛮低的，再往上是什么时候在哪里，就会高一些，还有喜欢不喜欢这样题目的识别，语音识别和文本识别还是很不一样的，文本越长的识别率就会越高，我所要介绍的内容大致就是这么多，谢谢大家。

主持人：感谢吴总，接下来有请浩顿英菲市场信息咨询有限公司合伙人李光明先生，为我们发表题为《用户共创，助力品牌新方向》的主旨演讲。

友情链接

中国信息协会国家统计局涉外调查许可证办理中国数据分析师官网 APRC ESOMAR GRBN


CMRA微信公众号		CMRA微信号

关于协会　|　会员专区　|　招聘信息　|　联系我们

地址：北京市东城区东四十条21号北京一商集团大厦308室　电话：010－64087451，64087991