机器学习在医药领域的应用 - 专题报道 - 会议交流

会议交流

机器学习在医药领域的应用

发布时间：2016-11-04 15:17:49　　访问量：2411

大家下午好！很高兴有这个机会和大家做一个分享。我先做一个自我介绍，我叫彭博，来自法伯科技，我其实是统计学的背景，幸运的是近十年来一直从事的是和自己专业相关的工作，我先后在著名的药企还有全球医疗领域最大的数据服务商，还有在医药的互联网公司都工作。今天我也看到台下有许多我的前同事，还有一些尊敬的客户，所以我想借这个机会，在这个新技术和新方法上，和大家做一个探讨。

我今天要分享的这个题目是机器学习技术在医药领域的应用，为什么要介绍这个题目呢？因为工作经历的原因，我发现有很多很好的工具和技术在国外在互联网都有极成功的应用。其实有些发展在生活中咱们就能体会到，以我个人的经验举例，比如在十年前我还在学校的时候，我要写一些论文和建模有关，我需要找到一些数据。这些数据怎么办呢？网上肯定是没有的，当时只有百度，而且百度才刚刚起步。我就需要去图书馆，去查很厚的年鉴，年鉴里也未必有。好不容易找到年鉴，我还需要把这些数据录入到电脑里面。但是现在肯定是不用了，用谷歌很容易能搜到许多数据，很多统计软件的包里自带有很多有意思的数据。这些进步获益于机器学习算法的一些应用，可能大家平时意识不到。像这个搜索数据的例子，我要查找什么数据，就能找到它，是受益于搜索算法的一个发展。

当然还有很多咱们平时意识不到的许多发展，像谷歌还有facebook这样的互联网巨头，在这方面前沿发展的很快，他们有很庞大的数据科学家的团队，这些团队在研发新的算法，并把这个算法应用到商业中。咱们可以在一些杂志，比如著名的科学杂志上看到facebook算法团队发表的一些论文。还有视频的运营商Netflix举办的比赛，大家平时看美剧，可能会注意到这个公司发布的一些美剧。有些公司甚至会公布他的机器学习算法的源码，让大家都参与进来。国内的互联网公司做的也非常好，但是在医药领域还很少见到这方面的应用，可能有很多方面的原因。比如之前数据量的问题，数据量可能不够大，数据的种类也有限，还有医药圈对机器学习的了解也不是很多。但是近年来，数据量增加得非常快，咱们可以接触到海量的数据了，种类也越来越丰富。机器学习技术就可以很好的把这些数据利用起来，我们也觉得机器学习技术在医药行业的发展一定是未来的一个趋势，所以有必要借这个机会，为大家介绍一下机器学习。

我们会分三方面来介绍，一方面是介绍一下机器学习的基本概念，然后我会大致的介绍一些成熟的算法，最后会花一些时间来讲两个实例，都是很多人工作中会遇到的。

首先跟大家聊一下什么是人的学习，大家肯定都了解的一个例子，比如人是怎么学习加法的，我印象中，人怎么掌握加法？先从一位数的自然数的加法做起，然后是两位数，然后把自己学到的一些方法还有它的规则应用到三位数的加法上。一旦熟练了之后，在四位数、五位数的加法就不成问题了。如果老师说让大家计算一个七位数的加法，大家可能会觉得这个我肯定不会出错，为什么要这样麻烦我呢？

机器学习也是很相似的，首先是在一个有限的资料上进行学习。就像咱们在一位和两位数上学习加法一样，他会经过一些调整，设计出一些程序，这些程序可以应用到未知的领域上。就好像三位数的加法，他会利用这些新的资料不断改进自己，再把它应用到更广阔资料上的时候，他会有非常好的表现，同时会不断的增强自己的计算能力。

我刚才提到的加法，人的学习还会涉及到一些另外的学习，这些学习就不像加法这样简单了。比如人对垃圾邮件的识别，比如打开邮箱看到很多邮件，拿起手机看到一些短信，我可以一眼就看出来它是垃圾邮件或者垃圾短信，我两个小时之后，都不记得这个垃圾邮件还有短信里面出现过哪些字，所有的过程都是靠我的本能做到的。我打开短信这一瞬间，我对它感觉到厌恶，把它拉到垃圾箱里面去。但是机器学习它在这方面做的，数据科学家在这方面有比较清楚的认识，而不是本能的认识，他对这方面已经用公式或者用程序，把邮件区别开来了，这样就有能力让机器模拟这个能力。人的本来是一些本能的或者模糊的认识，变成可以程序化的算法，这些算法在一个公司里面，二十多人三十多人上百人的团队共同运营的，上百人对这个算法他的认识不再是模糊的，而是标准化的，大家的认识是相对一致的。一旦机器学习算法建立了，24小时工作，咱们每次打开手机，垃圾短信看不到了，它被归到一类里面，比如我用苹果的手机，看到不在通信录这部分的短信的数据在增加，但是不需要看到它了，不会再打扰我。

我讲一个我在之前的工作中遇到过的一个经历，一个机器学习的应用。之前有一个电商，医药的电商，他有一个平台，上面有很多药店。患者通过这个平台，在药店下订单，买药，药店把这个药送到患者家里面。这个平台希望吸引越来越多的药店加盟他的平台，他有动机去做一些活动，比如做一些优惠的活动。如果这个患者下单30元，电商会补贴药店10元。药店怎么证明这个交易是合规的呢？他会上传一些图片，这个图片里面是有这次交易涉及的药品，或者有交易涉及到的单据。

后来我的同事发现用一个机器学习的算法，它可以自动识别这些图片，对每张图片进行判断，看看图片到底是不是合规的图片，是不是一个药品的包装，是不是一张收据，它的正确率能达到80%。这样就可以通过对这些图片的自动识别，找到一些非常严重的有作弊嫌疑的药店。这个方法还有一个优势，可以在识别的同时，同时记录下结果，把每张图片到底是否是合规的，自动记录在输出数据里。

我介绍一下机器学习被广泛接受的一个定义，对某类任务T，性能度量P，经验E，我们称这个计算机程序在从经验E学习。如果一个计算机程序在T上以P衡量的性能，用我刚才举的那个例子来说，判断这些图片是否是合规的图片，这是任务T，性能度量，这个算法识别的准确率是性能度量，经验E是被用来判断的图片，最开始是两千张图片，从两千张到五千张的时候，算法会进行一个自我完善。当它应用到一万张的时候，就会有更好的表现。机器学习还有一些对算法的分类，比较常见的就是监督式学习、非监督式学习。

常用的算法，有一个在商业上用的特别广的算法，叫协同过滤，就是第二张图片，其实咱们平时手机里面经常会接到一些APP应用的推送，很多推送都是应用了协同算法的。为什么APP会推送产品A到我手机上？我之前没有买过这个产品，他为什么会推送产品A到我的手机上？其实有一大群人，比如十万或者百万的人，这些人一起对一个集合的产品ABCD，共同表现过兴趣。我对BCD表现过兴趣，他就会把A推送给我，他是靠用户对这个产品是否感兴趣，来描述这个产品的。ABCD被他认为是相似的产品，我购买过BCD，所以他会推荐A给我。

前面提到的邮件分类应用了朴素贝叶斯算法。朴素贝叶斯应用了贝叶斯定理，涉及到一个非常简单的假设。邮件分类对垃圾邮件的判断还是非常准确的，他这个是通过在邮件或者短信里面出现的词汇判断，这些词汇共同出现，垃圾邮件的概率是多少，比较大的时候，它就把它放到垃圾箱里面。像神经网络，之前在这个会议上也有人提到，神经网络明天我的一个同事会在一个分会场具体讲一下。

这个机器学习技术不但对结构化的数据有很好的处理方法，也可以用在很多非结构数据上面。结构化的数据，比如咱们平时工作中，在数据库里面的数据，或者文件里面的数据，非结构化数据，像文本、图片、声音，有些APP，比如像网易音乐，腾讯音乐，有些音乐识别的功能，这个音乐就算是一个非结构化的数据。像图片识别，比如像这个图里面表示的，这是一个园艺的APP，比如我们对某个植物，某一类植物拍一张照片，它会识别这个植物到底是什么样的植物，它的名字是什么，它的拉丁名称的拼写是什么。至于文本，一些搜索引擎的公司，像谷歌、百度对这类数据已经做的非常好了。

我今天要介绍的两个实例，都是机器学习处理非结构化数据的，都是对文本的处理。这是第一个实例，在市场研究的领域，对医生进行细分，找到他们中间的KOL，进行有效的拜访。应用机器学了算法，可以利用网上和其他公共数据，提供一些有用的信息。我这个例子是从公开网站上，是从美国国立卫生研究院生物卫生技术信息中心还有类似的网站下载的真实数据，我举了两个医生的六篇文章作为例子。这两个医生都是各自领域的KOL，这是输入数据的格式，实际就是非常常见的TXT，这篇文章出现最多的是这个酶，排在第三的是哮喘，提供的数字已经是标准化过的。前一页没有出现indoor这个词，但是后一页出现了这个词，这是因为权重是用机器学习里面很常用的一个算法TF-IDF计算过的，之前的词频不能很好的体现文章的特点，重新计算的权重，能够比较好的体现这个文章的特点。

我用词汇的权重，可以计算这个文章的相似度。我之前举了两个医生的六篇文章，恰巧同一个医生的文章就被归到一类里面，比如D医生是一类，K医生是另一类。这个热力图代表的是这个文章之间的相似度，越浅代表越相似。利用这个文章的相似，可以判断医生的相似，医生间相似的文章越多，医生就可以被认作相似，相似的医生归到一起，结合其他一些重要信息，可以帮助到药厂判断哪些是他们的KOL，医生之间有什么样的关系，还有各自的特点是什么。

我讲一下刚才提到的TF-IDF，TF-IDF是用到词频的，把单纯的词频减去了一些，有些字在文章里面出现的频率比较高，英文比如“the”，中文像“我们”这样的词汇，“然后”、“因为”这样的词汇出现的频率比较高，但是不能代表这篇文章的特点。因为它在其他文章出现的频率也很高，它是普遍的频率高的词汇。比如这个K医生第一篇和第三篇都出现了“asthma”（哮喘）这个词，它的权重被TF-IDF这个降权。

刚才是第一个例子，我再讲第二个例子，第二个例子就跟工作非常相关了，我估计大家都会遇到。我在第一份工作的时候我就做过类似的事情，我们手上都会有很多的数据源，每个数据源它的信息都会不同。比如代表从终端汇报一些数据，这里面很多信息会变的。比如像医院名还有药店名和已有的标准化的数据不一致，我怎么把他们这些数据整合起来。在我这个例子里面，这个白色底色的这部分医院名称是我们标准化数据，新拿到的数据里面，出现了一个首都医科大学附属安贞医院的名字，我希望把它匹配到标准化的数据上。但是可以看到是做不到的，在标准化数据里面叫做北京安贞医院，但是在新数据里面有很多的字。有一个办法，把它做一个分词，分词这个技术已经比较成熟了，我现在先把它略过去，有些软件可以做到分词，结果在左边表格的上方出现。下方的1代表分词之后的这些单独的词汇是否出现在右边的这个名称里面，可以看到出现的比较高的是首都医科大学附属安定医院，跟它要匹配的词就差一个字，所以排在最上面。

下一页是经过TF-IDF对权重的调整，TF-IDF对那些普遍出现的词汇，在很多文章中都出现的一些词汇，做了一个降权。像“北京”这样的词的权重是最低的，4.7，“医院”是普遍见到的词，也一并排在后面。“安贞”是一个很少见到的词，它有一个非常高的权重。利用这些TF-IDF做出来的新权重，用计算距离的方法，把北京安贞医院排到最上面。之前排在最上面的安定医院落到了第二位。在这里面我们也应用了一些算法，之前分出来了11个词汇，所以有11维，我们把它用一个算法降到了两维，并且把它表现在了这个图上。这是新数据里的医院名称，是这个红点表示，离它最近的已经是这个标准化数据里面的北京安贞医院了。左边是计算出来的距离，北京安贞医院有最短的距离。

这两个例子讲完了，希望通过这些简单的介绍，给大家带来一些启发，让好的技术真正帮助到我们的工作。最后我的老板叮嘱我，有一句话一定要带给大家，就是“法伯科技希望让每个企业都能享受到数据带来的价值”。

友情链接

中国信息协会国家统计局涉外调查许可证办理中国数据分析师官网 APRC ESOMAR GRBN


CMRA微信公众号		CMRA微信号

关于协会　|　会员专区　|　招聘信息　|　联系我们

地址：北京市东城区东四十条21号北京一商集团大厦308室　电话：010－64087451，64087991