使用机器学习预测新的恐龙 - 清华大学统计学研究中心

ntry-header

本文选自清华大学统计学研究中心开设的统计学辅修课程《数据挖掘中的统计方法》优秀学生成果。

小组成员：

陈显：清华大学工业工程系 14级本科生

骆升：清华大学数学系 14级本科生

指导教师：俞声

就我们所知，每年都有新的恐龙被发现，于是我们希望能够利用机器学习的方法，来帮助古生物学家发现新的恐龙及其图像，并且预测新的恐龙的特征和数据。

那么如何用机器学习的方法“发现”新恐龙呢？我们想到机器学习里面有一类模型叫做生成式模型，可以靠输入的图像样本来生成新的图像样本，那么我们就可以利用现有的恐龙图像生成新的、现在还没有被发现的恐龙图像了。生成式模型中最火的，便是生成对抗模型（Generative Adversarial Networks），下面简称GAN。我们就考虑使用GAN来“发现”新的恐龙了。

除了新恐龙的图像，我们还希望能够通过控制用来生成新恐龙的图像样本，来控制得到的新恐龙的属性（如身高、食性等），所以我们挑选好想要的属性，使用聚类将具有类似属性的已知恐龙图像挑选出来，并放入GAN里跑。

在得到新恐龙的图像后，我们使用图像识别，从图像中获取恐龙的一些属性（如食性、生活地区等），与挑选图像时使用的属性相比较。同时，我们希望能得到其他属性，如恐龙的身高，因此我们将从图像识别中得到的恐龙属性，放入机器学习的回归和分类中，发现最后的结果是无法预测，也就是说光从图像中无法获取恐龙的身高体重等数字的信息。

GAN原理简介：

相当于有两个人，生成者负责生成图片，区分者负责区分图片。两人互相较量，互相训练，当生成者生成的图片与输入的样本无法被区分者区分出来的时候，我们就认为生成者生成的图片已经可以“以假乱真”，也就是说，我们认为此时GAN已经可以生成新的样本了。

我们认为，通过GAN生成的图片中可能会有未发现的恐龙，通过对这些图片做图像识别，就可以预测出这些未发现的恐龙的特征。

收集数据：

我们主要使用python编写爬虫从互联网上搜集数据

1、获取所有恐龙的名单

在www.dinosaurpictures.org这个网站上就已经可以得到1082种恐龙的名单了

2、获取恐龙图片

2.1 在www.dinosaurpictures.org这个网站上我们可以找到总共九千多张恐龙图片，并且每张图片还能带有恐龙的名字作为标签

2.2 在www.newdinosaurs.com这个网站上我们可以找到总共六百多张恐龙图片，每张图片也有名字作为标签

2.3 cn.bing.com/images这是个图片搜索引擎，上面搜索每个恐龙的名字都能得到很多这个恐龙的图片，但是这个搜索引擎有着很好反爬虫机制使得我们无法把全部的搜索结果下载下来，不过每个搜索结果我们都还能下载到二十到三十张恐龙图片

最终我们搜集到了总共三万多张恐龙图片

3、 获取恐龙信息

我们希望能得到恐龙的一些现有属性，因此我们从网页上抓取文本信息，主要有恐龙的生活地区、食性、身高、体长、体重、生活时期和恐龙所属的亚目、属、亚属和种。

3.1 维基百科

维基百科类似于百度百科，但是它的信息量要远大于百度百科，同时更加可靠。我们从维基百科的信息框、分类表和文章内容中抓取了如图信息，合成了一个数据集。

3.2 百度文库和百度百科

从百度文库中我们找到一个含恐龙属性的列表，并将它填到了数据集中。从百度百科中我们也爬取了信息框，但是由于信息框所含信息量较杂，对我们有帮助的信息较少，因此在最后我们选择放弃使用百度百科。

3.3 其他网站

我们还从国内外的一些恐龙专题的网站上找了一些恐龙的属性，挑选部分放入数据集。

http://www/zhklw.com/

4、预处理：

4.1 图像预处理

把黑白图剔除、把图片格式全部转换成jpg、把图片全部裁剪成统一尺寸，由于程序和硬件的限制，我们这里设置输入的图片尺寸为96*96，输出为48*48。

4.2 数据预处理

我们通过观察数据的分布，判断是否有异常点并进行去除。由于得到的数据有缺失值，我们通过已有的知识，对缺失的食性和地点作这样的判断：如果两个恐龙所属物种相同或相近，则它们是食性和地点有很大可能为相同的。通过这个规则我们填补完食性和地点的缺失值。

对于恐龙身高、体重和体长的缺失值，由于这部分数据的采集具有一定不可靠性，我们使用机器学习对缺失值进行填补。我们通过对近似密度和长高比的进行分类，将恐龙通过一定规则分为近似密度和长高比不同的几类。由于使用软件对随机森林的运用有限制，我们选择使用决策树进行分类。

使用决策树分类的规则，family为属

5、聚类挑选样本图像

样本图像是来自各种各样的恐龙，恐龙之间不同的形态差异会成为GAN结果的不可信原因。因此我们对样本进行了聚类挑选。聚类即为通过一些属性的相似性，将样本分为几个类。我们挑选（亚洲，食肉性，鸟臀类，高5米）作为目标属性，使用聚类将具有相似属性的恐龙挑选出来，放入GAN进行识别。

其中为了保证聚类可行性，我们将亚目属性进行简单分类合并为4组亚目组，将地点属性改为各大洲大致的经纬度。

6、运行GAN

使用带有显卡GeForce GTX 980的电脑用所有三万多张图片来跑300轮，总共花了十几个小时。我们还用聚类挑选出的的图片来跑GAN，以期望得到不同的结果。结果如下：

我们从得到的多个图像中挑选看起来比较像真正的恐龙的图像，结果如下：

比较以上图像，我们能发现使用聚类后产生的图像更可信，同时这些图像上的恐龙更像来自同一种类。使用全部图像得到的新恐龙形态差异较大，并且细节比较失真。

7、图像识别

使用卷积神经网络（CNN）对得到的所有图像进行图像识别，结果为（欧洲，食肉性，兽脚亚目，侏罗纪）。能够看出地点和亚目属性与我们聚类的目标属性不同，亚目属性虽然有差异，但这两种亚目都在一个亚目组里，我们在聚类的时候正是对这一组进行聚类，因此结果是可信的。而地点属性可能是由于亚洲和欧洲经纬度比较接近所导致。

8、预测新恐龙的其他属性

除了通过图像识别得到新恐龙的信息，我们还希望能够得到恐龙的体长、身高和体重。所以我们尝试对已有的属性进行分析，通过如线性回归和SVM回归对三个数据进行预测，但是结果非常不理想。我们试着将目标属性使用聚类分成几个小区间，再次使用分类进行预测，然而在训练集中的准确度也是非常不理想。因此我们放弃了这个想法。

#post-11935

ntry-header

2018年4月16日，【统计学论坛·特邀报告】在清华大学主楼接待厅成功举办。报告的主讲人是美国国家科学院院士、斯坦福大学统计系王永雄教授。作为清华大学107周年校庆的系列活动之一，王永雄教授的特邀报告从信息发布伊始即受到校内师生的广泛关注，活动现场更是气氛热烈，座无虚席。

本次报告的主办单位为清华大学工业工程系统计学研究中心，并由统计学研究中心副主任邓柯副教授担任主持人。报告的题目是Mini-batching in Markov Chain Monte Carlo Inference。

王教授首先介绍问题背景。即在抽样问题中，如果目标分布不能很容易地直接抽样，用Markov Chain Monte Carlo (以下简称MCMC) 方法可以有效地解决这个问题。构造一条马氏链，使得它的极限分布是目标分布，迭代多次之后可以近似地得到目标分布的样本。Metropolis-Hastings (MH) 算法是 MCMC 方法中最常用的算法之一。当我们要抽参数的后验分布时，M-H 算法计算 M-H ratio 的时候需要用到全部数据。但是当数据量很大时，这个方法就不会有很高的效率。如果用 mini-batch 的方法，每次只需要计算少量数据的信息，可以有效地提高效率。由此引入了报告主要研究的问题 mini-batch tempered MCMC。

实现这个方法运用了统计学里经典的参数扩张 (parameter augmentation) 的办法。通过构造一个比参数空间更高维的分布，并在这个分布上运用mini-batch M-H 算法，抽到的样本取边缘分布，即可得到我们想要的参数的样本。通过数学方法可以证明，得到样本的极限分布是参数后验分布的一个回火版本 (tempered version)。随机模拟和实际数据两个例子表明，MINi-batch Tempered MCMC (MINT) 算法能得到和 Tempered MCMC 方法类似的样本数据，但是计算和用时方面有显著地提高。

第二个问题是由于 MINT 算法抽样得到的样本并不是真的后验分布，只是后验分布升温后的一个版本。如果我们想要得到真实的后验分布的样本，王教授介绍了 equi-energy (EE) sampler的办法(Kou, Zhou and Wong, 2006)。原来的EE方法可以有效地解决分布多峰(multi-mode)的问题，但是对后验分布抽样时，MCMC方法每一步还是需要所有数据的信息。把 MINT 和 EE 方法结合起来，可以得到 MINi-batch Tempered Equi-Energy (MINTEE) 算法。MINT可以有效地从高温分布中抽样；EE方法要求从最高的温度开始，在每个温度中都抽相应的马氏链，并不断更新EE set，最低温分布就是目标分布，可以得到想要的样本。同样地，MINTEE 方法在实际应用中有很高地效率，计算复杂度也比EE方法小。

第三部分王教授介绍了 cone move 的方法。在机器学习里面流行的Langevin Dynamics方法，每次马氏链更新的时候，proposal distribution 的期望会沿着梯度方向，而这种方法会使 proposal distribution 的反向概率 (reverse probability) 很小，从而导致 M-H ratio 也非常小，马氏链很难转移出去，抽样效率低。王教授介绍的方法是提出一个新的proposal distribution，空间上像是把两个圆锥反向按顶点接在一起，它在正负梯度上有着相同的概率，这样每次马氏链的转移是可逆的(reversible)，效率会更高一些。

最后的提问环节，老师和同学们讨论了和 MINT 方法相关的问题：能否把 MINT 方法运用在 Gibbs 抽样的框架之下？MINTEE 方法中，不同温度下的马氏链可不可以在不同温度之间进行转移等等。王教授回答到，在Gibbs抽样中运用mini-batch方法是十分有趣也十分有挑战的问题，期望看到更多的相关的进展。对于后一个问题，在parallel tempering方法中，多条马氏链可以在不同温度之间交换，而在EE sampler方法里，高温的马氏链可以帮助指导或影响低温的马氏链，低温对高温是不会有影响的。

世界范围内统计学科顶尖院士的特邀报告是统计学论坛的传统活动，每一学年均如期举办，它为清华的师生提供了一个和学术大咖近距离沟通交流的机会，获得一致好评与称赞。

#post-11934

ntry-header

2018年4月14日，医疗大数据与卫生技术评估论坛在文津国际酒店举行，本次论坛由清华大学统计学研究中心医疗大数据中心和国家卫生健康委员会卫生技术评估重点实验室（复旦大学）联合主办。清华大学统计学研究中心的战略合作伙伴——Analysis Group，作为协办单位为本次论坛提供了大力支持。哈佛大学生物统计系系主任林希虹教授，人力资源和社会保障部社会保险事业管理中心熊先军书记，美国国家科学院院士、斯坦福大学王永雄教授，北京大学刘国恩教授，清华大学邓柯副教授，Analysis Group吴琼博士，复旦大学陈英耀教授，北京大学人民医院王杉教授，哈尔滨工业大学王亚东教授课题组刘博副教授，中电数据服务有限公司首席应用官肖辉先生，英国谢菲尔德大学Praveen Thokala教授，清华大学张学工教授，Analysis Group韩思蒙博士，杜兰大学施李正教授，天津大学吴晶教授，国家食品安全风险评估中心风险监测部肖革新副主任等医疗领域学界和业界人士参加了本次论坛，并展开了热烈的讨论。

首先，清华大学统计学研究中心副主任邓柯副教授作为主办方负责人介绍到场嘉宾，并向本次论坛的组织方和出席嘉宾致谢。

随着哈佛大学生物统计系系主任林希虹教授的开幕致辞，论坛正式拉开帷幕，林教授列举了数据科学鼎盛时代，医疗领域的几大方向，如人类基因组计划、电子病历数据等，充满挑战和机遇，希望我们能迎难而上，共同将人类医疗向前迈一大步。

作为本次论坛正式报告的首位出场专家，人力资源和社会保障部社会保险事业管理中心熊先军书记，根据30年的从业经验，从卫生经济学（PE）是什么切入，论述了卫生经济学在政府决策中的重要作用。

随后，美国国家科学院院士、斯坦福大学王永雄教授对电子病历中的精准医学的研究谈了几点自己的思考。从电子病历中抓取的临床数据和人类基因组测序的基因数据有机结合，是未来精准医疗的突破点，国内目前亟需加大财政投入力度，建设人群基因库。

北京大学刘国恩教授从中国2010年之后经济增长缓慢的现象说起，分享了不同学者对经济形势的看法，进而从经济学角度肯定了医疗在未来经济学中的重要地位。

清华大学邓柯副教授则从医学自然语言处理的统计学方法为切入点，介绍了具体的无监督的文本分析方法在电子病历中的成功应用，带大家领略到统计模型在处理医疗电子病历中的重要潜力。

业界专家Analysis Group的吴琼博士，介绍了在卫生技术评估中识别最优人群的重要性和具体实现方式，寻找满足最少标准的最大目标人群，对临床试验、决策制定、医疗服务都是非常重要的。

复旦大学陈英耀教授从中国卫生技术评估的发展现状和展望展开设想，从卫生技术面临的挑战和引导案例出发，阐述了卫生技术评估需要综合考虑诸多因素，有效性评价、伦理评价、评估和评审等，最后提出希望未来厘清各方利益关系，通过需求倒逼HTA发展的展望。

北京大学人民医院的王杉教授作为论坛下午的第一位演讲嘉宾，从实际应用出发，阐明了大数据在医疗领域的应用场景，如达芬奇机器人、智慧人工器官、智慧医政等，并从数据共享和如何有效提取数据方面介绍中国了医疗数据带来的特殊性和挑战性。

随后，清华大学的张学工教授对中国医疗面临的挑战进行了补充，根据自身的切实体会阐述了中国医疗不够精准和医疗不够普惠的问题，并提出一些建议，希望能改革医疗数据管理制度，从建立健全“个人大数据”和“全民大数据”方面入手，解决医疗大数据共享的法律困境。

中电数据服务有限公司首席应用官肖辉先生，首先介绍中电数据的发展现状，主题是大数据、大健康、大发展，围绕惠民、惠企、惠政这一总体规划，数据安全这一核心，希望能通筹建国家公司、地方分公司以及与国外公司合作，促进产业的发展。

来自英国谢菲尔德大学的Praveen Thokala教授则分享了英国的健康技术评估的制度和方法，对我国相关领域的研究和发展有重要的借鉴意义。

哈尔滨工业大学王亚东教授课题组的刘博副教授陈述了目前我国基因组研究的现状，分析了大规模基因组快速比对的技术挑战，并介绍了在相关领域的最新成果。

最后的演讲者是来自Analysis Group的韩思蒙博士，韩博士介绍了医疗大数据在真实世界的应用场景，通过大量案例的分析，总结出了医疗大数据、统计学方法和计算平台的支持是证据产生的重要手段。

精彩纷呈的圆桌讨论环节使论坛的气氛达到高潮。参与嘉宾分别是王永雄教授、施李正教授、吴晶教授、肖革新副主任以及肖辉先生，邓柯副教授担任主持人，嘉宾们围绕中国医疗大数据的发展的挑战和机遇问题进行了深入探讨。王永雄教授认为产业和政府需要增强合作，将基因组数据整合起来；吴晶教授提到应将医保融入医疗大数据，加强中外医疗的合作；施李正教授则认为要从政府对人才的需求和提高研究质量方面解决目前的问题；肖辉提到要解决技术方面存在的问题、完善法规和相关体系；肖革新副主任希望从数据质量、数据交流、机制创新、政府决策需要、老百姓和企业的需求方面，提升未来的供给制改革。

论坛在陈英耀教授的闭幕词中圆满结束。陈教授提到，这次医疗大数据与卫生技术评估论坛是一个多学科多领域参与的盛会，为国际和国内专家交流合作提供了很好的机会，希望这个论坛能继续发展并延续，共同推进医疗和卫生领域的发展。

媒体报道：http://finance.ifeng.com/a/20180420/16161350_0.shtml

（来源：凤凰网）

#post-11933

ntry-header

#post-11932

ntry-header

2018年4月13日，美国国家科学院院士、斯坦福大学统计系王永雄教授访问我中心，并同中心教员座谈。

#post-11943

ntry-header

为了贯彻落实《中华人民共和国国民经济和社会发展第十三个五年规划纲要》和《促进大数据发展行动纲要》，积极响应国务院办公厅《关于促进和规范健康医疗大数据应用发展的指导意见》和人社部关于医保目录准入谈判的新举措，清华大学统计学研究中心医疗大数据中心携手国家卫生健康委员会卫生技术评估重点实验室（复旦大学）于2018年4月14日在京举行“医疗大数据与卫生技术评估论坛”。

近年来，大数据发展受到社会的广泛关注。医疗大数据，以其规模大、数据结构复杂，和多样性来源的特点，为健康产业带来了新的机遇与挑战。2017年医保目录调整，首次引入医保目录准入谈判机制，为我国的卫生技术评估提出了新的目标和要求。为了积极支持健康中国的建设，本次会议将围绕医疗大数据与卫生技术评估在中国的发展与前景，国际前沿发展与趋势，相关领域的创新研究，并紧密结合实际案例为与会者提供交流、分享的平台。

会议主题：医疗大数据与卫生技术评估的发展与展望，为健康中国助力

会议时间：2018年4月14日 8:30-17:30

签到时间：2018年4月14日 8:00-8:30

会议地点：文津国际酒店（地址：北京市海淀区成府路清华大学南门）

会议日程：

时间	报告人	报告题目
08:30-08:40	林希虹教授哈佛大学	致开幕词
08:40-09:10	熊先军书记人力资源和社会保障部社会保险事业管理中心	关于卫生经济学在医保应用的思考
09:10-09:40	王永雄教授斯坦福大学美国科学院院士	关于电子病历在精准医学研究中的几点思考
09:40-10:10	刘国恩教授北京大学	经济增长与健康中国
10:10-10:40	合影&茶歇
10:40-11:10	邓柯副教授清华大学	医学自然语言处理的统计学方法
11:10-11:40	吴琼博士 Analysis Group	识别最优目标人群及其在卫生技术评估中的应用
11:40-12:10	陈英耀教授复旦大学	中国卫生技术评估发展现状和机遇
13:30-14:00	王杉教授北京大学人民医院	明日医疗—大数据时代医院之机遇和挑战
14:00-14:30	张学工教授清华大学	对未来医疗的若干技术和策略探讨
14:30-15:00	肖辉首席应用官中电数据服务有限公司	做好健康医疗大数据安全保障工作
15:00-15:20	茶歇
15:20-15:50	Praveen Thokala 博士英国谢菲尔德大学	Health Technology Assessment in UK
15:50-16:20	王亚东教授哈尔滨工业大学	组学数据的有效利用
16:20-16:50	韩思蒙博士 Analysis Group	医疗大数据在真实世界中的应用
16:50-17:20	施李正教授杜兰大学	圆桌讨论
	吴晶教授天津大学
	肖革新副主任国家食品安全风险评估中心风险监测部
	其他嘉宾
17:20-17:30	陈英耀教授复旦大学	致闭幕词

主办单位：

清华大学统计学研究中心医疗大数据中心

国家卫生健康委员会卫生技术评估重点实验室（复旦大学）

协办单位：Analysis Group

#post-11931

ntry-header

2018年4月9日，中国科学院数学与系统科学研究院李启寨教授访问我中心，并做学术报告。报告题目是Nonparametric Estimation of a Continuous Distribution Via GroupTesting.

#post-11930

ntry-header

研究目的：

通过统计方法，把离散的实验设计点上的结果推广到连续域上去。
研究内容：

实验在设计好的地理格点上进行，以实测值作为基准，采用超拉丁方设计，生成相应的PM2.5浓度的模拟值。
建模分析：

采用非参数统计方法，用平滑样条方差模型(Smoothing Spline ANOVA Models)来拟合模拟浓度值。
研究结果：

极大提高了计算效率,计算精度达到客户要求。

#post-11929

ntry-header

研究目的：

探究在秋季迁徙中环境因子（如食物、温度、风）如何影响白额雁飞离当前暂歇地继续前行的决定。
研究内容：

现有数据记录了白额雁秋冬季节由西伯利亚迁徙至鄱阳湖的相关情况。
咨询建议：

重新定义因变量，保留能反映从停歇到飞行状态变化的数据点并进行重新编码，舍弃多个飞行状态不变的数据点。
考虑到每只鸟儿的个体效应和时间效应，采用混合效应模型。
研究结果：

鸟儿秋季迁徙离开暂歇地的概率受距离霜冻日期的天数及地表风的影响最大。
鸟儿秋季迁徙离开暂歇地的概率与到目的地的距离表现出显著的正相关，即越往南迁飞，离开暂歇地的概率越低。

#post-11928

ntry-header

1月18日上午，“工业工程系年终总结暨表彰大会”在舜德楼顺利召开，大会对2017年度系内各项工作及成果予以总结，并表彰了在各领域表现突出的老师，为他们颁发获奖证书。我中心老师获得“2017年度考核校级优秀奖”、“2017年度科研工作优秀奖”、“2017年度教学工作优秀奖”、“2017年度人才引进和发展奖”“2017年度考核系级优秀奖”等多个奖项。

#post-11927

研究目的：

研究内容：

建模分析：

研究结果：

研究目的：

研究内容：

咨询建议：

研究结果：