【新闻动态】中心博士生论文获选第四届全国高校研究生统计论坛十佳论文

清华大学统计学研究中心16级博士生林毓聪投稿的论文《从医学文本库中自动提取疾病关系》荣获第四届全国高校研究生统计论坛十佳论文。该论文研究的医学知识图谱构建工作是其指导老师俞声教授的重要研究方向，而疾病关系的提取工作是医学知识图谱构建的核心工作之一。该论文投稿的全国高校研究生统计论坛是全国高校学生创新统计联盟最重要的活动之一，是供统计领域在校硕博生进行学术交流的大型会议。

在医学信息学中，一个高质量的医学知识图谱是自动诊疗、辅助诊疗等现代医学人工智能工作的基础工作，而知识图谱中最关键的元素就是概念之间的关系，如[二型糖尿病][导致][体重减轻]。疾病之间的关系是医学概念的核心关系之一，但由于种种困难并未在现有图谱中建立起来。此论文致力于通过文本挖掘和机器学习的方式，通过文本数据判断疾病与疾病之间的关系，为医学知识图谱的构建工程添砖加瓦。

该论文通过开源医学知识网站与维基百科中医学文章作为医学文本库，扩展了关系提取的数据收集机制，从文本库中进行训练数据的采集与自动标注，并进行了多轮的数据清洗，提升样本的自动标注质量与信号强度。在模型中，论文选用含Attention机制的双向Bi-GRU模型，并加入了文章章节结构信息，并使用GRU进行自动编码，最后将同一个概念-关系三元组所对应的所有训练语句进行加权后输出。

该论文在关系分类中，从准确率、加权F1值与正样本准确率三个评价指标中，均达到了远超基准模型的好结果。进一步地，论文使用模型二对无标签的疾病关系进行预测，从而挖掘新的关系。论文设定0.8作为筛选阈值，在12561个超过阈值的预测结果中抽样了200个结果使用明确的医学知识作为严格的评价标准，预测准确率达到75.5%。

综上所述，该论文至少有两方面优势。从工程层面，该论文通过数据清洗、模型搭建最终获得了关于疾病关系的高质量医学知识图谱；从方法层面，该论文对传统关系提取的数据收集方式进行扩展，并采用最适合数据形式的神经网络模型进行建模。林毓聪同学表示，这是花费近三年时间完成的工作，非常感谢俞声老师的悉心指导与审稿老师的认可，日后将会更努力的在医学大数据领域深入研究，为医学人工智能贡献出自己一份力量。

会议概况

2018年11月9日至11日，“国际计算统计协会亚洲分会25周年大会暨中国现场统计学会计算统计分会第二届年会”在中国北京会议中心举办。此次会议的主题为“统计计算：数据科学的挑战与机遇”。会议由The Asian Regional Section of the International Association for Statistical Computing（简称IASC-ARS)和Chinese Association for Statistical Computing (简称CASC)联合主办，清华大学统计学研究中心协办。本次会议致力于促进统计计算在现代数据科学中的进一步发展，同时也为统计计算和数据科学专家之间提供了学术交流与合作的平台。来自亚太地区的70余名学者与近百位国内专家参加了本次会议。

会议主席致辞

会议于10日上午拉开帷幕。本次会议的联合主席、中国现场统计学会计算统计分会理事长、清华大学统计学研究中心副主任邓柯教授首先致开幕词。他指出，在现如今的大数据时代背景下，统计计算面临着诸多挑战和机遇，如何更精准的分析挖掘数据，并发挥其现实意义是值得统计学者们深入思考的问题，同时也是此次会议所探讨的主题。邓柯理事长对中国现场统计学会计算统计分会的基本情况进行了介绍，希望以本次理事会为契机，加强国内外在统计计算的方面的深入合作，共同推动学术研究与交流。

作为会议的联合主席，国际计算统计协会亚洲分会主席Philip L.H. Yu教授发表致辞，他指出此次会议是两个协会共同合作，以促进统计计算的发展，并对国际计算统计协会亚洲分会的情况进行了介绍。

主会场特邀报告

本次会议的主会场邀请报告精彩纷呈，重磅云集。刚刚全职加入清华大学的美国国家科学院院士Donald B. Rubin 教授，哈佛大学统计系刘军教授，香港大学Wing Kam Fung教授，多伦多大学与北京大学双聘教授姚方教授四位统计学“大咖”在主会场做了精彩报告。首先，刘军教授为我们带来了他在贝叶斯先验分布上的研究。针对几种常用先验的现有方法，刘军教授指出：不同的先验需要不同计算策略，这使得实际操作很复杂。如果有一个整合的方法来简化抽样和优化，则可以促进贝叶斯方法在实际中的应用。基于这种想法，他介绍了一种新的先验分布 Neuronized prior，这种先验采用激活函数的形式，是对现有某些先验的整合和扩展，达到了算法和估计上的高效性，从而降低了用贝叶斯方法做模型选择的难度。

Wing Kam Fung教授针对基于重抽样的假设检验，提出了一种新的蒙特卡洛评估方法。在模拟中，循环次数通常很大，使得计算量大，这自然引发学者思考是否可以让内循环次数减小。pooling的方法正是基于这样的思想，但是这种方法的有效性还不甚清楚。Wing Kam Fung教授提出了n-times pooling resampling-based method，介绍了这种方法的理论性质，并模拟来展示。这种方法精度高、计算快，适用于对高计算量的检验进行评估。

随后，姚方教授分享了他在函数型数据上的研究。他针对黎曼函数型数据，即函数取值在黎曼流形上的函数型数据，提出了一个分析框架。采用内蕴几何的方法，介绍了intrinsic Riemannian functional principal component analysis (iRFPCA) ，得到了其估计和收敛性，并拓展至intrinsic Riemannian functional linear regression (iRFLR)，最后介绍了其应用实例。