为了支持日益增长的医疗大数据研究和产业需求,清华大学在统计学研究中心下成立了医疗大数据中心。中心邀请 Analysis Group (AG) 展开战略合作,共同建设该中心。2015年10月30日,近百位国内学医界、学术界、产业界和政府嘉宾出席了签约和中心成立仪式。哈佛大学统计系刘军教授、Analysis Group执行董事吴琼博士做主题发言。中国卫生法学会会长、全军肛肠外科研究所所长高春芳、国家统计局统计研究所所长万东华、北京大学中国卫生经济研究中心主任刘国恩、中国科协副主席张勤做大会致辞。尤政副校长到会祝贺。
2018年11月19日,【统计学论坛】在清华大学伟清楼209成功举办。报告邀请到北京大学数学科学学院的艾明要教授。本次报告由清华大学统计学研究中心邓柯教授邀请,俞声教授主持。报告的主题是“Optimal Subsampling Algorithm for Big Data Generalized Linear Models”。
报告开始,艾教授首先通过两个例子:The Gas Sensor Array Drift Data Set和The Echo Nest Taste Profile Subset为我们引入了具有典则联结函数的广义线性模型。但传统的利用Newton-Raphson方法求最大似然估计时,由于迭代次数多,计算复杂,并不适用于当今大数据的时代背景。
所以艾教授的团队提出了使用抽样的算法,其基于Wang et al.(JASA, 2017)提出的应用于logistic regression model的Optimal Subsampling Method under the A-optimality Criterion (OSMAC)方法,将其推广到广义线性模型中,并分别推导了其估计量在大样本和有限样本下的性质。基于大样本下的渐近正态性,可以将目标转化为使得方差的迹tr()(等于的渐进MSE)达到最小,求得最优概率,为使计算更加简便,还引入了,由于与无关,从而可以简化为使tr(达到最小,求得最优概率。艾教授随后针对提出的方法分别进行了模拟和应用实例验证。展示了该算法对于大型数据集在计算上的可行性,同时证明了选择不同概率进行抽样比等概率抽样更加有效。
清华大学统计学研究中心16级博士生林毓聪投稿的论文《从医学文本库中自动提取疾病关系》荣获第四届全国高校研究生统计论坛十佳论文。该论文研究的医学知识图谱构建工作是其指导老师俞声教授的重要研究方向,而疾病关系的提取工作是医学知识图谱构建的核心工作之一。该论文投稿的全国高校研究生统计论坛是全国高校学生创新统计联盟最重要的活动之一,是供统计领域在校硕博生进行学术交流的大型会议。
在医学信息学中,一个高质量的医学知识图谱是自动诊疗、辅助诊疗等现代医学人工智能工作的基础工作,而知识图谱中最关键的元素就是概念之间的关系,如[二型糖尿病][导致][体重减轻]。疾病之间的关系是医学概念的核心关系之一,但由于种种困难并未在现有图谱中建立起来。此论文致力于通过文本挖掘和机器学习的方式,通过文本数据判断疾病与疾病之间的关系,为医学知识图谱的构建工程添砖加瓦。
该论文通过开源医学知识网站与维基百科中医学文章作为医学文本库,扩展了关系提取的数据收集机制,从文本库中进行训练数据的采集与自动标注,并进行了多轮的数据清洗,提升样本的自动标注质量与信号强度。在模型中,论文选用含Attention机制的双向Bi-GRU模型,并加入了文章章节结构信息,并使用GRU进行自动编码,最后将同一个概念-关系三元组所对应的所有训练语句进行加权后输出。
该论文在关系分类中,从准确率、加权F1值与正样本准确率三个评价指标中,均达到了远超基准模型的好结果。进一步地,论文使用模型二对无标签的疾病关系进行预测,从而挖掘新的关系。论文设定0.8作为筛选阈值,在12561个超过阈值的预测结果中抽样了200个结果使用明确的医学知识作为严格的评价标准,预测准确率达到75.5%。
综上所述,该论文至少有两方面优势。从工程层面,该论文通过数据清洗、模型搭建最终获得了关于疾病关系的高质量医学知识图谱;从方法层面,该论文对传统关系提取的数据收集方式进行扩展,并采用最适合数据形式的神经网络模型进行建模。林毓聪同学表示,这是花费近三年时间完成的工作,非常感谢俞声老师的悉心指导与审稿老师的认可,日后将会更努力的在医学大数据领域深入研究,为医学人工智能贡献出自己一份力量。
2018年11月12日,【统计学论坛】在清华大学伟清楼209成功举办。受中心邓柯教授邀请,北京大学助理教授王少鹏访问统计学研究中心并作主题为“The Consequence of Biodiversity Loss: Mathematical and Statistical Approaches”的学术报告。本次报告由俞声教授主持。
王教授首先介绍了生态学的基本知识和概念。生态学是研究生物与其环境之间的相互关系的科学。王教授介绍了两种生态学中的分析手段,第一种是从数据出发,通过收集局部规模、低水平的数据和参数来总结、归纳并分析大规模的、高水平的模式特征。第二种是从数学理论模型出发,通过随机模拟分析,得到理论上的预测值,再和实际数据结果进行比较分析。王教授的工作主要采用第二种分析模式,即通过数学模型模拟生态数据并解释其中的现象。
物种多样性是生态学中十分重要的研究方向。有研究表明,物种灭绝率随时间变化而增加。那么生物多样性丧失会如何影响地球生态系统的功能和稳定性呢?王教授在随后的报告中介绍了生物同质化的后果。通过建立线性混合模型,进行数值模拟和分析,得出多样性的丧失会导致稳定性的削弱的结论。之后,王教授又介绍了在食物链顶端的顶级捕食者的丧失对生物多样性的影响。通过建模和数值模拟方法,得出顶级捕食者损失可降低生态系统生产力的结论。
最后,王教授介绍了多个公开的高质量的时空数据集,包括全球气候数据、全球植被生产力、北美鸟类计数数据等;并相应地介绍了在某些数据集上的一些分析结果和结论。
2018年10月29日,【统计学论坛】在清华大学伟清楼209成功举办。受中心邓柯教授邀请,宾夕法尼亚州立大学暴乐教授访问统计学研究中心并作主题为“Size Estimation of People at High Risk for HIV Infections”的学术报告。本次报告由俞声教授主持。
2018年10月22日,【统计学论坛】在清华大学伟清楼209成功举办。受中心李东教授邀请,人民大学Shaojun Guo教授访问统计学研究中心并作主题为“ A general theory for large scale curve time series with applications”的学术报告。本次报告由俞声教授主持。
2018年10月15日,【统计学论坛】在清华大学伟清楼209成功举办。受俞声教授邀请,哈佛大学生物统计学博士后Chuan Hong访问统计学研究中心并作主题为“PheECO: A Computational Efficient Ecosystem for EMR Phenotyping”的学术报告。本次报告由俞声教授主持。
2018年10月8日,【统计学论坛】在清华大学伟清楼209成功举办。受邓柯教授邀请,北京大学数学科学学院、统计科学中心研究员席瑞斌教授访问中心并作主题为“Community Detection by L0-penalized Graph Laplacian”的学术报告。本次报告由俞声教授主持。