【学术活动】北京大学艾明要教授访问我中心并做学术报告

ntry-header

2018年11月19日，【统计学论坛】在清华大学伟清楼209成功举办。报告邀请到北京大学数学科学学院的艾明要教授。本次报告由清华大学统计学研究中心邓柯教授邀请，俞声教授主持。报告的主题是“Optimal Subsampling Algorithm for Big Data Generalized Linear Models”。

报告开始，艾教授首先通过两个例子:The Gas Sensor Array Drift Data Set和The Echo Nest Taste Profile Subset为我们引入了具有典则联结函数的广义线性模型。但传统的利用Newton-Raphson方法求最大似然估计时，由于迭代次数多，计算复杂，并不适用于当今大数据的时代背景。

所以艾教授的团队提出了使用抽样的算法，其基于Wang et al.（JASA, 2017）提出的应用于logistic regression model的Optimal Subsampling Method under the A-optimality Criterion (OSMAC)方法，将其推广到广义线性模型中，并分别推导了其估计量在大样本和有限样本下的性质。基于大样本下的渐近正态性，可以将目标转化为使得方差的迹tr()（等于的渐进MSE）达到最小，求得最优概率，为使计算更加简便，还引入了，由于与无关，从而可以简化为使tr(达到最小，求得最优概率。艾教授随后针对提出的方法分别进行了模拟和应用实例验证。展示了该算法对于大型数据集在计算上的可行性，同时证明了选择不同概率进行抽样比等概率抽样更加有效。

#post-12011

ntry-header

清华大学统计学研究中心16级博士生林毓聪投稿的论文《从医学文本库中自动提取疾病关系》荣获第四届全国高校研究生统计论坛十佳论文。该论文研究的医学知识图谱构建工作是其指导老师俞声教授的重要研究方向，而疾病关系的提取工作是医学知识图谱构建的核心工作之一。该论文投稿的全国高校研究生统计论坛是全国高校学生创新统计联盟最重要的活动之一，是供统计领域在校硕博生进行学术交流的大型会议。

在医学信息学中，一个高质量的医学知识图谱是自动诊疗、辅助诊疗等现代医学人工智能工作的基础工作，而知识图谱中最关键的元素就是概念之间的关系，如[二型糖尿病][导致][体重减轻]。疾病之间的关系是医学概念的核心关系之一，但由于种种困难并未在现有图谱中建立起来。此论文致力于通过文本挖掘和机器学习的方式，通过文本数据判断疾病与疾病之间的关系，为医学知识图谱的构建工程添砖加瓦。

该论文通过开源医学知识网站与维基百科中医学文章作为医学文本库，扩展了关系提取的数据收集机制，从文本库中进行训练数据的采集与自动标注，并进行了多轮的数据清洗，提升样本的自动标注质量与信号强度。在模型中，论文选用含Attention机制的双向Bi-GRU模型，并加入了文章章节结构信息，并使用GRU进行自动编码，最后将同一个概念-关系三元组所对应的所有训练语句进行加权后输出。

该论文在关系分类中，从准确率、加权F1值与正样本准确率三个评价指标中，均达到了远超基准模型的好结果。进一步地，论文使用模型二对无标签的疾病关系进行预测，从而挖掘新的关系。论文设定0.8作为筛选阈值，在12561个超过阈值的预测结果中抽样了200个结果使用明确的医学知识作为严格的评价标准，预测准确率达到75.5%。

综上所述，该论文至少有两方面优势。从工程层面，该论文通过数据清洗、模型搭建最终获得了关于疾病关系的高质量医学知识图谱；从方法层面，该论文对传统关系提取的数据收集方式进行扩展，并采用最适合数据形式的神经网络模型进行建模。林毓聪同学表示，这是花费近三年时间完成的工作，非常感谢俞声老师的悉心指导与审稿老师的认可，日后将会更努力的在医学大数据领域深入研究，为医学人工智能贡献出自己一份力量。

#post-12008

ntry-header

2018年11月12日，【统计学论坛】在清华大学伟清楼209成功举办。受中心邓柯教授邀请，北京大学助理教授王少鹏访问统计学研究中心并作主题为“The Consequence of Biodiversity Loss: Mathematical and Statistical Approaches”的学术报告。本次报告由俞声教授主持。

王教授首先介绍了生态学的基本知识和概念。生态学是研究生物与其环境之间的相互关系的科学。王教授介绍了两种生态学中的分析手段，第一种是从数据出发，通过收集局部规模、低水平的数据和参数来总结、归纳并分析大规模的、高水平的模式特征。第二种是从数学理论模型出发，通过随机模拟分析，得到理论上的预测值，再和实际数据结果进行比较分析。王教授的工作主要采用第二种分析模式，即通过数学模型模拟生态数据并解释其中的现象。

物种多样性是生态学中十分重要的研究方向。有研究表明，物种灭绝率随时间变化而增加。那么生物多样性丧失会如何影响地球生态系统的功能和稳定性呢？王教授在随后的报告中介绍了生物同质化的后果。通过建立线性混合模型，进行数值模拟和分析，得出多样性的丧失会导致稳定性的削弱的结论。之后，王教授又介绍了在食物链顶端的顶级捕食者的丧失对生物多样性的影响。通过建模和数值模拟方法，得出顶级捕食者损失可降低生态系统生产力的结论。

最后，王教授介绍了多个公开的高质量的时空数据集，包括全球气候数据、全球植被生产力、北美鸟类计数数据等；并相应地介绍了在某些数据集上的一些分析结果和结论。

#post-12006

ntry-header

2018年10月29日，【统计学论坛】在清华大学伟清楼209成功举办。受中心邓柯教授邀请，宾夕法尼亚州立大学暴乐教授访问统计学研究中心并作主题为“Size Estimation of People at High Risk for HIV Infections”的学术报告。本次报告由俞声教授主持。

#post-12004

ntry-header

2018年10月22日，【统计学论坛】在清华大学伟清楼209成功举办。受中心李东教授邀请，人民大学Shaojun Guo教授访问统计学研究中心并作主题为“ A general theory for large scale curve time series with applications”的学术报告。本次报告由俞声教授主持。

#post-12003

ntry-header

2018年10月15日，【统计学论坛】在清华大学伟清楼209成功举办。受俞声教授邀请，哈佛大学生物统计学博士后Chuan Hong访问统计学研究中心并作主题为“PheECO: A Computational Efficient Ecosystem for EMR Phenotyping”的学术报告。本次报告由俞声教授主持。

#post-12000

ntry-header

#post-11999

ntry-header

2018年10月8日，【统计学论坛】在清华大学伟清楼209成功举办。受邓柯教授邀请，北京大学数学科学学院、统计科学中心研究员席瑞斌教授访问中心并作主题为“Community Detection by L0-penalized Graph Laplacian”的学术报告。本次报告由俞声教授主持。

#post-11997

ntry-header

在大数据迅猛发展的时代背景之下，各行各业对统计学和数据科学专业人才的需求不断增加。清华大学统计学研究中心于2018年秋季学期开展第二期统计与数据科学研修班，为有志于从事数据处理、挖掘、分析等工作的人士提供方法和技术培训，同时也为有意在相关领域继续深造的人士奠定坚实的理论和应用基础。研修班项目信息在业界一经发布，反响极其热烈，报名、咨询的人员达百余人次。经过多轮面试和层层筛选，最终确定了三十名优秀学员在清华大学进行为期一年的课程的学习。

2018年9月20日，清华大学统计与数据科学研修班在清华大学舜德楼412会议室顺利开班。由中心李东教授主持并介绍清华大学统计学研究中心整体情况，班主任邓婉璐老师为大家详细讲解了在校研修期间的各项事宜，内容详尽周到，涵盖了在清华学习和生活的方方面面，随后中心俞声教授主讲了本期研修班的第一次课程《统计计算》，为同学们敲开了统计科学的大门。

#post-11990

ntry-header

2018年9月17日，统计学论坛在清华大学伟清楼209成功举办。受中心杨立坚教授邀请，中国人民大学统计与大数据研究院院长艾春荣教授访问我中心并作主题为“A Unified Framework for Efficient Estimation of General Treatment Models”的特邀报告。本次学术报告由俞声教授主持。

艾春荣教授，华中科技大学应用数学硕士，美国麻省理工学院经济学博士，现任中国人民大学统计与大数据研究院院长。艾教授长期从事计量经济学理论与方法、实证产业经济、实证金融、中国经济的教学和科研工作，主持或主持过国家自然基金面上项目3项，参与国家自科基金重点项目1项，在国际主要经济学期刊上发表论文四十余篇。

#post-11989