ntry-header

2018年12月7日,清华大学统计学研究中心召开“2018年清华大学统计学博士生论坛”,论坛举办顺利圆满,反响热烈。博士生论坛为青年统计学者提供了一个学术交流的平台,以提高专业知识,提升专业素养。来自清华大学统计学研究中心的14名在读博士生参与了此次论坛,博士学者们根据个人的研究方向,分享了他们的研究成果以及在研究过程中遇到的问题。在场学者们积极发言,分享观点,讨论热烈。

余丽珊-A new method for automatic medical coding

 

蒋斐宇-Spurious long memory in RCOV: testing and estimation

 

刘朝阳-Mendelian-Complex Comorbidity Analysis using Chinese Electronical Medical Record

 

黄伟清-A finite mixture of generalized linear model with random effects to identify cancer driver genes

 

李艺超-Simultaneous topology and loss tomography via a theme dictionary model

 

李杰-Distribution free simultaneous confidence bands for the stationary distribution function of time series

 

徐嘉泽-Simultaneously Chinese word segmentation and named entity recognition via advanced word dictionary model

 

林毓聪-Towards building a machine learned medical knowledge graph – Extracting relations from online knowledge sources

 

郭瀚民-Sufficient dimension reduction with optimal transformation

 

单娜阳-Identification of trans-eQTLs using mediation analysis with multiple mediators

 

张园园-Two-step estimation for time varying ARCH models

 

袁正-An unsupervised method for word segmentation and term recognition in Chinese medical records

 

钟晨-EM algorithms for density estimation following group testing

 

张心雨-On the least squares estimation of TAR model with two threshold variables

 

按照博士生培养方案,中心二年级及以上的博士生每年都要汇报自己的研究进展。作为统计学研究中心的品牌系列活动之一,清华大学统计学博士生论坛给在读博士们提供了一个展示自己科研成果和学术沟通的平台,为师生搭建了交流分享的桥梁。大家在论坛上积极提问,切磋技艺,相互交流,受益匪浅。

#post-12019
ntry-header

2018年12月06日,【数据科学论坛】在清华大学伟清楼209室成功举办。本次报告邀请到阿里巴巴集团的杨红霞博士。报告由清华大学统计学研究中心的俞声教授主持。本次报告的主题是“Extremely Large Scale Graph Representation Learning in Practice”。

杨红霞博士

信息与信息是相连接的,我们可以用一个图来研究用户与商品、商品与商品之间的关系。超大规模的图模型的研究和应用在大数据公司中扮演着越来越重要的角色,其中一些与深度学习相结合的图模型方法,已经在很多商业案例中展现了很不错的结果。在此背景之下,来自阿里巴巴集团的Hongxia Yang博士为我们分享了阿里的算法推荐团队的一些学术研究和实际应用。杨博士的报告主要分为以下四个部分:

一、阿里巴巴的情况介绍

杨博士首先向我们介绍了阿里巴巴的企业愿景和商业生态系统:一方面,阿里巴巴想要建立起一个能够让客户相会、工作和生活的平台;另一方面,通过丰富的商业生态系统,阿里巴巴拥有着非常丰富而且种类多样的数据,这些数据可以为阿里巴巴的科研提供强有力的支持。

二、Graphical Embedding和相关的研究工作

在这一部分,杨博士首先为我们介绍了图模型和Graph Embedding:图模型能够直观地表示信息之间的联系;而Graph Embedding结合了图模型和深度学习,用向量表示图模型中的节点。Graph Embedding为推荐、可视化等提供了强有力的工具。接下来,杨博士简要介绍了两篇相关的工作:(1)Graph Embedding in Fraud Detection;(2)Graph Embedding in Entity Recognition。

论坛现场

三、Graphical Embedding在当前实践工作中的应用

在实际应用中,杨博士重点介绍了Graphical Embedding在个性化云主题上的应用。包括云主题标题自动生成,云主题主图自动生成,云主题知识卡/攻略自动生成等。在很多实际应用的场景中,通过相关机器学习算法生成的结果比人工编写的效果更好。

四、未来的挑战和想法

在最后一部分中,杨博士介绍了当前Graph Embedding遇到的一些挑战:(1)包括当图中的点、边的个数以及点的Embedding维度很高时,计算复杂度会相当高;(2)在实际的应用中,每个节点具有特异性,包含各种各样的属性,边的种类也多种多样;(3)随着数据流的更新,如何实时更新图结构。(4)Scalable Bayesian deep learning,同时,杨博士也提出,统计专业的学生也可以在其中有所作为。

在本次讲座中,杨博士通过很多的实例,生动地介绍了Graph Embedding的相关理论及其应用。在讲座的最后,杨博士还给中心的博士生提出了一些建议:学习一些机器学习的课程,并且提升自己相关的编程能力,例如tensorflow, map-reduce等等。

与会人员合影

 

#post-12018
ntry-header

2018年11月29日,【统计学论坛】在清华大学伟清楼209室成功举办。本次报告邀请到哈尔滨工业大学的李科教授。报告由清华大学统计学研究中心的杨立坚教授主持。本次报告的主题是“Probability and Statistics in our Quantum World”。

李科 教授

首先,李教授从量子力学的数学基础出发,解释我们为什么要关心量子概率与统计。量子力学是描述物质世界的一个基本理论,而描述它的工具是复希尔伯特空间中的密度算子。密度算子实际上表示了量子的概率分布。量子的状态和变化过程人们并不能直接观察到,为了得到量子的信息,我们需要进行量子测量,即正定算子值的测度,这在物理上是可以实现的。总的来说,量子力学是人类理解世界的一种世界观,而且比传统的理解更加基础和一般,是一个很朴实的理论。它不仅适用于电子原子等微观理论,也可以发展到生活中可以感知到的事物甚至宇宙等更多领域。物理学家认为我们的世界就是一个量子的世界。可以看出,这个理论也是非常数学的,统计和概率蕴含其中,所以说量子力学本质上是一个统计的理论,这也解释了我们为什么要研究量子概率和统计。

论坛现场

接下来,李教授介绍了量子假设检验的经典理论,主要包括两个基本问题,对称和非对称。在量子假设检验理论中,我们都需要做一个量子测量才能得到相关的信息,从而进行量子推断。为了寻找一个最优测量,上世纪七十年代提出了最大似然比检验的方法。寻找最优测量的过程相当于在大的希尔伯特空间中进行一个划分,在两个态的情形下已经有了一个最优的结果,但多于两个状态时,由于有复杂的相互关系,目前还没有得出一个确切的结论。李教授还对多元Chernoff距离,Stein引理以及经典概率和量子理论中的de Finetti定理等做出了解释。

最后,李教授引用了量子力学创始人的一句名言来结束报告:量子力学始于统计,也将终于统计!

与会人员合影
#post-12015
ntry-header

为了支持日益增长的医疗大数据研究和产业需求,清华大学在统计学研究中心下成立了医疗大数据中心。中心邀请 Analysis Group (AG) 展开战略合作,共同建设该中心。2015年10月30日,近百位国内学医界、学术界、产业界和政府嘉宾出席了签约和中心成立仪式。哈佛大学统计系刘军教授、Analysis Group执行董事吴琼博士做主题发言。中国卫生法学会会长、全军肛肠外科研究所所长高春芳、国家统计局统计研究所所长万东华、北京大学中国卫生经济研究中心主任刘国恩、中国科协副主席张勤做大会致辞。尤政副校长到会祝贺。

#post-12014
ntry-header

2018年4月14日,“医疗大数据与卫生技术评估论坛”在北京文津国际酒店举办。该论坛由清华大学统计学研究中心医疗大数据中心与国家卫生健康委员会卫生技术评估重点实验室(复旦大学)联合主办。清华大学统计学研究中心的战略合作伙伴——Analysis Group作为协办单位为本次论坛提供了大力支持。

#post-12013
ntry-header

2018年11月19日,【统计学论坛】在清华大学伟清楼209成功举办。报告邀请到北京大学数学科学学院的艾明要教授。本次报告由清华大学统计学研究中心邓柯教授邀请,俞声教授主持。报告的主题是“Optimal Subsampling Algorithm for Big Data Generalized Linear Models”。

艾明要教授

报告开始,艾教授首先通过两个例子:The Gas Sensor Array Drift Data Set和The Echo Nest Taste Profile Subset为我们引入了具有典则联结函数的广义线性模型。但传统的利用Newton-Raphson方法求最大似然估计时,由于迭代次数多,计算复杂,并不适用于当今大数据的时代背景。

论坛现场

所以艾教授的团队提出了使用抽样的算法,其基于Wang et al.(JASA, 2017)提出的应用于logistic regression model的Optimal Subsampling Method under the A-optimality Criterion (OSMAC)方法,将其推广到广义线性模型中,并分别推导了其估计量equation.pdf在大样本和有限样本下的性质。基于大样本下的渐近正态性,可以将目标转化为使得方差的迹tr(equation_1.pdf)(等于equation_2.pdf的渐进MSE)达到最小,求得最优概率equation_3.pdf,为使计算更加简便,还引入了equation_4.pdf,由于equation_5.pdfequation_6.pdf无关,从而可以简化为使tr(equation_7.pdf达到最小,求得最优概率equation_8.pdf。艾教授随后针对提出的方法分别进行了模拟和应用实例验证。展示了该算法对于大型数据集在计算上的可行性,同时证明了选择不同概率进行抽样比等概率抽样更加有效。

与会人员合影
#post-12011
ntry-header

清华大学统计学研究中心16级博士生林毓聪投稿的论文《从医学文本库中自动提取疾病关系》荣获第四届全国高校研究生统计论坛十佳论文。该论文研究的医学知识图谱构建工作是其指导老师俞声教授的重要研究方向,而疾病关系的提取工作是医学知识图谱构建的核心工作之一。该论文投稿的全国高校研究生统计论坛是全国高校学生创新统计联盟最重要的活动之一,是供统计领域在校硕博生进行学术交流的大型会议。

在医学信息学中,一个高质量的医学知识图谱是自动诊疗、辅助诊疗等现代医学人工智能工作的基础工作,而知识图谱中最关键的元素就是概念之间的关系,如[二型糖尿病][导致][体重减轻]。疾病之间的关系是医学概念的核心关系之一,但由于种种困难并未在现有图谱中建立起来。此论文致力于通过文本挖掘和机器学习的方式,通过文本数据判断疾病与疾病之间的关系,为医学知识图谱的构建工程添砖加瓦。

图1:模型结构图

 

该论文通过开源医学知识网站与维基百科中医学文章作为医学文本库,扩展了关系提取的数据收集机制,从文本库中进行训练数据的采集与自动标注,并进行了多轮的数据清洗,提升样本的自动标注质量与信号强度。在模型中,论文选用含Attention机制的双向Bi-GRU模型,并加入了文章章节结构信息,并使用GRU进行自动编码,最后将同一个概念-关系三元组所对应的所有训练语句进行加权后输出。

 

该论文在关系分类中,从准确率、加权F1值与正样本准确率三个评价指标中,均达到了远超基准模型的好结果。进一步地,论文使用模型二对无标签的疾病关系进行预测,从而挖掘新的关系。论文设定0.8作为筛选阈值,在12561个超过阈值的预测结果中抽样了200个结果使用明确的医学知识作为严格的评价标准,预测准确率达到75.5%。

综上所述,该论文至少有两方面优势。从工程层面,该论文通过数据清洗、模型搭建最终获得了关于疾病关系的高质量医学知识图谱;从方法层面,该论文对传统关系提取的数据收集方式进行扩展,并采用最适合数据形式的神经网络模型进行建模。林毓聪同学表示,这是花费近三年时间完成的工作,非常感谢俞声老师的悉心指导与审稿老师的认可,日后将会更努力的在医学大数据领域深入研究,为医学人工智能贡献出自己一份力量。

#post-12008
ntry-header

2018年11月12日,【统计学论坛】在清华大学伟清楼209成功举办。受中心邓柯教授邀请,北京大学助理教授王少鹏访问统计学研究中心并作主题为“The Consequence of Biodiversity Loss: Mathematical and Statistical Approaches”的学术报告。本次报告由俞声教授主持。

王教授

 

王教授首先介绍了生态学的基本知识和概念。生态学是研究生物与其环境之间的相互关系的科学。王教授介绍了两种生态学中的分析手段,第一种是从数据出发,通过收集局部规模、低水平的数据和参数来总结、归纳并分析大规模的、高水平的模式特征。第二种是从数学理论模型出发,通过随机模拟分析,得到理论上的预测值,再和实际数据结果进行比较分析。王教授的工作主要采用第二种分析模式,即通过数学模型模拟生态数据并解释其中的现象。

论坛现场

 

物种多样性是生态学中十分重要的研究方向。有研究表明,物种灭绝率随时间变化而增加。那么生物多样性丧失会如何影响地球生态系统的功能和稳定性呢?王教授在随后的报告中介绍了生物同质化的后果。通过建立线性混合模型,进行数值模拟和分析,得出多样性的丧失会导致稳定性的削弱的结论。之后,王教授又介绍了在食物链顶端的顶级捕食者的丧失对生物多样性的影响。通过建模和数值模拟方法,得出顶级捕食者损失可降低生态系统生产力的结论。

最后,王教授介绍了多个公开的高质量的时空数据集,包括全球气候数据、全球植被生产力、北美鸟类计数数据等;并相应地介绍了在某些数据集上的一些分析结果和结论。

与会人员合影
#post-12006
ntry-header

2018年10月29日,【统计学论坛】在清华大学伟清楼209成功举办。受中心邓柯教授邀请,宾夕法尼亚州立大学暴乐教授访问统计学研究中心并作主题为“Size Estimation of People at High Risk for HIV Infections”的学术报告。本次报告由俞声教授主持。

论坛现场
与会人员合影
#post-12004
ntry-header
Pro. Shaojun Guo

2018年10月22日,【统计学论坛】在清华大学伟清楼209成功举办。受中心李东教授邀请,人民大学Shaojun Guo教授访问统计学研究中心并作主题为“ A general theory for large scale curve time series with applications”的学术报告。本次报告由俞声教授主持。

论坛现场
与会人员合影

 

#post-12003