ntry-header

近日,北京生物医学统计与数据管理研究会第三届换届大会暨第八届学术交流研讨会于首都医科大学成功举办,生物医学统计领域专家学者们齐聚一堂,展开了深入的交流和探讨。会议同时为2023年度“百济神州”青年优秀论文奖获奖者颁奖。我中心18级博士研究生沈翀荣获2023年度“百济神州”青年优秀论文特等奖,18级博士研究生朱珂荣获2023年度“百济神州”青年优秀论文二等奖。

北京生物医学统计与数据管理研究会是北京地区生物医学统计、流行病学、数理统计、管理科学、医药研发等专业的科研工作者与教学工作者的学术性民间团体,由从事与生物医学统计、管理科学及相关学科的专业科技工作者于2014年发起成立。

近年来,中心师生积极参与该研究会举办的活动,宋爽、韩庭萱等多名同学在历届论文评选中获奖。

#post-14763
ntry-header

本月底,清华大学统计学研究中心优秀大学生夏令营活动成功举办。本届夏令营活动共收到来自101所高校共308份申请,经过层层筛选,来自清华大学、北京大学、北京师范大学、中国人民大学、中国科学技术大学、南开大学等多所国内知名高校的共30名同学成功入营。

中心副主任侯琳副教授致辞,并简要介绍中心各项情况。侯琳老师从中心的发展历程、师资力量、人才培养、学生活动以及国际交流等几个方面展开,针对同学们普遍感兴趣及关注的话题分享介绍。

中心研究生工作主管俞声副教授发言,并介绍其团队在医疗大数据与人工智能领域等领域的科研进展。

杨朋昆助理教授介绍其课题组在机器学习理论领域的主要工作。

张静怡助理教授介绍团队在最优传输理论领域的主要工作。

考察现场
项目展示环节
今年的夏令营活动设置除常规的考察以外,新增了项目展示分享环节,营员们结合以往参与的项目、竞赛以及数据分析案例进行简短报告,把自己的科研能力进行全面展示。

同时,夏令营活动还新增了与中心在读博士生交流环节。

经过几轮的考察,评选出优秀营员6人,荣誉营员14人。

同时也欢迎各位同学在9月份研究生推免工作中报考清华统计中心!期待与大家在清华园相聚!

师生合影

 

 

#post-14688
ntry-header

2023年5月25日,第七届北大-清华统计论坛在北京大学成功举办。论坛由北京大学统计科学中心和清华大学统计学研究中心联合发起,并作为兄弟院校间持续的品牌活动,每年定期举行。本届论坛线上线下累计有近二百人参会,除清北两校师生外,还有很多其他高校和业界的学者关注及参与。

论坛由北京大学林伟副教授主持。北京大学讲席教授陈松蹊院士、清华大学统计学研究中心侯琳副教授分别致开幕词,两位老师介绍了两校统计学科的发展历史与现状,回顾了北大与清华两校统计学科紧密合作的深厚渊源和历届北大-清华统计论坛的精彩瞬间,并表达了对未来两校深度合作、论坛能持续举办并不断提升的期望。

陈松蹊院士致辞

侯琳副教授致辞

林伟副教授主持

随后,北京大学张志华教授和清华大学苏良军教授分别代表两校作大会特邀报告。
特邀报告一:《Stochastic Optimization, Stochastic Approximation and Statistical Inference》特邀报告人:北京大学 张志华教授
特邀报告二:《Three-Dimensional Factor Models with Global and Local Factors》特邀报告人:清华大学 苏良军教授
特邀报告之后,进入海报展示与评选。来自北大、清华的8名同学就各自的研究进行了简短报告。
学生报告
而后,师生共同针对近期的研究成果,开展了热烈的交流与讨论。

海报展示

经过两校老师从海报质量、工作难度、创新性和科学性四个维度对学生的海报进行严格考核及评分,评选出4份优秀海报奖及两份优秀毕业生奖。北京大学数学科学学院20级博士研究生帅康、北京大学光华管理学院20级博士研究生凌波、清华大学统计学研究中心20级博士研究生卢伟灏和清华大学统计学研究中心21级博士研究生马沄获评“优秀海报奖”。北京大学数学科学学院18级博士研究生李翔、清华大学统计学研究中心18级博士研究生余博获评“优秀毕业生”称号。

“优秀毕业生”获奖合影

“优秀海报奖”获奖合影

#post-14639
ntry-header
陶宇心同学

近日,我中心2019级博士生陶宇心荣获国际数理统计协会(Institute of Mathematical Statistics, 简称IMS)颁发的“2023年度汉南研究生旅行奖”(2023 Hannan Graduate Student Travel Award)。陶宇心也是今年获得该奖项的唯一一位中国高校获奖者。

总部在美国的国际数理统计协会(IMS)是全球三个权威统计学学术组织之一,旨在发展和推广统计与概率的理论及应用,出版发行高质量学术期刊,如Annals of Statistics, Annals of Probability等。IMS颁发的荣誉奖项,如IMS Fellow和各类Travel Awards,都被国际统计学界高度认可。以已故IMS Fellow、密歇根州立大学统计与概率系荣休教授James Hannan命名的Hannan Graduate Student Travel Award,每年一次颁发给全球的在读硕士、博士研究生,奖励在IMS主办或资助的统计学国际会议上宣读优秀论文。

陶宇心的获奖论文“Statistical Inference for α-stable Asymmetric GARCH Models”提出了由稳定新息驱动的非对称GARCH模型,研究该模型在平稳和非平稳统一框架内的参数估计和统计推断,并提供诊断检验工具,更好地刻画了金融数据的重尾性、非对称性和波动聚集性等典型特征。论文指导教师为李东副教授。

获奖者名单(图源:国际数理统计学会官网) 三排左一为陶宇心

此外,李东副教授课题组的21届毕业生、现就职于复旦大学管理学院的蒋斐宇老师荣获本年度“国际数理统计学会青年学者旅行奖”。

获奖者名单(图源:数理统计学会官网)
二排左二为蒋斐宇
#post-14540
ntry-header

北清携手,一路“统”行

第七届北大 – 清华统计论坛

主办单位:

北京大学统计科学中心

清华大学统计学研究中心

欢迎各校师生和统计学爱好者积极参加!

Topic: Stochastic Optimization, Stochastic Approximation and Statistical Inference
Abstract: 优化在统计中不仅起着计算工具的角色,同时也是方法论的来源。这个报告将讨论随机优化的统计估计和推断问题。特别是,基于随机逼近的框架,讨论机器学习中一些重要方法,比如 Local SGD, Q-Learning等的统计性质。

Topic: Three-Dimensional Factor Models with Global and Local Factors
Abstract: This paper considers a three-dimensional latent factor model in the presence of one set of global factors and two sets of local factors. We allow the numbers of local factors to vary across individuals and show that the numbers of global and local factors can be estimated uniformly consistently. Given the number of global and local factors, we propose a two-step estimation procedure based on principal component analysis (PCA). Our first step estimates the global factors and their factor loadings, after which we estimate the two sets of local factors and factor loadings sequentially. Our second step improves the estimation efficiency. The asymptotic theories for our estimators are established. Monte Carlo simulations demonstrate that they perform well in finite samples. Applications to two datasets in international trade and economic growth reveal the relative importance of different types of factors. In the international trade application, we find that the global factors, source country factors, and destination country factors are all important. In the industrial growth application, there is no global factor and the country factors are far more important than the industry factors. The extension to the 3D factor model with covariates is also studied. 

#post-14529
ntry-header

2023年5月2日,美国国家科学院公布了新一届美国国家科学院院士与外籍院士名单,本届共有120名院士以及23名外籍院士当选。清华大学知名校友、哈佛大学生物统计系和统计系林希虹教授当选美国国家科学院院士。美国科学院成立于1863年,当选院士被认为是美国学术界最高荣誉之一。

林希虹,1984年进入清华大学应用数学系学习,1989年本科毕业后赴美留学,1991年在爱荷华大学取得统计学硕士学位,1994年在华盛顿大学取得生物统计学博士学位。1999年获得密歇根大学生物统计系终身教职。2005年,林希虹加盟哈佛大学,成为哈佛大学生物统计系和统计系终身教授,历任哈佛大学生物统计系主任、数量基因研究计划(Program of Quantitative Genomics)主任。

林希虹教授是全球知名的统计学家,在高通量基因组数据分析、复杂环境因素与表型数据分析以及大规模健康数据的统计学习与推断等方向取得了重大突破,为统计学、生物医学和公共卫生的发展做出了杰出贡献。林希虹教授杰出的学术成就得到了国际学术届广泛认可和赞誉。2002年获得美国公共卫生学会颁发的卫生统计界声望最高的Mortimer Spiegelman奖,2006年获得国际统计学届最高奖项“考普斯会长奖“(COPSS Presidents’ Award),2007年获得美国国家卫生研究院的杰出成就奖,2010年担任“考普斯委员会”主席,2018年当选美国国家医学院院士。

作为清华校友,林希虹教授多年来一直非常关心清华统计学科的发展,为推动清华统计学科建设做出了卓越贡献。热烈祝贺林希虹教授再获殊荣!期待在林希虹教授的指导和引领下,清华大学统计学科能再创佳绩,谱写新的篇章!

#post-14514
ntry-header

2023年4月20日,西南财经大学林华珍教授访问我中心,与中心教员交流,并做特邀报告,报告的题目是:Functional Data Analysis with Covariate-dependent Mean and Covariance Structures。

林华珍教授特邀报告
林华珍教授与中心邓柯副教授交流
与会教员合影
#post-14380
ntry-header

2023年3月25日,由清华大学统计学研究中心、清华大学交叉信息研究院与微软亚洲研究院联合主办的机器学习基础理论研讨会(Workshop on Machine Learning Theory and Foundations)在微软大厦顺利举办。本次研讨会邀请15名全球范围内机器学习领域的优秀学者,围绕最新的研究成果进行主题报告与分享,并针对当前机器学习领域的前沿问题展开深入交流与探讨。 微软亚洲研究院的张辉帅研究员代表主办单位致辞。他指出,机器学习近年来的发展日新月异,产生了大量应用成果,而在领域前沿的研究中,机器学习理论发挥着至关重要的作用。同时,张博士介绍了本次会议的组织者,来自清华大学统计学研究中心的杨朋昆助理教授、清华大学交叉信息研究院张景昭助理教授以及微软亚洲研究院的孙丽君、杨格、张辉帅研究员。 来自MosaicML研究团队的Jonathan Frankle研究员首先进行了报告。他的分享聚焦于神经网络的快速训练算法。当前,以GPT系列为代表的超大规模神经网络在实践中表现出了极好的性能,但在实践层面,超大规模神经网络的训练耗时过长且成本十分昂贵,没有巨额预算的研究人员和企业很难跟上前沿的发展。Frankle介绍了其团队在MosaicML团队对于神经网络训练算法的最近研究成果,包括通用理论、细节的改进与实践经验等。改进后的算法将标准计算机视觉模型的训练时间减少了5-7倍,标准语言模型的训练时间减少了2-3倍。 普林斯顿大学的Boris Hanin助理教授报告了深度神经网络贝叶斯插值的最新研究成果。Hanin的结果表明,在贝叶斯估计的视角下,无限深度的线性神经网络可以基于普遍、未知的先验进行最优后验的计算。在技术细节方面,他提出了一个新的缩放参数,可以对后验分布的复杂性和有效深度进行较好的控制。 伊利诺伊大学香槟分校的Maxim Raginsky教授的报告主题为镜像朗之万动力学(Mirror Langevin Dynamics)中的变分法则。镜像下降法是一种经典的对偶凸优化方法,它通过定义一个距离生成势函数(distance-generating potential function)来刻画优化问题的几何结构。Raginsky教授的最新工作给出了镜像下降及其随机版本的变分公式。隐式正则化的表述可以对该结果进行较好的解释。 斯坦福大学的李志远博士后分享了对于锐度感知最小化(Sharpness-Aware Minimization, SAM) 的研究成果。SAM是一种重要的神经网络正则化方法,通过在神经网络优化中添加对锐度概念的惩罚项来实现更好的泛化性能。最新的结果通过对锐度概念的明确,在理论层面揭示了SAM的内在机制。特别地,SAM中的两个近似步骤分别都会导致不准确的中间结果,但在全梯度方法下,它们的组合意外地表现了良好的效果。 来自德克萨斯大学奥斯汀分校的刘强助理教授展示了他在最优传输(Optimal transport)问题上取得的新结果。最优传输问题是在给定成本函数下最小化从一组数据传输到另一组数据的总成本的问题。通过一个简明的框架——整流(rectified flow),最优传输问题可以得到有效的求解。该算法只需要求解一系列非线性最小二乘优化问题,具有较高的计算效率。在实践中,通过该方法得到的ODE模型可以生成高质量的图像,且相较于扩散生成模型有显著的加速。此外,经过适当的修改,这一方法可以推广到高维连续分布的最优传输问题。 斯坦福大学的Surya Ganguli教授在报告中展示了一种基于数据修剪的自监督算法。相比于以前的算法,基于数据修剪的方法更为简洁与节约,具有更强的可拓展性,且与当前最好的监督数据修剪算法具有相当的性能。进一步地,这一工作包含了网络规模的数据修剪,实验将已经高度筛选的440M LAION图像-文本对子集修剪到270M,而不会影响下游任务的准确性。因此,这一方法体现了合理的数据选择对机器学习模型性能提升的重要性。微软亚洲研究院的董力研究员展示了他对大型预训练语言模型语境学习(In-Context Learning, ICL)能力的研究成果,提供了对ICL的性能优越性的一个理论解释。具体而言,可以将语言模型解释为元优化器,并将ICL理解为一种隐式调整。从理论上讲,可以证明Transformer的注意力机制具有梯度下降的隐式形式:GPT首先生成元梯度,然后应用其以构建ICL模型。实验结果也表明ICL的各项指标与显式的调整类似。此外,受此启发,一种基于动量梯度下降算法的注意力机制也得以提出。 微软研究院的Sebastien Bubeck研究员通过简单的稀疏编码模型,分析了Transformer中出现的Emergence现象。实验说明,训练该模型的神经网络时,在较大的学习率下,其收敛性质不稳定,会出现剧烈的振荡现象。分析表明,这一现象主要是由模型的非凸结构所导致。 上海交通大学的许志钦助理教授在报告中展示了他对于深度学习参数凝聚现象的研究。许老师首先提出了神经网络中的一个问题:为什么复杂的神经网络能够有好的拟合效果?在训练过程中,神经网络有两个隐性的规律,一个是频率原则,另一个是参数凝聚现象,后者作为非线性训练过程的特征,会使得训练样本的数量有效地降低。基于凝聚现象,许老师通过秩分析方法定量地理解了对于一个过参数化的神经网络,需要多大的数据集来保证其拟合效果较好。 东京大学的Masashi Sugiyama教授介绍了关于重要性加权方法(importance sampling method)的最新进展,并且将其用于解决分布偏移问题。在这次演讲中,他概述了在基于重要性加权的分布偏移问题的自适应方法,以及他最新的进展,包括对于协变量偏移的自适应估计,动态重要性加权对于联合分布偏移的自适应,以及多步骤类的先验偏移的自适应。 北京大学的贺笛助理教授在报告中讨论了哪些图神经网络(GNN)能够用于解决实际问题。他的工作从一个本质不同的角度来研究GNN在Weisfiler-Lehman(WL)检验之外的功效。他引入了一种有效且具有原理的称为广义Weisfiler-Lehman距离检验(GD-WL),证明了这一检验对于具有双连通的度量都可行。实验表明他们的方法可以一致的优于先前的图神经网络结构。 清华大学的袁洋助理教授在报告中介绍了他关于对比学习的最新理论结果。对比学习是强大的自监督学习方法,但对于其理论性质的了解和对算法的理解相对缺乏。袁老师在文章中证明了对比学习和在相似图上谱聚类的等价性,并且强调这一等价性无需额外的条件。受这一理论的启发,在一些数据集上他们找到了比标准核函数效果更好的新的核函数。 新加坡国立大学的Kenji Kawaguchi教授在报告中介绍了对于Mixup方法的理论理解。Mixup 是一种流行的数据增强技术,用于训练深度神经网络,其通过线性插值输入对及其标签生成额外的样本,这种技术可以提高许多学习范式和应用程序中的泛化性能。 香港大学的曹原助理教授在报告中介绍对两层卷积神经网络(CNN)的良性过拟合的研究。现代的神经网络模型经常可以在训练集过拟合的情况下仍然有较好的表现,这种现象被称为良性过拟合,但对于这种现象的理论层面的理解仍然比较缺乏。曹老师报告了他对于两层卷积神经网络的良性过拟合的研究,找到了一个信噪比需要满足的条件,使得CNN在该条件下为良性过拟合,反之则为有害的过拟合。 来自北京大学的方聪助理教授在报告中介绍了关于环境不变的最小二乘问题。报告中考虑了一个多环境下的线性回归模型,该模型下的数据在不同的实验设定下采集。尽管该模型响应变量的联合分布、协方差可能在不同环境下不同,但其条件期望不变。他的工作构建了一个全新的,关于多环境不变的线性最小二乘(EILLS)目标函数,这一个最小二乘的多环境版本,利用上述条件期望不变结构以及不同环境之间的异质性来确定实际的参数。

最后,参会学者针对机器学习的理论基础展开进一步交流与讨论,会议通过线上及线下平台同时举办,来自全球近四百位学者参与本次会议。

#post-12409
ntry-header

2023年3月20日,香港中文大学(深圳)数据科学学院姚建峰教授、于天维教授、刘瑾副教授、宋方达助理教授到访清华大学统计学研究中心,并出席“清华大学统计学研究中心-香港中文大学(深圳)数据科学学院交流研讨会暨统计学前沿研讨会”,会议由中心李东副教授发起并主持。双方研究团队在会上交流各自研究方向、分享最新研究成果,并针对未来可能合作的方向展开讨论。

首先,来自香港中文大学(深圳)数据科学学院的于天维教授、刘瑾副教授和宋方达助理教授发言,分别围绕生物信息学、空间转录组、统计基因组学等研究方向介绍各自科研进展。

上:研讨会现场  下:(从左至右)于天维教授、刘瑾副教授、宋方达助理教授

随后,清华大学统计学研究中心李东副教授、侯琳副教授、俞声副教授、刘汉中副教授、杨朋昆助理教授发言,介绍最新研究动态及科研成果。

左:李东副教授、侯琳副教授 右:俞声副教授、刘汉中副教授、杨朋昆助理教授

会后,香港中文大学(深圳)数据科学学院姚建峰教授为清华统计中心师生做特邀报告,报告的题目是:Weight Matrices Spectra in Deep Learning and Early-stopping。统计中心四十余师生聆听报告,针对报告提及的研究问题与姚建峰教授现场互动,姚教授耐心解答。

上:姚建峰教授 下:杨立坚教授及中心师生在报告现场
两校教员合影

 

#post-12403
ntry-header

2023年2月,清华大学统计学研究中心侯琳副教授课题组在Nature Communications上发表了题为Quantifying portable genetic effects and improving cross-ancestry genetic prediction with GWAS summary statistics的研究论文[1],课题组2022届郭瀚民博士为该文的共同第一作者,侯琳副教授和威斯康辛大学麦迪逊分校吕琼石助理教授为该论文的共同通讯作者,威斯康辛大学麦迪逊分校的缪嘉诚为共同第一作者,宋格非、赵梓杰为本文的共同作者。

多基因风险评分是基于全基因组关联分析实验的复杂疾病遗传风险预测算法,对疾病的精准预防和治疗有重要应用价值。现有方法主要基于欧洲人群的全基因组关联分析研究,相应模型在欧洲人群中有较好的预测效果,但在其他人群中预测效果欠佳。研究团队针对跨种族遗传风险预测问题开展研究,首先发展了挖掘种族间局部遗传相关性的统计方法,进一步提出基于相关性区域注释的贝叶斯多基因风险评分方法,实现跨种族疾病遗传信息迁移;经模拟数据和实际数据验证,该方法可以显著提高疾病风险预测的准确性。此外,研究团队还开发了实现上述算法的软件包X-Wing[2],将该方法应用于英国、日本等生物样本库(UK Biobank, Biobank Japan)。测试结果显示,该方法可以显著提高样本中的非欧人群遗传风险预测准确性,对改善种族间遗传资源不平衡的现状具有重要意义。

 

#post-12398