2023年5月25日,第七届北大-清华统计论坛在北京大学成功举办。论坛由北京大学统计科学中心和清华大学统计学研究中心联合发起,并作为兄弟院校间持续的品牌活动,每年定期举行。本届论坛线上线下累计有近二百人参会,除清北两校师生外,还有很多其他高校和业界的学者关注及参与。
陈松蹊院士致辞
侯琳副教授致辞
林伟副教授主持
海报展示
“优秀毕业生”获奖合影
“优秀海报奖”获奖合影
2023年5月25日,第七届北大-清华统计论坛在北京大学成功举办。论坛由北京大学统计科学中心和清华大学统计学研究中心联合发起,并作为兄弟院校间持续的品牌活动,每年定期举行。本届论坛线上线下累计有近二百人参会,除清北两校师生外,还有很多其他高校和业界的学者关注及参与。
陈松蹊院士致辞
侯琳副教授致辞
林伟副教授主持
海报展示
“优秀毕业生”获奖合影
“优秀海报奖”获奖合影
近日,我中心2019级博士生陶宇心荣获国际数理统计协会(Institute of Mathematical Statistics, 简称IMS)颁发的“2023年度汉南研究生旅行奖”(2023 Hannan Graduate Student Travel Award)。陶宇心也是今年获得该奖项的唯一一位中国高校获奖者。
总部在美国的国际数理统计协会(IMS)是全球三个权威统计学学术组织之一,旨在发展和推广统计与概率的理论及应用,出版发行高质量学术期刊,如Annals of Statistics, Annals of Probability等。IMS颁发的荣誉奖项,如IMS Fellow和各类Travel Awards,都被国际统计学界高度认可。以已故IMS Fellow、密歇根州立大学统计与概率系荣休教授James Hannan命名的Hannan Graduate Student Travel Award,每年一次颁发给全球的在读硕士、博士研究生,奖励在IMS主办或资助的统计学国际会议上宣读优秀论文。
陶宇心的获奖论文“Statistical Inference for α-stable Asymmetric GARCH Models”提出了由稳定新息驱动的非对称GARCH模型,研究该模型在平稳和非平稳统一框架内的参数估计和统计推断,并提供诊断检验工具,更好地刻画了金融数据的重尾性、非对称性和波动聚集性等典型特征。论文指导教师为李东副教授。
此外,李东副教授课题组的21届毕业生、现就职于复旦大学管理学院的蒋斐宇老师荣获本年度“国际数理统计学会青年学者旅行奖”。
北清携手,一路“统”行
第七届北大 – 清华统计论坛
主办单位:
北京大学统计科学中心
清华大学统计学研究中心
欢迎各校师生和统计学爱好者积极参加!
2023年5月2日,美国国家科学院公布了新一届美国国家科学院院士与外籍院士名单,本届共有120名院士以及23名外籍院士当选。清华大学知名校友、哈佛大学生物统计系和统计系林希虹教授当选美国国家科学院院士。美国科学院成立于1863年,当选院士被认为是美国学术界最高荣誉之一。
林希虹,1984年进入清华大学应用数学系学习,1989年本科毕业后赴美留学,1991年在爱荷华大学取得统计学硕士学位,1994年在华盛顿大学取得生物统计学博士学位。1999年获得密歇根大学生物统计系终身教职。2005年,林希虹加盟哈佛大学,成为哈佛大学生物统计系和统计系终身教授,历任哈佛大学生物统计系主任、数量基因研究计划(Program of Quantitative Genomics)主任。
林希虹教授是全球知名的统计学家,在高通量基因组数据分析、复杂环境因素与表型数据分析以及大规模健康数据的统计学习与推断等方向取得了重大突破,为统计学、生物医学和公共卫生的发展做出了杰出贡献。林希虹教授杰出的学术成就得到了国际学术届广泛认可和赞誉。2002年获得美国公共卫生学会颁发的卫生统计界声望最高的Mortimer Spiegelman奖,2006年获得国际统计学届最高奖项“考普斯会长奖“(COPSS Presidents’ Award),2007年获得美国国家卫生研究院的杰出成就奖,2010年担任“考普斯委员会”主席,2018年当选美国国家医学院院士。
作为清华校友,林希虹教授多年来一直非常关心清华统计学科的发展,为推动清华统计学科建设做出了卓越贡献。热烈祝贺林希虹教授再获殊荣!期待在林希虹教授的指导和引领下,清华大学统计学科能再创佳绩,谱写新的篇章!
2023年4月20日,西南财经大学林华珍教授访问我中心,与中心教员交流,并做特邀报告,报告的题目是:Functional Data Analysis with Covariate-dependent Mean and Covariance Structures。
2023年3月25日,由清华大学统计学研究中心、清华大学交叉信息研究院与微软亚洲研究院联合主办的机器学习基础理论研讨会(Workshop on Machine Learning Theory and Foundations)在微软大厦顺利举办。本次研讨会邀请15名全球范围内机器学习领域的优秀学者,围绕最新的研究成果进行主题报告与分享,并针对当前机器学习领域的前沿问题展开深入交流与探讨。 微软亚洲研究院的张辉帅研究员代表主办单位致辞。他指出,机器学习近年来的发展日新月异,产生了大量应用成果,而在领域前沿的研究中,机器学习理论发挥着至关重要的作用。同时,张博士介绍了本次会议的组织者,来自清华大学统计学研究中心的杨朋昆助理教授、清华大学交叉信息研究院张景昭助理教授以及微软亚洲研究院的孙丽君、杨格、张辉帅研究员。 来自MosaicML研究团队的Jonathan Frankle研究员首先进行了报告。他的分享聚焦于神经网络的快速训练算法。当前,以GPT系列为代表的超大规模神经网络在实践中表现出了极好的性能,但在实践层面,超大规模神经网络的训练耗时过长且成本十分昂贵,没有巨额预算的研究人员和企业很难跟上前沿的发展。Frankle介绍了其团队在MosaicML团队对于神经网络训练算法的最近研究成果,包括通用理论、细节的改进与实践经验等。改进后的算法将标准计算机视觉模型的训练时间减少了5-7倍,标准语言模型的训练时间减少了2-3倍。 普林斯顿大学的Boris Hanin助理教授报告了深度神经网络贝叶斯插值的最新研究成果。Hanin的结果表明,在贝叶斯估计的视角下,无限深度的线性神经网络可以基于普遍、未知的先验进行最优后验的计算。在技术细节方面,他提出了一个新的缩放参数,可以对后验分布的复杂性和有效深度进行较好的控制。 伊利诺伊大学香槟分校的Maxim Raginsky教授的报告主题为镜像朗之万动力学(Mirror Langevin Dynamics)中的变分法则。镜像下降法是一种经典的对偶凸优化方法,它通过定义一个距离生成势函数(distance-generating potential function)来刻画优化问题的几何结构。Raginsky教授的最新工作给出了镜像下降及其随机版本的变分公式。隐式正则化的表述可以对该结果进行较好的解释。 斯坦福大学的李志远博士后分享了对于锐度感知最小化(Sharpness-Aware Minimization, SAM) 的研究成果。SAM是一种重要的神经网络正则化方法,通过在神经网络优化中添加对锐度概念的惩罚项来实现更好的泛化性能。最新的结果通过对锐度概念的明确,在理论层面揭示了SAM的内在机制。特别地,SAM中的两个近似步骤分别都会导致不准确的中间结果,但在全梯度方法下,它们的组合意外地表现了良好的效果。 来自德克萨斯大学奥斯汀分校的刘强助理教授展示了他在最优传输(Optimal transport)问题上取得的新结果。最优传输问题是在给定成本函数下最小化从一组数据传输到另一组数据的总成本的问题。通过一个简明的框架——整流(rectified flow),最优传输问题可以得到有效的求解。该算法只需要求解一系列非线性最小二乘优化问题,具有较高的计算效率。在实践中,通过该方法得到的ODE模型可以生成高质量的图像,且相较于扩散生成模型有显著的加速。此外,经过适当的修改,这一方法可以推广到高维连续分布的最优传输问题。 斯坦福大学的Surya Ganguli教授在报告中展示了一种基于数据修剪的自监督算法。相比于以前的算法,基于数据修剪的方法更为简洁与节约,具有更强的可拓展性,且与当前最好的监督数据修剪算法具有相当的性能。进一步地,这一工作包含了网络规模的数据修剪,实验将已经高度筛选的440M LAION图像-文本对子集修剪到270M,而不会影响下游任务的准确性。因此,这一方法体现了合理的数据选择对机器学习模型性能提升的重要性。微软亚洲研究院的董力研究员展示了他对大型预训练语言模型语境学习(In-Context Learning, ICL)能力的研究成果,提供了对ICL的性能优越性的一个理论解释。具体而言,可以将语言模型解释为元优化器,并将ICL理解为一种隐式调整。从理论上讲,可以证明Transformer的注意力机制具有梯度下降的隐式形式:GPT首先生成元梯度,然后应用其以构建ICL模型。实验结果也表明ICL的各项指标与显式的调整类似。此外,受此启发,一种基于动量梯度下降算法的注意力机制也得以提出。 微软研究院的Sebastien Bubeck研究员通过简单的稀疏编码模型,分析了Transformer中出现的Emergence现象。实验说明,训练该模型的神经网络时,在较大的学习率下,其收敛性质不稳定,会出现剧烈的振荡现象。分析表明,这一现象主要是由模型的非凸结构所导致。 上海交通大学的许志钦助理教授在报告中展示了他对于深度学习参数凝聚现象的研究。许老师首先提出了神经网络中的一个问题:为什么复杂的神经网络能够有好的拟合效果?在训练过程中,神经网络有两个隐性的规律,一个是频率原则,另一个是参数凝聚现象,后者作为非线性训练过程的特征,会使得训练样本的数量有效地降低。基于凝聚现象,许老师通过秩分析方法定量地理解了对于一个过参数化的神经网络,需要多大的数据集来保证其拟合效果较好。 东京大学的Masashi Sugiyama教授介绍了关于重要性加权方法(importance sampling method)的最新进展,并且将其用于解决分布偏移问题。在这次演讲中,他概述了在基于重要性加权的分布偏移问题的自适应方法,以及他最新的进展,包括对于协变量偏移的自适应估计,动态重要性加权对于联合分布偏移的自适应,以及多步骤类的先验偏移的自适应。 北京大学的贺笛助理教授在报告中讨论了哪些图神经网络(GNN)能够用于解决实际问题。他的工作从一个本质不同的角度来研究GNN在Weisfiler-Lehman(WL)检验之外的功效。他引入了一种有效且具有原理的称为广义Weisfiler-Lehman距离检验(GD-WL),证明了这一检验对于具有双连通的度量都可行。实验表明他们的方法可以一致的优于先前的图神经网络结构。 清华大学的袁洋助理教授在报告中介绍了他关于对比学习的最新理论结果。对比学习是强大的自监督学习方法,但对于其理论性质的了解和对算法的理解相对缺乏。袁老师在文章中证明了对比学习和在相似图上谱聚类的等价性,并且强调这一等价性无需额外的条件。受这一理论的启发,在一些数据集上他们找到了比标准核函数效果更好的新的核函数。 新加坡国立大学的Kenji Kawaguchi教授在报告中介绍了对于Mixup方法的理论理解。Mixup 是一种流行的数据增强技术,用于训练深度神经网络,其通过线性插值输入对及其标签生成额外的样本,这种技术可以提高许多学习范式和应用程序中的泛化性能。 香港大学的曹原助理教授在报告中介绍对两层卷积神经网络(CNN)的良性过拟合的研究。现代的神经网络模型经常可以在训练集过拟合的情况下仍然有较好的表现,这种现象被称为良性过拟合,但对于这种现象的理论层面的理解仍然比较缺乏。曹老师报告了他对于两层卷积神经网络的良性过拟合的研究,找到了一个信噪比需要满足的条件,使得CNN在该条件下为良性过拟合,反之则为有害的过拟合。 来自北京大学的方聪助理教授在报告中介绍了关于环境不变的最小二乘问题。报告中考虑了一个多环境下的线性回归模型,该模型下的数据在不同的实验设定下采集。尽管该模型响应变量的联合分布、协方差可能在不同环境下不同,但其条件期望不变。他的工作构建了一个全新的,关于多环境不变的线性最小二乘(EILLS)目标函数,这一个最小二乘的多环境版本,利用上述条件期望不变结构以及不同环境之间的异质性来确定实际的参数。
最后,参会学者针对机器学习的理论基础展开进一步交流与讨论,会议通过线上及线下平台同时举办,来自全球近四百位学者参与本次会议。
2023年3月20日,香港中文大学(深圳)数据科学学院姚建峰教授、于天维教授、刘瑾副教授、宋方达助理教授到访清华大学统计学研究中心,并出席“清华大学统计学研究中心-香港中文大学(深圳)数据科学学院交流研讨会暨统计学前沿研讨会”,会议由中心李东副教授发起并主持。双方研究团队在会上交流各自研究方向、分享最新研究成果,并针对未来可能合作的方向展开讨论。
首先,来自香港中文大学(深圳)数据科学学院的于天维教授、刘瑾副教授和宋方达助理教授发言,分别围绕生物信息学、空间转录组、统计基因组学等研究方向介绍各自科研进展。
随后,清华大学统计学研究中心李东副教授、侯琳副教授、俞声副教授、刘汉中副教授、杨朋昆助理教授发言,介绍最新研究动态及科研成果。
会后,香港中文大学(深圳)数据科学学院姚建峰教授为清华统计中心师生做特邀报告,报告的题目是:Weight Matrices Spectra in Deep Learning and Early-stopping。统计中心四十余师生聆听报告,针对报告提及的研究问题与姚建峰教授现场互动,姚教授耐心解答。
2023年2月,清华大学统计学研究中心侯琳副教授课题组在Nature Communications上发表了题为Quantifying portable genetic effects and improving cross-ancestry genetic prediction with GWAS summary statistics的研究论文[1],课题组2022届郭瀚民博士为该文的共同第一作者,侯琳副教授和威斯康辛大学麦迪逊分校吕琼石助理教授为该论文的共同通讯作者,威斯康辛大学麦迪逊分校的缪嘉诚为共同第一作者,宋格非、赵梓杰为本文的共同作者。
多基因风险评分是基于全基因组关联分析实验的复杂疾病遗传风险预测算法,对疾病的精准预防和治疗有重要应用价值。现有方法主要基于欧洲人群的全基因组关联分析研究,相应模型在欧洲人群中有较好的预测效果,但在其他人群中预测效果欠佳。研究团队针对跨种族遗传风险预测问题开展研究,首先发展了挖掘种族间局部遗传相关性的统计方法,进一步提出基于相关性区域注释的贝叶斯多基因风险评分方法,实现跨种族疾病遗传信息迁移;经模拟数据和实际数据验证,该方法可以显著提高疾病风险预测的准确性。此外,研究团队还开发了实现上述算法的软件包X-Wing[2],将该方法应用于英国、日本等生物样本库(UK Biobank, Biobank Japan)。测试结果显示,该方法可以显著提高样本中的非欧人群遗传风险预测准确性,对改善种族间遗传资源不平衡的现状具有重要意义。
近日,清华大学统计学研究中心王天颖助理教授课题组在国际知名统计学期刊Journal of the American Statistical Association(简称“JASA”)发表题为“A Flexible Zero-Inflated Poisson-Gamma Model with Application to Microbiome Sequence Count Data”的研究论文,提出了一种新的方法用于微生物组数据分析。清华大学统计学研究中心2022级博士研究生江柔蓝为本文第一作者,中心王天颖助理教授和北京大学生物统计系占翔副教授为本文通讯作者。
人体中生活着大量微生物,这些微生物群落受到人体环境的影响,也同时影响着人类的生命健康。近年来,飞速发展的高通量测序技术,如16s rRNA测序和宏基因组测序(metagenomic shotgun sequencing),为微生物群落的定量分析提供了便利。这些测序方法产生的数据以计数表的形式呈现,表示样本中各个微生物分类群(taxa)的丰度。微生物组数据往往具有零膨胀(zero inflation)和过度分散(over-dispersion)的特点,且受到人体环境的动态变化以及不同的测序技术的影响,观察到的计数数据往往与真实的微生物分类群丰度存在差异。为了研究某一微生物分类群与特定协变量的关联,现有的方法通常使用负二项分布或零膨胀负二项分布对计数数据建模,但是这些方法忽略了协变量对微生物群落稳定性的可能影响,尤其在纵向数据(Longitudinal Data)的分析中,已有证据表明疾病等因素会使微生物群落组成变得更不稳定,出现生态失调(dysbiosis)现象。为此,本文提出了零膨胀泊松-伽马模型(Zero-Inflated Poisson-Gamma,ZIPG),其中用伽马分布表示微生物组丰度相对无法观测到的真实均值的波动,能够更灵活地处理数据过度分散的特点。在纵向数据的分析中,通过将过度分散参数与时间无关(time-independent)的协变量关联起来,可以分析年龄、饮食习惯等长期状态对微生物组稳定性的影响。
在ZIPG的框架下,本文进一步提出了相应的参数估计和假设检验方法。通过bootstrap方法可以检验微生物分类群的丰度和过度分散程度如何分别地受到协变量影响,并得到相应参数的置信区间。与其他方法相比,ZIPG能够更好地控制第一类错误率,并且检测出其他方法无法发现的微生物稳定性差异。最后,本文将ZIPG应用在两组真实数据中:在阴道微生物组数据中分析了怀孕、年龄等因素对微生物丰度和过度分散程度的影响;在肠道微生物数据中分析了饮酒等因素对微生物丰度和过度分散程度的影响。在两例数据中,ZIPG模型都能更好地拟合真实数据的分布,且找到了更多与感兴趣的协变量相关联的微生物分类群,为生物医学领域的进一步研究提供了线索。
文章链接:
2022年11月8日,由海关总署主办的“非关税贸易措施高质量发展论坛”在上海国家会展中心隆重召开,该论坛作为“第五届中国国际进口博览会”配套高峰论坛之一引起广泛关注。论坛以“非关税贸易措施”为主题,围绕“双碳+经济高质量发展、冷链+国门生物安全、数据+指数体系构建、友人+人类命运共同体、企业+产品走向世界”五个议题展开探讨。第十二届全国政协副主席马培华、海关总署副署长孙玉宁、第十三届全国人大农业与农村委员会委员张沁荣、中国进出境生物安全研究会会长王炜、海关总署各司局及地方海关工作人员、国内外的权威学者、专家院士、知名企业家及驻华使节百余人受邀出席论坛。在本次论坛上,海关总署将清华大学统计学研究中心邓柯副教授团队主持研发的“技术贸易措施综合指数体系”作为重点成果进行了发布,得到了各界的强烈关注和广泛好评。央视新闻频道对相关成果进行了报道。
全国人大农业与农村委员会委员、原国家质检总局副局长张沁荣,中国进出口生物安全研究会会长、中纪委原副部级巡视员王炜,中国工程院沈建忠、张改平、范维澄、马军院士,欧洲科学院外籍院士、清华大学孙茂松教授和清华大学统计学研究中心邓柯副教授等专家学者受邀做主旨演讲。
邓柯副教授发表题为“构建技术贸易措施综合指数体系,助力经济高质量发展”的主题演讲。在演讲中,邓柯副教授简要介绍了清华大学统计学团队与海关总署标准与法规中心专家团队在构建“技术贸易措施综合指数体系”方面的研究成果。相关研究综合运用统前沿计学方法和人工智能技术,将海量非结构化、非标准化的技术贸易措施通报转化为结构化、标准化的数据库,进而构建并测算“技术贸易措施开放指数”、“技术贸易措施全球动态图谱”、“全球技术贸易措施综合指数”、“技术贸易措施损害指数”等指数体系,从不同角度和维度分析并呈现全球技术贸易措施当前现状、发展动态和演化趋势,为政府决策提供重要技术支撑。
欧洲科学院院士、中国人工智能学会会士、清华大学计算机科学与技术系孙茂松教授发表题为“运用前沿人工智能助力技术贸易措施综合指数研究”的主题演讲。孙教授表示,面对海关系统海量技术贸易措施文件的数据处理需求,近年来快速发展的自然语言处理技术大有用武之地。将前沿人工智能技术与技术贸易措施研究的具体场景,特别是技术贸易措施综合指数的深入结合,会大幅度提升信息提取和处理的效率,推动技术贸易措施研究迈向智能化,助力相关政府部门和产业界提升贸易能力、减小贸易损失,助力我国经济的高质量发展以及人类命运共同体的建构。在论坛期间,孙茂松教授还接受了央视新闻频道专访,呼吁将人工智能技术与政务大数据研究更加紧密结合。