【会议通知】2021清华大学统计学与数据科学青年学者论坛

ntry-header

为了促进国内青年统计和数据科学学者间的学术交流和合作，更好地推动统计学和数据科学的发展，同时加强与各兄弟院校之间的协同合作，清华大学统计学研究中心拟于2021年10月22日-24日在京召开“2021清华大学统计学与数据科学青年学者论坛” (2021 Tsinghua Symposium on Statistics and Data Science for Young Scholars)。

论坛将以线下学术报告形式展开。如届时国家及地方防疫规定要求调整为线上/融合式活动，将另行通知。

会议地点：北京市顺义区春晖园国际会议中心

腾讯会议ID：706 735 268

2021清华大学统计学与数据科学青年学者论坛会议日程安排
一、开幕式
8:30-8:45	主办方致辞清华大学统计学研究中心执行主任邓柯副教授
8:45-9:00	特邀嘉宾致辞清华大学统计学研究中心杨立坚教授
二、23日会议报告
时间	报告题目	报告人	单位		主持人
9:00-9:20	Efficient Algorithms for the Optimal Estimation of Mixture Models	杨朋昆	清华大学统计学研究中心		胡志睿
9:20-9:40	Risk-based Robust Statistical Learning by Stochastic Difference-of-Convex Value-Function Optimization	刘俊驿	清华大学工业工程系
9:40-10:00	Divide-and-Conquer: A Distributed Hierarchical Factor Approach to Modeling Large-Scale Time Series Data	高照省	浙江大学数据科学研究中心
10:00-10:20	Central Limit Theorem for Linear Spectral Statistics of Large Dimensional Kendall’s Rank Correlation Matrices and its Applications	李曾	南方科技大学统计与数据科学系
10:20-10:40	合影
10:40-11:00	Transformed Cointegration Models with Partially Linear Additivity	林颖倩	上海财经大学经济学院		胡志睿
11:00-11:20	Tests of Unit Root Hypothesis with Heavy-tailed Heteroscedastic Noises	佘睿	西南财经大学统计研究中心
11:20-11:40	Multifrequency-Band Tests for White Noise Under Heteroscedasticity	刘梦雅	华中师范大学数学与统计学学院
11:40-12:00	Stratification and Optimal Resampling in Sequential Monte Carlo	李艺超	清华大学统计学研究中心
12:00-13:30	午餐
13:30-13:50	Bayesian Modeling for Detecting the Molecular Basis of Phenotypic Convergence	胡志睿	清华大学统计学研究中心		张静怡
13:50-14:10	Volatility Analysis with Combined High- and Low-Frequency Data	宋馨雨	上海财经大学统计与管理学院
14:10-14:30	Deep Graph Convolutional Network for US Birth Data Harmonization	余丽珊	北京雁栖湖应用数学研究院
14:30-14:50	Rapid Design of Metamaterials via Multi-target Bayesian Optimization	杨洋	广州腾讯科技有限公司
14:50-15:10	State-Domain Change Point Detection for Nonlinear Time Series Regression	崔嫣	哈尔滨工业大学数学研究院
15:10-15:30	休息
15:30-15:50	Extended Admissible Decision Procedures and their Nonstandard Bayes Risk	端木昊随	哈尔滨工业大学数学研究院	张静怡
15:50-16:10	Automated Estimation of Heavy-tailed Vector Error Correction Models	郭菲菲	北京理工大学数学与统计学院
16:10-16:30	FIRM: Flexible Integration of Single-cell RNA-sequencing Data for Large-scale Multi-tissue Cell Atlas Datasets	明静思	华东师范大学统计交叉科学研究院
16:30-16:50	Slicing Free for Functional Sliced Inverse Regression	陈锐	清华大学统计学研究中心
16:50-17:10	Generalized Tessellation Processes	葛淑菲	上海科技大学数学科学研究所
17:10-17:30	Rank Test of Unit-Root Hypothesis with AR-GARCH Errors	廖桂丽	福建师范大学数学与统计学院

三、24日会议报告
时间	报告题目	报告人	单位	主持人
8:40-9:00	Confidence Interval Construction – a New Self-normalization Approach Based on Adjusted Range	孙佳婧	中国科学院大学经济与管理学院	王天颖
9:00-9:20	Two-Sample Mean Test for High-Dimensional Time Series	张澍一	华东师范大学统计交叉科学研究院
9:20-9:40	A Model-free Approach for Electronic Health Record-based Case-control Studies with Contaminated Case Pools	戴国榕	复旦大学管理学院统计学系
9:40-10:00	Segmenting Time Series via Self-Normalization	蒋斐宇	复旦大学管理学院
10:00-10:20	Sparse Spatially Clustered Coefficient Model via Adaptive Regularization	钟琰	华东师范大学统计学院
10:20-10:40	休息
10:40-11:00	Penalized Time-Varying Model Averaging	孙玉莹	中国科学院数学与系统科学研究院	王天颖
11:00-11:20	Understanding the Acceleration Phenomenon via High-resolution Differential Equations	史斌	中国科学院数学与系统科学研究院
11:20-11:40	Data-adaptive Efficient Estimation Strategies for Biomarker Studies Embedded in Randomized Trials	张维	中国科学院数学与系统科学研究院
11:40-12:00	Targeting Underrepresented Populations in Precision Medicine: A Federated Transfer Learning Approach	李赛	中国人民大学统计与大数据研究院
12:00-13:30	午餐
13:30-13:50	Layer-Peeled Model: Toward Understanding Well-Trained Deep Neural Networks	方聪	北京大学信息科学技术学院智能科学系	杨朋昆
13:50-14:10	Controlling for Unmeasured Confounding in Panel Data Using Minimal Bridge Functions	毛小介	清华大学经济管理学院
14:10-14:30	The Role of Callback in Survey Data for Nonresponse Adjustment	苗旺	北京大学数学科学学院
14:30-14:50	Statistical and Practical Considerations on Dose Finding Approaches in Oncology Clinical Trials	李贲	复星医药全球研发中心生物统计与数据科学部
14:50-15:10	An Optimal Ablation Time Prediction Model Based on Minimizing the Relapse Risk	林毓聪	北京理工大学医工融合研究院
15:10-15:30	The Frequency and Severity of Crop Damage by Wildlife in Rural Beijing, China	方良	北京林业大学经济管理学院统计系
15:10-18:00	自由讨论

#post-12281

ntry-header

2021年10月11日，中山大学杨建荣教授通过线上平台与我中心教员深入交流，并进行线上学术报告，报告的题目是Developmental cell lineage trees, and the quantitative comparisons between them。

#post-12279

ntry-header

2021年9月24日，中国科学院古脊椎动物与古人类研究所张驰副研究员访问我中心，并做学术报告，报告的题目是贝叶斯全证据支端定年方法及应用。

#post-12278

ntry-header

2021年9月23日，香港中文大学邱俊业副教授通过线上平台与我中心教员深入交流，并进行线上学术报告，报告的题目是Burn-in Selection in Simulating Time Series。

#post-12277

ntry-header

9月9日下午，清华大学举行教师节庆祝大会，隆重表彰在教书育人等各项工作中取得突出成绩的个人和集体。

我中心教师邓婉璐老师受邀出席庆祝大会，荣获“北京高校第十二届青年教师教学基本功比赛表彰二等奖（理科类A组）”和“2020年清华大学年度教学优秀奖”两个奖项。

#post-12272

ntry-header

近日，统计学研究中心2017级博士研究生李杰，2020级博士研究生胡祺睿斩获国际统计学会 (International Statistical Institute, ISI) 颁发的国际统计学会2021年度简·丁伯根奖一等奖（2021 ISI Jan Tinbergen Award Division A First Prize）。

总部在荷兰的国际统计学会（ISI）是全球三个权威统计学学术组织之一，旨在引领、支持和促进全世界对统计学的理解、发展和良好实践。ISI 颁发的各类荣誉奖项都被国际统计学界高度认可。简·丁伯根奖命名于获得1969年首个诺贝尔经济学奖的荷兰学者简·丁伯根，是从每两年举行一次的世界统计学大会（World Statistics Congress, WSC）青年统计学者（1987年以后出生）提交的论文中评选的最佳论文（https://www.isi-web.org/events/isi-awards/tinbergen-award）。其中Division A的获奖论文必须解决一个对广大发展中国家具有实际意义的应用统计问题。自2019年开始，获奖者已不再限于发展中国家。自2013年至2021年，共有来自多个国家的14人获奖，其中3位华人，李杰和胡祺睿是第一次获得一等奖的华人。除此之外，西安电子科技大学数学与统计学院研究生韩路于2013年获二等奖。

今年共有3人获奖。李杰和胡祺睿获得2500欧元奖金，受邀免注册费参加于7月11日至16日在荷兰海牙举行（最终因疫情在线举办）的国际统计学会第63届世界统计学大会（The 63rd ISI World Statistics Congress），并在简·丁伯根奖会场（Jan Tinbergen Awards Session）做了30分钟的邀请报告。

李杰和胡祺睿的获奖论文“非参数回归分析空气污染物浓度的预测区间”（Prediction Interval of Air Pollutants Concentration by Nonparametric Regression Analysis）将非参数回归模型应用于局部平稳时间序列的趋势，分析了由中国环境监测总站高级工程师张凤英博士提供的西安市2013年到2020年间6种主要空气污染物的每日浓度数据，并构造出了未来5日各空气污染物浓度的预测区间。论文提出用样条回归（Spline regression）估计趋势函数，核回归（Kernel regression）估计方差函数，对所得的近似平稳序列拟合自回归（AR）模型，再用核分布（Kernel distribution estimator）方法估计其误差的分位数后，得到了带趋势项自回归时间序列的数据驱动多步向前预测区间。相比于季节性差分整合移动平均自回归（Seasonal ARIMA）等传统方法产生的预测区间，论文中方法得到的预测区间不仅长度更窄，还具有更好的预测精度和覆盖率。该方法有效解释了空气污染物浓度数据潜在的动态变化规律，并可以精确预测未来五到七日空气污染物的浓度，在污染物管理和早期预防方面有着广泛的应用价值。特别值得一提的是李杰和胡祺睿的获奖论文是在无指导教师直接参与的条件下完成的。

官网新闻链接：https://www.isi-web.org/news-newsletter/20555-2021-isi-jan-tinbergen-awards

#post-12271

ntry-header

2021年9月6日，香港大学朱柯助理教授通过线上平台与我中心教员深入交流，并进行线上学术报告，报告的题目是How effective is the regional joint environmental policy in China? Evidence from inverse difference-in-differences。

#post-12270

ntry-header

2021年8月23日，香港大学李国栋教授通过线上平台与我中心教员深入交流，并进行线上特邀报告，报告的题目是High-Dimensional Low-Rank Tensor Autoregressive Time Series Modelling。

#post-12268

ntry-header

今日，国家自然科学基金委员会发布《关于2021年国家自然科学基金集中接收申请项目评审结果的通告》（国科金发计〔2021〕51号），我中心杨立坚教授、俞声副教授获得国家自然科学基金面上项目资助；王天颖助理教授、杨朋昆助理教授、胡志睿助理教授获得国家自然科学基金青年项目资助。

负责人	项目类型	项目名称
杨立坚	面上项目	相依函数型数据的统计分析：理论与方法
俞声	面上项目	数据驱动医学知识图谱建设的基础算法研究
王天颖	青年项目	高维异质性数据中的整合分位数回归模型：统计推断理论及其在生物遗传学方面的应用
胡志睿	青年项目	基于贝叶斯模型及计算方法研究物种趋同进化的基因调控机制
杨朋昆	青年项目	大规模域空间上统计推断的性能极限及高效算法

#post-12266

ntry-header

近日，我中心邓柯副教授课题组在统计国际顶尖期刊 Journal of the American Statistical Association (JASA)发表题为“Partition-Mallows Model and Its Inference for Rank Aggregation”的研究论文，提出了一种推断排名聚合的新方法。曾在邓柯课题组工作的朱万闯博士是该文的第一作者，姜瑛恺博士和刘军教授为共同作者，邓柯副教授是论文的通讯作者。

排名聚合是指如何聚合从不同信息源获得的关于某些个体的排序，从而得到一个更加‘精确’的排序。例如，有m位评委为n名运动员的能力进行排序。排名聚合致力于对这m个排序进行整合分析以得到一个新的排序，能够更加准确地反映n名运动员能力的高低。现实中，m位评委的可靠性可能会存在差异，部分可靠性较低的评委可能会误导排名聚合的结果。开发基于数据驱动的方法来自动识别不同评委的可靠性，并据此优化排名聚合的结果，具有重要的实际意义。

邓柯和刘军等人曾于2014年在JASA发表了题为“Bayesian Aggregation of Order-Based Rank Data”的论文中，提出了一种基于划分模型（partition model）的排名聚合方法BARD。BARD将排序对象划分为两个组别，“相关个体组”和“背景个体组”，并假设可靠性高的评委们会以更高的概率将中的个体排位于中的个体之前。该方法能够在有效识别评委可靠性的同时，通过弱化可靠性较差的评委在排名聚合中贡献，来消除他们可能带来的负面作用。但是，该方法简单忽略了和两个组别中各个体的差异，从而在很大程度上损失了组内排名的信息。从应用的角度看，这是该方法的一个重要局限性。

本文在上述工作的基础上，采用更加精细的 Mallows模型对组别的组内排名进行了建模，将partition模型和Mallows 模型的优势结合起来，得到了能力更强的排名聚合模型Partition-Mallows model。该模型构建了对具有复杂结构的排名数据进行定量描述的一般框架，在充分利用和组间及组内的排名信息的基础上，不仅可以有效识别评委可靠性的差异，还能够产出更有效率的排名聚合。我们从理论上证明了该方法的可靠性，并通过大量的计算机模拟和实证研究验证了该方法在处理具有分组结构的排名聚合问题上具有明显优势。

该研究工作获得中国国家自然科学基金(Grants 11771242 & 11931001)、北京智源人工智能研究院(Grant BAAI2019ZD0103)和美国国家科学基金(Grants DMS-1903139 and DMS-1712714)的资助。

论文链接：https://doi.org/10.1080/01621459.2021.1930547

#post-12265