ntry-header

2022年7月,由清华大学统计学研究中心俞声课题组和粤港澳大湾区数字经济研究院(IDEA)AI平台技术研究中心联合开发的大型开放生物医学知识图谱——“生物医学信息学本体系统”BIOS(Biomedical Informatics Ontology System)迎来重大更新,跃升成为世界最大的开放生物医学知识图谱。(https://bios.idea.edu.cn

生物医学知识图谱是一种由生物医学概念、术语、关系以及ID系统等要素构成的特殊数据库,是生物医学信息学的重要基础设施。一直以来,由美国开发的“一体化医学语言系统”UMLS(Unified Medical Language System)是生物医学知识图谱的标杆,以455万概念、2095万关系的巨大规模和开放属性,为英文领域生物医药大数据分析、自然语言处理、人工智能开发和数据交换做出了卓越贡献。中文领域由于缺乏可开放获取的大型生物医学知识图谱,导致国内的医学大数据分析缺乏平台基础,科研与技术发展受到严重制约。同时,基于多数据库整合和专家整理的UMLS也日渐老化,其数据质量与发展速度已无法满足大数据与人工智能时代的需要。

基于算法驱动、开源开放理念,以CC BY-NC-ND 4.0协议发布的BIOS中英文知识图谱自2021年11月发布以来受到了广泛关注。BIOS是首个完全由机器学习算法生成的大型开放生物医学知识图谱,其术语发现、语义分析、概念生成、关系发现、跨语言对齐完全由模型自动实现。在本次更新中,研发团队根据真实数据效果,不断强化算法技术,终于取得了振奋人心的突破性进展,使新版BIOS(2022V2版)一举达到了2848万概念、5456万术语(3348万英文、2108万中文)的巨大体量,术语质量也得到进一步提升。

而为了满足如此体量概念的关系挖掘,研究团队创新地提出了由“基于文本的关系提取”到“基于大模型自有知识的关系生成”的模式转变,获得了1.12亿个关系三元组。目前BIOS只包含知识图谱的骨架“上下位关系”的预测,更丰富的关系将在下半年的更新中发布。

对比开发已有35年的UMLS,BIOS在短短一年半的时间里,使体量达到了UMLS的数倍,不仅扭转了中文领域缺乏大型开放生物医学知识图谱的困难局面,更充分证明了人工智能的巨大潜力。同时,通过BIOS系统的研发,统计学研究中心培养了一批具有数据科学方向理论创新与实战能力的优秀本科生与博士生。未来,统计学研究中心将与IDEA研究院以及更多国内外顶尖医院、科研机构合作,不断扩大和完善BIOS的内容、质量以及相关系统建设,带动并引领生物医学大数据与人工智能行业的发展。

#post-12342
ntry-header

2022616日,“第六届北大清华统计论坛”成功举办。北大清华统计论坛是北大清华两校统计学科的传统学术活动,由北京大学统计科学中心和清华大学统计学研究中心联合发起,至今已成功举办六届。

随着两校统计学科的发展和人才队伍的壮大,北大-清华统计论坛的参会者逐年增加,本届论坛累计共有两百余人参会,除清北两校师生外还受到了很多其他高校和业界的学者关注。在这个特殊时期,两校统计学科的师生通过线上平台“云见面”及交流,活动精彩依旧。清华大学张学工教授和北京大学的丁剑教授分别代表两校作大会特邀报告。

两校教员云合影

作为本届论坛的主办方,清华大学统计学研究中心执行主任邓柯副教授致开幕词。邓柯回顾了两校统计学科近年来取得的成绩和两校统计学者们为推动统计学科的发展所付出的努力,同时也期待两校统计学科在新一轮学科建设中再获佳绩。

特邀报告一:《单细胞数据分析、ECA与数基虚拟细胞实验》 特邀报告人:清华大学 张学工 教授
北京大学统计科学中心主任姚方教授讲话,并介绍本届论坛的另一位特邀报告嘉宾-新加入北京大学的丁剑教授,以及丁剑教授近年来所取得的学术成就。
特邀报告二:《Matching recovery from noisy network: many problems and some progress》
特邀报告人:北京大学 丁剑 教授
海报展示与评选

海报展示与评选也是北大-清华统计论坛的经典环节,北大、清华两校的博士研究生们针对各自的研究成果进行海报展示,深入沟通交流。

线上海报展示与评选场景

颁奖环节由北京大学苗旺老师主持并宣布。经过紧张激烈的评选,清华大学统计学研究中心18级博士研究生朱珂、19级博士研究生郑思捷,北京大学数学科学学院18级博士研究生王惠远、统计科学中心18级博士研究生邵凌轩获评“优秀海报奖”。

清华大学统计学研究中心17级博士研究生李杰

北京大学统计科学中心17级博士研究生杨莹

获评本年度“优秀毕业生”称号。

#post-12339
ntry-header

#post-12333
ntry-header

近日,清华大学2022年第2期教学简报发布《本科生课程课堂教学质量学生问卷调查统计分析报告(2021-2022学年度秋季学期)》。

清华大学统计学研究中心入围全校前5%的课程如下:

邓婉璐 《初等概率论》

2021-2022学年度秋季学期理论课得分

全校排名第一(100人以上课堂),邓婉璐老师连续两年获此佳绩

周在莹 《统计计算与软件》

2021-2022学年度秋季学期理论课得分

全校排名前5%(100人以上课堂)

周在莹 《非参数统计导论》

2021-2022学年度秋季学期理论课得分

全校排名前5%(30-100人课堂)

此前,在2020-2021学年度春季学期教评中,周在莹老师讲授的两门课《线性回归分析》《实验设计和分析》也排名全校前5%

 

#post-12317
ntry-header

2022年3月8日,哈佛大学生物统计系公布本年度“统计科学领域马文泽伦领导力奖(Marvin Zelen Leadership Award in Statistical Science)”获奖人选,清华大学知名校友、哈佛大学生物统计系林希虹教授获此殊荣,祝贺林老师~也感谢林老师长期以来为清华大学统计学科发展做出的卓越贡献!

以下选自哈佛大学介绍:

We are extremely pleased to announce that internationally renowned biostatistician

Dr. Xihong Lin

Professor of Biostatistics and Coordinating Director of the Program in Quantitative Genomics at the Harvard T.H. Chan School of Public Health and Professor of Statistics at the Faculty of Arts and Sciences of Harvard University, will be the recipient of the 2022 Marvin Zelen Leadership Award in Statistical Science and will deliver a virtual lecture in May 2022.

Described by colleagues as “a force of nature”, “a major star”, and “one of the most influential statistical scientists of our time”, Dr. Lin has distinguished herself as a world leader in statistical methods and applications who has dedicated her career to advancing biostatistics, medicine, and public health.

After earning her PhD at the University of Washington and spending almost 10 years at the University of Michigan, Dr. Lin joined the faculty at Harvard in 2005. Her research has evolved over the years, motivated by the pressing analytical needs in health research. Early in her career, she focused on statistical method development and applications for analysis of longitudinal data and complex observational studies. She became a leader in mixed models, nonparametric and semiparametric regression, missing data, and measurement error for analysis of longitudinal data, and causal inference for complex clinical trials. Later in her career her research shifted to statistical genetics and genomics, with her work becoming a hallmark in statistical methods for analysis of rare variants (RVs) in whole genome sequencing studies. She founded and has been the Coordinating Director of Harvard’s Program in Quantitative of Genomics (PQG) since 2008. Most recently, Dr. Lin has been on the forefront of COVID-19 research, becoming part of a team analyzing the first data out of Wuhan, China and the effectiveness of control measures. In addition to several other efforts, she is the PI of the HowWeFeel project that launched an app in spring 2020 to collect COVID-19 health and exposure data in US and other countries.

Dr. Lin has given back to the statistical and biostatistical community in immeasurable ways through her extraordinary service and leadership. She chaired the Harvard Biostatistics department from 2015-2018, helping to launch an MS program in Health Data Science, one of the first in the nation. As coordinating director of the Program in Quantitative Genomics (PQG), she will help organize its 16th conference, “Emerging Challenges and Opportunities in Gene Editing” later this year. She is the former Chair of the COPSS, and a former member of the Committee of Applied and Theoretical Statistics (CATS) of the National Academy of Science. She is the former Coordinating Editor of Biometrics, the founding co-editor of Statistics in Biosciences, and a former Associate Editor of the Journal of the American Statistical Association and American Journal of Human Genetics.

Dr. Lin has trained 37 doctoral students as the primary dissertation advisor and 27 postdoctoral fellows, proving to be a dedicated educator, a generous mentor, and a role model throughout her career. She has always made the development and success of junior faculty and students a priority, particularly focusing on supporting women statisticians, and promoting inclusivity and equity. She has been described by her peers as a caring, supportive colleague who is always thinking about others rather than herself.

Through her groundbreaking research, countless initiatives and projects, and the community she has helped grow, Dr. Lin’s transformative ideas and innovative vision have moved the field forward. Reminiscent of the career of the late Marvin Zelen, and in the true spirit of the award, Dr. Lin has “contributed to the creation of an environment in which statistical science and its applications have flourished”.

Career Highlights

  • Mortimer Spiegelman Award, APHA
  • Presidents’ Award, COPSS
  • Janet L. Norwood Award for Outstanding Woman Statistician, University of Alabama at Birmingham
  • FN David Award, COPSS
  • Mosteller Statistician of the Year, ASA Boston Chapter
  • Adrienne Cupples Award, Boston University
  • Greenberg Distinguished Lectureship Award, UNC Chapel Hill
  • Distinguished Alumni Award, University of Washington
  • Outstanding Service Award, International Chinese Statistical Association
  • Myrto Lefkopoulou Award, Harvard University
  • Medallion Lecture Award, Institute of Mathematical Statistics
  • Coordinating Director, Program in Quantitative Genomics (PQG)
  • Elected Fellow of the American Statistical Association
  • Elected Fellow of the Institute of Mathematical Statistics
  • Elected to the National Academy of Medicine
  • Named one of 50 Changemakers in Public Health by Washington University
  • Published over 330 papers, with over 43300 citations
  • Principal Investigator or Multiple Principal Investigator on six NIH and NSF grants
  • Received the NCI MERIT Award (R37) and the NCI Outstanding Investigator Award
  • Chair of the COPSS
  • Former member of the Committee of Applied and Theoretical Statistics (CATS) of the National Academy of Science
  • Founder, North America Department of Biostatistics Chair Group
  • Co-founder, ENAR Young Researcher Workshop
  • Co-founder, co-founded the ASA Statistical Genetics and Genomics Section
  • Served on the State of Massachusetts COVID-19 Task Force
  • Editor, Computational Biology Series
  • Founding Co-Editor, Statistics in Biosciences
  • Coordinating Editor, Biometrics
  • Associate Editor: JASA, AJHG, Statistica, Biometrics, Biometrika, Biostatistics
  • Books: Past, Present and Future of Statistical Science and New Developments in Biostatistics and Bioinformatics (Frontiers of Statistics)
About the Award

This annual award, supported by colleagues, friends and family, was established to honor Dr. Marvin Zelen’s long and distinguished career as a statistician and his major role in shaping the field of biostatistics.

The award recognizes an individual in government, industry, or academia, who by virtue of his/her outstanding leadership, has greatly impacted the theory and practice of statistical science. While individual accomplishments are considered, the most distinguishing criterion is the awardee’s contribution to the creation of an environment in which statistical science and its applications have flourished. The award recipient will deliver a virtual lecture on statistical science and will be presented with a citation and an honorarium.

以上资料参考自哈佛大学官网:https://www.hsph.harvard.edu/biostatistics/zelenaward/

#post-12311
ntry-header

11月22-23日,深圳市福田区人民政府、深圳市福田区科技创新局和粤港澳大湾区数字经济研究院(International Digital Economy Academy,简称“IDEA”)联合举办IDEA大会。IDEA创院理事长、美国国家工程院外籍院士、英国皇家工程院外籍院士沈向洋在会上发布了由清华大学统计学研究中心俞声副教授团队与粤港澳大湾区数字经济研究院联合开发的大型开放医学知识图谱(Biomedical Informatics Ontology System,简称“BIOS”)(http://bios.idea.edu.cn)。

沈向洋院士在BIOS发布会现场讲解

医学知识图谱是一种由生物医学概念名称、概念分类、概念间关系以及相应的ID系统构成的特殊数据库,用于支持医学自然语言处理、人工智能建模以及行业数据交换,是医学大数据与人工智能领域最重要的基础设施之一,对于行业发展具有战略影响。美国国立卫生院国家医学图书馆于1986年开发并发展至今的一体化医学语言系统(Unified Medical Language System,简称“UMLS”)是目前最权威的英文医学知识图谱,为英语国家医学大数据技术与产业的发展做出了卓越贡献。而长久以来,中文领域缺少大型开放医学知识图谱,是我国医疗大数据与人工智能产业发展的主要制约因素之一。

为解决中文领域开放医学知识图谱的缺失,并在国际范围内进一步提升医学知识图谱的建设水平,清华大学统计学研究中心俞声副教授带领团队进行了长达5年的技术攻关,先后开发了基于图分割与深度学习的中文电子病历无监督多粒度分词及术语提取[1]、知识决定的医学术语向量化及正则化[2]、高通量医学关系提取[3,4]、生物医学自动翻译[5]等技术,为数据驱动的大规模图谱自动构建建立了基础,并于2020年11月与IDEA研究院沈向洋院士团队形成合作。在领先算法、强大算力和超大规模语料数据的支持下,仅用短短一年时间,双方团队便从原始底层医学术语开始,建立了全新的具有完整自主知识产权的中英文双语医学知识图谱BIOS,其规模整体接近现有权威知识图谱UMLS,并在内容质量上形成多点超越。未来,清华大学统计学研究中心将与IDEA研究院以及更多国内顶尖医院合作,不断扩大和完善BIOS的内容与质量,不仅要使我国医疗大数据与人工智能产业的薄弱基础得到全面提升,也要辐射国际,带动全球行业共同发展。

BIOS目前已在线发布(bios.idea.edu.cn)。同时,秉承全面提升发展中国医疗大数据与人工智能行业的开放理念,BIOS拟于近期以CC BY-NC-ND协议开放完整数据下载。

BIOS知识图谱包含的实体和关系数量的描述
基于BIOS知识图谱的医学命名实体识别演示

1    Yuan Z, Liu Y, Yin Q, et al. Unsupervised multi-granular Chinese word segmentation and term discovery via graph partition. Journal of Biomedical Informatics 2020;110:103542. doi:10.1016/j.jbi.2020.103542

2    Yuan Z, Zhao Z, Yu S. CODER: Knowledge infused cross-lingual medical term embedding for term normalization. arXiv:201102947 [cs] Published Online First: 5 November 2020.http://arxiv.org/abs/2011.02947 (accessed 7 Nov 2020).

3    Lin Y, Li Y, Lu K, et al. Long-distance disorder-disorder relation extraction with bootstrapped noisy data. Journal of Biomedical Informatics 2020;109:103529. doi:10.1016/j.jbi.2020.103529

4    Lin Y, Lu K, Chen Y, et al. High-throughput relation extraction algorithm development associating knowledge articles and electronic health records. arXiv:200903506 [cs, stat] Published Online First: 7 September 2020.http://arxiv.org/abs/2009.03506 (accessed 27 Sep 2020).

5    Luo S, Ying H, Yu S. Sentence Alignment with Parallel Documents Helps Biomedical Machine Translation. arXiv:210408588 [cs] Published Online First: 17 April 2021.http://arxiv.org/abs/2104.08588 (accessed 7 Jul 2021).

#post-12294
ntry-header

近日,我中心邓柯副教授课题组在统计学顶尖期刊Statistica Sinica发表题为“Total- effect Test is Superfluous for Establishing Complementary Mediation ”的研究论文,从数学上严格地证明了当直接效应和间接效应同方向且均统计显著时,利用最小二乘估计(LSE)和F-检验建立中介效应时总效应检验一定是显著的。同时本文还将类似的结果推广到了利用Sobel检验建立中介效应的场景。曾在邓柯课题组攻读博士学位的姜瑛恺博士(清华大学2015级博士生)是该文的第一作者,邓柯副教授作为通讯作者与澳门大学赵心树教授、香港浸会大学朱力行教授和哈佛大学刘军教授共同指导了该文的研究和撰写。

中介效应模型是因果推断中一类经典的模型,它是指自变量X通过中介变量M对因变量Y产生影响。在社会科学诸多领域的研究中受到研究者的青睐。通常称给定M的条件下,X对Y的影响为直接效应,X通过M对Y产生的影响为间接效应,两者之和为总效应。在建立中介效应时,文献中对于“是否需要X对Y的总效应是统计显著的”这一条件是有争议的。已经有研究指出,当直接效应和间接效应符号相反(称为竞争中介)或直接效应为零(称为完全中介)时,总效应检验有可能会错误地拒绝中介效应。然而,对于直接效应和间接效应同号(称为互补中介)的情形,总效应检验的作用并未达成共识。该文创造性地将是否需要对总效应进行检验的问题转化对相关检验拒绝域的包含关系进行几何验证的问题,从而从数学上严格证明了当直接效应和间接效应同方向且均统计显著时,在LSE-F框架下总效应检验一定显著,在LSE-Sobel框架下相关结论渐进成立。

除上述结论之外,研究团队还利用所构造的几何分析方法,对中介效应的各种情形进行了系统分析,从统计推断和几何分析的双重角度对已有文献中关于中介效应检验的结论给予了新的解读。同时,随机模拟实验的结果与理论结果也是完全契合的。以上这些结论与文献中已有的结果相互印证,支持了一个共同的论断:在各种情形下建立中介效应都不需要总效应检验。最后,研究团队通过一份社会学研究数据展示利用中介效应模型进行实际数据分析的方法。

该研究工作获得国家自然科学基金(Grants 11771242)、北京智源人工智能研究院(Grant BAAI2019ZD0103) 的资助。

论文链接:

http://www.stat.tsinghua.edu.cn/kdeng/wp-content/uploads/sites/2/2021/11/2019-0150_0326.pdf

#post-12290
ntry-header

为了促进国内青年统计和数据科学学者间的学术交流和合作,更好地推动统计学和数据科学的发展,同时加强与各兄弟院校之间的协同合作,清华大学统计学研究中心拟于2021年10月22日-24日在京召开“2021清华大学统计学与数据科学青年学者论坛” (2021 Tsinghua Symposium on Statistics and Data Science for Young Scholars)。

论坛将以线下学术报告形式展开。如届时国家及地方防疫规定要求调整为线上/融合式活动,将另行通知。

会议地点:北京市顺义区春晖园国际会议中心

腾讯会议ID:706 735 268

2021清华大学统计学与数据科学青年学者论坛会议日程安排
一、开幕式
8:30-8:45 主办方致辞

清华大学统计学研究中心 执行主任 邓柯 副教授

8:45-9:00 特邀嘉宾致辞

清华大学统计学研究中心 杨立坚 教授

二、23日会议报告
时间 报告题目 报告人 单位 主持人
9:00-9:20 Efficient Algorithms for the Optimal Estimation of Mixture Models 杨朋昆 清华大学统计学研究中心 胡志睿
9:20-9:40 Risk-based Robust Statistical Learning by Stochastic Difference-of-Convex Value-Function Optimization 刘俊驿 清华大学工业工程系
9:40-10:00 Divide-and-Conquer: A Distributed Hierarchical Factor Approach to Modeling Large-Scale Time Series Data 高照省 浙江大学数据科学研究中心
10:00-10:20 Central Limit Theorem for Linear Spectral Statistics of Large Dimensional Kendall’s Rank Correlation Matrices and its Applications 李曾 南方科技大学统计与数据科学系
10:20-10:40 合影
10:40-11:00 Transformed Cointegration Models with Partially Linear Additivity 林颖倩 上海财经大学经济学院 胡志睿
11:00-11:20 Tests of Unit Root Hypothesis with Heavy-tailed Heteroscedastic Noises 佘睿 西南财经大学统计研究中心
11:20-11:40 Multifrequency-Band Tests for White Noise Under Heteroscedasticity 刘梦雅 华中师范大学数学与统计学学院
11:40-12:00 Stratification and Optimal Resampling in Sequential Monte Carlo 李艺超 清华大学统计学研究中心
12:00-13:30 午餐
13:30-13:50 Bayesian Modeling for Detecting the Molecular Basis of Phenotypic Convergence 胡志睿 清华大学统计学研究中心 张静怡
13:50-14:10 Volatility Analysis with Combined High- and Low-Frequency Data 宋馨雨 上海财经大学统计与管理学院
14:10-14:30 Deep Graph Convolutional Network for US Birth Data Harmonization 余丽珊 北京雁栖湖应用数学研究院
14:30-14:50 Rapid Design of Metamaterials via Multi-target Bayesian Optimization 杨洋 广州腾讯科技有限公司
14:50-15:10 State-Domain Change Point Detection for Nonlinear Time Series Regression 崔嫣 哈尔滨工业大学数学研究院
15:10-15:30 休息
15:30-15:50 Extended Admissible Decision Procedures and their Nonstandard Bayes Risk 端木昊随 哈尔滨工业大学数学研究院 张静怡
15:50-16:10 Automated Estimation of Heavy-tailed Vector Error Correction Models 郭菲菲 北京理工大学数学与统计学院
16:10-16:30 FIRM: Flexible Integration of Single-cell RNA-sequencing Data for Large-scale Multi-tissue Cell Atlas Datasets 明静思 华东师范大学统计交叉科学研究院
16:30-16:50 Slicing Free for Functional Sliced Inverse Regression 陈锐 清华大学统计学研究中心
16:50-17:10 Generalized Tessellation Processes 葛淑菲 上海科技大学数学科学研究所
17:10-17:30 Rank Test of Unit-Root Hypothesis with AR-GARCH Errors 廖桂丽 福建师范大学数学与统计学院

 

 

 

三、24日会议报告
时间 报告题目 报告人 单位 主持人
8:40-9:00 Confidence Interval Construction – a New Self-normalization Approach Based on Adjusted Range 孙佳婧 中国科学院大学经济与管理学院 王天颖
9:00-9:20 Two-Sample Mean Test for High-Dimensional Time Series 张澍一 华东师范大学统计交叉科学研究院
9:20-9:40 A Model-free Approach for Electronic Health Record-based Case-control Studies with Contaminated Case Pools 戴国榕 复旦大学管理学院统计学系
9:40-10:00 Segmenting Time Series via Self-Normalization 蒋斐宇 复旦大学管理学院
10:00-10:20 Sparse Spatially Clustered Coefficient Model via Adaptive Regularization 钟琰 华东师范大学统计学院
10:20-10:40 休息
10:40-11:00 Penalized Time-Varying Model Averaging 孙玉莹 中国科学院数学与系统科学研究院 王天颖
11:00-11:20 Understanding the Acceleration Phenomenon via High-resolution Differential Equations 史斌 中国科学院数学与系统科学研究院
11:20-11:40 Data-adaptive Efficient Estimation Strategies for Biomarker Studies Embedded in Randomized Trials 张维 中国科学院数学与系统科学研究院
11:40-12:00 Targeting Underrepresented Populations in Precision Medicine: A Federated Transfer Learning Approach 李赛 中国人民大学统计与大数据研究院
12:00-13:30 午餐
13:30-13:50 Layer-Peeled Model: Toward Understanding Well-Trained Deep Neural Networks 方聪 北京大学信息科学技术学院智能科学系 杨朋昆
13:50-14:10 Controlling for Unmeasured Confounding in Panel Data Using Minimal Bridge Functions 毛小介 清华大学经济管理学院
14:10-14:30 The Role of Callback in Survey Data for Nonresponse Adjustment 苗旺 北京大学数学科学学院
14:30-14:50 Statistical and Practical Considerations on Dose Finding Approaches in Oncology Clinical Trials 李贲 复星医药全球研发中心生物统计与数据科学部
14:50-15:10 An Optimal Ablation Time Prediction Model Based on Minimizing the Relapse Risk 林毓聪 北京理工大学医工融合研究院
15:10-15:30 The Frequency and Severity of Crop Damage by Wildlife in Rural Beijing, China 方良 北京林业大学经济管理学院统计系
15:10-18:00  

自由讨论

 

 
#post-12281
ntry-header

近日,统计学研究中心2017级博士研究生李杰,2020级博士研究生胡祺睿斩获国际统计学会 (International Statistical Institute, ISI) 颁发的国际统计学会2021年度简·丁伯根奖一等奖(2021 ISI Jan Tinbergen Award Division A First Prize)。

总部在荷兰的国际统计学会(ISI)是全球三个权威统计学学术组织之一,旨在引领、支持和促进全世界对统计学的理解、发展和良好实践。ISI 颁发的各类荣誉奖项都被国际统计学界高度认可。简·丁伯根奖命名于获得1969年首个诺贝尔经济学奖的荷兰学者简·丁伯根,是从每两年举行一次的世界统计学大会(World Statistics Congress, WSC)青年统计学者(1987年以后出生)提交的论文中评选的最佳论文(https://www.isi-web.org/events/isi-awards/tinbergen-award)。其中Division A的获奖论文必须解决一个对广大发展中国家具有实际意义的应用统计问题。自2019年开始,获奖者已不再限于发展中国家。自2013年至2021年,共有来自多个国家的14人获奖,其中3位华人,李杰和胡祺睿是第一次获得一等奖的华人。除此之外,西安电子科技大学数学与统计学院研究生韩路于2013年获二等奖。

今年共有3人获奖。李杰和胡祺睿获得2500欧元奖金,受邀免注册费参加于7月11日至16日在荷兰海牙举行(最终因疫情在线举办)的国际统计学会第63届世界统计学大会(The 63rd ISI World Statistics Congress),并在简·丁伯根奖会场(Jan Tinbergen Awards Session)做了30分钟的邀请报告。

李杰和胡祺睿的获奖论文“非参数回归分析空气污染物浓度的预测区间”(Prediction Interval of Air Pollutants Concentration by Nonparametric Regression Analysis)将非参数回归模型应用于局部平稳时间序列的趋势,分析了由中国环境监测总站高级工程师张凤英博士提供的西安市2013年到2020年间6种主要空气污染物的每日浓度数据,并构造出了未来5日各空气污染物浓度的预测区间。论文提出用样条回归(Spline regression)估计趋势函数,核回归(Kernel regression)估计方差函数,对所得的近似平稳序列拟合自回归(AR)模型,再用核分布(Kernel distribution estimator)方法估计其误差的分位数后,得到了带趋势项自回归时间序列的数据驱动多步向前预测区间。相比于季节性差分整合移动平均自回归(Seasonal ARIMA)等传统方法产生的预测区间,论文中方法得到的预测区间不仅长度更窄,还具有更好的预测精度和覆盖率。该方法有效解释了空气污染物浓度数据潜在的动态变化规律,并可以精确预测未来五到七日空气污染物的浓度,在污染物管理和早期预防方面有着广泛的应用价值。特别值得一提的是李杰和胡祺睿的获奖论文是在无指导教师直接参与的条件下完成的。

官网新闻链接:https://www.isi-web.org/news-newsletter/20555-2021-isi-jan-tinbergen-awards

 

#post-12271
ntry-header
今日,国家自然科学基金委员会发布《关于2021年国家自然科学基金集中接收申请项目评审结果的通告》(国科金发计〔2021〕51号),我中心杨立坚教授、俞声副教授获得国家自然科学基金面上项目资助;王天颖助理教授、杨朋昆助理教授、胡志睿助理教授获得国家自然科学基金青年项目资助。

负责人

项目类型

项目名称

杨立坚

面上项目

相依函数型数据的统计分析:理论与方法

俞声

面上项目

数据驱动医学知识图谱建设的基础算法研究

王天颖

青年项目

高维异质性数据中的整合分位数回归模型:统计推断理论及其在生物遗传学方面的应用

胡志睿

青年项目

基于贝叶斯模型及计算方法研究物种趋同进化的基因调控机制

杨朋昆

青年项目

大规模域空间上统计推断的性能极限及高效算法

#post-12266