ntry-header

近日,清华大学2022届毕业生党员大会暨启航出征仪式在主楼接待厅举行。我中心应届毕业生李杰和郭瀚民荣获“清华大学毕业生启航奖铜奖”。

据悉,清华大学于2006年设立清华大学毕业生启航奖,大力鼓励、支持、引导毕业生将个人成长成才与国家民族发展紧密结合起来,“到党和人民需要的地方发光发热”。作为毕业生就业领域唯一的校级荣誉,重点表彰前往西部、基层、重点行业、艰苦行业就业及创业的优秀毕业生。

李杰,中共党员,2017年进入清华大学统计学研究中心攻读博士学位,导师为杨立坚教授。博士期间曾获2021年国际统计学会ISI Jan Tinbergen Award First Prize、2020年国际数理统计协会 IMS Hannan Graduate Student Travel Award、2020第四届全国统计学博士研究生学术论坛优秀论文二等奖、2019年第四届北大-清华统计学论坛优秀海报奖、2022年第六届北大-清华统计学论坛优秀毕业生、2021年清华大学综合一等奖学金、2022年清华大学优秀博士学位论文、2018年清华大学工业工程系优秀党员等荣誉,并入选清华大学工业工程系“未来教授培养计划”。他毕业后前往中国人民大学统计学院任师资博士后。

读博期间,李杰的研究方向主要为函数型数据分析和时间序列。在研究中,他利用B样条估计了函数型时间序列的均值函数并构造了同时置信带,为脑电序列可能具有三角函数形式的均值函数提供了强有力的证据。 他将等距设计的非参数回归模型扩展到局部平稳时间序列,构造了数据驱动的多步向前预测区间,为空气污染物浓度预测提供可靠的预测精度。

在李杰看来,只有将个人的理想与祖国的需要结合起来,才能实现个人的最大价值。基于个人的志向以及对学术的坚持,他最终选择去中国人民大学统计学院工作。他希望自己始终坚持“面向应用,背靠理论,写好算法”的统计学思想,不跟风,不浮躁,做理论扎实、应用价值突出的统计学研究。他将时刻谨记自己的责任和使命,践行“自强不息,厚德载物”的校训,为成为一名合格的高校教师,一名于国家、于民族有用的清华人而不断努力。

郭瀚民,中共党员,2017年进入清华大学统计学研究中心攻读博士学位,导师为侯琳副教授。博士期间曾获2019年“百济神州青年论文奖”二等奖、2021年清华大学综合二等奖学金等荣誉。他毕业后前往斯坦福大学王永雄院士课题组进行博士后培养。

博士期间,郭瀚民的研究方向主要为统计遗传学和数理统计。他开发了基于扫描统计量的局部遗传相关性统计推断方法LOGODetect,识别出了与多个精神疾病相关的基因片段,对理解精神疾病中的跨诊断现象具有重要意义。他开发了新发突变富集相关性的统计推断方法EncoreDNM,识别出了大量功能缺失突变富集相关性,为理解复杂疾病的共病现象提供启示。他还针对充分降维中的信息压缩问题,提出极小灵活充分降维σ-域的概念及其估计方法,在空气污染数据的应用中揭示了多种大气条件和空气质量的关系。

郭瀚民立志成为一名统计遗传学家和数据科学家,发展统计学理论方法,从生物数据中挖掘出科学知识,改善人类健康。基于个人的学术志趣和理想,他选择了到美国继续深造,并计划未来到国内高校任教,为祖国科研事业添砖加瓦。他希望自己能坚持“哪里有数据,哪里就有统计学”的思维方式,从实际问题出发进行科研创新,做出对人类有实际意义的科学工作。

#post-12341
ntry-header

近日,中心五年级博士生蒋斐宇以第一作者的身份撰写的论文“Adaptive Inference for a Semiparametric Generalized Autoregressive Conditional Heteroskedasticity Model”被计量经济学顶尖期刊Journal of Econometrics接受并在线发表。此文是蒋斐宇同学发表的第3篇JOE论文。

该论文是蒋斐宇与我中心李东副教授和香港大学统计与精算系朱柯助理教授合作完成的,主要研究了一类半参数的广义条件异方差模型(简记为S-GARCH模型)的参数估计、检验和模型诊断等统计推断问题。

传统的GARCH模型由Engle (1982)以及Bollerslev(1986)提出,是应用最为广泛的金融时间序列模型之一,但在使用该模型时通常需要假定数据是平稳的。为此,该论文基于现有的文献方法,在GARCH模型中引入了一般的非参数趋势项,而使得拓展后的S-GARCH模型可以处理非平稳的金融时间序列,拓宽了GARCH模型的适用范围。       该论文提出的两步估计方法简单有效,在一定的假设下,S-GARCH模型的模型参数估计、参数检验和模型诊断等极限理论不依赖于非参数趋势项的估计,并且拥有自适应性和有效性等特点,非常便于使用。

#post-12222
ntry-header

近日,我中心16级博士研究生蒋斐宇和李艺超投稿的论文荣获“第六届全国高校研究生统计论坛十佳论文”。其中,蒋斐宇同学在线下主会场汇报了其获奖论文“Adaptive Inference for a Semiparametric Generalized Autoregressive Conditional Heteroskedasticity Model”,李艺超同学在线上数理统计分会场汇报了其获奖论文“Stratification and Optimal Resampling in Sequential Monte Carlo”。

左五:李艺超 左六:蒋斐宇(图源:中国人民大学统计学院)

“全国高校研究生统计论坛”由中国人民大学统计学院与中国人民大学应用统计科学研究中心联合主办,致力于激发学生对统计科学领域的热情,促进高校研究生交流,至今已经成功举办六届。值得一提的是,我中心16级博士研究生林毓聪同学也曾在第四届论坛中荣获十佳论文奖。

#post-12209
ntry-header

蒋斐宇,清华大学统计学研究中心五年级博士生,指导老师为李东副教授。主要研究方向为非线性时间序列分析、金融计量学和变点检测等。目前已在Journal of Econometrics, Statistica Sinica等期刊发表多篇学术论文。
学术经历:
2018/09-2018/11:香港大学访问
2019/03-2019/08:香港大学访问
2019/08-2020/08:伊利诺伊大学厄巴纳-香槟分校(UIUC)访问
社会工作经历:
2018/09-2019/08:清华大学统计学研究中心学生会主席
2018/09-2019/01:清华大学统计咨询中心学生咨询师

近日,我中心16级博士研究生蒋斐宇同学荣获“2020年度研究生国家奖学金”,统计学研究中心专访小分队骨干成员陶宇心、余成两位同学针对同学们关心的论文、科研、职业生涯规划等问题对蒋斐宇深度采访:
Q1:师兄您好!非常感谢您接受此次采访。首先想请问您对于这次获得国家奖学金有什么样的个人感受呢?
蒋:非常荣幸这次能获得国家奖学金。感谢统计中心和工业工程系这几年的培养和支持。其实挺惭愧的,我在读博期间并没有很多社工经历或社会实践,此次能获得国奖是对我科研成果极大的肯定。特别感谢我的导师——李东老师的教导和帮助。
Q2:师兄在读博期间,有哪些印象深刻的记忆呢?
蒋:印象最深刻的事情,应该是我在香港访问的时候,当时我和我的导师参加了一个学术会议,晚上在酒店里收到了通知,我和导师合作的文章被Journal of Econometrics接收了。这是我的第一篇文章被接收,还是非常激动的。
Q3:师兄在过去几年里连续发表了多篇顶刊,想问下师兄在科研方面有什么心得体会吗?
蒋:不算顶刊,只是还不错的期刊吧(笑)。我觉得有以下几点:首先是打好理论功底,不要急功近利。这可能跟我的研究方向有关,我的研究方向偏理论研究,需要扎实的理论基础。所以在导师的建议下,我博士一年级主要在上课,没有做研究。并且上课不能只做老师布置的题,书上其他的题目,以及老师推荐的参考书,都是非常好的,有余力的话可以都尝试做做。有些知识点可能目前课程不需要学,但在未来研究中有可能会用到,需要自己多阅读多学习。熟悉了各种数学、统计工具后,就能很容易看懂别人的文章,自己做研究也比较快了。
除了打好数学基础以外,写作能力和英语水平也非常重要。有的时候把一个故事讲好是很困难的,需要讲清楚你提出了什么问题、前人有哪些工作、存在什么问题、你的解决方法等。论文构思和框架是有技巧的,其中introduction部分最关键,很考验写作功底,需要循序渐进、吸引读者。
在论文写作中,证明部分首先自己必须全部搞懂,不能依葫芦画瓢、一知半解。与其之后被老师、审稿人发现问题,不如自己先保证每一步证明的准确。另外要学会如何提升自己论文的档次,怎么充实文章。在数理统计领域,有可能审稿的周期会很久,被拒绝也是经常会发生的。大家不能气馁,对于审稿人中肯的意见,要吸收进去。
Q4:之前师兄曾前往UIUC交流访问一年,并短时间出色完成了一篇与疫情相关的文章Time series analysis of COVID-19 infection curve: A change-point perspective发表在JOE上,想问下师兄如何在短时间内完成这篇文章的呢?
蒋:这肯定有运气成分在(笑)。这是我和访问的老师一起完成的文章,和变点有关。很巧的是我们在疫情爆发前就在进行时间序列变点估计的相关研究,证明部分也已差不多完成。到今年3、4月份,美国疫情开始严重,COVID问题很受统计学者的关注。我当时就想,能不能把我们变点估计的方法用在疫情数据上。和老师讨论后,我便尝试用时间序列模型去分析疫情数据,花了两周时间做了下模拟,发现估计的变点和实际事件很有关联,比如超级传播者的确诊、政府发布stay at home政策的时间点等等。所以很幸运,恰好有个贴合实际的问题,也恰好有证明好的方法。
现有关于疫情分析的研究一般是基于传染病模型,有协变量和许多假设。而我们的方法属于时间序列,纯数据驱动,没有协变量,单纯利用疫情数据寻找变点、进行预测。结果发现预测效果和其他模型差不多,甚至更好。因此研究问题的动机很重要,统计问题是从实际问题出发的。现在流行的机器学习、深度学习等方法一般需要大量的数据,对于像疫情这种观测的数据点适中的实际例子来说,统计模型往往更适用。可见即使是时间序列这种非常经典的统计方向在大数据时代也是很有必要的。
Q5:师兄还有一年就要毕业了,对于未来有何规划和打算呢?
蒋:我之前就打算去学界,现在正在找教职,因为考虑到业界工作会有KPI和ddl等,而学术界相比之下约束较少,学术和生活上相对比较自由。当然工业界的研究问题更切合实际和偏商业化,薪资往往会更高,这个就看个人选择了。
周围有许多同学对未来的规划尚不明确,我的建议是先写出一篇文章,达到毕业要求后,在导师同意下,可以在博士二年级末三年级初去企业实习一段时间,体验一下业界适不适合自己。最晚在四年级上的时候就要做出明确选择了,以便之后能够专攻某一方向。
此外,统计咨询也是一个接触各种项目的很好的机会。我们在博二会上统计咨询课,考核标准就是完成一到两个统计咨询项目,项目来自于企业、政府部门、学校其他院系的课题组等等。毕竟统计学是基于应用的,不是象牙塔,需要和实际问题结合。我们有和其他专业的同学合作过,如果能利用统计学的方法帮助别人解决困扰多年的问题,别人会非常感谢,自己也会很自豪。这相当于推动了多个领域的学术发展和科研进步,是很有意义的事情。
Q6:最后,想问下师兄对于统计中心和师弟师妹们有什么寄语和期望吗?
蒋:首先祝愿统计中心越办越好,能够尽早建系。在招了本科生后,师弟师妹们做助教的压力可能会大一些,希望大家加油干,这也是为清华统计学科的建设做贡献。
另外,不是自己领域的课和讲座也可以多听听,多和别人交流。有些想法即使现在用不到,也有可能会启发自己未来的科研。一个人精力是有限的,自己看论文不如直接听别人讲座来的高效。高年级同学也可以多出去参加会议,和同龄的同学、老师们交流沟通。陶宇心、余成:非常感谢师兄在百忙之中抽空接受采访,衷心祝愿师兄在统计学的道路上继续乘风破浪,万事胜意!
#post-12208
ntry-header

近日,清华大学统计学研究中心举办了“统计学博士生论坛”。博士生论坛是清华大学统计学研究中心的传统活动,其设立的目标是为青年统计学者提供一个学术交流的平台,以提高统计学者的专业知识及专业素养。来自清华大学统计学研究中心的四十余名在读博士生参与了此次论坛,博士们根据个人的研究方向,分享了他们的近期研究成果以及在研究过程中遇到的问题。同学们积极发言,分享观点,讨论热烈。

论坛伊始,清华大学统计学研究中心执行主任邓柯副教授致辞。邓老师强调,随着清华大学统计学科人才培养规模逐渐加大,人才培养质量把控也愈加重要。在一定的时间充分的展现学术研究能力和最新研究进展是科研人员的基本素养,也是学术生态的重要组成部分。希望博士研究生们能充分利用论坛平台,达到能力的锻炼与提升。

博论风采
#post-12198
ntry-header

近日,我中心2017级博士研究生袁正以第一作者身份撰写的论文 “Unsupervised multi-granular Chinese word segmentation and term discovery via graph partition” 被Journal of Biomedical Informatics (Health Informatics Q1,Computer Science Applications Q1) 接收并在线发表。该论文是作者同清华大学刘元昊、尹秋阳、李铂垚同学、北京清华长庚医院冯晓彬教授以及江苏卫健委张国明共同完成,我中心俞声副教授是论文的通讯作者。

电子病历蕴含丰富的医学信息,对生物医学研究、公共卫生统计、卫生经济学、医学人工智能等诸多领域具有重要的价值。为了进行电子病历分析,首先需要进行分词和术语发现。但由于缺少完善的中文医学词典和已分词的中文电子病历,有监督的分词算法难以训练,已有的中文分词系统在中文电子病历的应用中表现不好。基于此种情况,作者以图分割为基础,提出全新的无监督的多粒度中文分词和术语发现的方法。

论文将分词问题转换为图的分割问题:将一个句子转换为无向图,顶点为每个字符,边的权重通过n-gram统计量计算,通过不同粒度的图分割获得了多粒度的分词结果。论文提出了一个术语判别系统,并训练BERT分类器以判断该术语是否被正确分词。该术语判别系统可以在已有的多粒度分词结果上提取正确的医学术语进行术语发现。该方法在CCKS中文病历数据集上的术语发现任务中表现遥遥领先已有的中文分词系统。

图中Seg和Seg+Dis为论文提出的方法,纵坐标代表测试中术语发现数量。

论文网页:

https://authors.elsevier.com/c/1belf5SMDQgLU6

#post-12185
ntry-header

 

#post-12181
ntry-header

2020年3月1日,我中心2017级博士生张园园为第一作者,清华大学机械工程系季林红教授为通讯作者的论文“Prediction of working memory ability based on EEG by functional data analysis”正式发表在神经科学SCI期刊 Journal of Neuroscience Methods第333卷(https://doi.org/10.1016/j.jneumeth.2019.108552, 333)。该文首次建立了以脑电信号预测工作记忆能力的多重函数型线性模型。由于使用样条函数,该模型直观易懂,计算快捷简便,理论性质可靠,基于随机抽取的122名大学生志愿者训练集,以闭眼静息态下,8个脑前区导联的脑电信号,对20名志愿者测试集进行工作记忆能力的预测,其确定系数R2在多次随机试验下的中位数为68%,最低值大于50%,最高值72%。

由张园园与我中心2018级博士生黄昆组成的杨立坚团队,从2018年12月开始分析季林红团队的大学生志愿者脑电与认知能力数据,到最终完成论文,始终坚持“面向应用,背靠理论,写好算法”的统计学思想。他们依托近10年来团队在函数型数据方向的研究成果,与机械工程系吴芳芳教授和硕士生王健凯组成的季林红团队高效合作,把样条回归估计脑电信号(EEG)的光滑轨迹,张量样条回归估计协方差函数,样条估计函数型主成分(FPCs)与得分(FPC scores)等深刻的统计学前沿理论,结合LASSO回归,转化为快速准确分析脑电数据的算法,用6个月时间很好地解决了工作记忆能力预测的问题,完成了这篇跨学科应用论文。自2019年12月该文线上发表,作者已多次收到Neurology Congress 2020等神经科学领域国际会议的邀请。

2020年2月4日,张园园作为第一作者完成的另一学术论文“Two-step estimation for time varying ARCH models”在线发表于统计学SCI期刊Journal of Time Series Analysishttps://doi.org/10.1111/jtsa.12522 )。这篇与托雷多大学终身教授刘嵘,邵琴合作的19页重磅论文+27页在线补充材料,从理论上严格证明了对于带有时间缓变尺度的非平稳ARCH时间序列,用去除样条函数估计的尺度趋势之后的ARCH残差序列,计算ARCH系数的最小二乘估计LSE与直接用观测不到的平稳ARCH序列计算有相同的渐近正态分布。另一方面,以残差序列计算的极大似然估计MLE的渐近正态分布则不同于以观测不到的平稳ARCH序列计算的MLE。该文提出的方法被用于估计标准普尔(S&P)500从1950到2018年每日回报率的时间缓变尺度以及隐藏的ARCH参数,清楚地揭示了金融波动率水平随时间的长期缓慢增长,特别是2008年全球金融危机前后波动率尺度的大幅增长。该文在2019年7月荣获国际泛华统计协会(International Chinese Statistical Association)颁发的中国会议青年研究者奖(ICSA China Conference Junior Researcher Award),是4位获奖者中唯一的学生,也是唯一不是来自美国高校的获奖者。

张园园同学谦虚刻苦,潜心研究,在攻读博士学位两年半期间,在函数型数据与时间序列方向各发表了1篇重要论文,入选工业工程系“未来教授培养计划”。关于非参数回归相关系数曲线同时置信带的硕士学位论文,于2018年发表在统计学期刊TEST,同年获得北大-清华统计论坛优秀海报奖。目前张园园在美国爱荷华州立大学王丽教授指导下系统学习二元样条回归理论,并研究高频金融数据分布等新课题。

#post-12161
ntry-header

#post-12117
ntry-header

#post-12115