ntry-header

蒋斐宇,清华大学统计学研究中心五年级博士生,指导老师为李东副教授。主要研究方向为非线性时间序列分析、金融计量学和变点检测等。目前已在Journal of Econometrics, Statistica Sinica等期刊发表多篇学术论文。
学术经历:
2018/09-2018/11:香港大学访问
2019/03-2019/08:香港大学访问
2019/08-2020/08:伊利诺伊大学厄巴纳-香槟分校(UIUC)访问
社会工作经历:
2018/09-2019/08:清华大学统计学研究中心学生会主席
2018/09-2019/01:清华大学统计咨询中心学生咨询师

近日,我中心16级博士研究生蒋斐宇同学荣获“2020年度研究生国家奖学金”,统计学研究中心专访小分队骨干成员陶宇心、余成两位同学针对同学们关心的论文、科研、职业生涯规划等问题对蒋斐宇深度采访:
Q1:师兄您好!非常感谢您接受此次采访。首先想请问您对于这次获得国家奖学金有什么样的个人感受呢?
蒋:非常荣幸这次能获得国家奖学金。感谢统计中心和工业工程系这几年的培养和支持。其实挺惭愧的,我在读博期间并没有很多社工经历或社会实践,此次能获得国奖是对我科研成果极大的肯定。特别感谢我的导师——李东老师的教导和帮助。
Q2:师兄在读博期间,有哪些印象深刻的记忆呢?
蒋:印象最深刻的事情,应该是我在香港访问的时候,当时我和我的导师参加了一个学术会议,晚上在酒店里收到了通知,我和导师合作的文章被Journal of Econometrics接收了。这是我的第一篇文章被接收,还是非常激动的。
Q3:师兄在过去几年里连续发表了多篇顶刊,想问下师兄在科研方面有什么心得体会吗?
蒋:不算顶刊,只是还不错的期刊吧(笑)。我觉得有以下几点:首先是打好理论功底,不要急功近利。这可能跟我的研究方向有关,我的研究方向偏理论研究,需要扎实的理论基础。所以在导师的建议下,我博士一年级主要在上课,没有做研究。并且上课不能只做老师布置的题,书上其他的题目,以及老师推荐的参考书,都是非常好的,有余力的话可以都尝试做做。有些知识点可能目前课程不需要学,但在未来研究中有可能会用到,需要自己多阅读多学习。熟悉了各种数学、统计工具后,就能很容易看懂别人的文章,自己做研究也比较快了。
除了打好数学基础以外,写作能力和英语水平也非常重要。有的时候把一个故事讲好是很困难的,需要讲清楚你提出了什么问题、前人有哪些工作、存在什么问题、你的解决方法等。论文构思和框架是有技巧的,其中introduction部分最关键,很考验写作功底,需要循序渐进、吸引读者。
在论文写作中,证明部分首先自己必须全部搞懂,不能依葫芦画瓢、一知半解。与其之后被老师、审稿人发现问题,不如自己先保证每一步证明的准确。另外要学会如何提升自己论文的档次,怎么充实文章。在数理统计领域,有可能审稿的周期会很久,被拒绝也是经常会发生的。大家不能气馁,对于审稿人中肯的意见,要吸收进去。
Q4:之前师兄曾前往UIUC交流访问一年,并短时间出色完成了一篇与疫情相关的文章Time series analysis of COVID-19 infection curve: A change-point perspective发表在JOE上,想问下师兄如何在短时间内完成这篇文章的呢?
蒋:这肯定有运气成分在(笑)。这是我和访问的老师一起完成的文章,和变点有关。很巧的是我们在疫情爆发前就在进行时间序列变点估计的相关研究,证明部分也已差不多完成。到今年3、4月份,美国疫情开始严重,COVID问题很受统计学者的关注。我当时就想,能不能把我们变点估计的方法用在疫情数据上。和老师讨论后,我便尝试用时间序列模型去分析疫情数据,花了两周时间做了下模拟,发现估计的变点和实际事件很有关联,比如超级传播者的确诊、政府发布stay at home政策的时间点等等。所以很幸运,恰好有个贴合实际的问题,也恰好有证明好的方法。
现有关于疫情分析的研究一般是基于传染病模型,有协变量和许多假设。而我们的方法属于时间序列,纯数据驱动,没有协变量,单纯利用疫情数据寻找变点、进行预测。结果发现预测效果和其他模型差不多,甚至更好。因此研究问题的动机很重要,统计问题是从实际问题出发的。现在流行的机器学习、深度学习等方法一般需要大量的数据,对于像疫情这种观测的数据点适中的实际例子来说,统计模型往往更适用。可见即使是时间序列这种非常经典的统计方向在大数据时代也是很有必要的。
Q5:师兄还有一年就要毕业了,对于未来有何规划和打算呢?
蒋:我之前就打算去学界,现在正在找教职,因为考虑到业界工作会有KPI和ddl等,而学术界相比之下约束较少,学术和生活上相对比较自由。当然工业界的研究问题更切合实际和偏商业化,薪资往往会更高,这个就看个人选择了。
周围有许多同学对未来的规划尚不明确,我的建议是先写出一篇文章,达到毕业要求后,在导师同意下,可以在博士二年级末三年级初去企业实习一段时间,体验一下业界适不适合自己。最晚在四年级上的时候就要做出明确选择了,以便之后能够专攻某一方向。
此外,统计咨询也是一个接触各种项目的很好的机会。我们在博二会上统计咨询课,考核标准就是完成一到两个统计咨询项目,项目来自于企业、政府部门、学校其他院系的课题组等等。毕竟统计学是基于应用的,不是象牙塔,需要和实际问题结合。我们有和其他专业的同学合作过,如果能利用统计学的方法帮助别人解决困扰多年的问题,别人会非常感谢,自己也会很自豪。这相当于推动了多个领域的学术发展和科研进步,是很有意义的事情。
Q6:最后,想问下师兄对于统计中心和师弟师妹们有什么寄语和期望吗?
蒋:首先祝愿统计中心越办越好,能够尽早建系。在招了本科生后,师弟师妹们做助教的压力可能会大一些,希望大家加油干,这也是为清华统计学科的建设做贡献。
另外,不是自己领域的课和讲座也可以多听听,多和别人交流。有些想法即使现在用不到,也有可能会启发自己未来的科研。一个人精力是有限的,自己看论文不如直接听别人讲座来的高效。高年级同学也可以多出去参加会议,和同龄的同学、老师们交流沟通。陶宇心、余成:非常感谢师兄在百忙之中抽空接受采访,衷心祝愿师兄在统计学的道路上继续乘风破浪,万事胜意!
#post-12208
ntry-header

日前,我中心执行主任邓柯副教授被清华大学教务处及研究生院共同聘请为“清华大学教学顾问组成员”,聘期3年。此前,由邓柯副教授带领的统计咨询中心团队曾受清华大学教学质量评估中心的委托,针对学校教学评估系统优化给出专业指导建议。团队高质量的咨询服务及专业化的优化方案受到学校教务处及教学质量评估中心的高度肯定,并将相关方案成功应用到教学评估系统的整体升级工作中。

清华大学教务处处长曾嵘为邓柯副教授颁发聘书

项目背景:

教学评估是衡量教师教学质量的重要手段,可为教师的考核、奖励和晋升提供关键依据。清华大学从1998年秋开始“课堂教学质量学生问卷调查”工作,2004年开始实行网上评估,已经连续开展了22年。为了保证结果的科学性和有效性,教学评估系统经过多次升级,不断完善评价体系和方法。

从2019年5月开始,统计咨询中心接受清华大学教学质量评估中心的委托,对现有教学评估系统的计算方法和程序代码进行解析和优化,以提高评估系统的计算稳定性和计算效率。

解决方案:

咨询中心团队在深入分析研究当前算法、代码和评估结果的基础上,锁定了影响评估系统计算稳定性的关键因素,并基于统计学原理对原算法中部分不合理的模块进行了调整和重构。经实践验证,调整后的评估系统计算稳定性和计算效率均得到了大幅度提高,成功解决了长期困扰教学评估系统有效运转的关键问题。相关成果为清华教学评估工作提供了更为可靠的理论方法和计算框架,并为教学评估体系的进一步完善打下了坚实的基础。

#post-12194
ntry-header

日前,清华大学统计学研究中心邓婉璐、周在莹两位老师荣获“2019-2020学年度春季学期疫情防控期间在线教学优秀教师”称号。

我能有幸能得到这份肯定与鼓励,更多想说的是感谢。自年初疫情以来,其实我们作为一线教师一开始都比较茫然。要谢谢学校的果断决策,并迅速组织了各类支持小组,经过多次测试拟出了应对各种情形的方案,给了我们充分的培训,我们才能从容按时地开课。也特别谢谢系里和中心的全力而温暖的支持,无论是设备还是经验上都给我们提供了很多便利,我也经常在教学交流群中得到其他老师们的帮助。这些后盾让我有了应对可能的突发情况的底气。所以这份肯定应该属于我们整个集体,而我会带着这份鼓励继续前行。这学期又有了新的挑战,开启了融合课堂,相信我们一起努力,也可以顺利把课上好!

——邓婉璐

“Education is not the filling of a pail, but the lighting of a fire.”据说这是著名诗人William Butler Yeats的名言,它深深地影响了我。我热爱教学,每当学生反馈学有所得总令我无比欣慰。我也用心呵护学生,非常荣幸可以为他们的专业学习提供帮助,陪伴他们走过一小程人生。得这个奖实属侥幸,感谢信任我的各位同事、学生,感谢关心我的统计学研究中心和工业工程系的各位领导。借用前辈Howell Tong先生给我的留言,”In life, one needs first performance and then luck.” 与诸君共勉吧。当我们坚定信念、努力修炼,幸福总会来敲门。

——周在莹

#post-12183
ntry-header

自2020年3月开始,新冠肺炎国际疫情形势日益严峻,海外输入性风险给我国的疫情防控带来巨大挑战。海关总署卫生检疫司及时组织以清华大学统计学研究中心邓柯副教授和中国检验检疫科学研究院杨宇研究员为首的多学科专家团队,成立“境外新冠肺炎疫情流行趋势研判分析专家组”,为口岸实施针对性防控措施提供支持。

邓柯教授带领清华大学统计咨询中心团队,联合中国检科院杨宇研究员团队,在清华大学科技抗疫攻关“流行病学传播预测与对策突击队”宫鹏教授、徐冰教授团队的大力支持下,开展跨部门、多学科、多领域的风险研判分析工作。研究团队实时采集整理了世界各国新冠疫情发展、传播、防控方面的大量数据;综合运用多种统计学和流行病学方法建立新冠肺炎国际疫情风险评估和趋势预测模型,及时对全球各国的新冠疫情风险、未来发展趋势和对我国影响进行系统分析;定期撰写《境外新冠肺炎疫情流行趋势研究报告》30余期。

海关总署卫生检疫司于2020年8月11日为研究团队出具了《成果应用证明》,指出相关工作为监管部门及时掌握全球疫情动态和发展趋势,有针对性地指导全国口岸做好疫情防控工作,提供了关键技术支持;为实现科学精准的疫情防控做出了重要贡献。

清华大学统计学团队深受鼓舞,将以更加饱满的工作热情和更加严谨的科学态度,积极参与到关系国计民生的重大课题研究,运用数据科学技术保障人民健康。

成果应用证明及研究报告

#post-12173
ntry-header

近日,由我中心执行主任、长聘副教授邓柯领衔清华大学统计咨询中心团队承担的研究项目——“市场销售食品安全评价性抽检方法研究与应用”通过国家市场监督管理总局结题验收。该项目受国家市场监督管理总局委托,力求以我国食品安全抽检数据为基础,研发制定适合我国监管需求的食品安全状况评价模型、抽样方法以及相应的实施和应用细则。项目成果获国家市场监督管理总局高度评价,成功应用到2020年度的国家食品安全评价性抽检工作当中。

项目研讨会 市场监督管理总局段永升司长出席并参与讨论

2017年起,邓柯教授团队就与国家市场监督管理总局展开深入合作,围绕食品安全问题开展一系列课题研究。

2019年6月项目组成员随同市场监督管理总局工作组赴地方调研

项目组在充分调研国内外已有研究成果的基础上,充分考虑到我国食品安全现状、监管模式以及监管部门对“评价性抽验”的业务需求,以年度评价性抽检历史数据为基础,综合利用多种数据资源,运用稀疏数据分析的统计学理论和方法,研发了适合我国国情的食品安全状况评价模型,建立了可支持多维度、多视角研判的食品安全综合评价指标体系。以该模型为基础,项目组还运用抽样调查的统计学理论和方法,在项目协作单位中国肉类食品综合研究中心臧明伍研究员带领的团队支持下,制定了在全国范围内实施评价性抽检的抽样计划和实施方案细则,在检测资源有限的条件下最大程度保证抽样的科学性、代表性和可操作性。相关研究成果获得国家市场监督管理总局高度认可,已在全国范围内的食品安全监管工作中推广应用。

#post-12172
ntry-header

2020年8月,国际知名统计学杂志 Statistica Sinica 产生新一届编委,我中心执行主任、长聘副教授邓柯受邀担任杂志副主编(Associate Editor),任期三年。

Statistica Sinica 创办于1991年,是“泛华统计学会”(International Chinese Statistical Association)的会刊。创办近30年来,发表了大量国际统计学届的重要研究成果,是具有广泛国际影响力的综合性统计学理论期刊。

Statistica Sinica 官网链接:

http://www3.stat.sinica.edu.tw/statistica/

#post-12170
ntry-header

日前,我中心杨立坚教授当选国际工程技术协会杰出会士,以表彰他突出的学术能力和学术贡献。杨立坚教授是清华大学统计学研究中心资深聘教授,美国统计协会会士、国际数理统计学会会士、国际统计学会会员。研究方向为时间序列,函数型及高维数据的统计推断,以及统计学对经济学、金融学、农学、食品科学、地理学和遗传学的应用。

国际工程技术协会是非营利性国际组织,旨在促进国际范围内科学、工程和技术的创新与发展。除传统的科学、工程和技术学科以外,国际工程技术协会还涵盖了金融工程、金融计量经济学、金融统计、数学、统计学、社会科学和商学学科。此外,国际工程技术协会也致力于多学科的协同发展,推动世界科学和工程技术的进步。目前,国际工程技术协会的成员包括来自科学,工程技术和相关领域的5000多名工程师、博士和教授,并有超过100位世界范围内知名学者和专家被选为会士及杰出会士,包括诺贝尔奖、图灵奖、菲尔兹奖、沃尔夫奖、约翰·贝茨·克拉克奖章等获得者。

杨立坚,因对工程与技术做出的出色、严谨、有深刻洞察力和富于创新性的贡献,以及为了促进协会的目标的无私奉献,经国际工程技术协会全体会员授权,今日当选为国际工程技术协会杰出会士。

国际工程技术协会联席主席:

Ramesh K. Agarwal, Michael E.Auer, James C. Crabbe

2020年4月21日”

原文链接:

http://www.ieti.net/news/detail.aspx?id=240

#post-12162
ntry-header

2020年3月1日,我中心2017级博士生张园园为第一作者,清华大学机械工程系季林红教授为通讯作者的论文“Prediction of working memory ability based on EEG by functional data analysis”正式发表在神经科学SCI期刊 Journal of Neuroscience Methods第333卷(https://doi.org/10.1016/j.jneumeth.2019.108552, 333)。该文首次建立了以脑电信号预测工作记忆能力的多重函数型线性模型。由于使用样条函数,该模型直观易懂,计算快捷简便,理论性质可靠,基于随机抽取的122名大学生志愿者训练集,以闭眼静息态下,8个脑前区导联的脑电信号,对20名志愿者测试集进行工作记忆能力的预测,其确定系数R2在多次随机试验下的中位数为68%,最低值大于50%,最高值72%。

由张园园与我中心2018级博士生黄昆组成的杨立坚团队,从2018年12月开始分析季林红团队的大学生志愿者脑电与认知能力数据,到最终完成论文,始终坚持“面向应用,背靠理论,写好算法”的统计学思想。他们依托近10年来团队在函数型数据方向的研究成果,与机械工程系吴芳芳教授和硕士生王健凯组成的季林红团队高效合作,把样条回归估计脑电信号(EEG)的光滑轨迹,张量样条回归估计协方差函数,样条估计函数型主成分(FPCs)与得分(FPC scores)等深刻的统计学前沿理论,结合LASSO回归,转化为快速准确分析脑电数据的算法,用6个月时间很好地解决了工作记忆能力预测的问题,完成了这篇跨学科应用论文。自2019年12月该文线上发表,作者已多次收到Neurology Congress 2020等神经科学领域国际会议的邀请。

2020年2月4日,张园园作为第一作者完成的另一学术论文“Two-step estimation for time varying ARCH models”在线发表于统计学SCI期刊Journal of Time Series Analysishttps://doi.org/10.1111/jtsa.12522 )。这篇与托雷多大学终身教授刘嵘,邵琴合作的19页重磅论文+27页在线补充材料,从理论上严格证明了对于带有时间缓变尺度的非平稳ARCH时间序列,用去除样条函数估计的尺度趋势之后的ARCH残差序列,计算ARCH系数的最小二乘估计LSE与直接用观测不到的平稳ARCH序列计算有相同的渐近正态分布。另一方面,以残差序列计算的极大似然估计MLE的渐近正态分布则不同于以观测不到的平稳ARCH序列计算的MLE。该文提出的方法被用于估计标准普尔(S&P)500从1950到2018年每日回报率的时间缓变尺度以及隐藏的ARCH参数,清楚地揭示了金融波动率水平随时间的长期缓慢增长,特别是2008年全球金融危机前后波动率尺度的大幅增长。该文在2019年7月荣获国际泛华统计协会(International Chinese Statistical Association)颁发的中国会议青年研究者奖(ICSA China Conference Junior Researcher Award),是4位获奖者中唯一的学生,也是唯一不是来自美国高校的获奖者。

张园园同学谦虚刻苦,潜心研究,在攻读博士学位两年半期间,在函数型数据与时间序列方向各发表了1篇重要论文,入选工业工程系“未来教授培养计划”。关于非参数回归相关系数曲线同时置信带的硕士学位论文,于2018年发表在统计学期刊TEST,同年获得北大-清华统计论坛优秀海报奖。目前张园园在美国爱荷华州立大学王丽教授指导下系统学习二元样条回归理论,并研究高频金融数据分布等新课题。

#post-12161
ntry-header

为了响应国家教学改革号召、应对大数据时代需求,推动全国高校统计学科教学事业的发展,清华大学统计学研究中心于2019年11月30日发起并召开2019统计学教学改革研讨会。会议旨在优化统计学相关课程教学体系,并为统计学科教学工作者搭建沟通与交流的平台。来自北京大学、中国人民大学、中国科学院、中央财经大学、西南财经大学、东北师范大学、山东师范大学、北京工业大学、北京林业大学、北京师范大学、首都师范大学、上海纽约大学等全国13家高校近40名学者出席了本次研讨会。与会专家学者们充分肯定了本次研讨会召开的必要性,并积极建言,希望通过此次研讨会能切实地推动全国高校统计学的教学改革工作。

 

清华大学统计学研究中心讲师邓婉璐博士、侯琳副教授

清华大学统计学研究中心讲师邓婉璐博士作为本次会议的组织者及主持人,简要介绍了此次会议举办的背景、中心的教学概况、本次会议的主要议题及预期会议目标。随后,清华大学统计学研究中心副教授、本科生统计学辅修教学工作负责人侯琳博士代表清华大学统计学研究中心致欢迎辞。美国国家医学院院士、哈佛大学生物统计系林希虹教授亦通过视频发表致辞。林教授在致辞中说,这个会议办得非常及时,随着数据科学变得越来越重要,在全世界范围内吸引了越来越多的学生,这对统计和数据科学的人才培养和教学带来非常好的机遇和不小的挑战。例如如何使现代统计方法更有效、更有影响力地解决科学问题;现代统计的核心知识技能是什么;如何改进课程体系以满足时代需求,应当添加哪些课程,例如大数据计算等;充分利用MOOC等教学资源帮助国内统计教学。最后林老师祝愿本次会议圆满成功。

与会专家发言

随后,来自全国多所高校的12名教学骨干分别就“教学理念、教学体系探讨”和“教学方式、教学经验分享”两个主题发言,并开展深入讨论。中国人民大学吕晓玲老师首先分享了对传统统计学中核心课程《数理统计》的反思与改革探索,引发广泛共鸣和热烈讨论;北京大学的张志华老师则从宏观角度、大数据时代发展的大格局上指出统计学中引入《机器学习》相关课程的必要性。西南财经大学的周凡吟老师和李可老师从人才需求角度出发,分享了对课程体系的思考和新兴教学方式MOOC的实践经验;山东师范大学的赵强老师根据多年学科建设经验阐述了“省属院校统计学专业建设发展过程中遇到的困难与思考。” 东北师范大学的蔺杉老师基于“以学生为中心、以需求为导向”的指导思想,分享了通识课和专业课等课程建设经验及教学经验,探讨了如何在理科课程中实现立德树人的价值塑造。中国人民大学黄丹阳老师、周静老师指出传统教学应对实际数据分析的欠缺,分别依托《线性回归分析》、《统计软件应用》等课程生动展示了案例教学的成功教学经验。

与会专家发言

中央财经大学的潘蕊老师分享了成功的翻转课堂、结合视频与讨论的新式教学法,并指出不仅要纵向培养好统计本专业学生,更要横向培养其他专业学生对统计学的兴趣,以此推动统计学科的蓬勃发展;北京工业大学的赵旭老师则以国家级精品课程和青教赛具体课件为例,分享如何抓住学生的兴趣点的经验技巧。针对统计学科的交叉功能,中科院的李欣海老师从生态学领域对统计方法的需求出发,分享其在教学当中的经验与遇到的问题,并同各位老师深入探讨;北京大学的张云俊老师则分享了其教授医学领域学生统计相关课程时,培养学生的统计学思维模式独特方法,指出应更重视思想而非技术细节。

最后,与会的专家学者针对现场提出的问题在教学理念加强应用导向、教学体系中增设机器学习课程、吸收新教学方式提高教学效果等方面达成共识,也留有部分问题有待进一步思考。有学者表示,此次会议是其开展统计教学工作多年来首次参与的统计学科内部专注教学的研讨会,具有特殊意义。与会者一致认为应该以此为契机,将之办成系列会议。会议探讨的内容切合实际,意义深远,统计学教学的改革工作任重道远,正是需要一线的教学工作者结合自身经验,不断的交流与思考,才能推送国内统计学教育稳步前进,共促我国统计学科的发展与进步。

#post-12142
ntry-header

2019年11月20日,清华大学统计学研究中心俞声副教授与哈佛大学Yichi Zhang、美国布莱根妇女医院Tianrun Cai作为共同第一作者的论文“High-throughput Phenotyping with Electronic Medical Record Data Using a Common Semi-supervised Approach (PheCAP)”于Nature Protocols平台在线发表。哈佛大学Tianxi Cai教授与布莱根妇女医院Katherine Liao博士是论文的共同通讯作者。[1]

基于电子病历的表型提取(EMR-based phenotyping)是利用电子病历促进生物医学研究的一项重要应用,可以大幅提高研究队列的建立速度、降低研究成本、扩大样本数量。目前,行业内仍然广泛使用基于ICD疾病诊断编码等的初级方法,对患者诊断判断的准确性相对较低。俞声副教授与Tianxi Cai教授自2015年起提出一系列统计方法,在尽可能控制人力成本的前提下,有效提升了表型提取的速度和准确性。

Nature Protocols期刊主要面向经过多年实践验证的、可形成标准的生物医学实验方法。本次发表的方法基于俞声、Tianxi Cai等较早提出的半监督表型提取技术[2]。目前,俞声、Tianxi Cai已开发出并发表多项无监督高通量表型提取技术[3,4]。这些技术已在美国多项精准医学研究项目中使用,未来亦有望成为基于电子病历的医学研究的标准实验方法。

参考文献

1     Zhang Y, Cai T, Yu S, et al. High-throughput phenotyping with electronic medical record data using a common semi-supervised approach (PheCAP). Nat Protoc 2019;:1–19. doi:10.1038/s41596-019-0227-6

2     Yu S, Chakrabortty A, Liao KP, et al. Surrogate-assisted feature extraction for high-throughput phenotyping. J Am Med Inform Assoc 2017;24:e143–9. doi:10.1093/jamia/ocw135

3     Yu S, Ma Y, Gronsbell J, et al. Enabling phenotypic big data with PheNorm. J Am Med Inform Assoc 2018;25:54–60. doi:10.1093/jamia/ocx111

4     Liao KP, Sun J, Cai TA, et al. High-throughput multimodal automated phenotyping (MAP) with application to PheWAS. J Am Med Inform Assoc 2019;26:1255–62. doi:10.1093/jamia/ocz066

#post-12131