ntry-header

近日,我中心侯琳、刘汉中两位副教授国家自然科学基金面上项目申请顺利通过,获得国家自然科学基金资助开展科学研究。据统计,中心全职教研系列教员从15年的2人逐年增加至8人(不包含本月入职2位助理教授),累计主持/参与国家自然科学基金资助科研项目(重点+面上+青年)数量增加至16项。此外,中心教员还多次主持或参与科技部、北京市自然科学基金、北京智源人工智能研究院以及各部委和企事业委托科研项目,各类项目累计超50项。

#post-12184
ntry-header

日前,清华大学统计学研究中心邓婉璐、周在莹两位老师荣获“2019-2020学年度春季学期疫情防控期间在线教学优秀教师”称号。

我能有幸能得到这份肯定与鼓励,更多想说的是感谢。自年初疫情以来,其实我们作为一线教师一开始都比较茫然。要谢谢学校的果断决策,并迅速组织了各类支持小组,经过多次测试拟出了应对各种情形的方案,给了我们充分的培训,我们才能从容按时地开课。也特别谢谢系里和中心的全力而温暖的支持,无论是设备还是经验上都给我们提供了很多便利,我也经常在教学交流群中得到其他老师们的帮助。这些后盾让我有了应对可能的突发情况的底气。所以这份肯定应该属于我们整个集体,而我会带着这份鼓励继续前行。这学期又有了新的挑战,开启了融合课堂,相信我们一起努力,也可以顺利把课上好!

——邓婉璐

“Education is not the filling of a pail, but the lighting of a fire.”据说这是著名诗人William Butler Yeats的名言,它深深地影响了我。我热爱教学,每当学生反馈学有所得总令我无比欣慰。我也用心呵护学生,非常荣幸可以为他们的专业学习提供帮助,陪伴他们走过一小程人生。得这个奖实属侥幸,感谢信任我的各位同事、学生,感谢关心我的统计学研究中心和工业工程系的各位领导。借用前辈Howell Tong先生给我的留言,”In life, one needs first performance and then luck.” 与诸君共勉吧。当我们坚定信念、努力修炼,幸福总会来敲门。

——周在莹

#post-12183
ntry-header

近日,我中心2015级博士生余丽珊以第一作者的身份撰写的论文“Developing an automated mechanism to identify medical articles from Wikipedia for knowledge extraction”被医学信息学期刊International Journal of Medical Informatics接收并在线发表。论文指导教师为中心俞声副教授。

信息化是自动化发展的前提,医疗领域的信息化如对医疗相关信息的整理汇总,对医疗资源的管理和临床决策支持的自动化开发等具有重要意义。从海量的信息中及时获取医学相关信息对医疗人工智能的发展亦至关重要。维基百科是医学信息研究领域的主要信息源之一。建立维基百科的医学信息自动提取机制,以获取其中医学实体概念相关的词条和关系事实等结构化信息是具有挑战性的,并且随着维基百科规模的扩大和词条质量的提高,该自动提取机制所获取的医学信息也将越来越丰富和准确。

有七类医学范畴对人类健康非常重要。本文的目的是通过机器学习算法从维基百科中自动识别解剖、药物、医疗设备、疾病症状、细菌寄生虫、生理和手术这七类医学文章,获取维基百科中的医学实体概念及维基百科和Wikidata中关系事实等结构化信息。然而,该识别任务缺少文章及其语义所属类别(对应于七类医学范畴)的标注集作为机器学习算法的训练集。此外由于各类别文章在维基百科中极低的占比,导致分类任务样本极度不平衡从而影响分类算法的学习。

为了解决此问题,作者通过利用现有成熟的医学知识库UMLS(一体化医学语言系统)对维基百科中文章概念进行语义类别匹配,从而获取了一定数量的七种语义类别维基百科文章作为训练集;并基于维基百科中丰富的结构信息,提出了二阶段分类模型:(1)发展爬虫分类策略进行医学相关文章的识别,获取尽可能多的医学文章从而避免数据极度不平衡情况;(2)建立深度学习分类模型,对所识别出文章进行七类语义类别的识别,并根据这些结果在维基百科页面中的消息盒(Infobox)和Wikidata系统中提取关系事实等结构化信息。本文对最终结果进行了评估,并预留部分标注集作为测试集评估模型的识别表现(准确率和召回率),同时也抽取部分识别结果进行人工检验。

通过结果评估以及与基准模型的对比,该自动识别机制具有高准确率和高召回率的整体识别能力以及低的假医学文章发现率。该系统在Wikidata/Infobox上提取了相关医学概念的结构化信息,分析得到的结构化信息也能给UMLS中的医学疾病关系有很好的补充。此研究工作定期使用该自动提取机制识别维基百科中的医学文章及其结构化信息并将其公布,为相关领域学者的科学研究提供了数据基础;该工作对于其他领域相关文章及词条等信息的提取也具有参考意义。

#post-12182
ntry-header

近日,我中心2017级博士生李祺与中国医学科学院肿瘤医院王攀博士以共同第一作者身份撰写的论文“MiRACLe: an individual-specific approach to improve microRNA-target prediction based on a random contact model”被Briefings in Bioinformatics接收并在线发表。Briefings in Bioinformatics影响因子8.990,是计算生物学和生物医学方法研究领域的国际顶尖期刊。我中心邓柯副教授与中国医学科学院肿瘤医院赫捷院士作为论文的共同通讯作者,联合指导了相关研究和论文撰写。

该论文提出了一种基于随机碰撞模型的miRNA靶点预测模型miRACLe,提高了microRNA(miRNA)的靶点识别的精确度和准确度,对于诊断和治疗具有重要的意义。miRNA的调控具有高度样本特异性,目前现有的模型对于特异性样本的计算准确度以及对诊断的辅助作用有限。本论文中的模型将多种miRNA和mRNA的序列信息以及表达谱信息进行整合,可以实现对单细胞或单样本表达谱的miRNA调控靶点预测,下图是该模型的计算流程图,其中矩阵即为该算法计算得到的miRNA-mRNA之间的miRACLe得分,基于此得分即可得到不同miRNA的靶点预测结果。

通过在多个数据集上对miRACLe和已有算法进行比较,论文发现该算法在预测精度、miRNA转染实验以及肿瘤相关基因的富集性分析等多个维度上均较已有方法有更好的预测效果,并且具有更快的计算速度。值得注意的是,miRACLe算法在多种不同的生物学背景,多种不同类型的表达谱以及多个验证数据集上的表现均一致优于已有方法。

最后,该论文还尝试将miRACLe的模型框架应用到其他多种基于序列信息的方法上,例如DIANA microT-CDS、miRanda-mirSVR和MirTarget4。结果表明通过使用miRACLe的算法框架与表达谱信息相结合,可以提高其预测精度和其他生物学表现,这也进一步拓展了该算法的应用范围。

论文网址:

https://academic.oup.com/bib/article/doi/10.1093/bib/bbaa117/5868068?guestAccessKey=9caf5322-b105-4bb8-95a9-e02ccf0b7e47

#post-12180
ntry-header
日前,统计学研究中心17级博士研究生刘朝阳与建筑技术科学系赵彬教授团队合作文章《Outdoor-to-Indoor Transport of Ultrafine Particles: Measurement and Model Development of Infiltration Factor》被环境学领域国际著名期刊Environmental Pollution接收并在线发表。该论文是刘朝阳同学作为统计咨询师,通过咨询中心平台处理建筑技术科学系陈忱同学咨询申请,并同赵彬教授团队建立跨学科交叉合作所产出的学术成果。此前,统计学研究中心16级博士研究生林毓聪也曾通过咨询服务与其他院系科研团队建立合作,并于环境学期刊Environmental Science Water Research & Technology发表文章。

刘朝阳
刘朝阳在2019年10月接到建筑技术科学系陈忱同学“关于如何处理UFP(环境中的超细颗粒物)渗透系数的实验数据”的咨询申请。环境中的超细颗粒物已被证实对人体健康有严重危害,由于室内活动时长高于室外活动,故而明确室外到室内的UFP传递机制具有重要意义。在与客户的第一次会面中,刘朝阳对项目背景及客户需求进行初步了解。刘朝阳介绍到,最初客户希望采取类似多重线性回归的办法,找到影响UFP渗透系数的相关因素。但在实验过程中,因成本限制,只能选取11户住宅进行测量。基于此因素,刘朝阳从专业的数据分析及数据处理经验出发,建议客户采用混合效应模型进行数据分析更适合此项目。模型中纳入8个可能的影响因子(换气次数a、颗粒物几何平均直径μ、粒径几何标准差σ、室内环境比表面积(A/V)、室外UFP浓度、室内臭氧浓度CO3、室内温度Temp、室内相对湿度RH),通过模型分析得到换气次数a是影响最大的因子,室外UFP浓度由于凝并效应对渗透过程产生的影响不可忽略,模型预测结果表明UFP各季节平均渗透系数高于PM2.5和PM10,这也反映出在室内控制室外源UFP浓度的重要性。经过多次线下及线上咨询会议,刘朝阳成功帮助客户得到了符合项目预期的分析结果,找到了影响UFP渗透系数的关键影响因子,并在统计咨询中心主任邓柯副教授的指导下,完善了模型选择诊断部分的结果。
刘朝阳同咨询中心团队接待客户咨询
此外,刘朝阳作为清华统计咨询团队骨干成员,还参与了由海关总署委托的“境外新冠肺炎疫情流行趋势研判分析”项目。在此项目中,使用多种统计方法估计流行病动力学模型参数,估计各国新冠肺炎控制再生数并预测未来趋势,分析发展中国家疫情态势并提出针对性建议。刘朝阳与团队成员合作撰写了《境外新冠肺炎疫情流行趋势研究报告》30余期,报告质量和专业度获得了海关总署的高度肯定,在疫情防控工作中发挥了重要作用。据悉,该项目合作产生学术论文两篇,并已投稿到行业知名期刊。
刘朝阳同学因其专业出色的咨询服务被评为2019-2020年度“优秀咨询师”。当被问及经验及心得,她分享“首先是坚定专业自信心,在咨询过程中,难免遇到知识盲区,咨询中心依托统计中心强大的师资优势,在遇到知识盲区时,可以及时请教中心负责该方向研究的老师,专业实力毋庸置疑;其次是以客户需求为导向,客户来自各个学科及各个领域,咨询需求也千差万别,有的客户希望通过咨询提出建议,有的希望处理数据,无论面对任何领域的客户,都需要从客户的角度出发,以专业知识帮助客户解决核心问题;最后是保持敏锐的科研嗅觉,我们面临的咨询问题大部分是对统计知识的实际应用,但这其中可能蕴含着非常好的科研问题,对新发现问题的不断探索可以让我们的科研工作和咨询服务相辅相成。”
据了解,清华大学统计咨询中心每年会聘任优秀在读博士研究生担任统计咨询师。通过咨询中心平台“实战演练”,为咨询客户提供专业的数据分析服务。每学年会从中评选1-2名优秀咨询师,表彰其在统计咨询服务中专业和出色的表现。近几年,陆续已有超10名博士研究生加入咨询中心团队,为校内外客户提供高质量咨询服务,好评如潮,树立了“清华统计咨询”品牌。
#post-12179
ntry-header

2020年8月31日,中国人民大学孟澄助理教授访问我中心,并做学术报告,报告的题目是“More efficient approximation of smoothing splines”.

孟澄助理教授
报告现场
与会教员合影
孟澄助理教授同中心教员座谈
孟澄助理教授同中心教员座谈
#post-12178
ntry-header
清华大学统计学研究中心始终跟美国普渡大学统计系保持密切的学术交流与合作。尤其最近两年,统计学研究中心的精品培训课程—“统计与数据科学研修班”的优秀学员结业后,顺利拿到中心教授的推荐信,选择赴海外修读统计学硕士课程,大部分同学也把普渡大学作为第一选择。据悉,18/19两年每年都有十余名学员成功拿到普渡大学统计系录取,而普渡大学统计系亦高度认可清华大学“统计与数据科学研修班”课程的培养方案及课程质量,在研修班修读的部分课程可以直接在普渡统计系认定,免修部分学分。

近日,曾多次到访中心的普渡大学统计系林共进、朱宇两位教授同我们分享:林教授赴任普渡统计系主任以来,积极推动“Distinguished Theme Seminar Series”项目,即根据特定学科方向和主题,邀请前沿学者进行学术报告和分享,被邀请的学者都是各自领域已经取得显著研究成果的资深专家。值得一提的是,此项目将在线上对全球统计学者开放。林教授和朱教授亦希望通过清华大学统计学研究中心的平台,把这个好消息同国内的统计学者分享。

第一期的报告主题是“深度学习的方法和理论”。邀请了Lawrence Carin、Heng Huang 、Ying Nian Wu 、Ruslan  Salakhutdinov几位教授。

第一场报告将在美国东部时间8月28日下午3:30-4:30,北京时间8月29日凌晨3:30-4:30进行。

报告嘉宾是Lawrence Carin教授(Duke University)

报告题目是On Demystifying Adversarial Learning

报告时间、日程安排、讲座简介请点击链接https://www.stat.purdue.edu/theme_seminar/abstracts.html

讲座直播入口

https://www.stat.purdue.edu/theme_seminar/access.html

讲座回放入口

https://www.stat.purdue.edu/theme_seminar/recordings.html

#post-12176
ntry-header

林乾副教授是清华大学统计学研究中心副教授,主要从事数理统计、机器学习,深度学习的数理基础。主持或参与国家自然科学基金面上项目、北京市自然科学基金重点项目、北京市智源青年科学家项目及若干项企业委托项目。因科研需要现招聘博士后1名,具体要求如下。

【招聘人员】

博士后

【研究内容】

  1. 机器学习算法的统计理论
  2. 深度学习的数理基础
  3. 金融时间序列

【招聘要求】

  1. 已获得或即将获得数学相关专业博士学位;
  2. 有较强的好奇心和较好的数学成熟度;
  3. 具有良好的英文阅读和写作能力;
  4. 有进取心,良好的沟通能力,团队合作精神;
  5. 符合清华大学博士后招聘的相关规定。

【待遇】

  1. 按照清华大学博士后管理办法执行,根据工作能力和业绩发放奖励。
  2. 综合年薪可达到30万元人民币。

有意应聘者请将申请材料(个人履历、代表作、论文专利等成果清单)发至:qianlin@tsinghua.edu.cn。注明“博士后应聘-姓名-专业-院校”。应聘者初选后通知面试,未通知面试者,不再通知。

#post-12175
ntry-header

2020年8月17日,清华大学统计学论坛在线上成功举办,本次论坛邀请到香港中文大学统计系樊晓丹教授。报告由统计学研究中心邓柯副教授主持。报告题目是 Statistical Analysis for tree-shaped Data。

樊教授与中心教员交流
报告进行中
樊教授与中心教员云合影
#post-12174
ntry-header

自2020年3月开始,新冠肺炎国际疫情形势日益严峻,海外输入性风险给我国的疫情防控带来巨大挑战。海关总署卫生检疫司及时组织以清华大学统计学研究中心邓柯副教授和中国检验检疫科学研究院杨宇研究员为首的多学科专家团队,成立“境外新冠肺炎疫情流行趋势研判分析专家组”,为口岸实施针对性防控措施提供支持。

邓柯教授带领清华大学统计咨询中心团队,联合中国检科院杨宇研究员团队,在清华大学科技抗疫攻关“流行病学传播预测与对策突击队”宫鹏教授、徐冰教授团队的大力支持下,开展跨部门、多学科、多领域的风险研判分析工作。研究团队实时采集整理了世界各国新冠疫情发展、传播、防控方面的大量数据;综合运用多种统计学和流行病学方法建立新冠肺炎国际疫情风险评估和趋势预测模型,及时对全球各国的新冠疫情风险、未来发展趋势和对我国影响进行系统分析;定期撰写《境外新冠肺炎疫情流行趋势研究报告》30余期。

海关总署卫生检疫司于2020年8月11日为研究团队出具了《成果应用证明》,指出相关工作为监管部门及时掌握全球疫情动态和发展趋势,有针对性地指导全国口岸做好疫情防控工作,提供了关键技术支持;为实现科学精准的疫情防控做出了重要贡献。

清华大学统计学团队深受鼓舞,将以更加饱满的工作热情和更加严谨的科学态度,积极参与到关系国计民生的重大课题研究,运用数据科学技术保障人民健康。

成果应用证明及研究报告

#post-12173