【学术成果】统计中心师生在PNAS发表论文研究全球新冠疫情防控有效策略

ntry-header

当前，国内外新冠肺炎形势依旧严峻，经济、社会等方面受到严重影响。2020年3月以来，清华大学统计学研究中心副教授邓柯、侯琳带领中心博士生刘朝阳、沈翀、王掣，与清华大学地球系统科学系宫鹏教授、徐冰教授团队和国内外相关研究机构合作就新冠肺炎疫情传播规律与防控措施展开深入研究。近日，团队的研究成果“Suppression of future waves of COVID-19: Global pandemic demands joint interventions”在《美国科学院刊》（PNAS）在线发表！

该篇文章基于新冠肺炎可能在冬季卷土重来的大背景，充分考虑气候变化、人口流动等因素，建立数学模型模拟不同干预情景，以寻找针对新冠肺炎再暴发的最优应对措施。研究结果表明实施8周高强度的干预措施来控制局部传染和国际传播是有效且高效的，同时提出分层干预的策略建议，即干预措施首先在“全球干预中心”（Global Intervention Hub，GIH, 即高人口密度、高国际流通的地区）实施，紧接着是其他高风险地区。该文章从全球视角出发，提出按照辐射分层网络、全球联动实施分层干预措施，对降低新冠肺炎再次暴发给公共健康和社会带来的巨大影响有重要意义。

该研究将全球59个高风险地区（其累计病例占全球92.57%）根据人口密度和国际航运情况分为15个“全球干预中心”（GIH）和44个其他高风险地区，采用多人群传染病动力学模型模拟59个地区新冠肺炎的内部传播与时空扩散。其中，模型参数纳入气候变化、家庭结构、人口流动等多因素的影响。模拟干预情景包括：（1）首先在GIH实施，紧接着其他高风险地区同时实施（图1-AE）；（2）只在GIH实施（图1-BF）; （3）GIH和其他高风险地区同步实施（图1-CG）；（4）首先在GIH实施，紧接着其他高风险地区根据当地累计病例翻倍时开始实施（图1-DH）。干预措施实施周期从2-12周逐两周递增，干预措施强度根据降低社区传播风险及国际流动的百分比划分为轻强度（20%）、中强度（50%）和高强度（80%）。不同干预机制模拟的结果对比发现最优的应对措施为首先在所有GIH实施，紧接着是其他高风险地区根据实际情况及时实施8周的高强度干预措施。

图1. 不同干预情景模拟的结果对比（ABCD：临床病例数降低比例；EFGH：加速控制住的地区数）

文章链接

https://www.pnas.org/content/early/2020/09/25/2012002117

#post-12188

ntry-header

近日，我中心2016级博士研究生林毓聪以第一作者身份撰写的论文 “Long-distance disorder-disorder relation extraction with bootstrapped noisy data” 被医学信息学期刊Journal of Biomedical Informatics (Health Informatics Q1，Computer Science Applications Q1) 接收并在线发表。我中心俞声副教授是论文的通讯作者。

医学知识图谱是医学人工智能应用的基石，知识图谱中先验的关系对于自动诊断等应用的实现都有重要的意义，而现有的一些数据库如Unified Medical Language System虽然囊括了较广泛的医学实体，实体之间的医学关系仍旧比较匮乏。传统的医学关系抽取方法包括人工标注和文本模式匹配，前者费时费力，后者能够提取的关系非常有限，无法适用于现实情况下自然语言多样的表述方式。而在这些医学关系中，疾病与疾病之间较常见的鉴别诊断、导致和被导致关系在医学文本中的表述尤为复杂，常常在一句话中表达了多个疾病的多种关系，抽取尤为困难，使其在现有知识图中（如UMLS和HPO）的覆盖范围不完整。基于这种情况，作者利用深度学习和自然语言处理技术设计了一种新的长距离关系抽取算法，在医学文本的基础上，结合自助法采样及文章章节结构信息抽取了疾病间的鉴别诊断、导致和被导致关系。

为了解决有标注训练样本缺乏的问题，论文采用远监督的方法构建训练样本，通过半结构化网页获取已知实体关系对，将它们与包含两个实体的所有句子相匹配形成一个训练样本。模型采用Bi-GRU作为句子编码器，结合注意力机制降低噪声样本的影响，将一对实体匹配的所有句子信息融合后再对关系做判断。

该论文的亮点之一是扩展了远监督的假设，允许其中一个实体出现在文章的标题中。这一假设符合以疾病为标题的网页和医学教科书文本的特点，使得训练句子数量增加了1.17倍，训练样本数增加了0.75倍。

论文的亮点之二是融合了已知关系构成的图信息来更好地区分三类关系。疾病间的鉴别诊断关系通常在文本中的表述都较为模糊，难以直接通过文本判断，而作者发现如果两个疾病跟第三个疾病都有鉴别诊断关系，则他们之间更有可能是鉴别诊断关系而不是导致或被导致关系。基于此发现，作者在模型中融入了已知关系图的信息，有效地帮助模型区分了三类关系。

在实验中，作者提出的关系抽取模型（最后一行）准确率接近90%，正样本准确率达到72.3%，比最好的基准模型高出约4.6个百分点。

论文网页链接：

https://www.sciencedirect.com/science/article/pii/S153204642030157X

#post-12187

ntry-header

日前，我中心执行主任邓柯副教授被清华大学教务处及研究生院共同聘请为“清华大学教学顾问组成员”，聘期3年。此前，由邓柯副教授带领的统计咨询中心团队曾受清华大学教学质量评估中心的委托，针对学校教学评估系统优化给出专业指导建议。团队高质量的咨询服务及专业化的优化方案受到学校教务处及教学质量评估中心的高度肯定，并将相关方案成功应用到教学评估系统的整体升级工作中。

项目背景：

教学评估是衡量教师教学质量的重要手段，可为教师的考核、奖励和晋升提供关键依据。清华大学从1998年秋开始“课堂教学质量学生问卷调查”工作，2004年开始实行网上评估，已经连续开展了22年。为了保证结果的科学性和有效性，教学评估系统经过多次升级，不断完善评价体系和方法。

从2019年5月开始，统计咨询中心接受清华大学教学质量评估中心的委托，对现有教学评估系统的计算方法和程序代码进行解析和优化，以提高评估系统的计算稳定性和计算效率。

解决方案：

咨询中心团队在深入分析研究当前算法、代码和评估结果的基础上，锁定了影响评估系统计算稳定性的关键因素，并基于统计学原理对原算法中部分不合理的模块进行了调整和重构。经实践验证，调整后的评估系统计算稳定性和计算效率均得到了大幅度提高，成功解决了长期困扰教学评估系统有效运转的关键问题。相关成果为清华教学评估工作提供了更为可靠的理论方法和计算框架，并为教学评估体系的进一步完善打下了坚实的基础。

#post-12194

ntry-header

近日，我中心2017级博士研究生袁正以第一作者身份撰写的论文 “Unsupervised multi-granular Chinese word segmentation and term discovery via graph partition” 被Journal of Biomedical Informatics (Health Informatics Q1，Computer Science Applications Q1) 接收并在线发表。该论文是作者同清华大学刘元昊、尹秋阳、李铂垚同学、北京清华长庚医院冯晓彬教授以及江苏卫健委张国明共同完成，我中心俞声副教授是论文的通讯作者。

电子病历蕴含丰富的医学信息，对生物医学研究、公共卫生统计、卫生经济学、医学人工智能等诸多领域具有重要的价值。为了进行电子病历分析，首先需要进行分词和术语发现。但由于缺少完善的中文医学词典和已分词的中文电子病历，有监督的分词算法难以训练，已有的中文分词系统在中文电子病历的应用中表现不好。基于此种情况，作者以图分割为基础，提出全新的无监督的多粒度中文分词和术语发现的方法。

论文将分词问题转换为图的分割问题：将一个句子转换为无向图，顶点为每个字符，边的权重通过n-gram统计量计算，通过不同粒度的图分割获得了多粒度的分词结果。论文提出了一个术语判别系统，并训练BERT分类器以判断该术语是否被正确分词。该术语判别系统可以在已有的多粒度分词结果上提取正确的医学术语进行术语发现。该方法在CCKS中文病历数据集上的术语发现任务中表现遥遥领先已有的中文分词系统。

论文网页：

https://authors.elsevier.com/c/1belf5SMDQgLU6

#post-12185

ntry-header

近日，我中心侯琳、刘汉中两位副教授国家自然科学基金面上项目申请顺利通过，获得国家自然科学基金资助开展科学研究。据统计，中心全职教研系列教员从15年的2人逐年增加至8人（不包含本月入职2位助理教授），累计主持/参与国家自然科学基金资助科研项目（重点+面上+青年）数量增加至16项。此外，中心教员还多次主持或参与科技部、北京市自然科学基金、北京智源人工智能研究院以及各部委和企事业委托科研项目，各类项目累计超50项。

#post-12184

ntry-header

日前，清华大学统计学研究中心邓婉璐、周在莹两位老师荣获“2019-2020学年度春季学期疫情防控期间在线教学优秀教师”称号。

我能有幸能得到这份肯定与鼓励，更多想说的是感谢。自年初疫情以来，其实我们作为一线教师一开始都比较茫然。要谢谢学校的果断决策，并迅速组织了各类支持小组，经过多次测试拟出了应对各种情形的方案，给了我们充分的培训，我们才能从容按时地开课。也特别谢谢系里和中心的全力而温暖的支持，无论是设备还是经验上都给我们提供了很多便利，我也经常在教学交流群中得到其他老师们的帮助。这些后盾让我有了应对可能的突发情况的底气。所以这份肯定应该属于我们整个集体，而我会带着这份鼓励继续前行。这学期又有了新的挑战，开启了融合课堂，相信我们一起努力，也可以顺利把课上好！

——邓婉璐

“Education is not the filling of a pail, but the lighting of a fire.”据说这是著名诗人William Butler Yeats的名言，它深深地影响了我。我热爱教学，每当学生反馈学有所得总令我无比欣慰。我也用心呵护学生，非常荣幸可以为他们的专业学习提供帮助，陪伴他们走过一小程人生。得这个奖实属侥幸，感谢信任我的各位同事、学生，感谢关心我的统计学研究中心和工业工程系的各位领导。借用前辈Howell Tong先生给我的留言，”In life, one needs first performance and then luck.” 与诸君共勉吧。当我们坚定信念、努力修炼，幸福总会来敲门。

——周在莹

#post-12183

ntry-header

近日，我中心2015级博士生余丽珊以第一作者的身份撰写的论文“Developing an automated mechanism to identify medical articles from Wikipedia for knowledge extraction”被医学信息学期刊International Journal of Medical Informatics接收并在线发表。论文指导教师为中心俞声副教授。

信息化是自动化发展的前提，医疗领域的信息化如对医疗相关信息的整理汇总，对医疗资源的管理和临床决策支持的自动化开发等具有重要意义。从海量的信息中及时获取医学相关信息对医疗人工智能的发展亦至关重要。维基百科是医学信息研究领域的主要信息源之一。建立维基百科的医学信息自动提取机制，以获取其中医学实体概念相关的词条和关系事实等结构化信息是具有挑战性的，并且随着维基百科规模的扩大和词条质量的提高，该自动提取机制所获取的医学信息也将越来越丰富和准确。

有七类医学范畴对人类健康非常重要。本文的目的是通过机器学习算法从维基百科中自动识别解剖、药物、医疗设备、疾病症状、细菌寄生虫、生理和手术这七类医学文章，获取维基百科中的医学实体概念及维基百科和Wikidata中关系事实等结构化信息。然而，该识别任务缺少文章及其语义所属类别（对应于七类医学范畴）的标注集作为机器学习算法的训练集。此外由于各类别文章在维基百科中极低的占比，导致分类任务样本极度不平衡从而影响分类算法的学习。

为了解决此问题，作者通过利用现有成熟的医学知识库UMLS（一体化医学语言系统）对维基百科中文章概念进行语义类别匹配，从而获取了一定数量的七种语义类别维基百科文章作为训练集；并基于维基百科中丰富的结构信息，提出了二阶段分类模型：（1）发展爬虫分类策略进行医学相关文章的识别，获取尽可能多的医学文章从而避免数据极度不平衡情况；（2）建立深度学习分类模型，对所识别出文章进行七类语义类别的识别，并根据这些结果在维基百科页面中的消息盒（Infobox）和Wikidata系统中提取关系事实等结构化信息。本文对最终结果进行了评估，并预留部分标注集作为测试集评估模型的识别表现（准确率和召回率），同时也抽取部分识别结果进行人工检验。

通过结果评估以及与基准模型的对比，该自动识别机制具有高准确率和高召回率的整体识别能力以及低的假医学文章发现率。该系统在Wikidata/Infobox上提取了相关医学概念的结构化信息，分析得到的结构化信息也能给UMLS中的医学疾病关系有很好的补充。此研究工作定期使用该自动提取机制识别维基百科中的医学文章及其结构化信息并将其公布，为相关领域学者的科学研究提供了数据基础；该工作对于其他领域相关文章及词条等信息的提取也具有参考意义。

#post-12182

ntry-header

近日，我中心2017级博士生李祺与中国医学科学院肿瘤医院王攀博士以共同第一作者身份撰写的论文“MiRACLe: an individual-specific approach to improve microRNA-target prediction based on a random contact model”被Briefings in Bioinformatics接收并在线发表。Briefings in Bioinformatics影响因子8.990，是计算生物学和生物医学方法研究领域的国际顶尖期刊。我中心邓柯副教授与中国医学科学院肿瘤医院赫捷院士作为论文的共同通讯作者，联合指导了相关研究和论文撰写。

该论文提出了一种基于随机碰撞模型的miRNA靶点预测模型miRACLe，提高了microRNA(miRNA)的靶点识别的精确度和准确度，对于诊断和治疗具有重要的意义。miRNA的调控具有高度样本特异性，目前现有的模型对于特异性样本的计算准确度以及对诊断的辅助作用有限。本论文中的模型将多种miRNA和mRNA的序列信息以及表达谱信息进行整合，可以实现对单细胞或单样本表达谱的miRNA调控靶点预测，下图是该模型的计算流程图，其中矩阵即为该算法计算得到的miRNA-mRNA之间的miRACLe得分，基于此得分即可得到不同miRNA的靶点预测结果。

通过在多个数据集上对miRACLe和已有算法进行比较，论文发现该算法在预测精度、miRNA转染实验以及肿瘤相关基因的富集性分析等多个维度上均较已有方法有更好的预测效果，并且具有更快的计算速度。值得注意的是，miRACLe算法在多种不同的生物学背景，多种不同类型的表达谱以及多个验证数据集上的表现均一致优于已有方法。

最后，该论文还尝试将miRACLe的模型框架应用到其他多种基于序列信息的方法上，例如DIANA microT-CDS、miRanda-mirSVR和MirTarget4。结果表明通过使用miRACLe的算法框架与表达谱信息相结合，可以提高其预测精度和其他生物学表现，这也进一步拓展了该算法的应用范围。

论文网址：

https://academic.oup.com/bib/article/doi/10.1093/bib/bbaa117/5868068?guestAccessKey=9caf5322-b105-4bb8-95a9-e02ccf0b7e47

#post-12180

ntry-header

日前，统计学研究中心17级博士研究生刘朝阳与建筑技术科学系赵彬教授团队合作文章《Outdoor-to-Indoor Transport of Ultrafine Particles: Measurement and Model Development of Infiltration Factor》被环境学领域国际著名期刊Environmental Pollution接收并在线发表。该论文是刘朝阳同学作为统计咨询师，通过咨询中心平台处理建筑技术科学系陈忱同学咨询申请，并同赵彬教授团队建立跨学科交叉合作所产出的学术成果。此前，统计学研究中心16级博士研究生林毓聪也曾通过咨询服务与其他院系科研团队建立合作，并于环境学期刊Environmental Science Water Research & Technology发表文章。

刘朝阳

刘朝阳在2019年10月接到建筑技术科学系陈忱同学“关于如何处理UFP（环境中的超细颗粒物）渗透系数的实验数据”的咨询申请。环境中的超细颗粒物已被证实对人体健康有严重危害，由于室内活动时长高于室外活动，故而明确室外到室内的UFP传递机制具有重要意义。在与客户的第一次会面中，刘朝阳对项目背景及客户需求进行初步了解。刘朝阳介绍到，最初客户希望采取类似多重线性回归的办法，找到影响UFP渗透系数的相关因素。但在实验过程中，因成本限制，只能选取11户住宅进行测量。基于此因素，刘朝阳从专业的数据分析及数据处理经验出发，建议客户采用混合效应模型进行数据分析更适合此项目。模型中纳入8个可能的影响因子（换气次数a、颗粒物几何平均直径μ、粒径几何标准差σ、室内环境比表面积（A/V）、室外UFP浓度、室内臭氧浓度CO3、室内温度Temp、室内相对湿度RH），通过模型分析得到换气次数a是影响最大的因子，室外UFP浓度由于凝并效应对渗透过程产生的影响不可忽略，模型预测结果表明UFP各季节平均渗透系数高于PM2.5和PM10，这也反映出在室内控制室外源UFP浓度的重要性。经过多次线下及线上咨询会议，刘朝阳成功帮助客户得到了符合项目预期的分析结果，找到了影响UFP渗透系数的关键影响因子，并在统计咨询中心主任邓柯副教授的指导下，完善了模型选择诊断部分的结果。

刘朝阳同咨询中心团队接待客户咨询

此外，刘朝阳作为清华统计咨询团队骨干成员，还参与了由海关总署委托的“境外新冠肺炎疫情流行趋势研判分析”项目。在此项目中，使用多种统计方法估计流行病动力学模型参数，估计各国新冠肺炎控制再生数并预测未来趋势，分析发展中国家疫情态势并提出针对性建议。刘朝阳与团队成员合作撰写了《境外新冠肺炎疫情流行趋势研究报告》30余期，报告质量和专业度获得了海关总署的高度肯定，在疫情防控工作中发挥了重要作用。据悉，该项目合作产生学术论文两篇，并已投稿到行业知名期刊。

刘朝阳同学因其专业出色的咨询服务被评为2019-2020年度“优秀咨询师”。当被问及经验及心得，她分享“首先是坚定专业自信心，在咨询过程中，难免遇到知识盲区，咨询中心依托统计中心强大的师资优势，在遇到知识盲区时，可以及时请教中心负责该方向研究的老师，专业实力毋庸置疑；其次是以客户需求为导向，客户来自各个学科及各个领域，咨询需求也千差万别，有的客户希望通过咨询提出建议，有的希望处理数据，无论面对任何领域的客户，都需要从客户的角度出发，以专业知识帮助客户解决核心问题；最后是保持敏锐的科研嗅觉，我们面临的咨询问题大部分是对统计知识的实际应用，但这其中可能蕴含着非常好的科研问题，对新发现问题的不断探索可以让我们的科研工作和咨询服务相辅相成。”

据了解，清华大学统计咨询中心每年会聘任优秀在读博士研究生担任统计咨询师。通过咨询中心平台“实战演练”，为咨询客户提供专业的数据分析服务。每学年会从中评选1-2名优秀咨询师，表彰其在统计咨询服务中专业和出色的表现。近几年，陆续已有超10名博士研究生加入咨询中心团队，为校内外客户提供高质量咨询服务，好评如潮，树立了“清华统计咨询”品牌。

#post-12179

ntry-header

2020年8月31日，中国人民大学孟澄助理教授访问我中心，并做学术报告，报告的题目是“More efficient approximation of smoothing splines”.

#post-12178