【学术成果】统计中心师生在PNAS发表论文研究全球新冠疫情防控有效策略

ntry-header

当前，国内外新冠肺炎形势依旧严峻，经济、社会等方面受到严重影响。2020年3月以来，清华大学统计学研究中心副教授邓柯、侯琳带领中心博士生刘朝阳、沈翀、王掣，与清华大学地球系统科学系宫鹏教授、徐冰教授团队和国内外相关研究机构合作就新冠肺炎疫情传播规律与防控措施展开深入研究。近日，团队的研究成果“Suppression of future waves of COVID-19: Global pandemic demands joint interventions”在《美国科学院刊》（PNAS）在线发表！

该篇文章基于新冠肺炎可能在冬季卷土重来的大背景，充分考虑气候变化、人口流动等因素，建立数学模型模拟不同干预情景，以寻找针对新冠肺炎再暴发的最优应对措施。研究结果表明实施8周高强度的干预措施来控制局部传染和国际传播是有效且高效的，同时提出分层干预的策略建议，即干预措施首先在“全球干预中心”（Global Intervention Hub，GIH, 即高人口密度、高国际流通的地区）实施，紧接着是其他高风险地区。该文章从全球视角出发，提出按照辐射分层网络、全球联动实施分层干预措施，对降低新冠肺炎再次暴发给公共健康和社会带来的巨大影响有重要意义。

该研究将全球59个高风险地区（其累计病例占全球92.57%）根据人口密度和国际航运情况分为15个“全球干预中心”（GIH）和44个其他高风险地区，采用多人群传染病动力学模型模拟59个地区新冠肺炎的内部传播与时空扩散。其中，模型参数纳入气候变化、家庭结构、人口流动等多因素的影响。模拟干预情景包括：（1）首先在GIH实施，紧接着其他高风险地区同时实施（图1-AE）；（2）只在GIH实施（图1-BF）; （3）GIH和其他高风险地区同步实施（图1-CG）；（4）首先在GIH实施，紧接着其他高风险地区根据当地累计病例翻倍时开始实施（图1-DH）。干预措施实施周期从2-12周逐两周递增，干预措施强度根据降低社区传播风险及国际流动的百分比划分为轻强度（20%）、中强度（50%）和高强度（80%）。不同干预机制模拟的结果对比发现最优的应对措施为首先在所有GIH实施，紧接着是其他高风险地区根据实际情况及时实施8周的高强度干预措施。

图1. 不同干预情景模拟的结果对比（ABCD：临床病例数降低比例；EFGH：加速控制住的地区数）

文章链接

https://www.pnas.org/content/early/2020/09/25/2012002117

#post-12188

ntry-header

近日，我中心2016级博士研究生林毓聪以第一作者身份撰写的论文 “Long-distance disorder-disorder relation extraction with bootstrapped noisy data” 被医学信息学期刊Journal of Biomedical Informatics (Health Informatics Q1，Computer Science Applications Q1) 接收并在线发表。我中心俞声副教授是论文的通讯作者。

医学知识图谱是医学人工智能应用的基石，知识图谱中先验的关系对于自动诊断等应用的实现都有重要的意义，而现有的一些数据库如Unified Medical Language System虽然囊括了较广泛的医学实体，实体之间的医学关系仍旧比较匮乏。传统的医学关系抽取方法包括人工标注和文本模式匹配，前者费时费力，后者能够提取的关系非常有限，无法适用于现实情况下自然语言多样的表述方式。而在这些医学关系中，疾病与疾病之间较常见的鉴别诊断、导致和被导致关系在医学文本中的表述尤为复杂，常常在一句话中表达了多个疾病的多种关系，抽取尤为困难，使其在现有知识图中（如UMLS和HPO）的覆盖范围不完整。基于这种情况，作者利用深度学习和自然语言处理技术设计了一种新的长距离关系抽取算法，在医学文本的基础上，结合自助法采样及文章章节结构信息抽取了疾病间的鉴别诊断、导致和被导致关系。

为了解决有标注训练样本缺乏的问题，论文采用远监督的方法构建训练样本，通过半结构化网页获取已知实体关系对，将它们与包含两个实体的所有句子相匹配形成一个训练样本。模型采用Bi-GRU作为句子编码器，结合注意力机制降低噪声样本的影响，将一对实体匹配的所有句子信息融合后再对关系做判断。

该论文的亮点之一是扩展了远监督的假设，允许其中一个实体出现在文章的标题中。这一假设符合以疾病为标题的网页和医学教科书文本的特点，使得训练句子数量增加了1.17倍，训练样本数增加了0.75倍。

论文的亮点之二是融合了已知关系构成的图信息来更好地区分三类关系。疾病间的鉴别诊断关系通常在文本中的表述都较为模糊，难以直接通过文本判断，而作者发现如果两个疾病跟第三个疾病都有鉴别诊断关系，则他们之间更有可能是鉴别诊断关系而不是导致或被导致关系。基于此发现，作者在模型中融入了已知关系图的信息，有效地帮助模型区分了三类关系。

在实验中，作者提出的关系抽取模型（最后一行）准确率接近90%，正样本准确率达到72.3%，比最好的基准模型高出约4.6个百分点。

论文网页链接：

https://www.sciencedirect.com/science/article/pii/S153204642030157X

#post-12187

ntry-header

日前，我中心执行主任邓柯副教授被清华大学教务处及研究生院共同聘请为“清华大学教学顾问组成员”，聘期3年。此前，由邓柯副教授带领的统计咨询中心团队曾受清华大学教学质量评估中心的委托，针对学校教学评估系统优化给出专业指导建议。团队高质量的咨询服务及专业化的优化方案受到学校教务处及教学质量评估中心的高度肯定，并将相关方案成功应用到教学评估系统的整体升级工作中。

项目背景：

教学评估是衡量教师教学质量的重要手段，可为教师的考核、奖励和晋升提供关键依据。清华大学从1998年秋开始“课堂教学质量学生问卷调查”工作，2004年开始实行网上评估，已经连续开展了22年。为了保证结果的科学性和有效性，教学评估系统经过多次升级，不断完善评价体系和方法。

从2019年5月开始，统计咨询中心接受清华大学教学质量评估中心的委托，对现有教学评估系统的计算方法和程序代码进行解析和优化，以提高评估系统的计算稳定性和计算效率。

解决方案：

咨询中心团队在深入分析研究当前算法、代码和评估结果的基础上，锁定了影响评估系统计算稳定性的关键因素，并基于统计学原理对原算法中部分不合理的模块进行了调整和重构。经实践验证，调整后的评估系统计算稳定性和计算效率均得到了大幅度提高，成功解决了长期困扰教学评估系统有效运转的关键问题。相关成果为清华教学评估工作提供了更为可靠的理论方法和计算框架，并为教学评估体系的进一步完善打下了坚实的基础。

#post-12194

ntry-header

#post-12186

ntry-header

#post-12189

ntry-header

近日，我中心2017级博士研究生袁正以第一作者身份撰写的论文 “Unsupervised multi-granular Chinese word segmentation and term discovery via graph partition” 被Journal of Biomedical Informatics (Health Informatics Q1，Computer Science Applications Q1) 接收并在线发表。该论文是作者同清华大学刘元昊、尹秋阳、李铂垚同学、北京清华长庚医院冯晓彬教授以及江苏卫健委张国明共同完成，我中心俞声副教授是论文的通讯作者。

电子病历蕴含丰富的医学信息，对生物医学研究、公共卫生统计、卫生经济学、医学人工智能等诸多领域具有重要的价值。为了进行电子病历分析，首先需要进行分词和术语发现。但由于缺少完善的中文医学词典和已分词的中文电子病历，有监督的分词算法难以训练，已有的中文分词系统在中文电子病历的应用中表现不好。基于此种情况，作者以图分割为基础，提出全新的无监督的多粒度中文分词和术语发现的方法。

论文将分词问题转换为图的分割问题：将一个句子转换为无向图，顶点为每个字符，边的权重通过n-gram统计量计算，通过不同粒度的图分割获得了多粒度的分词结果。论文提出了一个术语判别系统，并训练BERT分类器以判断该术语是否被正确分词。该术语判别系统可以在已有的多粒度分词结果上提取正确的医学术语进行术语发现。该方法在CCKS中文病历数据集上的术语发现任务中表现遥遥领先已有的中文分词系统。

论文网页：

https://authors.elsevier.com/c/1belf5SMDQgLU6

#post-12185

ntry-header

近日，我中心侯琳、刘汉中两位副教授国家自然科学基金面上项目申请顺利通过，获得国家自然科学基金资助开展科学研究。据统计，中心全职教研系列教员从15年的2人逐年增加至8人（不包含本月入职2位助理教授），累计主持/参与国家自然科学基金资助科研项目（重点+面上+青年）数量增加至16项。此外，中心教员还多次主持或参与科技部、北京市自然科学基金、北京智源人工智能研究院以及各部委和企事业委托科研项目，各类项目累计超50项。

#post-12184

ntry-header

日前，清华大学统计学研究中心邓婉璐、周在莹两位老师荣获“2019-2020学年度春季学期疫情防控期间在线教学优秀教师”称号。

我能有幸能得到这份肯定与鼓励，更多想说的是感谢。自年初疫情以来，其实我们作为一线教师一开始都比较茫然。要谢谢学校的果断决策，并迅速组织了各类支持小组，经过多次测试拟出了应对各种情形的方案，给了我们充分的培训，我们才能从容按时地开课。也特别谢谢系里和中心的全力而温暖的支持，无论是设备还是经验上都给我们提供了很多便利，我也经常在教学交流群中得到其他老师们的帮助。这些后盾让我有了应对可能的突发情况的底气。所以这份肯定应该属于我们整个集体，而我会带着这份鼓励继续前行。这学期又有了新的挑战，开启了融合课堂，相信我们一起努力，也可以顺利把课上好！

——邓婉璐

“Education is not the filling of a pail, but the lighting of a fire.”据说这是著名诗人William Butler Yeats的名言，它深深地影响了我。我热爱教学，每当学生反馈学有所得总令我无比欣慰。我也用心呵护学生，非常荣幸可以为他们的专业学习提供帮助，陪伴他们走过一小程人生。得这个奖实属侥幸，感谢信任我的各位同事、学生，感谢关心我的统计学研究中心和工业工程系的各位领导。借用前辈Howell Tong先生给我的留言，”In life, one needs first performance and then luck.” 与诸君共勉吧。当我们坚定信念、努力修炼，幸福总会来敲门。

——周在莹

#post-12183

ntry-header

近日，我中心2015级博士生余丽珊以第一作者的身份撰写的论文“Developing an automated mechanism to identify medical articles from Wikipedia for knowledge extraction”被医学信息学期刊International Journal of Medical Informatics接收并在线发表。论文指导教师为中心俞声副教授。

信息化是自动化发展的前提，医疗领域的信息化如对医疗相关信息的整理汇总，对医疗资源的管理和临床决策支持的自动化开发等具有重要意义。从海量的信息中及时获取医学相关信息对医疗人工智能的发展亦至关重要。维基百科是医学信息研究领域的主要信息源之一。建立维基百科的医学信息自动提取机制，以获取其中医学实体概念相关的词条和关系事实等结构化信息是具有挑战性的，并且随着维基百科规模的扩大和词条质量的提高，该自动提取机制所获取的医学信息也将越来越丰富和准确。

有七类医学范畴对人类健康非常重要。本文的目的是通过机器学习算法从维基百科中自动识别解剖、药物、医疗设备、疾病症状、细菌寄生虫、生理和手术这七类医学文章，获取维基百科中的医学实体概念及维基百科和Wikidata中关系事实等结构化信息。然而，该识别任务缺少文章及其语义所属类别（对应于七类医学范畴）的标注集作为机器学习算法的训练集。此外由于各类别文章在维基百科中极低的占比，导致分类任务样本极度不平衡从而影响分类算法的学习。

为了解决此问题，作者通过利用现有成熟的医学知识库UMLS（一体化医学语言系统）对维基百科中文章概念进行语义类别匹配，从而获取了一定数量的七种语义类别维基百科文章作为训练集；并基于维基百科中丰富的结构信息，提出了二阶段分类模型：（1）发展爬虫分类策略进行医学相关文章的识别，获取尽可能多的医学文章从而避免数据极度不平衡情况；（2）建立深度学习分类模型，对所识别出文章进行七类语义类别的识别，并根据这些结果在维基百科页面中的消息盒（Infobox）和Wikidata系统中提取关系事实等结构化信息。本文对最终结果进行了评估，并预留部分标注集作为测试集评估模型的识别表现（准确率和召回率），同时也抽取部分识别结果进行人工检验。

通过结果评估以及与基准模型的对比，该自动识别机制具有高准确率和高召回率的整体识别能力以及低的假医学文章发现率。该系统在Wikidata/Infobox上提取了相关医学概念的结构化信息，分析得到的结构化信息也能给UMLS中的医学疾病关系有很好的补充。此研究工作定期使用该自动提取机制识别维基百科中的医学文章及其结构化信息并将其公布，为相关领域学者的科学研究提供了数据基础；该工作对于其他领域相关文章及词条等信息的提取也具有参考意义。

#post-12182

ntry-header

#post-12181