ntry-header

2020年10月26日,清康涅狄格大学统计系闫军教授通过线上平台“云访问”我中心,通过线上平台与中心教员一对一交流,并做特邀报告。报告题目是Moving-Resting Process with Measurement Error in Animal Movement Modeling.

 

与会师生线上合影
#post-12195
ntry-header

2020年10月20日,复旦大学公共卫生学院秦国友教授访问我中心,并做学术报告,报告题目是Subgroup Analysis with Measurement Error。

秦国友教授与中心杨立坚教授
秦国友剿说与中心俞声副教授
秦国友教授学术报告
报告现场
与会人员合影
#post-12193
ntry-header

2020年10月16日,清华大学统计学论坛在腾讯会议平台“云”举行。武汉大学数学与统计学院刘妍岩教授作为本次论坛的嘉宾“云”访问清华统计中心,与中心教员亲切交流,并做题为“Histopathological  Imaging-based Cancer Heterogeneity Analysis via Penalized Fusion with Model Averaging.”的学术报告。

刘教授做线上报告

#post-12191
ntry-header

#post-12190
ntry-header

#post-12192
ntry-header

当前,国内外新冠肺炎形势依旧严峻,经济、社会等方面受到严重影响。2020年3月以来,清华大学统计学研究中心副教授邓柯、侯琳带领中心博士生刘朝阳、沈翀、王掣,与清华大学地球系统科学系宫鹏教授、徐冰教授团队和国内外相关研究机构合作就新冠肺炎疫情传播规律与防控措施展开深入研究。近日,团队的研究成果“Suppression of future waves of COVID-19: Global pandemic demands joint interventions”在《美国科学院刊》(PNAS)在线发表!

该篇文章基于新冠肺炎可能在冬季卷土重来的大背景,充分考虑气候变化、人口流动等因素,建立数学模型模拟不同干预情景,以寻找针对新冠肺炎再暴发的最优应对措施。研究结果表明实施8周高强度的干预措施来控制局部传染和国际传播是有效且高效的,同时提出分层干预的策略建议,即干预措施首先在“全球干预中心”(Global Intervention Hub,GIH, 即高人口密度、高国际流通的地区)实施,紧接着是其他高风险地区。该文章从全球视角出发,提出按照辐射分层网络、全球联动实施分层干预措施,对降低新冠肺炎再次暴发给公共健康和社会带来的巨大影响有重要意义。

该研究将全球59个高风险地区(其累计病例占全球92.57%)根据人口密度和国际航运情况分为15个“全球干预中心”(GIH)和44个其他高风险地区,采用多人群传染病动力学模型模拟59个地区新冠肺炎的内部传播与时空扩散。其中,模型参数纳入气候变化家庭结构人口流动等多因素的影响。模拟干预情景包括:(1)首先在GIH实施,紧接着其他高风险地区同时实施(图1-AE);(2)只在GIH实施(图1-BF); (3)GIH和其他高风险地区同步实施(图1-CG);(4)首先在GIH实施,紧接着其他高风险地区根据当地累计病例翻倍时开始实施(图1-DH)。干预措施实施周期从2-12周逐两周递增,干预措施强度根据降低社区传播风险及国际流动的百分比划分为轻强度(20%)、中强度(50%)和高强度(80%)。不同干预机制模拟的结果对比发现最优的应对措施为首先在所有GIH实施,紧接着是其他高风险地区根据实际情况及时实施8周的高强度干预措施。

图1. 不同干预情景模拟的结果对比(ABCD:临床病例数降低比例;EFGH:加速控制住的地区数)

 

文章链接

https://www.pnas.org/content/early/2020/09/25/2012002117

#post-12188
ntry-header

近日,我中心2016级博士研究生林毓聪以第一作者身份撰写的论文 “Long-distance disorder-disorder relation extraction with bootstrapped noisy data” 被医学信息学期刊Journal of Biomedical Informatics (Health Informatics Q1,Computer Science Applications Q1) 接收并在线发表。我中心俞声副教授是论文的通讯作者。

医学知识图谱是医学人工智能应用的基石,知识图谱中先验的关系对于自动诊断等应用的实现都有重要的意义,而现有的一些数据库如Unified Medical Language System虽然囊括了较广泛的医学实体,实体之间的医学关系仍旧比较匮乏。传统的医学关系抽取方法包括人工标注和文本模式匹配,前者费时费力,后者能够提取的关系非常有限,无法适用于现实情况下自然语言多样的表述方式。而在这些医学关系中,疾病与疾病之间较常见的鉴别诊断、导致和被导致关系在医学文本中的表述尤为复杂,常常在一句话中表达了多个疾病的多种关系,抽取尤为困难,使其在现有知识图中(如UMLS和HPO)的覆盖范围不完整。基于这种情况,作者利用深度学习和自然语言处理技术设计了一种新的长距离关系抽取算法,在医学文本的基础上,结合自助法采样及文章章节结构信息抽取了疾病间的鉴别诊断、导致和被导致关系。

图一:关系提取模型示意图

为了解决有标注训练样本缺乏的问题,论文采用远监督的方法构建训练样本,通过半结构化网页获取已知实体关系对,将它们与包含两个实体的所有句子相匹配形成一个训练样本。模型采用Bi-GRU作为句子编码器,结合注意力机制降低噪声样本的影响,将一对实体匹配的所有句子信息融合后再对关系做判断。

该论文的亮点之一是扩展了远监督的假设,允许其中一个实体出现在文章的标题中。这一假设符合以疾病为标题的网页和医学教科书文本的特点,使得训练句子数量增加了1.17倍,训练样本数增加了0.75倍。

论文的亮点之二是融合了已知关系构成的图信息来更好地区分三类关系。疾病间的鉴别诊断关系通常在文本中的表述都较为模糊,难以直接通过文本判断,而作者发现如果两个疾病跟第三个疾病都有鉴别诊断关系,则他们之间更有可能是鉴别诊断关系而不是导致或被导致关系。基于此发现,作者在模型中融入了已知关系图的信息,有效地帮助模型区分了三类关系。

在实验中,作者提出的关系抽取模型(最后一行)准确率接近90%,正样本准确率达到72.3%,比最好的基准模型高出约4.6个百分点。

论文网页链接:

https://www.sciencedirect.com/science/article/pii/S153204642030157X

#post-12187
ntry-header

日前,我中心执行主任邓柯副教授被清华大学教务处及研究生院共同聘请为“清华大学教学顾问组成员”,聘期3年。此前,由邓柯副教授带领的统计咨询中心团队曾受清华大学教学质量评估中心的委托,针对学校教学评估系统优化给出专业指导建议。团队高质量的咨询服务及专业化的优化方案受到学校教务处及教学质量评估中心的高度肯定,并将相关方案成功应用到教学评估系统的整体升级工作中。

清华大学教务处处长曾嵘为邓柯副教授颁发聘书

项目背景:

教学评估是衡量教师教学质量的重要手段,可为教师的考核、奖励和晋升提供关键依据。清华大学从1998年秋开始“课堂教学质量学生问卷调查”工作,2004年开始实行网上评估,已经连续开展了22年。为了保证结果的科学性和有效性,教学评估系统经过多次升级,不断完善评价体系和方法。

从2019年5月开始,统计咨询中心接受清华大学教学质量评估中心的委托,对现有教学评估系统的计算方法和程序代码进行解析和优化,以提高评估系统的计算稳定性和计算效率。

解决方案:

咨询中心团队在深入分析研究当前算法、代码和评估结果的基础上,锁定了影响评估系统计算稳定性的关键因素,并基于统计学原理对原算法中部分不合理的模块进行了调整和重构。经实践验证,调整后的评估系统计算稳定性和计算效率均得到了大幅度提高,成功解决了长期困扰教学评估系统有效运转的关键问题。相关成果为清华教学评估工作提供了更为可靠的理论方法和计算框架,并为教学评估体系的进一步完善打下了坚实的基础。

#post-12194