ntry-header

2020年11月9日,复旦大学大数据学院青年研究员陈钊博士访问我中心,并做学术报告,报告的题目是Asset selection based on high frequency Sharpe ratio。

陈钊博士与中心张静怡助理教授
陈钊博士与中心吴未迟助理教授
陈钊博士
与会人员合影
#post-12200
ntry-header

近日,清华大学统计学研究中心举办了“统计学博士生论坛”。博士生论坛是清华大学统计学研究中心的传统活动,其设立的目标是为青年统计学者提供一个学术交流的平台,以提高统计学者的专业知识及专业素养。来自清华大学统计学研究中心的四十余名在读博士生参与了此次论坛,博士们根据个人的研究方向,分享了他们的近期研究成果以及在研究过程中遇到的问题。同学们积极发言,分享观点,讨论热烈。

论坛伊始,清华大学统计学研究中心执行主任邓柯副教授致辞。邓老师强调,随着清华大学统计学科人才培养规模逐渐加大,人才培养质量把控也愈加重要。在一定的时间充分的展现学术研究能力和最新研究进展是科研人员的基本素养,也是学术生态的重要组成部分。希望博士研究生们能充分利用论坛平台,达到能力的锻炼与提升。

博论风采
#post-12198
ntry-header

2020年11月6日,华东师范大学刘玉坤教授访问我中心,并做学术报告,报告的题目是估计总体大小的半参数全似然方法

刘玉坤教授与中心邓柯副教授
刘玉坤教授与中心侯琳副教授
报告现场
与会人员合影
#post-12199
ntry-header

2020年10月26日,清康涅狄格大学统计系闫军教授通过线上平台“云访问”我中心,通过线上平台与中心教员一对一交流,并做特邀报告。报告题目是Moving-Resting Process with Measurement Error in Animal Movement Modeling.

 

与会师生线上合影
#post-12195
ntry-header

2020年10月20日,复旦大学公共卫生学院秦国友教授访问我中心,并做学术报告,报告题目是Subgroup Analysis with Measurement Error。

秦国友教授与中心杨立坚教授
秦国友剿说与中心俞声副教授
秦国友教授学术报告
报告现场
与会人员合影
#post-12193
ntry-header

2020年10月16日,清华大学统计学论坛在腾讯会议平台“云”举行。武汉大学数学与统计学院刘妍岩教授作为本次论坛的嘉宾“云”访问清华统计中心,与中心教员亲切交流,并做题为“Histopathological  Imaging-based Cancer Heterogeneity Analysis via Penalized Fusion with Model Averaging.”的学术报告。

刘教授做线上报告

#post-12191
ntry-header

当前,国内外新冠肺炎形势依旧严峻,经济、社会等方面受到严重影响。2020年3月以来,清华大学统计学研究中心副教授邓柯、侯琳带领中心博士生刘朝阳、沈翀、王掣,与清华大学地球系统科学系宫鹏教授、徐冰教授团队和国内外相关研究机构合作就新冠肺炎疫情传播规律与防控措施展开深入研究。近日,团队的研究成果“Suppression of future waves of COVID-19: Global pandemic demands joint interventions”在《美国科学院刊》(PNAS)在线发表!

该篇文章基于新冠肺炎可能在冬季卷土重来的大背景,充分考虑气候变化、人口流动等因素,建立数学模型模拟不同干预情景,以寻找针对新冠肺炎再暴发的最优应对措施。研究结果表明实施8周高强度的干预措施来控制局部传染和国际传播是有效且高效的,同时提出分层干预的策略建议,即干预措施首先在“全球干预中心”(Global Intervention Hub,GIH, 即高人口密度、高国际流通的地区)实施,紧接着是其他高风险地区。该文章从全球视角出发,提出按照辐射分层网络、全球联动实施分层干预措施,对降低新冠肺炎再次暴发给公共健康和社会带来的巨大影响有重要意义。

该研究将全球59个高风险地区(其累计病例占全球92.57%)根据人口密度和国际航运情况分为15个“全球干预中心”(GIH)和44个其他高风险地区,采用多人群传染病动力学模型模拟59个地区新冠肺炎的内部传播与时空扩散。其中,模型参数纳入气候变化家庭结构人口流动等多因素的影响。模拟干预情景包括:(1)首先在GIH实施,紧接着其他高风险地区同时实施(图1-AE);(2)只在GIH实施(图1-BF); (3)GIH和其他高风险地区同步实施(图1-CG);(4)首先在GIH实施,紧接着其他高风险地区根据当地累计病例翻倍时开始实施(图1-DH)。干预措施实施周期从2-12周逐两周递增,干预措施强度根据降低社区传播风险及国际流动的百分比划分为轻强度(20%)、中强度(50%)和高强度(80%)。不同干预机制模拟的结果对比发现最优的应对措施为首先在所有GIH实施,紧接着是其他高风险地区根据实际情况及时实施8周的高强度干预措施。

图1. 不同干预情景模拟的结果对比(ABCD:临床病例数降低比例;EFGH:加速控制住的地区数)

 

文章链接

https://www.pnas.org/content/early/2020/09/25/2012002117

#post-12188
ntry-header

近日,我中心2016级博士研究生林毓聪以第一作者身份撰写的论文 “Long-distance disorder-disorder relation extraction with bootstrapped noisy data” 被医学信息学期刊Journal of Biomedical Informatics (Health Informatics Q1,Computer Science Applications Q1) 接收并在线发表。我中心俞声副教授是论文的通讯作者。

医学知识图谱是医学人工智能应用的基石,知识图谱中先验的关系对于自动诊断等应用的实现都有重要的意义,而现有的一些数据库如Unified Medical Language System虽然囊括了较广泛的医学实体,实体之间的医学关系仍旧比较匮乏。传统的医学关系抽取方法包括人工标注和文本模式匹配,前者费时费力,后者能够提取的关系非常有限,无法适用于现实情况下自然语言多样的表述方式。而在这些医学关系中,疾病与疾病之间较常见的鉴别诊断、导致和被导致关系在医学文本中的表述尤为复杂,常常在一句话中表达了多个疾病的多种关系,抽取尤为困难,使其在现有知识图中(如UMLS和HPO)的覆盖范围不完整。基于这种情况,作者利用深度学习和自然语言处理技术设计了一种新的长距离关系抽取算法,在医学文本的基础上,结合自助法采样及文章章节结构信息抽取了疾病间的鉴别诊断、导致和被导致关系。

图一:关系提取模型示意图

为了解决有标注训练样本缺乏的问题,论文采用远监督的方法构建训练样本,通过半结构化网页获取已知实体关系对,将它们与包含两个实体的所有句子相匹配形成一个训练样本。模型采用Bi-GRU作为句子编码器,结合注意力机制降低噪声样本的影响,将一对实体匹配的所有句子信息融合后再对关系做判断。

该论文的亮点之一是扩展了远监督的假设,允许其中一个实体出现在文章的标题中。这一假设符合以疾病为标题的网页和医学教科书文本的特点,使得训练句子数量增加了1.17倍,训练样本数增加了0.75倍。

论文的亮点之二是融合了已知关系构成的图信息来更好地区分三类关系。疾病间的鉴别诊断关系通常在文本中的表述都较为模糊,难以直接通过文本判断,而作者发现如果两个疾病跟第三个疾病都有鉴别诊断关系,则他们之间更有可能是鉴别诊断关系而不是导致或被导致关系。基于此发现,作者在模型中融入了已知关系图的信息,有效地帮助模型区分了三类关系。

在实验中,作者提出的关系抽取模型(最后一行)准确率接近90%,正样本准确率达到72.3%,比最好的基准模型高出约4.6个百分点。

论文网页链接:

https://www.sciencedirect.com/science/article/pii/S153204642030157X

#post-12187
ntry-header

日前,我中心执行主任邓柯副教授被清华大学教务处及研究生院共同聘请为“清华大学教学顾问组成员”,聘期3年。此前,由邓柯副教授带领的统计咨询中心团队曾受清华大学教学质量评估中心的委托,针对学校教学评估系统优化给出专业指导建议。团队高质量的咨询服务及专业化的优化方案受到学校教务处及教学质量评估中心的高度肯定,并将相关方案成功应用到教学评估系统的整体升级工作中。

清华大学教务处处长曾嵘为邓柯副教授颁发聘书

项目背景:

教学评估是衡量教师教学质量的重要手段,可为教师的考核、奖励和晋升提供关键依据。清华大学从1998年秋开始“课堂教学质量学生问卷调查”工作,2004年开始实行网上评估,已经连续开展了22年。为了保证结果的科学性和有效性,教学评估系统经过多次升级,不断完善评价体系和方法。

从2019年5月开始,统计咨询中心接受清华大学教学质量评估中心的委托,对现有教学评估系统的计算方法和程序代码进行解析和优化,以提高评估系统的计算稳定性和计算效率。

解决方案:

咨询中心团队在深入分析研究当前算法、代码和评估结果的基础上,锁定了影响评估系统计算稳定性的关键因素,并基于统计学原理对原算法中部分不合理的模块进行了调整和重构。经实践验证,调整后的评估系统计算稳定性和计算效率均得到了大幅度提高,成功解决了长期困扰教学评估系统有效运转的关键问题。相关成果为清华教学评估工作提供了更为可靠的理论方法和计算框架,并为教学评估体系的进一步完善打下了坚实的基础。

#post-12194
ntry-header

近日,我中心2017级博士研究生袁正以第一作者身份撰写的论文 “Unsupervised multi-granular Chinese word segmentation and term discovery via graph partition” 被Journal of Biomedical Informatics (Health Informatics Q1,Computer Science Applications Q1) 接收并在线发表。该论文是作者同清华大学刘元昊、尹秋阳、李铂垚同学、北京清华长庚医院冯晓彬教授以及江苏卫健委张国明共同完成,我中心俞声副教授是论文的通讯作者。

电子病历蕴含丰富的医学信息,对生物医学研究、公共卫生统计、卫生经济学、医学人工智能等诸多领域具有重要的价值。为了进行电子病历分析,首先需要进行分词和术语发现。但由于缺少完善的中文医学词典和已分词的中文电子病历,有监督的分词算法难以训练,已有的中文分词系统在中文电子病历的应用中表现不好。基于此种情况,作者以图分割为基础,提出全新的无监督的多粒度中文分词和术语发现的方法。

论文将分词问题转换为图的分割问题:将一个句子转换为无向图,顶点为每个字符,边的权重通过n-gram统计量计算,通过不同粒度的图分割获得了多粒度的分词结果。论文提出了一个术语判别系统,并训练BERT分类器以判断该术语是否被正确分词。该术语判别系统可以在已有的多粒度分词结果上提取正确的医学术语进行术语发现。该方法在CCKS中文病历数据集上的术语发现任务中表现遥遥领先已有的中文分词系统。

图中Seg和Seg+Dis为论文提出的方法,纵坐标代表测试中术语发现数量。

论文网页:

https://authors.elsevier.com/c/1belf5SMDQgLU6

#post-12185