【学术成果】清华统计x2022ACL:邓柯、俞声两课题组多篇文章被接收

ntry-header

近日，2022年第60届国际计算语言学协会年会(Annual Meeting of the Association for Computational Linguistics，简称ACL)举行，我中心邓柯课题组18级博士研究生潘长在、俞声课题组17级博士研究生袁正、18级博士研究生罗声旋几位同学的多篇投稿文章被接收。ACL会议始于1962年，由国际计算语言学协会主办，是自然语言处理与计算语言学领域最高级别的学术会议。

潘长在同学的论文入选“主会长文”单元，题为“ TopWORDS-Seg:开放域中文文本领域通过贝叶斯推断同时进行文本切词和词语发现的方法 (TopWORDS-Seg: Simultaneous Text Segmentation and Word Discovery for Open-Domain Chinese Texts via Bayesian Inference)”，文章针对于几十年来计算语言学中的一个关键瓶颈，开放域中文文本处理问题展开论述。称之为瓶颈是因为在开放域这种具有挑战性的场景中，文本分词和词语发现经常相互纠缠，且并无可用的训练数据。尚无现有方法可以在开放域中同时实现有效的文本分词和单词发现。该文章通过提出一种基于贝叶斯推理的名为 TopWORDS-Seg 的新方法来填补这一空白，在没有训练语料库和领域词表的情况下具有很好的表现和解释性。该文章通过维基百科数据用一系列实验研究证明了 TopWORDS-Seg 的优势。潘长在是第一作者，邓柯副教授作为通讯作者与清华大学计算机系科学与技术系的孙茂松教授共同指导了该工作。

袁正同学共有三篇文章入选：

入选“主会短文”单元文章：“基于疾病同义词的匹配网络的自动疾病编码（Code Synonyms Do Matter: Multiple Synonyms Matching Network for Automatic ICD Coding）”通过额外利用疾病编码的同义词信息去匹配电子病历中的不同文本以达到更好的自动疾病编码效果，在MIMIC-3电子病历数据集上得到了超过以往方法的分类效果。

入选“Findings长文”单元文章：“使用三仿射融合异质信息的嵌套命名实体识别方法（Fusing Heterogeneous Factors with Triaffine Mechanism for Nested Named Entity Recognition）”通过三仿射变换改进基于片段分类的命名实体识别模型中的片段表示和片段分类方法，在新闻和医疗命名实体识别任务上取得了超过之前的结果。以上两篇文章袁正均为第一作者，与阿里巴巴达摩院团队合作完成。

此外，袁正与浙江大学、鹏程实验室等研究团队合作的论文：“中文医学自然语言处理评测数据集（CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark）也入选了“主会长文”单元。

罗声旋同学的论文入选“Findings长文”单元，题为“联合实体对齐和悬空实体识别的高精度无监督方法 (An Accurate Unsupervised Method for Joint Entity Alignment and Dangling Entity Detection) ”，罗声旋为该文的第一作者，其导师俞声副教授为通讯作者。文章针对在对齐两个知识图谱的现实场景中的三个主要问题：（1）不存在等价对应的实体，也即悬空实体，广泛存在于知识图谱中；（2）悬空实体标签和实体对（等价的两个实体）标签难以获得，一个普适的知识图谱对齐方法需要尽可能避免对监督数据的依赖；（3）各对齐之间以及预测对齐与识别悬空实体之间是互相影响的，需要整体地考虑识别悬空实体并对齐等价的实体。该文章首先根据实体的文本语义信息和全局的相似性指导两个知识图谱中的实体嵌入的训练，从而获得实体之间的距离估计。然后，给每个知识图谱添加一个虚拟实体，从而把实体对齐和悬空实体整合为一个统一的最优运输问题，并解这个问题。最终，与虚拟实体对齐的实体为悬空实体，其余对齐为模型预测的等价实体对。一系列实验表明，该文章在不依赖监督数据的情况下，能够达到当前实体对齐任务上的最优表现，并且有高质量的悬空实体识别结果。

#post-12307

ntry-header

11月22-23日，深圳市福田区人民政府、深圳市福田区科技创新局和粤港澳大湾区数字经济研究院（International Digital Economy Academy，简称“IDEA”）联合举办IDEA大会。IDEA创院理事长、美国国家工程院外籍院士、英国皇家工程院外籍院士沈向洋在会上发布了由清华大学统计学研究中心俞声副教授团队与粤港澳大湾区数字经济研究院联合开发的大型开放医学知识图谱（Biomedical Informatics Ontology System，简称“BIOS”）（http://bios.idea.edu.cn）。

医学知识图谱是一种由生物医学概念名称、概念分类、概念间关系以及相应的ID系统构成的特殊数据库，用于支持医学自然语言处理、人工智能建模以及行业数据交换，是医学大数据与人工智能领域最重要的基础设施之一，对于行业发展具有战略影响。美国国立卫生院国家医学图书馆于1986年开发并发展至今的一体化医学语言系统（Unified Medical Language System，简称“UMLS”）是目前最权威的英文医学知识图谱，为英语国家医学大数据技术与产业的发展做出了卓越贡献。而长久以来，中文领域缺少大型开放医学知识图谱，是我国医疗大数据与人工智能产业发展的主要制约因素之一。

为解决中文领域开放医学知识图谱的缺失，并在国际范围内进一步提升医学知识图谱的建设水平，清华大学统计学研究中心俞声副教授带领团队进行了长达5年的技术攻关，先后开发了基于图分割与深度学习的中文电子病历无监督多粒度分词及术语提取[1]、知识决定的医学术语向量化及正则化[2]、高通量医学关系提取[3,4]、生物医学自动翻译[5]等技术，为数据驱动的大规模图谱自动构建建立了基础，并于2020年11月与IDEA研究院沈向洋院士团队形成合作。在领先算法、强大算力和超大规模语料数据的支持下，仅用短短一年时间，双方团队便从原始底层医学术语开始，建立了全新的具有完整自主知识产权的中英文双语医学知识图谱BIOS，其规模整体接近现有权威知识图谱UMLS，并在内容质量上形成多点超越。未来，清华大学统计学研究中心将与IDEA研究院以及更多国内顶尖医院合作，不断扩大和完善BIOS的内容与质量，不仅要使我国医疗大数据与人工智能产业的薄弱基础得到全面提升，也要辐射国际，带动全球行业共同发展。

BIOS目前已在线发布（bios.idea.edu.cn）。同时，秉承全面提升发展中国医疗大数据与人工智能行业的开放理念，BIOS拟于近期以CC BY-NC-ND协议开放完整数据下载。

1 Yuan Z, Liu Y, Yin Q, et al. Unsupervised multi-granular Chinese word segmentation and term discovery via graph partition. Journal of Biomedical Informatics 2020;110:103542. doi:10.1016/j.jbi.2020.103542

2 Yuan Z, Zhao Z, Yu S. CODER: Knowledge infused cross-lingual medical term embedding for term normalization. arXiv:201102947 [cs] Published Online First: 5 November 2020.http://arxiv.org/abs/2011.02947 (accessed 7 Nov 2020).

3 Lin Y, Li Y, Lu K, et al. Long-distance disorder-disorder relation extraction with bootstrapped noisy data. Journal of Biomedical Informatics 2020;109:103529. doi:10.1016/j.jbi.2020.103529

4 Lin Y, Lu K, Chen Y, et al. High-throughput relation extraction algorithm development associating knowledge articles and electronic health records. arXiv:200903506 [cs, stat] Published Online First: 7 September 2020.http://arxiv.org/abs/2009.03506 (accessed 27 Sep 2020).

5 Luo S, Ying H, Yu S. Sentence Alignment with Parallel Documents Helps Biomedical Machine Translation. arXiv:210408588 [cs] Published Online First: 17 April 2021.http://arxiv.org/abs/2104.08588 (accessed 7 Jul 2021).

#post-12294

ntry-header

近日，统计学研究中心2016级博士生徐嘉泽与清华大学自动化系江瑞教授团队、斯坦福大学统计系Wing Hung Wong教授团队的合作文章“Density estimation using deep generative neural networks”在《美国科学院院刊》（PNAS）在线发表。徐嘉泽同学于2020年1月赴美国斯坦福大学进行为期近一年的访问学习，在访问期间主要参与了Wing Hung Wong教授实验室的文本分析、贝叶斯蒙特卡洛算法开发等方面的工作。在本项目中，徐嘉泽同学参与了模型构建和工具开发等工作。

图1. MNIST和CIFAR-10数据集中真实的图片以及Roundtrip和MAF生成的图片。每一行代表一种类别。来源：PNAS

该论文提出了一种名为Roundtrip的原创方法来进行概率密度估计。该方法利用深度生成式模型的强大生成能力，支持数据生成和概率密度估计的协同进行。该成果在多个统计学研究方向有重要的应用价值，如高维密度估计，异常值检测，单细胞数据的降维、聚类和缺失值插补等任务。

该研究所提出的Roundtrip方法利用两个GAN模型对低维隐层空间和高维数据空间的映射进行建模，随后通过重要性采样或者拉普拉斯近似的算法实现密度估计任务。对于图像数据的建模和生成任务，该研究引入了图像类别信息在MNIST（784维）和CIFAR-10数据集（3072维）上进行了条件概率密度估计以及条件数据生成（图1），其中每个类别的图片按照估计的概率密度从高到低排序。从图中可看出，生成图片质量和估计的概率密度具有一定的关联性。研究团队还利用条件概率密度估计以及贝叶斯后验的方法构建了图片分类模型，例如在MNIST数据集上，Roundtrip在测试集的分类准确率高达98.3%。

https://www.pnas.org/content/118/15/e2101344118

#post-12236

ntry-header

序贯蒙特卡洛方法作为一种重要的计算工具，被广泛地应用于各个领域中，其中重抽样是序贯蒙特卡洛方法中重要的一步。同时重抽样也是一把双刃剑：一方面，重抽样可以保证序列样本保持一定的有效样本量；另一方面，重抽样会引入新的随机性，使得估计的误差变大。重抽样有着很多种不同的选择，例如Bootstrap重抽样，分层重抽样等。清华大学统计学研究中心邓柯副教授团队与哈佛大学统计系刘军教授团队针对不同情形下的最优重抽样问题展开了进一步研究，相关成果已在统计学顶刊Biometrika发表。中心16级博士研究生李艺超及哈佛大学统计学博士生王文槊为文章的共同第一作者。

在重抽样最优化理论的研究上，本研究的主要贡献包括：

（1）在一维情形下，证明了将样本排序后，分层重抽样在条件方差、能量距离、最优传输等意义下均是最优的。（2）在多维情形下，通过希尔伯特曲线对样本进行排序，分层重抽样的条件方差可以得到最优上界。

结合前两个结论，在序列拟蒙特卡洛方法(SQMC)的框架下，研究团队将抽样和重抽样两个部分结合起来，提出了一种新的抽样方法(Stratified Multiple-Descendant Sampling)，并证明了该方法在理论上可以得到已知的最优均方误差。

相关工作建立了序贯蒙特卡洛重抽样算法最优性的系统理论，并以此为基础提出了新的、效率更高的抽样算法，在统计计算理论和应用方面具有重要的原创性贡献。

#post-12229

ntry-header

当前，国内外新冠肺炎形势依旧严峻，经济、社会等方面受到严重影响。2020年3月以来，清华大学统计学研究中心副教授邓柯、侯琳带领中心博士生刘朝阳、沈翀、王掣，与清华大学地球系统科学系宫鹏教授、徐冰教授团队和国内外相关研究机构合作就新冠肺炎疫情传播规律与防控措施展开深入研究。近日，团队的研究成果“Suppression of future waves of COVID-19: Global pandemic demands joint interventions”在《美国科学院刊》（PNAS）在线发表！

该篇文章基于新冠肺炎可能在冬季卷土重来的大背景，充分考虑气候变化、人口流动等因素，建立数学模型模拟不同干预情景，以寻找针对新冠肺炎再暴发的最优应对措施。研究结果表明实施8周高强度的干预措施来控制局部传染和国际传播是有效且高效的，同时提出分层干预的策略建议，即干预措施首先在“全球干预中心”（Global Intervention Hub，GIH, 即高人口密度、高国际流通的地区）实施，紧接着是其他高风险地区。该文章从全球视角出发，提出按照辐射分层网络、全球联动实施分层干预措施，对降低新冠肺炎再次暴发给公共健康和社会带来的巨大影响有重要意义。

该研究将全球59个高风险地区（其累计病例占全球92.57%）根据人口密度和国际航运情况分为15个“全球干预中心”（GIH）和44个其他高风险地区，采用多人群传染病动力学模型模拟59个地区新冠肺炎的内部传播与时空扩散。其中，模型参数纳入气候变化、家庭结构、人口流动等多因素的影响。模拟干预情景包括：（1）首先在GIH实施，紧接着其他高风险地区同时实施（图1-AE）；（2）只在GIH实施（图1-BF）; （3）GIH和其他高风险地区同步实施（图1-CG）；（4）首先在GIH实施，紧接着其他高风险地区根据当地累计病例翻倍时开始实施（图1-DH）。干预措施实施周期从2-12周逐两周递增，干预措施强度根据降低社区传播风险及国际流动的百分比划分为轻强度（20%）、中强度（50%）和高强度（80%）。不同干预机制模拟的结果对比发现最优的应对措施为首先在所有GIH实施，紧接着是其他高风险地区根据实际情况及时实施8周的高强度干预措施。

图1. 不同干预情景模拟的结果对比（ABCD：临床病例数降低比例；EFGH：加速控制住的地区数）

文章链接

https://www.pnas.org/content/early/2020/09/25/2012002117

#post-12188

ntry-header

近日，我中心2016级博士研究生林毓聪以第一作者身份撰写的论文 “Long-distance disorder-disorder relation extraction with bootstrapped noisy data” 被医学信息学期刊Journal of Biomedical Informatics (Health Informatics Q1，Computer Science Applications Q1) 接收并在线发表。我中心俞声副教授是论文的通讯作者。

医学知识图谱是医学人工智能应用的基石，知识图谱中先验的关系对于自动诊断等应用的实现都有重要的意义，而现有的一些数据库如Unified Medical Language System虽然囊括了较广泛的医学实体，实体之间的医学关系仍旧比较匮乏。传统的医学关系抽取方法包括人工标注和文本模式匹配，前者费时费力，后者能够提取的关系非常有限，无法适用于现实情况下自然语言多样的表述方式。而在这些医学关系中，疾病与疾病之间较常见的鉴别诊断、导致和被导致关系在医学文本中的表述尤为复杂，常常在一句话中表达了多个疾病的多种关系，抽取尤为困难，使其在现有知识图中（如UMLS和HPO）的覆盖范围不完整。基于这种情况，作者利用深度学习和自然语言处理技术设计了一种新的长距离关系抽取算法，在医学文本的基础上，结合自助法采样及文章章节结构信息抽取了疾病间的鉴别诊断、导致和被导致关系。

为了解决有标注训练样本缺乏的问题，论文采用远监督的方法构建训练样本，通过半结构化网页获取已知实体关系对，将它们与包含两个实体的所有句子相匹配形成一个训练样本。模型采用Bi-GRU作为句子编码器，结合注意力机制降低噪声样本的影响，将一对实体匹配的所有句子信息融合后再对关系做判断。

该论文的亮点之一是扩展了远监督的假设，允许其中一个实体出现在文章的标题中。这一假设符合以疾病为标题的网页和医学教科书文本的特点，使得训练句子数量增加了1.17倍，训练样本数增加了0.75倍。

论文的亮点之二是融合了已知关系构成的图信息来更好地区分三类关系。疾病间的鉴别诊断关系通常在文本中的表述都较为模糊，难以直接通过文本判断，而作者发现如果两个疾病跟第三个疾病都有鉴别诊断关系，则他们之间更有可能是鉴别诊断关系而不是导致或被导致关系。基于此发现，作者在模型中融入了已知关系图的信息，有效地帮助模型区分了三类关系。

在实验中，作者提出的关系抽取模型（最后一行）准确率接近90%，正样本准确率达到72.3%，比最好的基准模型高出约4.6个百分点。

论文网页链接：

https://www.sciencedirect.com/science/article/pii/S153204642030157X

#post-12187

ntry-header

2月26日科技出版巨头Elsevier发布新闻公报，介绍了清华大学统计学研究中心俞声教授与美国麻省总医院Thomas McCoy博士共同第一作者在精神病理学顶刊Biological Psychiatry（影响因子11.412）发表的研究成果。公报被Science Daily等国外多家科技新闻媒体转载。 (https://www.elsevier.com/about/press-releases/research-and-journals/new-method-extracts-valuable-information-on-psychiatric-symptoms-from-electronic-health-records)

目前，精神疾病学家普遍认为作为精神疾病分类标准的Diagnostic and Statistical Manual of Mental Disorders已不具有足够的科学性。如抑郁症等一些诊断分类其实包含着很多不同的表现类型，而一些被分为不同诊断的疾病则很可能是同一潜在病理的不同表现。哈佛大学Isaac Kohane教授和麻省总医院Roy Perlis教授共同领导的N-GRID（Neuropsychiatric Genome-scale and RDoC-Individualized Domains）项目旨在通过临床表型大数据与基因组学大数据相结合，更科学地重新定义精神疾病的分类。

在本次研究中，俞声教授综合利用潜在语义分析、大规模相关性多重检验和正则化回归等统计技术，通过对电子病历文本的大数据分析，将精神病患者的表现投射到美国国家精神卫生学会（NIMH）提出的5个描述纬度上（Negative Valence、Positive Valence、Cognitive、Social Processes、Arousal/Regulatory），形成了患者表现的低维空间表示，为分析与区分患者表现奠定了量化基础。[1] 进一步的全基因组关联分析揭示了这些纬度与多个基因位点的相关性，为精神病理分类提供了科学依据。[2] 目前全球约有4.5亿人患有不同程度的精神与行为障碍，中国有超过1亿人患有精神类疾病。精准医学与大数据技术的发展有望使精神疾病的预防与控制得到改善。

参考文献

[1] Thomas H. McCoy, Sheng Yu, Kamber L. Hart, Victor M. Castro, Hannah E. Brown, James N. Rosenquist, Alysa E. Doyle, Pieter J. Vuijk, Tianxi Cai, and Roy H. Perlis. High Throughput Phenotyping for Dimensional Psychopathology in Electronic Health Records. Biol. Psychiatry (2018). DOI:https://doi.org/10.1016/j.biopsych.2018.01.011

[2] Thomas H. McCoy, Victor M. Castro, Kamber L. Hart, Amelia M. Pellegrini, Sheng Yu, Tianxi Cai, and Roy H. Perlis. Genome-wide Association Study of Dimensional Psychopathology Using Electronic Health Records. Biol. Psychiatry (2018). DOI:https://doi.org/10.1016/j.biopsych.2017.12.004

#post-11919

ntry-header

发明名称：

基于统计词典模型的未登录词发现和分词系统及方法

专利号：

201410299453.9

发明人：

邓柯；刘军

授权公告日：

2017年08月15日

摘要：

本发明提供一种基于统计词典模型的未登录词发现和分词方法，应用于计算装置中，该方法包括：接收步骤，接收用户输入的文本；构建步骤一，构建初始词典；构建步骤二，利用EM算法和模型选择技术对初始词典进行筛选以得到最终词典；计算步骤，利用对数似然比统计量来计算最终词典中词汇的统计显著性以得到最终词典中词汇的重要性得分，并根据最终词典中词汇的重要性得分对输入文本中所有识别出来的未登录词由高到低进行排序；分析步骤，根据最终词典，通过计算和分析输入文本的每种分词方式的条件概率来实现对输入文本的分词。

#post-11883

ntry-header

我中心邓柯教授、哈佛大学统计系刘军教授与哈佛大学东亚文明系 Peter K. Bol 教授和 Suffolk 大学商学院 Kate J. Li 教授合作，在《美国科学院院刊》（PNAS）发表题为 “On Unsupervised Analysis on Domain-Specific Chinese Texts” 的研究论文，提出运用统计学模型和原理进行无指导中文文本分析的新方法。

20160519160905_944

#post-12702

ntry-header

统计学研究中心邓柯教授、刘军教授与哈佛大学和德克萨斯大学的科研团队合作，在《自然》杂志子刊《自然 · 通讯》（Nature Communications）发表题为High-dimensional genomic data bias correction and data integration using MANCIE 的研究论文，提出高纬基因组数据纠偏和整合的新方法。

#post-12708