ntry-header

近日,2023年自然语言处理实证方法会议(The 2023 Conference on Empirical Methods in Natural Language Processing,简称为EMNLP 2023)公布了论文接受结果,我中心邓柯老师课题组博士研究生潘长在同学的研究论文“TopWORDS-Poetry: Simultaneous Text Segmentation and Word Discovery for Classical Chinese Poetry via Bayesian Inference”入选“主会长文”单元。自然语言处理实证方法会议(EMNLP)是自然语言处理和人工智能领域的顶级会议,由国际计算语言学协会的语言数据特别兴趣小组 (SIGDAT) 组织于 1996 年发起,是在早期超大型语料库研讨会 (Workshop on Very Large Corpora, WVLC) 基础上发展起来的。

潘长在同学的入选论文针对于中国古典诗歌的文本分析展开研究,力图运用贝叶斯统计方法解决这类特殊文本的命名实体识别和分词问题。中国古代诗歌具有独特的写作风格和格律要求,富含在其他通用文本中罕见的特殊诗歌词汇,其分析至今仍充满挑战。

潘长在的论文从中国古典格律诗歌主要具有两种模式(如图一所示)的事实出发,建立了一种可以对诗歌文本分词进行有效指导的贝叶斯先验分布;并将这个先验分布与无监督中文分析方法TopWORDS的分析框架相结合,提出了一种同时进行文本分词和词语发现的无监督中国古代诗歌分析方法TopWORDS-Poetry,可以借助诗歌本身隐含的格律信息对诗歌文本进行精准分词,并有效发现诗歌中的特殊词汇(如人名、地名、典故等)。

将该方法应用到《全唐诗》诗歌文本的分析,我们通过小样本人工验证证实了TopWORDS-Poetry方法能够挖掘出大量有意义的人名、地名、文学典故等词汇,并在诗歌分词上有优良的表现。相关实验还表明,TopWORDS-Poetry方法相比于通用大语言模型ChatGPT和文献中其他已有方法,在综合表现上有明显的优势。

该论文是清华大学数字人文团队共同合作的成果,潘长在是第一作者,邓柯副教授作为通讯作者与清华大学中文系的李飞跃副教授共同指导了相关研究工作。清华大学数字人文团队由来自清华大学人文学院、计算机系和统计学研究中心3家单位的学者组成,凝聚了横跨文科、工科、理科的跨学科交叉研究力量,致力于运用前沿人工智能技术和统计学方法,解决新兴交叉领域“数字人文”中的重要问题。

该研究工作得到了国家科技部创新研究计划、清华大学国强研究院、北京市自然科学基金的支持。

 

#post-15584
ntry-header

2023年2月,清华大学统计学研究中心侯琳副教授课题组在Nature Communications上发表了题为Quantifying portable genetic effects and improving cross-ancestry genetic prediction with GWAS summary statistics的研究论文[1],课题组2022届郭瀚民博士为该文的共同第一作者,侯琳副教授和威斯康辛大学麦迪逊分校吕琼石助理教授为该论文的共同通讯作者,威斯康辛大学麦迪逊分校的缪嘉诚为共同第一作者,宋格非、赵梓杰为本文的共同作者。

多基因风险评分是基于全基因组关联分析实验的复杂疾病遗传风险预测算法,对疾病的精准预防和治疗有重要应用价值。现有方法主要基于欧洲人群的全基因组关联分析研究,相应模型在欧洲人群中有较好的预测效果,但在其他人群中预测效果欠佳。研究团队针对跨种族遗传风险预测问题开展研究,首先发展了挖掘种族间局部遗传相关性的统计方法,进一步提出基于相关性区域注释的贝叶斯多基因风险评分方法,实现跨种族疾病遗传信息迁移;经模拟数据和实际数据验证,该方法可以显著提高疾病风险预测的准确性。此外,研究团队还开发了实现上述算法的软件包X-Wing[2],将该方法应用于英国、日本等生物样本库(UK Biobank, Biobank Japan)。测试结果显示,该方法可以显著提高样本中的非欧人群遗传风险预测准确性,对改善种族间遗传资源不平衡的现状具有重要意义。

 

#post-12398
ntry-header

近日,清华大学统计学研究中心邓柯副教授与清华大学地球系统科学系的专家团队以及来自欧洲、中国、美国的多个研究团队合作,将国际航空旅行数据与经典的流行病传播模型相结合,对 2020年初新冠疫情的全球传播进行了定量研究。研究论文在国际顶级综合性期刊Proceedings of the National Academy of Sciences (PNAS)在线发表,标题为“How to avoid a local epidemic becoming a global pandemic”。

该论文所建立的量化模型表明:(1)减少国际航空旅行以及在到达一个国家时实行强制入境检疫,在减缓疫情全球传播上具有有效性;(2)相较于采取入境检疫,减少全球航空旅行可以更有效地减少全球疫情传播;(3)减少传播源国家的航空旅行对于阻止疾病向世界各地区传播有着最重要的意义。基于以上研究结果,论文建议开发“数字孪生工具”为未来大规模疫情防控决策提供精准信息。论文讨论了数字孪生模型的设计标准,以及获得必要的国际航空旅行在线数据的可行性。

该论文的一项主要创新为:相较于传统方法,该论文所建立的数字孪生模型,可以根据航空旅行实时数据,及时调整模型参数估计;进而,可以不同防控措施进行快速的效果评估,从而更有效地减缓甚至阻止流行病的全球传播。

论文链接:https://www.pnas.org/doi/epdf/10.1073/pnas.2220080120

#post-12396
ntry-header

近日,清华大学统计学研究中心邓柯副教授课题组在应用统计知名期刊The Annals of Applied Statistics (AOAS)发表题为“Generalized theme dictionary models for association pattern discovery”的研究论文,提出了挖掘关联性规则的新方法。南开大学统计与数据科学学院杨洋特聘副研究员(课题组2015级博士生)为论文的第一作者,邓柯副教授为论文的通讯作者。

关联规则挖掘是数据挖掘研究的重要方向之一,广泛应用在生物信息学、医学和社会科学等领域。关联规则的一个典型应用是购物篮分析(Market Basket Analysis,MBA),即通过分析顾客购物篮中购买的商品,挖掘商品之间的关联性,实现智能推荐。在关联规则挖掘中,每个观测样本称为一个记录(transaction),每个记录是一组元素(item)的集合。以MBA问题为例,每件商品是一个元素,每个购物篮构成的商品集合是一个记录。传统的关联规则挖掘方法不区分记录中元素的类别,并假设顾客购物篮中的商品数量无缺失,但随着应用场景的多元化,实际问题中的数据结构更为复杂,通常涉及两种类型的数据:在第一种类型的数据中,元素包含类别信息,传统方法可能挖掘出大量不具有较高应用价值的同类别关联规则;在第二种类型的数据中,元素的数量信息缺失,传统方法难以从缺失数据中正确挖掘关联规则。

该论文改进了Deng, Geng and Liu (2014)的方法,主要贡献如下:(1)提出跨类别的主题词典模型,在产生初始词典的过程中限制主题的类别,对同类别的关联规则进行剪枝,能更准确、高效地挖掘跨类别的关联规则;(2)提出联合主题词典模型,通过概率生成模型还原元素的数量信息,构造了一个高效的元素数量还原机制,以减少新模型增加的计算量;(3)从理论上证明了新模型具有可识别性。与传统的关联规则挖掘方法相比,本文提出的方法在模拟实验和实际应用中都具有更高的计算效率、更高的准确性和更好的稳健性,并且该方法挖掘的关联规则在特征提取、命名体识别、聚类等下游任务中具有潜在的应用价值。

该研究工作获得国家自然科学基金(Grant 11931001)、北京市自然科学基金(Grant Z190021)、国家留学基金委、清华大学国强研究院以及教育部高等院校科技创新计划项目的支持。

论文链接:

http://dx.doi.org/10.1214/22-AOAS1626

 

相关文献:

Deng, K., Geng, Z., and Liu, J. S. (2014). Association pattern discovery via theme dictionary models. Journal of the Royal Statistical Society: Series B: Statistical Methodology, 319-347.

#post-12388
ntry-header

近日,清华大学统计学研究中心王天颖助理教授课题组在国际知名统计学期刊Journal of the American Statistical Association(简称“JASA”)发表题为“A Flexible Zero-Inflated Poisson-Gamma Model with Application to Microbiome Sequence Count Data”的研究论文,提出了一种新的方法用于微生物组数据分析。清华大学统计学研究中心2022级博士研究生江柔蓝为本文第一作者,中心王天颖助理教授和北京大学生物统计系占翔副教授为本文通讯作者。

人体中生活着大量微生物,这些微生物群落受到人体环境的影响,也同时影响着人类的生命健康。近年来,飞速发展的高通量测序技术,如16s rRNA测序和宏基因组测序(metagenomic shotgun sequencing),为微生物群落的定量分析提供了便利。这些测序方法产生的数据以计数表的形式呈现,表示样本中各个微生物分类群(taxa)的丰度。微生物组数据往往具有零膨胀(zero inflation)和过度分散(over-dispersion)的特点,且受到人体环境的动态变化以及不同的测序技术的影响,观察到的计数数据往往与真实的微生物分类群丰度存在差异。为了研究某一微生物分类群与特定协变量的关联,现有的方法通常使用负二项分布或零膨胀负二项分布对计数数据建模,但是这些方法忽略了协变量对微生物群落稳定性的可能影响,尤其在纵向数据(Longitudinal Data)的分析中,已有证据表明疾病等因素会使微生物群落组成变得更不稳定,出现生态失调(dysbiosis)现象。为此,本文提出了零膨胀泊松-伽马模型(Zero-Inflated Poisson-Gamma,ZIPG),其中用伽马分布表示微生物组丰度相对无法观测到的真实均值的波动,能够更灵活地处理数据过度分散的特点。在纵向数据的分析中,通过将过度分散参数与时间无关(time-independent)的协变量关联起来,可以分析年龄、饮食习惯等长期状态对微生物组稳定性的影响。

ZIPG与微生物数据主流分析方法的假设检验结果比较

在ZIPG的框架下,本文进一步提出了相应的参数估计和假设检验方法。通过bootstrap方法可以检验微生物分类群的丰度和过度分散程度如何分别地受到协变量影响,并得到相应参数的置信区间。与其他方法相比,ZIPG能够更好地控制第一类错误率,并且检测出其他方法无法发现的微生物稳定性差异。最后,本文将ZIPG应用在两组真实数据中:在阴道微生物组数据中分析了怀孕、年龄等因素对微生物丰度和过度分散程度的影响;在肠道微生物数据中分析了饮酒等因素对微生物丰度和过度分散程度的影响。在两例数据中,ZIPG模型都能更好地拟合真实数据的分布,且找到了更多与感兴趣的协变量相关联的微生物分类群,为生物医学领域的进一步研究提供了线索。

文章链接:

https://doi.org/10.1080/01621459.2022.2151447

#post-12386
ntry-header

近日,清华大学统计学研究中心李东副教授课题组与清华大学杰出访问教授汤家豪院士、挪威奥斯陆大学Nils Chr. Stenseth院士、清华万科公共卫生与健康学院许磊教授研究团队等合作,在美国科学院院刊Proceedings of the National Academy of Sciences of the United States of America(简称PNAS)发表了题为No evidence for persistent natural plague reservoirs in historical and modern Europe的论文。论文借助统计模型,证实了欧洲在历史和当代都不存在长期自然鼠疫疫源地的假设。2019级博士生陶宇心为该文的共同第一作者。

鼠疫(plague)是由鼠疫耶尔森菌(Yersinia pestis)借鼠蚤传播为主的烈性传染病。在过去两千年的三次大流行中,鼠疫夺去了数千万人的生命。关于鼠疫耶尔森氏菌是否持续存在于欧洲自然疫源地(natural plague reservoirs)中,还是从欧洲外部反复引入,始终是颇有争议的问题。

鼠疫疫源地的空间预测分布

本文基于中国目前鼠疫疫源地的环境数据(包括土壤特征和气候),利用统计中的MAVE方法进行统计建模[1] ,使用美国鼠疫疫源地相关数据验证模型的有效性和准确性,以评估欧洲的环境条件是否支持“天然鼠疫疫源地”的存在性。研究发现,无论是在历史上还是在近现代,都没有证据支持欧洲自然鼠疫疫源地持续存在。有两个因素不利于欧洲鼠疫疫源地长期存在:1) 土壤成分及生化性质;2) 较低啮齿动物多样性。这些发现对于人类历史上的鼠疫研究具有广泛的意义,为解决围绕鼠疫长达一个世纪的谜团提供了新的工具。

文章链接:

https://www.pnas.org/doi/10.1073/pnas.2209816119

#post-12382
ntry-header

近日,清华大学统计学研究中心邓柯副教授课题组与美国弗吉尼亚大学臧充之教授团队合作,在生物统计学顶级期刊Nature Communications发表了题为Intrinsic bias estimation for improved analysis of bulk and single-cell chromatin accessibility profiles using SELMA的论文。该文章利用单纯形编码改进了高通量测序数据中序列偏倚的量化模型,可以更准确地估计并修正序列偏倚这一酶切内禀属性对开放染色质测序数据的影响。臧充之教授团队的胡圣恩博士为该文的第一作者,邓柯副教授和其课题组李祺博士为共同作者。

全基因组染色质开放区域的分析是研究表观遗传与基因转录调控的主要手段之一。染色质可及性(chromatin accessibility)高通量测序技术(包括基于DNaseI的DNase-seq技术以及基于Tn5转座酶的ATAC-seq技术)可以用来测定全基因组尺度的染色质开放区域图谱,并进而推断细胞核内的转录因子DNA结合位点以及基因表达调控的信息。虽然DNase-seq技术和ATAC-seq技术均为,但DNaseI和Tn5转座酶对于DNA的酶切作用仍然带有一定的序列偏好性,这种偏好性会混杂在高通量测序数据中,给数据分析带来潜在挑战。该现象曾经由哈佛大学刘小乐教授和Myles Brown教授团队在2013年提出。

将ATAC-seq技术与近年来被广泛应用的单细胞测序技术相结合,目前我们可以使用单细胞ATAC-seq(scATAC-seq)方法描绘出单细胞(single cell)或单细胞核(single nucleus)尺度上的染色质开放区域,因此可以极大的拓展数据量,但由于scATAC-seq数据在单细胞层面上极其稀疏,Tn5转座酶的序列偏好性可能造成更为严重的影响。如何对大量单细胞的开放染色质测序数据进行有效纠偏,提升高通量数据的生物学可解释性,仍是计算生物学领域内的一个重要问题。

在该文章中,作者提出了名为SELMA (Simplex Encoded Linear Model for Accessible Chromatin)的开放染色质测序数据纠偏算法。在该算法中,作者使用单纯形编码(simplex encoding)模型取代了传统的k-mer模型,从而大大减小了模型参数,参数由缩减为12k-8。在此前提下,该文章可以回收传统DNase-seq/ATAC-seq数据分析中通常被丢弃的线粒体DNA测序片段,用这些数量较小、组成多样性较低的序列片段来准确估计样品数据中的偏倚水平,以此解决了传统方法需要外加DNA酶切样品数据集作为独立参考来进行偏倚水平估计的问题。与此同时,通过分析不同平台产生的单细胞scATAC-seq数据,该方法首次研究了酶切序列内禀偏倚对单细胞开放染色质测序的影响,使用针对单细胞数据的SELMA算法纠偏后,修正的scATAC-seq数据可以获得更加准确的细胞聚类结果。

#post-12366
ntry-header

近日,清华大学统计学研究中心邓柯副教授课题组在信号处理领域的顶级期刊IEEE Transactions on Signal Processing发表了题为”Simultaneous Topology and Loss Tomography via a Modified Theme Dictionary Model“的论文。通过对网络透视过程建立统计学模型,实现对目标网络的拓扑结构和丢包率的同时估计,并取得更准确、稳健的估计结果。课题组博士后研究员李艺超为第一作者,邓柯副教授为通讯作者。

现代社会中,我们的生活与网络息息相关。一些网络特征,例如网络拓扑结构,网络丢包率对我们研究网络行为非常重要。然而,出于安全、商业等原因的考虑,我们无法直接测量这些网络特征。为了克服这些困难,Vardi, Y. (1996)提出了网络透视技术(network tomography)。网络透视技术是一种兼具网络测试与网络预警的技术,其旨在通过发送特定的数据包(探测包)到特定网络,利用端对端的方法将所得到的信息进行统计、综合分析从而进一步推断网络内部特征。

基于此,研究团队提出用统计学方法对网络透视过程建模,该项工作的主要贡献是:(1)本文将网络丢包行为与统计学中的经典问题“购物篮分析”建立了对应关系:网络中的丢包行为可以和购物篮分析中的模式识别形成一一对应;(2)进一步,根据上述对应关系,本文利用主题辞典模型对网络丢包行为进行建模,并给出了利用EM算法对模型参数进行估计的具体过程;(3)在计算上,本文利用序贯蒙特卡洛(sequential Monte Carlo)技术对EM算法中的E步进行了优化。

相对于传统的聚类方法,本文所提出的方法实现了对网络拓扑结构和各个节点上的丢包率进行同时估计;此外,在一些复杂网络中,本文所提出的方法展现出更准确、更稳健的估计结果。

该研究工作获得中国国家自然科学基金(Grant 11931001),国家留学基金委以及清华大学国强研究院的支持。

相关文献:

Vardi, Y. (1996). “Network Tomography: estimating source-destination traffic intensities from link data”. Journal of the American Statistical Association. 91 (433): 365–377. doi:10.2307/2291416. JSTOR 2291416。

 

 

#post-12353
ntry-header

清华大学统计学研究中心17级博士研究生张心雨与中心杰出访问教授汤家豪教授(Howell Tong)合作撰写的研究论文“Asymptotic theory of principal component analysis for time series data with cautionary comments”于今年年初正式发表于Journal of the Royal Statistical Society: Series A (Statistics in Society)期刊。学术圈过往研究中经常直接对时间序列数据进行主成分分析而忽略其自相关性,针对这种误用,本文给出了时间序列主成分分析的统计推断性质和正确建模流程,并得出结论:如果忽视数据间的相关性而直接进行统计推断,可能会对主成分的变量载荷做出误导性的过度解释。

主成分分析是统计学和数据科学中最常用的多元统计分析工具之一,但应用中也存在诸多误用现象。典型误用是:对于时间序列数据,仍然使用独立数据假设下的理论结果。该论文强调了这种误用可能带来的问题。论文证明了时间序列主成分分析下的特征值和特征向量的中心极限定理,并给出其协方差的估计方法。论文关注方差比例和主成分载荷的统计推断,前者决定了主成分的数量,后者有助于主成分含义的解释。论文的研究结果表明:在这种误用下,方差比例的统计推断仍然较为可靠,但是主成分载荷的统计推断会产生较大变化。论文着眼于一个投资组合管理的实例分析,以此提供了时间序列数据正确使用主成分分析的流程和案例。

论文链接:

‍https://rss.onlinelibrary.wiley.com/doi/10.1111/rssa.12793‍

#post-12334
ntry-header

清华大学统计咨询中心受国家食品安全风险评估中心(以下简称CFSA)周萍萍研究员委托,希望针对不同咖啡产品中呋喃(furan)及其衍生物的相关性分析问题给出具有优良统计学特性的解决方案。清华大学统计学研究中心邓柯副教授及周墨钦咨询师(2019级博士生)运用多元统计分析方法对不同咖啡产品中呋喃(furan)及其衍生物的潜在相关结构和异质模式进行了分析,协助食品安全专家更深入地认识了相关污染物在咖啡产品中的分布模式和规律。相关论文“Analysis of furan and its major furan derivatives in coffee products on the Chinese market using HS-GC–MS and the estimated exposure of the Chinese population”发表于食品科学技术领域的顶级期刊《Food Chemistry》(IF: 7.514;H-index: 221)。CFSA曹佩研究员为该文的第一作者,周萍萍研究员为通讯作者,邓柯副教授及周墨钦同学为共同作者参与了论文撰写。

本研究基于改进的顶空气相色谱-质谱法(HS-GC-MS)分析了在中国市场上采集的咖啡样本中的呋喃及其衍生物的浓度,利用多元统计分析方法和可视化技术揭示了样本数据的内在结构,发现不同类型的咖啡产品的呋喃浓度水平和分布模式存在异质性,建议应加强对咖啡产品生产过程中的呋喃及其衍生物的控制研究。

论文链接:

https://www.sciencedirect.com/science/article/abs/pii/S0308814622007853

#post-12323