ntry-header

2023年2月13日,耶鲁大学Harrison Zhou教授访问我中心,与中心教员座谈,并做特邀报告,报告的题目是Leave-one-out Singular Subspace Perturbation Analysis for Spectral Clustering。

Harrison Zhou教授于统计中心
Harrison Zhou教授与中心教员座谈
报告现场
与会教员合影
#post-12391
ntry-header

#post-12390
ntry-header

#post-12389
ntry-header

近日,清华大学统计学研究中心邓柯副教授课题组在应用统计知名期刊The Annals of Applied Statistics (AOAS)发表题为“Generalized theme dictionary models for association pattern discovery”的研究论文,提出了挖掘关联性规则的新方法。南开大学统计与数据科学学院杨洋特聘副研究员(课题组2015级博士生)为论文的第一作者,邓柯副教授为论文的通讯作者。

关联规则挖掘是数据挖掘研究的重要方向之一,广泛应用在生物信息学、医学和社会科学等领域。关联规则的一个典型应用是购物篮分析(Market Basket Analysis,MBA),即通过分析顾客购物篮中购买的商品,挖掘商品之间的关联性,实现智能推荐。在关联规则挖掘中,每个观测样本称为一个记录(transaction),每个记录是一组元素(item)的集合。以MBA问题为例,每件商品是一个元素,每个购物篮构成的商品集合是一个记录。传统的关联规则挖掘方法不区分记录中元素的类别,并假设顾客购物篮中的商品数量无缺失,但随着应用场景的多元化,实际问题中的数据结构更为复杂,通常涉及两种类型的数据:在第一种类型的数据中,元素包含类别信息,传统方法可能挖掘出大量不具有较高应用价值的同类别关联规则;在第二种类型的数据中,元素的数量信息缺失,传统方法难以从缺失数据中正确挖掘关联规则。

该论文改进了Deng, Geng and Liu (2014)的方法,主要贡献如下:(1)提出跨类别的主题词典模型,在产生初始词典的过程中限制主题的类别,对同类别的关联规则进行剪枝,能更准确、高效地挖掘跨类别的关联规则;(2)提出联合主题词典模型,通过概率生成模型还原元素的数量信息,构造了一个高效的元素数量还原机制,以减少新模型增加的计算量;(3)从理论上证明了新模型具有可识别性。与传统的关联规则挖掘方法相比,本文提出的方法在模拟实验和实际应用中都具有更高的计算效率、更高的准确性和更好的稳健性,并且该方法挖掘的关联规则在特征提取、命名体识别、聚类等下游任务中具有潜在的应用价值。

该研究工作获得国家自然科学基金(Grant 11931001)、北京市自然科学基金(Grant Z190021)、国家留学基金委、清华大学国强研究院以及教育部高等院校科技创新计划项目的支持。

论文链接:

http://dx.doi.org/10.1214/22-AOAS1626

 

相关文献:

Deng, K., Geng, Z., and Liu, J. S. (2014). Association pattern discovery via theme dictionary models. Journal of the Royal Statistical Society: Series B: Statistical Methodology, 319-347.

#post-12388
ntry-header

近日,清华大学统计学研究中心王天颖助理教授课题组在国际知名统计学期刊Journal of the American Statistical Association(简称“JASA”)发表题为“A Flexible Zero-Inflated Poisson-Gamma Model with Application to Microbiome Sequence Count Data”的研究论文,提出了一种新的方法用于微生物组数据分析。清华大学统计学研究中心2022级博士研究生江柔蓝为本文第一作者,中心王天颖助理教授和北京大学生物统计系占翔副教授为本文通讯作者。

人体中生活着大量微生物,这些微生物群落受到人体环境的影响,也同时影响着人类的生命健康。近年来,飞速发展的高通量测序技术,如16s rRNA测序和宏基因组测序(metagenomic shotgun sequencing),为微生物群落的定量分析提供了便利。这些测序方法产生的数据以计数表的形式呈现,表示样本中各个微生物分类群(taxa)的丰度。微生物组数据往往具有零膨胀(zero inflation)和过度分散(over-dispersion)的特点,且受到人体环境的动态变化以及不同的测序技术的影响,观察到的计数数据往往与真实的微生物分类群丰度存在差异。为了研究某一微生物分类群与特定协变量的关联,现有的方法通常使用负二项分布或零膨胀负二项分布对计数数据建模,但是这些方法忽略了协变量对微生物群落稳定性的可能影响,尤其在纵向数据(Longitudinal Data)的分析中,已有证据表明疾病等因素会使微生物群落组成变得更不稳定,出现生态失调(dysbiosis)现象。为此,本文提出了零膨胀泊松-伽马模型(Zero-Inflated Poisson-Gamma,ZIPG),其中用伽马分布表示微生物组丰度相对无法观测到的真实均值的波动,能够更灵活地处理数据过度分散的特点。在纵向数据的分析中,通过将过度分散参数与时间无关(time-independent)的协变量关联起来,可以分析年龄、饮食习惯等长期状态对微生物组稳定性的影响。

ZIPG与微生物数据主流分析方法的假设检验结果比较

在ZIPG的框架下,本文进一步提出了相应的参数估计和假设检验方法。通过bootstrap方法可以检验微生物分类群的丰度和过度分散程度如何分别地受到协变量影响,并得到相应参数的置信区间。与其他方法相比,ZIPG能够更好地控制第一类错误率,并且检测出其他方法无法发现的微生物稳定性差异。最后,本文将ZIPG应用在两组真实数据中:在阴道微生物组数据中分析了怀孕、年龄等因素对微生物丰度和过度分散程度的影响;在肠道微生物数据中分析了饮酒等因素对微生物丰度和过度分散程度的影响。在两例数据中,ZIPG模型都能更好地拟合真实数据的分布,且找到了更多与感兴趣的协变量相关联的微生物分类群,为生物医学领域的进一步研究提供了线索。

文章链接:

https://doi.org/10.1080/01621459.2022.2151447

#post-12386
ntry-header

2022年12月19日,伦敦政治经济学院乔兴昊副教授通过线上平台访问我中心,与中心教员交流,并做学术报告,报告的题目是On the Modelling and Prediction of High-dimensional Functional Time Series。

#post-12387
ntry-header

2022年12月12日,北京师范大学郭旭副教授通过通过线上平台与我中心教员交流,并进行线上学术报告,报告的题目是Model-Free Statistical Inference on High-Dimensional Data。

郭旭副教授
与会教员合影
#post-12384
ntry-header

#post-12383
ntry-header

近日,清华大学统计学研究中心李东副教授课题组与清华大学杰出访问教授汤家豪院士、挪威奥斯陆大学Nils Chr. Stenseth院士、清华万科公共卫生与健康学院许磊教授研究团队等合作,在美国科学院院刊Proceedings of the National Academy of Sciences of the United States of America(简称PNAS)发表了题为No evidence for persistent natural plague reservoirs in historical and modern Europe的论文。论文借助统计模型,证实了欧洲在历史和当代都不存在长期自然鼠疫疫源地的假设。2019级博士生陶宇心为该文的共同第一作者。

鼠疫(plague)是由鼠疫耶尔森菌(Yersinia pestis)借鼠蚤传播为主的烈性传染病。在过去两千年的三次大流行中,鼠疫夺去了数千万人的生命。关于鼠疫耶尔森氏菌是否持续存在于欧洲自然疫源地(natural plague reservoirs)中,还是从欧洲外部反复引入,始终是颇有争议的问题。

鼠疫疫源地的空间预测分布

本文基于中国目前鼠疫疫源地的环境数据(包括土壤特征和气候),利用统计中的MAVE方法进行统计建模[1] ,使用美国鼠疫疫源地相关数据验证模型的有效性和准确性,以评估欧洲的环境条件是否支持“天然鼠疫疫源地”的存在性。研究发现,无论是在历史上还是在近现代,都没有证据支持欧洲自然鼠疫疫源地持续存在。有两个因素不利于欧洲鼠疫疫源地长期存在:1) 土壤成分及生化性质;2) 较低啮齿动物多样性。这些发现对于人类历史上的鼠疫研究具有广泛的意义,为解决围绕鼠疫长达一个世纪的谜团提供了新的工具。

文章链接:

https://www.pnas.org/doi/10.1073/pnas.2209816119

#post-12382
ntry-header

2022年12月5日,中国人民大学朱利平教授通过线上平台与我中心教员交流,并进行线上特邀报告,报告的题目是统计学与人工智能:融通共进。

朱利平教授线上报告
与会教员合影
#post-12381