ntry-header

近日,清华大学统计学研究中心邓柯副教授课题组在应用统计知名期刊The Annals of Applied Statistics (AOAS)发表题为“Generalized theme dictionary models for association pattern discovery”的研究论文,提出了挖掘关联性规则的新方法。南开大学统计与数据科学学院杨洋特聘副研究员(课题组2015级博士生)为论文的第一作者,邓柯副教授为论文的通讯作者。

关联规则挖掘是数据挖掘研究的重要方向之一,广泛应用在生物信息学、医学和社会科学等领域。关联规则的一个典型应用是购物篮分析(Market Basket Analysis,MBA),即通过分析顾客购物篮中购买的商品,挖掘商品之间的关联性,实现智能推荐。在关联规则挖掘中,每个观测样本称为一个记录(transaction),每个记录是一组元素(item)的集合。以MBA问题为例,每件商品是一个元素,每个购物篮构成的商品集合是一个记录。传统的关联规则挖掘方法不区分记录中元素的类别,并假设顾客购物篮中的商品数量无缺失,但随着应用场景的多元化,实际问题中的数据结构更为复杂,通常涉及两种类型的数据:在第一种类型的数据中,元素包含类别信息,传统方法可能挖掘出大量不具有较高应用价值的同类别关联规则;在第二种类型的数据中,元素的数量信息缺失,传统方法难以从缺失数据中正确挖掘关联规则。

该论文改进了Deng, Geng and Liu (2014)的方法,主要贡献如下:(1)提出跨类别的主题词典模型,在产生初始词典的过程中限制主题的类别,对同类别的关联规则进行剪枝,能更准确、高效地挖掘跨类别的关联规则;(2)提出联合主题词典模型,通过概率生成模型还原元素的数量信息,构造了一个高效的元素数量还原机制,以减少新模型增加的计算量;(3)从理论上证明了新模型具有可识别性。与传统的关联规则挖掘方法相比,本文提出的方法在模拟实验和实际应用中都具有更高的计算效率、更高的准确性和更好的稳健性,并且该方法挖掘的关联规则在特征提取、命名体识别、聚类等下游任务中具有潜在的应用价值。

该研究工作获得国家自然科学基金(Grant 11931001)、北京市自然科学基金(Grant Z190021)、国家留学基金委、清华大学国强研究院以及教育部高等院校科技创新计划项目的支持。

论文链接:

http://dx.doi.org/10.1214/22-AOAS1626

 

相关文献:

Deng, K., Geng, Z., and Liu, J. S. (2014). Association pattern discovery via theme dictionary models. Journal of the Royal Statistical Society: Series B: Statistical Methodology, 319-347.

#post-12388
ntry-header

近日,清华大学统计学研究中心王天颖助理教授课题组在国际知名统计学期刊Journal of the American Statistical Association(简称“JASA”)发表题为“A Flexible Zero-Inflated Poisson-Gamma Model with Application to Microbiome Sequence Count Data”的研究论文,提出了一种新的方法用于微生物组数据分析。清华大学统计学研究中心2022级博士研究生江柔蓝为本文第一作者,中心王天颖助理教授和北京大学生物统计系占翔副教授为本文通讯作者。

人体中生活着大量微生物,这些微生物群落受到人体环境的影响,也同时影响着人类的生命健康。近年来,飞速发展的高通量测序技术,如16s rRNA测序和宏基因组测序(metagenomic shotgun sequencing),为微生物群落的定量分析提供了便利。这些测序方法产生的数据以计数表的形式呈现,表示样本中各个微生物分类群(taxa)的丰度。微生物组数据往往具有零膨胀(zero inflation)和过度分散(over-dispersion)的特点,且受到人体环境的动态变化以及不同的测序技术的影响,观察到的计数数据往往与真实的微生物分类群丰度存在差异。为了研究某一微生物分类群与特定协变量的关联,现有的方法通常使用负二项分布或零膨胀负二项分布对计数数据建模,但是这些方法忽略了协变量对微生物群落稳定性的可能影响,尤其在纵向数据(Longitudinal Data)的分析中,已有证据表明疾病等因素会使微生物群落组成变得更不稳定,出现生态失调(dysbiosis)现象。为此,本文提出了零膨胀泊松-伽马模型(Zero-Inflated Poisson-Gamma,ZIPG),其中用伽马分布表示微生物组丰度相对无法观测到的真实均值的波动,能够更灵活地处理数据过度分散的特点。在纵向数据的分析中,通过将过度分散参数与时间无关(time-independent)的协变量关联起来,可以分析年龄、饮食习惯等长期状态对微生物组稳定性的影响。

ZIPG与微生物数据主流分析方法的假设检验结果比较

在ZIPG的框架下,本文进一步提出了相应的参数估计和假设检验方法。通过bootstrap方法可以检验微生物分类群的丰度和过度分散程度如何分别地受到协变量影响,并得到相应参数的置信区间。与其他方法相比,ZIPG能够更好地控制第一类错误率,并且检测出其他方法无法发现的微生物稳定性差异。最后,本文将ZIPG应用在两组真实数据中:在阴道微生物组数据中分析了怀孕、年龄等因素对微生物丰度和过度分散程度的影响;在肠道微生物数据中分析了饮酒等因素对微生物丰度和过度分散程度的影响。在两例数据中,ZIPG模型都能更好地拟合真实数据的分布,且找到了更多与感兴趣的协变量相关联的微生物分类群,为生物医学领域的进一步研究提供了线索。

文章链接:

https://doi.org/10.1080/01621459.2022.2151447

#post-12386
ntry-header

2022年12月19日,伦敦政治经济学院乔兴昊副教授通过线上平台访问我中心,与中心教员交流,并做学术报告,报告的题目是On the Modelling and Prediction of High-dimensional Functional Time Series。

#post-12387
ntry-header

2022年12月12日,北京师范大学郭旭副教授通过通过线上平台与我中心教员交流,并进行线上学术报告,报告的题目是Model-Free Statistical Inference on High-Dimensional Data。

郭旭副教授
与会教员合影
#post-12384
ntry-header

近日,清华大学统计学研究中心李东副教授课题组与清华大学杰出访问教授汤家豪院士、挪威奥斯陆大学Nils Chr. Stenseth院士、清华万科公共卫生与健康学院许磊教授研究团队等合作,在美国科学院院刊Proceedings of the National Academy of Sciences of the United States of America(简称PNAS)发表了题为No evidence for persistent natural plague reservoirs in historical and modern Europe的论文。论文借助统计模型,证实了欧洲在历史和当代都不存在长期自然鼠疫疫源地的假设。2019级博士生陶宇心为该文的共同第一作者。

鼠疫(plague)是由鼠疫耶尔森菌(Yersinia pestis)借鼠蚤传播为主的烈性传染病。在过去两千年的三次大流行中,鼠疫夺去了数千万人的生命。关于鼠疫耶尔森氏菌是否持续存在于欧洲自然疫源地(natural plague reservoirs)中,还是从欧洲外部反复引入,始终是颇有争议的问题。

鼠疫疫源地的空间预测分布

本文基于中国目前鼠疫疫源地的环境数据(包括土壤特征和气候),利用统计中的MAVE方法进行统计建模[1] ,使用美国鼠疫疫源地相关数据验证模型的有效性和准确性,以评估欧洲的环境条件是否支持“天然鼠疫疫源地”的存在性。研究发现,无论是在历史上还是在近现代,都没有证据支持欧洲自然鼠疫疫源地持续存在。有两个因素不利于欧洲鼠疫疫源地长期存在:1) 土壤成分及生化性质;2) 较低啮齿动物多样性。这些发现对于人类历史上的鼠疫研究具有广泛的意义,为解决围绕鼠疫长达一个世纪的谜团提供了新的工具。

文章链接:

https://www.pnas.org/doi/10.1073/pnas.2209816119

#post-12382
ntry-header

2022年12月5日,中国人民大学朱利平教授通过线上平台与我中心教员交流,并进行线上特邀报告,报告的题目是统计学与人工智能:融通共进。

朱利平教授线上报告
与会教员合影
#post-12381
ntry-header

近日,清华大学第39次教书育人研讨会暨第十届青年教师教学大赛总结交流座谈会在线举行,校党委副书记向波涛,副校长、教务长彭刚出席座谈会。校工会主席王岩主持会议。

会上,向波涛宣读了“清华大学第十届青年教师教学大赛”获奖教师名单,并对获奖教师表示祝贺。我中心王江典老师荣获“清华大学第十届青年教师教学大赛”(理科、医科组)一等奖。

王江典老师参加座谈会(上排中)
获奖感言

参赛获奖深感荣幸,以赛促教,并获得个人教学理念和教学能力的提升,是我此次参加青教赛最大的收获!在9月、10月两个月的备赛过程钟,每周四下午的培训和交流成了我最值得期待的时光。在这个过程中,与对教学充满激情与热爱的指导老师们和同仁们结下的深厚友谊,也是一笔宝贵的人生财富!

回首整个青教赛备赛经历,我的收获远超付出,这其中有资深专家指导老师们多年教学智慧的倾力分享,有统计中心同事们的慷慨分享,有优秀同仁们共同奋斗的深厚友谊,有中心和院系领导们给予的温暖和鼓励。

教学是一场不断精进、不断发现的旅行,而青教赛是其中的精品旅程,我愿意体验并分享这场旅行中的快乐与感悟。青教赛让我获得了进步,也更清晰地认识到了自己的不足。通过青教赛,我逐渐明白了“以学生发展为中心”的真正内涵,学习到了如何去设计组织每一节课,也深刻了解到课堂的每一分钟都应精雕细琢。今后我将加倍努力,严谨治学,在成为一名真正师者的道路上继续成长。

王江典简历

清华大学统计学研究中心讲师,统计咨询中心高级咨询师。负责及指导医学统计相关的咨询项目20余个;发起并组织2021年清华大学“统计学教学改革研讨会”;清华大学继续教育项目《统计与数据科学研修班(第三期)》班主任;2022年度清华继续教育学分课《统计推断》主讲教师(在建设)

讲授课程:

《统计推断》、《逻辑回归与分类型数据分析》、《医学统计》、《生存分析》、《统计咨询》

#post-12379
ntry-header

2022年11月28日,西南财经大学刘耀午教授通过通过线上平台与我中心教员交流,并进行线上学术报告,报告的题目是A Power-robust Test for Global Hypotheses in Generalized Linear Models。

刘耀午教授学术报告

#post-12378
ntry-header

2022年10月,汤家豪院士正式续聘“清华大学杰出访问教授”,这是汤先生自2019年10月加盟清华大学统计学科的第二个聘期。自受聘以来,汤先生在推动清华大学统计学科发展、人才培养、科学研究等方面付出诸多努力与贡献。

汤先生于清华期间,积极邀请杨振宁先生到访统计学研究中心,与中心师生亲切交流,并在学术研究及论文写作等方面给出建议,中心师生深受鼓舞与启发。

汤先生还为学生开设论文写作与撰写专题课程,指导学生如何更加规范地撰写研究论文。

汤先生指导曾在李东副教授课题组做科学研究的张心雨博士开展有关时序数据主成分分析的研究,相关文章于今年5月发表于Journal of the Royal Statistical Society: Series A (Statistics in Society);近日,汤先生与中心李东副教授、19级博士研究生陶宇心及清华万科公共卫生与健康学院的许磊教授所领导的研究团队共同合作完成的有关“近代欧洲是否为鼠疫疫源地”的论文被美国国家科学院院刊接受,即将在线发表。

再次祝贺汤家豪先生续聘“清华大学杰出访问教授”,同时亦感谢汤先生一直以来对清华统计学科的关注与支持,期待汤先生在新的聘期对清华统计学科给予更多的指导与帮助。

汤家豪教授是香港中文大学统计系创始人,曾任英国肯特大学数学学院主任、伦敦政治经济学院统计学系讲座教授、香港大学统计与精算系讲座教授、香港大学研究院创院院长和副校长,现为挪威科学与文学院外籍院士、国际统计学会会士、数理统计学会会士及精算学会荣誉会士。汤家豪教授是“非线性时间序列分析”的重要开创者之一,在统计学领域取得了杰出的学术成就,是国际上具有相当影响力的统计学家。2019年起受聘“清华大学杰出访问教授”。

#post-12375
ntry-header

2022年11月21日,中国科学院刘歆研究员访问我中心,与中心教员座谈,并做特邀报告,报告的题目是Decentralized Optimization Over the Stiefel Manifold by an Approximate Augmented Lagrangian Function。

刘歆研究员于统计中心
与会人员合影
#post-12377