【学术成果】邓柯课题组在AOAS发表论文提出用广义主题词典模型挖掘关联规则

近日，清华大学统计学研究中心邓柯副教授课题组在应用统计知名期刊The Annals of Applied Statistics (AOAS)发表题为“Generalized theme dictionary models for association pattern discovery”的研究论文，提出了挖掘关联性规则的新方法。南开大学统计与数据科学学院杨洋特聘副研究员（课题组2015级博士生）为论文的第一作者，邓柯副教授为论文的通讯作者。

关联规则挖掘是数据挖掘研究的重要方向之一，广泛应用在生物信息学、医学和社会科学等领域。关联规则的一个典型应用是购物篮分析（Market Basket Analysis，MBA），即通过分析顾客购物篮中购买的商品，挖掘商品之间的关联性，实现智能推荐。在关联规则挖掘中，每个观测样本称为一个记录（transaction），每个记录是一组元素（item）的集合。以MBA问题为例，每件商品是一个元素，每个购物篮构成的商品集合是一个记录。传统的关联规则挖掘方法不区分记录中元素的类别，并假设顾客购物篮中的商品数量无缺失，但随着应用场景的多元化，实际问题中的数据结构更为复杂，通常涉及两种类型的数据：在第一种类型的数据中，元素包含类别信息，传统方法可能挖掘出大量不具有较高应用价值的同类别关联规则；在第二种类型的数据中，元素的数量信息缺失，传统方法难以从缺失数据中正确挖掘关联规则。

该论文改进了Deng, Geng and Liu (2014)的方法，主要贡献如下：（1）提出跨类别的主题词典模型，在产生初始词典的过程中限制主题的类别，对同类别的关联规则进行剪枝，能更准确、高效地挖掘跨类别的关联规则；（2）提出联合主题词典模型，通过概率生成模型还原元素的数量信息，构造了一个高效的元素数量还原机制，以减少新模型增加的计算量；（3）从理论上证明了新模型具有可识别性。与传统的关联规则挖掘方法相比，本文提出的方法在模拟实验和实际应用中都具有更高的计算效率、更高的准确性和更好的稳健性，并且该方法挖掘的关联规则在特征提取、命名体识别、聚类等下游任务中具有潜在的应用价值。

该研究工作获得国家自然科学基金(Grant 11931001)、北京市自然科学基金(Grant Z190021)、国家留学基金委、清华大学国强研究院以及教育部高等院校科技创新计划项目的支持。

论文链接：

http://dx.doi.org/10.1214/22-AOAS1626

Welcome to Deng Lab

Blog

【学术成果】邓柯课题组在AOAS发表论文提出用广义主题词典模型挖掘关联规则