【学术活动】香港大学李国栋教授特邀报告

今日，国家自然科学基金委员会发布《关于2021年国家自然科学基金集中接收申请项目评审结果的通告》（国科金发计〔2021〕51号），我中心杨立坚教授、俞声副教授获得国家自然科学基金面上项目资助；王天颖助理教授、杨朋昆助理教授、胡志睿助理教授获得国家自然科学基金青年项目资助。

负责人	项目类型	项目名称
杨立坚	面上项目	相依函数型数据的统计分析：理论与方法
俞声	面上项目	数据驱动医学知识图谱建设的基础算法研究
王天颖	青年项目	高维异质性数据中的整合分位数回归模型：统计推断理论及其在生物遗传学方面的应用
胡志睿	青年项目	基于贝叶斯模型及计算方法研究物种趋同进化的基因调控机制
杨朋昆	青年项目	大规模域空间上统计推断的性能极限及高效算法

近日，我中心邓柯副教授课题组在统计国际顶尖期刊 Journal of the American Statistical Association (JASA)发表题为“Partition-Mallows Model and Its Inference for Rank Aggregation”的研究论文，提出了一种推断排名聚合的新方法。曾在邓柯课题组工作的朱万闯博士是该文的第一作者，姜瑛恺博士和刘军教授为共同作者，邓柯副教授是论文的通讯作者。

排名聚合是指如何聚合从不同信息源获得的关于某些个体的排序，从而得到一个更加‘精确’的排序。例如，有m位评委为n名运动员的能力进行排序。排名聚合致力于对这m个排序进行整合分析以得到一个新的排序，能够更加准确地反映n名运动员能力的高低。现实中，m位评委的可靠性可能会存在差异，部分可靠性较低的评委可能会误导排名聚合的结果。开发基于数据驱动的方法来自动识别不同评委的可靠性，并据此优化排名聚合的结果，具有重要的实际意义。

邓柯和刘军等人曾于2014年在JASA发表了题为“Bayesian Aggregation of Order-Based Rank Data”的论文中，提出了一种基于划分模型（partition model）的排名聚合方法BARD。BARD将排序对象划分为两个组别，“相关个体组”和“背景个体组”，并假设可靠性高的评委们会以更高的概率将中的个体排位于中的个体之前。该方法能够在有效识别评委可靠性的同时，通过弱化可靠性较差的评委在排名聚合中贡献，来消除他们可能带来的负面作用。但是，该方法简单忽略了和两个组别中各个体的差异，从而在很大程度上损失了组内排名的信息。从应用的角度看，这是该方法的一个重要局限性。

本文在上述工作的基础上，采用更加精细的 Mallows模型对组别的组内排名进行了建模，将partition模型和Mallows 模型的优势结合起来，得到了能力更强的排名聚合模型Partition-Mallows model。该模型构建了对具有复杂结构的排名数据进行定量描述的一般框架，在充分利用和组间及组内的排名信息的基础上，不仅可以有效识别评委可靠性的差异，还能够产出更有效率的排名聚合。我们从理论上证明了该方法的可靠性，并通过大量的计算机模拟和实证研究验证了该方法在处理具有分组结构的排名聚合问题上具有明显优势。

该研究工作获得中国国家自然科学基金(Grants 11771242 & 11931001)、北京智源人工智能研究院(Grant BAAI2019ZD0103)和美国国家科学基金(Grants DMS-1903139 and DMS-1712714)的资助。

论文链接：https://doi.org/10.1080/01621459.2021.1930547