
近日,清华大学统计与数据科学系邓柯副教授课题组在统计学国际顶尖期刊Journal of the American Statistical Association (JASA) 在线发表题为“A Bayesian Criterion for Rerandomization” 的研究论文,提出一种基于贝叶斯的重随机化方法,可以有效提升处理效应估计的准确性。邓柯课题组2017级博士生刘朝阳博士和2021级博士生韩庭萱是论文的共同第一作者,邓柯副教授为通讯作者,与美国科学院院士Donald B. Rubin教授共同指导了该研究。

|

|

|

|
刘朝阳 第一作者
|
韩庭萱 第一作者 |
Donald B. Rubin 作者 |
邓柯 通讯作者 |
随机化试验是因果推断的金标准,因为它可以在平均意义下消除不同处理组下协变量的不平衡性。然而在一次具体的试验下,不同处理组中的协变量不平衡是一种常见的现象,当协变量维数较高时这个问题尤为严重。解决这一问题的一个自然的方法是不断地尝试不同的随机化分配方案,直到得到一个协变量平衡性可接受的分配方案,即“重随机化”(rerandomization)。重随机化方法能够使协变量取得更佳的平衡性,并且得到更高效的因果效应估计量,因而在近年来获得了越来越多的关注。经典的基于Mahalanobis距离的重随机化准则(ReM)及其系列变种通常对所有协变量施加同等约束,忽略或未能充分利用协变量重要性的信息。
本文从贝叶斯的角度出发深入研究了实施rerandomization的基本准则。通过将有关协变量相对重要性的认知形式化为一个先验分布,并利用它来指导重随机化过程,建立了基于贝叶斯准则的重随机化框架(ReB)。可以证明,许多基于ReM的重随机化过程是ReB取特定先验时的特例。并且,当先验信息较为准确时,通过ReB获得的因果效应的均值差估计量相比于ReM得到的估计量更准确,即有更小的渐进方差。当协变量的维数更高时,ReB相对于ReM的这种优势会变得更大。
当有关协变量重要性的信息事先不可获取时,本文建议采用一种两阶段的试验设计方法来实现ReB。在第一阶段,通过对小部分样本做完全随机化或ReM,获取关于协变量重要性的先验信息。在第二阶段,使用于第一阶段获取的先验来实施ReB。将两阶段分别获取的因果效应估计量进行结合以获得最终的估计量。可以证明,采用这种两阶段策略来实现的ReB同样可以获得有关因果效应在渐近意义上更有效的估计。
本文不仅从贝叶斯角度建立了新的理论框架来理解和解释重随机化,而且还提出了更有效的实施重随机化的方法。本研究中的所有理论分析都是基于设计的框架,即随机性完全来源于分配的随机性,而没有施加任何模型假设。
原文链接:
https://www.tandfonline.com/doi/10.1080/01621459.2025.2507432