【学术成果】清华与哈佛研究团队在序贯蒙特卡洛领域取得新的突破

ntry-header

序贯蒙特卡洛方法作为一种重要的计算工具，被广泛地应用于各个领域中，其中重抽样是序贯蒙特卡洛方法中重要的一步。同时重抽样也是一把双刃剑：一方面，重抽样可以保证序列样本保持一定的有效样本量；另一方面，重抽样会引入新的随机性，使得估计的误差变大。重抽样有着很多种不同的选择，例如Bootstrap重抽样，分层重抽样等。清华大学统计学研究中心邓柯副教授团队与哈佛大学统计系刘军教授团队针对不同情形下的最优重抽样问题展开了进一步研究，相关成果已在统计学顶刊Biometrika发表。中心16级博士研究生李艺超及哈佛大学统计学博士生王文槊为文章的共同第一作者。

在重抽样最优化理论的研究上，本研究的主要贡献包括：

（1）在一维情形下，证明了将样本排序后，分层重抽样在条件方差、能量距离、最优传输等意义下均是最优的。（2）在多维情形下，通过希尔伯特曲线对样本进行排序，分层重抽样的条件方差可以得到最优上界。

结合前两个结论，在序列拟蒙特卡洛方法(SQMC)的框架下，研究团队将抽样和重抽样两个部分结合起来，提出了一种新的抽样方法(Stratified Multiple-Descendant Sampling)，并证明了该方法在理论上可以得到已知的最优均方误差。

相关工作建立了序贯蒙特卡洛重抽样算法最优性的系统理论，并以此为基础提出了新的、效率更高的抽样算法，在统计计算理论和应用方面具有重要的原创性贡献。

#post-12229

ntry-header

近日，中心五年级博士生蒋斐宇以第一作者的身份撰写的论文“Adaptive Inference for a Semiparametric Generalized Autoregressive Conditional Heteroskedasticity Model”被计量经济学顶尖期刊Journal of Econometrics接受并在线发表。此文是蒋斐宇同学发表的第3篇JOE论文。

该论文是蒋斐宇与我中心李东副教授和香港大学统计与精算系朱柯助理教授合作完成的，主要研究了一类半参数的广义条件异方差模型（简记为S-GARCH模型）的参数估计、检验和模型诊断等统计推断问题。

传统的GARCH模型由Engle (1982)以及Bollerslev(1986)提出，是应用最为广泛的金融时间序列模型之一，但在使用该模型时通常需要假定数据是平稳的。为此，该论文基于现有的文献方法，在GARCH模型中引入了一般的非参数趋势项，而使得拓展后的S-GARCH模型可以处理非平稳的金融时间序列，拓宽了GARCH模型的适用范围。该论文提出的两步估计方法简单有效，在一定的假设下，S-GARCH模型的模型参数估计、参数检验和模型诊断等极限理论不依赖于非参数趋势项的估计，并且拥有自适应性和有效性等特点，非常便于使用。

#post-12222

ntry-header

当前，国内外新冠肺炎形势依旧严峻，经济、社会等方面受到严重影响。2020年3月以来，清华大学统计学研究中心副教授邓柯、侯琳带领中心博士生刘朝阳、沈翀、王掣，与清华大学地球系统科学系宫鹏教授、徐冰教授团队和国内外相关研究机构合作就新冠肺炎疫情传播规律与防控措施展开深入研究。近日，团队的研究成果“Suppression of future waves of COVID-19: Global pandemic demands joint interventions”在《美国科学院刊》（PNAS）在线发表！

该篇文章基于新冠肺炎可能在冬季卷土重来的大背景，充分考虑气候变化、人口流动等因素，建立数学模型模拟不同干预情景，以寻找针对新冠肺炎再暴发的最优应对措施。研究结果表明实施8周高强度的干预措施来控制局部传染和国际传播是有效且高效的，同时提出分层干预的策略建议，即干预措施首先在“全球干预中心”（Global Intervention Hub，GIH, 即高人口密度、高国际流通的地区）实施，紧接着是其他高风险地区。该文章从全球视角出发，提出按照辐射分层网络、全球联动实施分层干预措施，对降低新冠肺炎再次暴发给公共健康和社会带来的巨大影响有重要意义。

该研究将全球59个高风险地区（其累计病例占全球92.57%）根据人口密度和国际航运情况分为15个“全球干预中心”（GIH）和44个其他高风险地区，采用多人群传染病动力学模型模拟59个地区新冠肺炎的内部传播与时空扩散。其中，模型参数纳入气候变化、家庭结构、人口流动等多因素的影响。模拟干预情景包括：（1）首先在GIH实施，紧接着其他高风险地区同时实施（图1-AE）；（2）只在GIH实施（图1-BF）; （3）GIH和其他高风险地区同步实施（图1-CG）；（4）首先在GIH实施，紧接着其他高风险地区根据当地累计病例翻倍时开始实施（图1-DH）。干预措施实施周期从2-12周逐两周递增，干预措施强度根据降低社区传播风险及国际流动的百分比划分为轻强度（20%）、中强度（50%）和高强度（80%）。不同干预机制模拟的结果对比发现最优的应对措施为首先在所有GIH实施，紧接着是其他高风险地区根据实际情况及时实施8周的高强度干预措施。

图1. 不同干预情景模拟的结果对比（ABCD：临床病例数降低比例；EFGH：加速控制住的地区数）

文章链接

https://www.pnas.org/content/early/2020/09/25/2012002117

#post-12188

ntry-header

近日，我中心2016级博士研究生林毓聪以第一作者身份撰写的论文 “Long-distance disorder-disorder relation extraction with bootstrapped noisy data” 被医学信息学期刊Journal of Biomedical Informatics (Health Informatics Q1，Computer Science Applications Q1) 接收并在线发表。我中心俞声副教授是论文的通讯作者。

医学知识图谱是医学人工智能应用的基石，知识图谱中先验的关系对于自动诊断等应用的实现都有重要的意义，而现有的一些数据库如Unified Medical Language System虽然囊括了较广泛的医学实体，实体之间的医学关系仍旧比较匮乏。传统的医学关系抽取方法包括人工标注和文本模式匹配，前者费时费力，后者能够提取的关系非常有限，无法适用于现实情况下自然语言多样的表述方式。而在这些医学关系中，疾病与疾病之间较常见的鉴别诊断、导致和被导致关系在医学文本中的表述尤为复杂，常常在一句话中表达了多个疾病的多种关系，抽取尤为困难，使其在现有知识图中（如UMLS和HPO）的覆盖范围不完整。基于这种情况，作者利用深度学习和自然语言处理技术设计了一种新的长距离关系抽取算法，在医学文本的基础上，结合自助法采样及文章章节结构信息抽取了疾病间的鉴别诊断、导致和被导致关系。

为了解决有标注训练样本缺乏的问题，论文采用远监督的方法构建训练样本，通过半结构化网页获取已知实体关系对，将它们与包含两个实体的所有句子相匹配形成一个训练样本。模型采用Bi-GRU作为句子编码器，结合注意力机制降低噪声样本的影响，将一对实体匹配的所有句子信息融合后再对关系做判断。

该论文的亮点之一是扩展了远监督的假设，允许其中一个实体出现在文章的标题中。这一假设符合以疾病为标题的网页和医学教科书文本的特点，使得训练句子数量增加了1.17倍，训练样本数增加了0.75倍。

论文的亮点之二是融合了已知关系构成的图信息来更好地区分三类关系。疾病间的鉴别诊断关系通常在文本中的表述都较为模糊，难以直接通过文本判断，而作者发现如果两个疾病跟第三个疾病都有鉴别诊断关系，则他们之间更有可能是鉴别诊断关系而不是导致或被导致关系。基于此发现，作者在模型中融入了已知关系图的信息，有效地帮助模型区分了三类关系。

在实验中，作者提出的关系抽取模型（最后一行）准确率接近90%，正样本准确率达到72.3%，比最好的基准模型高出约4.6个百分点。

论文网页链接：

https://www.sciencedirect.com/science/article/pii/S153204642030157X

#post-12187

ntry-header

近日，我中心2017级博士研究生袁正以第一作者身份撰写的论文 “Unsupervised multi-granular Chinese word segmentation and term discovery via graph partition” 被Journal of Biomedical Informatics (Health Informatics Q1，Computer Science Applications Q1) 接收并在线发表。该论文是作者同清华大学刘元昊、尹秋阳、李铂垚同学、北京清华长庚医院冯晓彬教授以及江苏卫健委张国明共同完成，我中心俞声副教授是论文的通讯作者。

电子病历蕴含丰富的医学信息，对生物医学研究、公共卫生统计、卫生经济学、医学人工智能等诸多领域具有重要的价值。为了进行电子病历分析，首先需要进行分词和术语发现。但由于缺少完善的中文医学词典和已分词的中文电子病历，有监督的分词算法难以训练，已有的中文分词系统在中文电子病历的应用中表现不好。基于此种情况，作者以图分割为基础，提出全新的无监督的多粒度中文分词和术语发现的方法。

论文将分词问题转换为图的分割问题：将一个句子转换为无向图，顶点为每个字符，边的权重通过n-gram统计量计算，通过不同粒度的图分割获得了多粒度的分词结果。论文提出了一个术语判别系统，并训练BERT分类器以判断该术语是否被正确分词。该术语判别系统可以在已有的多粒度分词结果上提取正确的医学术语进行术语发现。该方法在CCKS中文病历数据集上的术语发现任务中表现遥遥领先已有的中文分词系统。

论文网页：

https://authors.elsevier.com/c/1belf5SMDQgLU6

#post-12185

ntry-header

#post-12181

ntry-header

专利名称：基于统计词典模型的未登录词发现和分词系统及方法
功能：可在没有训练语料库和词库未知的条件下通过无指导文本分析实现中文词汇识别和分词
发明人：邓柯、刘军
专利号：201410299453.9
授权公告日：2017 年 6 月 9 日

专利名称：搜索引擎专利《信息检索方法和装置》
功能：根据病历中语意精确寻找符合查询语意的电子病历
发明人：俞声
专利号：ZL 201310200430.3
授权公告日：2016 年 6 月 1 日

#post-11995

ntry-header

2017年8月，刘军教授荣获“Jerome Sacks 跨学科研究奖”

2017年8月，林希虹教授荣获“F.N. David奖”

2017年12月27日，林乾教授论文荣获“ICCM Best Paper Award——若琳奖”

2018年1月28日，邓柯教授荣获“2017年度考核校级优秀奖”

2018年3月17-18日，俞声教授团队荣获“解放军总医院急救大数据Datathon”冠军

2016年12月19-22日，刘军教授荣获第十届泛华统计协会“许宝騄奖”（Pao-Lu Hsu Award）

2017年5月，杨立坚教授当选国际数理统计学会会士（IMS Elected Fellow）

2017年6月23日，邓柯副教授荣获“科学中国人2016年度人物”

2015 年 11 月，邓柯教授受邀于中国数学会第十二届全国会议做统计组特邀报告

#post-11994

ntry-header

2017.7-2018.6

Zhang, Y. and Yang, L. ,2018. A smooth simultaneous confidence band for correlation curve. TEST27(2)，247-269.
Zhang, R., Deng, W., Zhu, Y. ,2017. Using Deep Neural Networks to Automate Large Scale Statistical Analysis for Big Data Applications. Proceedings of the 9th Asian Conference on Machine Learning (ACML17), Seoul, Korea, 2017.
Pan, C. and Zhu, M. ,2017. Group Additive Structure Identification for Kernel Nonparametric Regression. Advances in Neural Information Processing Systems 30 (NIPS 2017).
Huang, Q. and Zhu, Y. 2017. SPOT: Sparse Optimal Transformations for High Dimensional Variable Selection and Exploratory Regression Analysis. Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 2017).
Cheng, L., Zeng, P., and Zhu, Y. (2017) BS-SIM: An Effective Variable Selection Method for High-dimensional Single Index Model. Electronic Journal of Statistics, 11(2) 3522-3548.
邓柯 (2017) 统计学与人文研究的哲学思辨.《公共管理评论》, 2017年第3期（总第26期）, 24-38.
Sun Z. Wang T., Deng K., Wang X.F., Lafyatis R., Ding Y., Hu M., Chen W. (2018) DIMM-SC: a Dirichlet Mixture Model for Clustering Droplet-Based Single Cell Transcriptomic Data. Bioinformatics 34(1), 139-146.
Li, D., Zhang, X.F., Zhu, K. and Ling, S. (2018) The ZD-GARCH model: A new way to study heteroscedasticity. Journal of Econometrics 202, 1-17.
Liu, F., Li, D.* and Kang, X.M. (2018) Sample path properties of an explosive double autoregressive model. Econometric Reviews 37, 484-490.
Hou, L., Sun, N., Mane, S., Sayward, F., 2017. Impact of Genotyping Errors on Statistical Power of Association Test in Genomic Analyses: A Case Study. Genetic Epidemiology , 41, pp.152-162.
Williams, K.R., Colangelo, C.M., Hou, L. and Chung, L., 2017. Use of a Targeted Urine Proteome Assay (TUPA) to identify protein biomarkers of delayed recovery after kidney transplant. Proteomics Clin Appl 11, pp.7-8.
Can,A., Castro, V.M., Ozdemir, Y.H., Dagen, D., Dligach, D., Finan, S., Yu,S., Gainer,V., Shadick, N.A., Murphy, S., Cai, T.C., Savova, G., Weiss, S.T., Du, R.*,2018. Alcohol Consumption and Aneurysmal Subarachnoid Hemorrhage. Translational Stroke Research 9(1), pp.13-19.
Can,A., Castro, V.M., Yu, S., Dligach, D., Finan, S., Gainer, V., Shadick, N.A., Savova, G., Murphy, S., Cai, T., Weiss, s.t. and Du, R*. 2018. Antihyperglycemic Agents are Inversely Associated with Intracranial Aneurysm Rupture. Stroke 49(1), 34-39.
Yu, S., Ma, Y., Gronsbell, J., Cai, T., Ananthakrishnan, A.N., Gainer, V.S., Churchill, S.E., Szolovits, P., Murphy, S.N. and Kohane, I.S., 2017. Enabling phenotypic big data with PheNorm. Journal of the American Medical Informatics Association 25(1), 54-60.
Can,A., Castro, V.M., Ozdemir, Y.H., Dagen, S., Yu, S., Dligach, D., Finan, S., Gainer, V., Shadick, N.A. and Murphy, S., 2017, Association of Intracranial Aneurysm Rupture with Smoking Duration, Intensity, and Cessation. Neurology 89（13），1408-1415.
McCoy Jr, TH., Yu, S., Hart, K.L., Castro, V.M., Brown, H.E., Rosenquist, J.N., Doyle, A.E., Vuijk, P.J., Cai, T. and Perlis, R.H., 2018. High Throughput Phenotyping for Dimensional Psychopathology in Electronic Health Records. Biological Psychiatry (2018), 83(12), 997-1004.
McCoy Jr, TH., Castro, V.M., Hart, K.L., Pellegrini, A.M., Yu,S., Cai, T. and Perlis, R.H.,2018. Genome-wide Association Study of Dimensional Psychopathology Using Electronic Health Records. Biological Psychiatry, 83(12), 1005-1011.
Liu, H., and Yu,B., 2017. Comments on: High dimensional simultaneous inference with the bootstrap. Test 26(4), 740-750.
Lin, Q., Zhao, Z., and Liu, J., 2018. On consistency and sparsity of sliced inverse regression in high dimensions. Annals of Statistics 46(2), 580-610.

2016.8-2017.7

Shao, Q. and Yang, L. (2017) Oracally efficient estimation and consistent model selection for auto-regressive moving average time series with trend. Journal of the Royal Statistical Society Series B 79(2), 507-524.
Zheng, S., Liu, R., Yang, L. and Härdle, W. (2016) Statistical inference for generalized additive models: simultaneous confidence corridors and variable selection. TEST 25(4), 607-626.
Wang, J., Wang, S., and Yang, L. (2016) Simultaneous confidence bands for the distribution function of a finite population and its superpopulation. TEST25(4), 692-709.
Li, D. and Tong, H. (2016) Nested sub-sample search algorithm for estimation of threshold models. Statistica Sinica 26(4), 1543-1554.
Hou L., Sun N., Mane S., et al. (2016) Impact of genotyping errors on statistical power of association tests in genomic analyses: A case study. Genetic Epidemiology 41(2):152-162.
Yong F.H., Tian L., Yu S., Cai T. and Wei L.J. (2016) Optimal stratification in outcome prediction using baseline information; Biometrika, 103.4: 817-828.
Castro V.M., Dligach D., Finan S., Yu S., Can A., Abd-El-Barr M., Gainer V.S., Shadick N.A., Murphy S.N., Cai T., Savova G., Weiss S.T., Du R. (2017) Large-scale identification of subjects with cerebral aneurysms using natural language processing. Neurology 88(2),164-168.
Yu S., Chakrabortty A., Liao K.P., Cai T., Ananthakrishnan A.N., Gainer V.S., Churchill S.E., Szolovits P., Murphy S.N., Kohane I.S., Cai T. (2017) Surrogate-assisted Feature Extraction for High-throughput Phenotyping. Journal of the American Medical Informatics Association 24(el), e143-e149

2015.7-2016.7

Shao Q. and Yang L. (2016) Oracally effcient estimation and consistent model selection for auto-regressive moving average time series with trend. Journal of the Royal Statistical Society Series B. DOI: 10.1111/rssb.12170.
Wang J., Wang S., and Yang L. (2016) Simultaneous confdence bands for the distribution function of a fnite population and its superpopulation. TEST 25(4), 692-709.
Zheng S., Liu R., Yang L. and Härdle W. (2016) Statistical inference for generalized additive models: simultaneous confdence corridors and variable selection. TEST 25(4), 607-626.
Yang M., Xue L. and Yang L. (2016) Variable selection for additive model via cumulative ratios of empirical strengths total. Journal of Nonparametric Statistics 28(3), 595-616.
Wu H. and Zhu Y. (2016) Deconvolution of base pair level RNA-Seq read counts for quantification of transcript expression levels. Annals of Applied Statistics. (To Appear)
邓柯，陈孟裕，金锋，焦阳，丛林晔，罗季阳，殷杰（2016）中国进口食品风险评估的统计学方法。 《数理统计与管理》 ，已接收。
Deng K., Bol P.K., Li K.J., and Liu J.S. (2016) On unsupervised Chinese text mining. Online published in Proceedings of the National Academy of Sciences of USA. DOI: 10.1073/pnas.1516510113.
Zang C, Wang T., Deng K., et al (2016) High-dimensional genomic data bias correction and data integration using MANCIE. Online published in Nature Communications. DOI: 10.1038/ncomms11305.
Deng K., Li Y., Zhu W., and Liu J.S. (2016) Fast parameter estimation in loss tomography for networks of general topology. Online published in Annals of Applied Statistics. DOI: 10.1214/15-AOAS883
Li D., Ling S. and Zakoïan J.M. (2015) Asymptotic inference in multiple-threshold double autoregressive models. Journal of Econometrics 189, 415-427.
Li D., Ling S., and Zhang R.M. (2016) On a threshold double autoregressive model. Journal of Business & Economic Statistics 34, 68-80.
Li D., and Tong H. (2016) Nested sub-sample search algorithm for estimation of threshold models. Statistica Sinica. 26，4, 1543-1554.
Liu F., Li D., and Kang X.M. (2016) Sample path properties of an explosive double autoregressive model.Econometric Reviews. (To Appear)
Evans B., Gloria-Soria A., Hou L., McBride C., Bonizzoni M., Zhao H., Powell J. (2015) A multipurpose,high-throughput single-nucleotide polymorphism chip for the Dengue and Yellow Fever Mosquito, Aedes aegyptiG3, 3(5): 711-718.
Castro V., Shen Y., Yu S., Finan S., Pau C.T., Gainer V., Keefe C.C., Savova G., Murphy S.N., Cai T., Welt CK.(2015) Identifcation of subjects with polycystic ovary syndrome using electronic health records. Reproductive Biology and Endocrinology 13(1):1.
Cai T., Giannopoulos A.A., Yu S., Kelil T., Ripley B, Kumamaru K.K., Rybicki F.J., and Mitsouras D.*. (2016) Natural Language Processing Technologies in Radiology Research and Clinical Applications. RadioGraphics, 36(1): 176-191.

#post-11993

ntry-header

#post-11992