ntry-header

自2016年来,北京大学、清华大学两校优秀的统计学师生济济一堂,发挥两校的学科优势,互通有无,着力推动中国优秀统计青年人才的成长,助力中国统计学学科的发展。为传承兄弟院校间的团结协作和友好交流,两校将于2021年6月10日举办第五届北大-清华统计论坛。

会议时间:2021年6月10日 下午1:00-5:00

会议地点:北京大学镜春园82号院甲乙丙楼报告厅(二层东侧)

主办方:北京大学统计科学中心  清华大学统计学研究中心

会议报名:

报名时间:即日起至2021年5月15日

报名链接:https://docs.qq.com/form/page/DWmhOWHRCZVdxQUli#/fill

特邀报告

北京大学 耿直教授
北京大学数学科学学院教授
北京生物医学统计与数据管理研究会理事长
中国人工智能学会不确定性人工智能专委会副主任

 

清华大学 许宪春教授
清华大学经济管理学院教授
清华大学中国经济社会数据研究中心主任
国家统计局原副局长、高级统计师
清华大学中国经济社会数据研究中心主任
国家统计局原副局长、高级统计师

 

会议议程:

时间 议程
13:00-13:30 报到
13:30-13:40 开幕式
13:40-14:40 大会报告一(耿直教授)
14:40-15:00 茶歇&合影
15:00-16:00 大会报告二(许宪春教授)
#post-12242
ntry-header

2021年4月19日,奥本大学Peng Zeng教授通过线上平台与中心教员深入交流,并进行线上学术报告,报告的题目是:Huber Regression and its Degrees of Freedom。

Peng Zeng教授与中心教员交流
中心教员与Peng Zeng教授合影
#post-12241
ntry-header

#post-12240
ntry-header
苏良军教授

2020年4月12日,清华大学经济管理学院苏良军教授访问我中心,并做特邀报告,报告的题目是 Uniform Inference in Linear Panel Data Models with Two-Dimensional Heterogeneity。

与会教师合影

 

#post-12239
ntry-header

2021年4月,清华大学统计学研究中心17级博士研究生郭瀚民同学以第一作者身份在Nature Communications期刊上发表了题为Detecting local genetic correlations with scan statistics的研究论文,统计中心侯琳副教授和威斯康辛大学麦迪逊分校吕琼石助理教授为该论文的共同通讯作者,威斯康辛大学麦迪逊分校的James J. Li为本文的共同作者。针对复杂疾病的遗传相关性问题,研究人员提出了基于扫描统计量的统计推断方法,精准识别局部遗传相关性位点,并开发了相应软件包LOGODetect(https://github.com/ghm17/LOGODetect)。

全基因组关联分析是研究人类复杂性状遗传机制的重要方法,被广泛应用于复杂疾病的研究,揭示了大量疾病易感位点和致病基因。研究数据表明,多种复杂疾病存在广泛的遗传相关性。已有的研究往往将遗传相关系数的估计转化为线性混合模型中协方差参数的估计问题,其前提假设是人类基因组中大量多态性位点对疾病遗传相关性的贡献服从同一分布。研究团队认为此假设是对疾病遗传结构的过度简化,无法准确刻画疾病间复杂的遗传相关性结构。针对此问题,研究团队提出富集型遗传模型,即两个疾病的遗传相关性仅分布在基因组中的部分片段上,并开发了基于扫描统计量的局部遗传相关性统计推断方法。该方法以全基因组关联分析的概括统计量作为输入数据,在全基因组中寻找显著富集遗传相关性的区域,从而精确识别疾病间局部遗传相关性。

与已有方法相比,LOGODetect的优势在于:(1)自动搜索局部相关性区域,灵活准确地确定区域边界;(2)严格控制一类错误,具有更高的统计功效;(3)该方法对不同的遗传模型以及不同疾病数据集中样本重叠的问题具有鲁棒性。研究团队将该方法应用于多种神经系统相关疾病和表型的全基因组关联分析数据,LOGODetect识别出了227个互不重叠的与多个表型相关的基因片段,对理解精神疾病中的跨诊断现象具有重要意义。

#post-12238
ntry-header

#post-12237
ntry-header

近日,统计学研究中心2016级博士生徐嘉泽与清华大学自动化系江瑞教授团队、斯坦福大学统计系Wing Hung Wong教授团队的合作文章“Density estimation using deep generative neural networks”在《美国科学院院刊》(PNAS)在线发表。徐嘉泽同学于2020年1月赴美国斯坦福大学进行为期近一年的访问学习,在访问期间主要参与了Wing Hung Wong教授实验室的文本分析、贝叶斯蒙特卡洛算法开发等方面的工作。在本项目中,徐嘉泽同学参与了模型构建和工具开发等工作。

图1. MNIST和CIFAR-10数据集中真实的图片以及Roundtrip和MAF生成的图片。每一行代表一种类别。来源:PNAS

 

该论文提出了一种名为Roundtrip的原创方法来进行概率密度估计。该方法利用深度生成式模型的强大生成能力,支持数据生成和概率密度估计的协同进行。该成果在多个统计学研究方向有重要的应用价值,如高维密度估计,异常值检测,单细胞数据的降维、聚类和缺失值插补等任务。

该研究所提出的Roundtrip方法利用两个GAN模型对低维隐层空间和高维数据空间的映射进行建模,随后通过重要性采样或者拉普拉斯近似的算法实现密度估计任务。对于图像数据的建模和生成任务,该研究引入了图像类别信息在MNIST(784维)和CIFAR-10数据集(3072维)上进行了条件概率密度估计以及条件数据生成(图1),其中每个类别的图片按照估计的概率密度从高到低排序。从图中可看出,生成图片质量和估计的概率密度具有一定的关联性。研究团队还利用条件概率密度估计以及贝叶斯后验的方法构建了图片分类模型,例如在MNIST数据集上,Roundtrip在测试集的分类准确率高达98.3%。

https://www.pnas.org/content/118/15/e2101344118

#post-12236
ntry-header

#post-12235
ntry-header

2021年3月26日,宾夕法尼亚州州立大学Bing Li教授通过线上平台“云访问”我中心,与中心教员一对一交流,并做特邀报告。报告题目是Sufficient Graphical Models。

#post-12234