ntry-header

2023年2月,清华大学统计学研究中心侯琳副教授课题组在Nature Communications上发表了题为Quantifying portable genetic effects and improving cross-ancestry genetic prediction with GWAS summary statistics的研究论文[1],课题组2022届郭瀚民博士为该文的共同第一作者,侯琳副教授和威斯康辛大学麦迪逊分校吕琼石助理教授为该论文的共同通讯作者,威斯康辛大学麦迪逊分校的缪嘉诚为共同第一作者,宋格非、赵梓杰为本文的共同作者。

多基因风险评分是基于全基因组关联分析实验的复杂疾病遗传风险预测算法,对疾病的精准预防和治疗有重要应用价值。现有方法主要基于欧洲人群的全基因组关联分析研究,相应模型在欧洲人群中有较好的预测效果,但在其他人群中预测效果欠佳。研究团队针对跨种族遗传风险预测问题开展研究,首先发展了挖掘种族间局部遗传相关性的统计方法,进一步提出基于相关性区域注释的贝叶斯多基因风险评分方法,实现跨种族疾病遗传信息迁移;经模拟数据和实际数据验证,该方法可以显著提高疾病风险预测的准确性。此外,研究团队还开发了实现上述算法的软件包X-Wing[2],将该方法应用于英国、日本等生物样本库(UK Biobank, Biobank Japan)。测试结果显示,该方法可以显著提高样本中的非欧人群遗传风险预测准确性,对改善种族间遗传资源不平衡的现状具有重要意义。

 

#post-12398
ntry-header

近日,清华大学统计学研究中心王天颖助理教授课题组在国际知名统计学期刊Journal of the American Statistical Association(简称“JASA”)发表题为“A Flexible Zero-Inflated Poisson-Gamma Model with Application to Microbiome Sequence Count Data”的研究论文,提出了一种新的方法用于微生物组数据分析。清华大学统计学研究中心2022级博士研究生江柔蓝为本文第一作者,中心王天颖助理教授和北京大学生物统计系占翔副教授为本文通讯作者。

人体中生活着大量微生物,这些微生物群落受到人体环境的影响,也同时影响着人类的生命健康。近年来,飞速发展的高通量测序技术,如16s rRNA测序和宏基因组测序(metagenomic shotgun sequencing),为微生物群落的定量分析提供了便利。这些测序方法产生的数据以计数表的形式呈现,表示样本中各个微生物分类群(taxa)的丰度。微生物组数据往往具有零膨胀(zero inflation)和过度分散(over-dispersion)的特点,且受到人体环境的动态变化以及不同的测序技术的影响,观察到的计数数据往往与真实的微生物分类群丰度存在差异。为了研究某一微生物分类群与特定协变量的关联,现有的方法通常使用负二项分布或零膨胀负二项分布对计数数据建模,但是这些方法忽略了协变量对微生物群落稳定性的可能影响,尤其在纵向数据(Longitudinal Data)的分析中,已有证据表明疾病等因素会使微生物群落组成变得更不稳定,出现生态失调(dysbiosis)现象。为此,本文提出了零膨胀泊松-伽马模型(Zero-Inflated Poisson-Gamma,ZIPG),其中用伽马分布表示微生物组丰度相对无法观测到的真实均值的波动,能够更灵活地处理数据过度分散的特点。在纵向数据的分析中,通过将过度分散参数与时间无关(time-independent)的协变量关联起来,可以分析年龄、饮食习惯等长期状态对微生物组稳定性的影响。

ZIPG与微生物数据主流分析方法的假设检验结果比较

在ZIPG的框架下,本文进一步提出了相应的参数估计和假设检验方法。通过bootstrap方法可以检验微生物分类群的丰度和过度分散程度如何分别地受到协变量影响,并得到相应参数的置信区间。与其他方法相比,ZIPG能够更好地控制第一类错误率,并且检测出其他方法无法发现的微生物稳定性差异。最后,本文将ZIPG应用在两组真实数据中:在阴道微生物组数据中分析了怀孕、年龄等因素对微生物丰度和过度分散程度的影响;在肠道微生物数据中分析了饮酒等因素对微生物丰度和过度分散程度的影响。在两例数据中,ZIPG模型都能更好地拟合真实数据的分布,且找到了更多与感兴趣的协变量相关联的微生物分类群,为生物医学领域的进一步研究提供了线索。

文章链接:

https://doi.org/10.1080/01621459.2022.2151447

#post-12386
ntry-header

2022年11月8日,由海关总署主办的“非关税贸易措施高质量发展论坛”在上海国家会展中心隆重召开,该论坛作为“第五届中国国际进口博览会”配套高峰论坛之一引起广泛关注。论坛以“非关税贸易措施”为主题,围绕“双碳+经济高质量发展、冷链+国门生物安全、数据+指数体系构建、友人+人类命运共同体、企业+产品走向世界”五个议题展开探讨。第十二届全国政协副主席马培华、海关总署副署长孙玉宁、第十三届全国人大农业与农村委员会委员张沁荣、中国进出境生物安全研究会会长王炜、海关总署各司局及地方海关工作人员、国内外的权威学者、专家院士、知名企业家及驻华使节百余人受邀出席论坛。在本次论坛上,海关总署将清华大学统计学研究中心邓柯副教授团队主持研发的“技术贸易措施综合指数体系”作为重点成果进行了发布,得到了各界的强烈关注和广泛好评。央视新闻频道对相关成果进行了报道。

全国人大农业与农村委员会委员、原国家质检总局副局长张沁荣,中国进出口生物安全研究会会长、中纪委原副部级巡视员王炜,中国工程院沈建忠、张改平、范维澄、马军院士,欧洲科学院外籍院士、清华大学孙茂松教授和清华大学统计学研究中心邓柯副教授等专家学者受邀做主旨演讲。

邓柯副教授发表题为“构建技术贸易措施综合指数体系,助力经济高质量发展”的主题演讲。在演讲中,邓柯副教授简要介绍了清华大学统计学团队与海关总署标准与法规中心专家团队在构建“技术贸易措施综合指数体系”方面的研究成果。相关研究综合运用统前沿计学方法和人工智能技术,将海量非结构化、非标准化的技术贸易措施通报转化为结构化、标准化的数据库,进而构建并测算“技术贸易措施开放指数”、“技术贸易措施全球动态图谱”、“全球技术贸易措施综合指数”、“技术贸易措施损害指数”等指数体系,从不同角度和维度分析并呈现全球技术贸易措施当前现状、发展动态和演化趋势,为政府决策提供重要技术支撑。

央视新闻报道特别提及清华大学统计学研究中心与海关总署的合作研究
孙茂松教授接受央视新闻频道专访

欧洲科学院院士、中国人工智能学会会士、清华大学计算机科学与技术系孙茂松教授发表题为“运用前沿人工智能助力技术贸易措施综合指数研究”的主题演讲。孙教授表示,面对海关系统海量技术贸易措施文件的数据处理需求,近年来快速发展的自然语言处理技术大有用武之地。将前沿人工智能技术与技术贸易措施研究的具体场景,特别是技术贸易措施综合指数的深入结合,会大幅度提升信息提取和处理的效率,推动技术贸易措施研究迈向智能化,助力相关政府部门和产业界提升贸易能力、减小贸易损失,助力我国经济的高质量发展以及人类命运共同体的建构。在论坛期间,孙茂松教授还接受了央视新闻频道专访,呼吁将人工智能技术与政务大数据研究更加紧密结合。

央视新闻频道“朝闻天下”报道此次论坛

#post-12369
ntry-header

近日,清华大学统计学研究中心邓柯副教授课题组与美国弗吉尼亚大学臧充之教授团队合作,在生物统计学顶级期刊Nature Communications发表了题为Intrinsic bias estimation for improved analysis of bulk and single-cell chromatin accessibility profiles using SELMA的论文。该文章利用单纯形编码改进了高通量测序数据中序列偏倚的量化模型,可以更准确地估计并修正序列偏倚这一酶切内禀属性对开放染色质测序数据的影响。臧充之教授团队的胡圣恩博士为该文的第一作者,邓柯副教授和其课题组李祺博士为共同作者。

全基因组染色质开放区域的分析是研究表观遗传与基因转录调控的主要手段之一。染色质可及性(chromatin accessibility)高通量测序技术(包括基于DNaseI的DNase-seq技术以及基于Tn5转座酶的ATAC-seq技术)可以用来测定全基因组尺度的染色质开放区域图谱,并进而推断细胞核内的转录因子DNA结合位点以及基因表达调控的信息。虽然DNase-seq技术和ATAC-seq技术均为,但DNaseI和Tn5转座酶对于DNA的酶切作用仍然带有一定的序列偏好性,这种偏好性会混杂在高通量测序数据中,给数据分析带来潜在挑战。该现象曾经由哈佛大学刘小乐教授和Myles Brown教授团队在2013年提出。

将ATAC-seq技术与近年来被广泛应用的单细胞测序技术相结合,目前我们可以使用单细胞ATAC-seq(scATAC-seq)方法描绘出单细胞(single cell)或单细胞核(single nucleus)尺度上的染色质开放区域,因此可以极大的拓展数据量,但由于scATAC-seq数据在单细胞层面上极其稀疏,Tn5转座酶的序列偏好性可能造成更为严重的影响。如何对大量单细胞的开放染色质测序数据进行有效纠偏,提升高通量数据的生物学可解释性,仍是计算生物学领域内的一个重要问题。

在该文章中,作者提出了名为SELMA (Simplex Encoded Linear Model for Accessible Chromatin)的开放染色质测序数据纠偏算法。在该算法中,作者使用单纯形编码(simplex encoding)模型取代了传统的k-mer模型,从而大大减小了模型参数,参数由缩减为12k-8。在此前提下,该文章可以回收传统DNase-seq/ATAC-seq数据分析中通常被丢弃的线粒体DNA测序片段,用这些数量较小、组成多样性较低的序列片段来准确估计样品数据中的偏倚水平,以此解决了传统方法需要外加DNA酶切样品数据集作为独立参考来进行偏倚水平估计的问题。与此同时,通过分析不同平台产生的单细胞scATAC-seq数据,该方法首次研究了酶切序列内禀偏倚对单细胞开放染色质测序的影响,使用针对单细胞数据的SELMA算法纠偏后,修正的scATAC-seq数据可以获得更加准确的细胞聚类结果。

#post-12366
ntry-header

2022年8月31日至9月5日,“中国国际服务贸易交易会”(简称“服贸会”)在京隆重召开。作为“服贸会”配套的高端论坛活动之一,由中华人民共和国海关总署主办的“技术贸易措施助力经济高质量发展和国门生物安全建设高峰论坛”于9月4日在国家会议中心成功举办。论坛围绕“技术贸易措施”主题,从“新形势下技术贸易措施的独特内涵与特征”、“技术贸易措施工作助力经济高质量发展”、“国门生物安全与技术贸易措施对我国治理体系建设的重大影响”三个主题展开研讨。海关总署和北京市相关领导、多国驻华使节和相关领域的专家学者一百余人出席了高峰论坛。

论坛现场

全国人大农业与农村委员会委员、原国家质检总局副局长张沁荣,中国进出口生物安全研究会会长、中纪委原副部级巡视员王炜,中国工程院陈君石院士、陈薇院士、沈建忠院士,中国科学院陈松蹊院士和清华大学统计学研究中心邓柯副教授等专家学者受邀在论坛上做了主题发言。

部分嘉宾做主题发言

陈松蹊院士发表题为“运用统计学强化技术贸易措施研究,助力经济高质量发展”的主题演讲。陈院士在发言中指出:随着全球关税水平逐年稳步下降,以技术贸易措施为代表的非关税贸易壁垒已经成为世界各国调整贸易利益的重要手段;运用前沿数据分析方法对技术贸易措施进行深入研究,能够有效保护我国的贸易利益,减少贸易损失,保障贸易安全,助力经济高质量发展,具有重大意义。陈院士还强调:在政务大数据处理中,以先进的统计学理念做好数据治理是基础,将前沿的数据科学技术灵活运用是关键。作为统计学家的代表,陈院士还呼吁并期待统计学在各行各业中会发挥越来越重要的作用,为经济高质量发展做出更多的贡献。

陈松蹊院士在演讲中

邓柯副教授发表题为“构建技术贸易措施综合指数体系,助力经济高质量发展”的主题演讲。在演讲中,邓柯副教授简要介绍了清华大学统计学团队与海关总署标准与法规中心专家团队在构建“技术贸易措施综合指数体系”方面的研究成果。相关研究综合运用统前沿计学方法和数据科学技术,将海量非结构化、非标准化的技术贸易措施通报转化为结构化、标准化的数据库,进而构建并测算“技术贸易措施开放指数”、“技术贸易措施全球动态图谱”、“全球技术贸易措施综合指数”、“技术贸易措施损害指数”等指数体系,从不同角度和维度分析并呈现全球技术贸易措施当前现状、发展动态和演化趋势,为政府决策提供重要技术支撑。

邓柯副教授在演讲中

陈松蹊院士和邓柯副教授的发言引起了与会各界的强烈关注,在服贸会上代表统计学科发出了强音。中央电视台新闻频道报道了相关活动,新闻报道链接如下。

#post-12349
ntry-header

近日,2022年中国国际服务贸易交易会(以下简称“服贸会”)在北京成功举办,作为本届服贸会亮点之一的“首届卫生健康与工业科技创新服务大会”同期于国家会议中心召开。该会议由工业和信息化部、国家卫生健康委员会和北京市人民政府共同发起主办,聚焦医药创新、成果转化、医工交叉,探讨新形势下医药工业与卫生健康产业融合创新发展,展示前沿技术与创新成果,搭建跨领域、大协作的创新服务平台。

本届卫生健康与工业科技创新服务大会特别设立了“医工成果转化与投融资论坛”专题版块,该版块聚焦“成果转化赋能产业发展”,聚集政府部门、医疗卫生机构、高校及科研院所、企业、投资机构等创新主体,解读政策监管创新,分享成功经验,拓宽投融资渠道,助推医工融合创新科技成果产业化落地。

清华大学统计学研究中心俞声副教授课题组和粤港澳大湾区数字经济研究院(IDEA)AI平台技术研究中心联合开发的大型开放生物医学知识图谱——“生物医学信息学本体系统”BIOS(Biomedical Informatics Ontology System)受邀于“医工成果转化与投融资论坛”亮相。BIOS自去年11月发布以来受到广泛关注,今年7月历经重大更新,实现通过借助算法挖掘收录了2800万概念、5500万中英文术语和1.1亿关系三元组,规模上达美国国立卫生院国家医学图书馆开发的“一体化医学语言系统”UMLS(Unified Medical Language System,简称“UMLS”)数倍,同时在术语的纯净度和覆盖度上相比UMLS呈现明显优势,跃升为全球最大开放生物医学知识图谱。

粤港澳大湾区数字经济研究院工程总监谢育涛代表研发团队进行“开放医学知识图谱助力医疗信息平台建设”的主题分享。统计中心俞声副教授作为研发团队代表现场出席论坛。BIOS不但在技术层面达到国际领先水平,更以全公开、全开放的态度助力国内医疗信息领域和AI医疗产业的发展。

#post-12347
ntry-header

近日,清华大学统计学研究中心刘汉中副教授课题组在国际知名统计学期刊Biometrika发表题为“Design-based theory for cluster rerandomization”的研究论文。清华大学统计学研究中心2020级博士研究生卢鑫是该文的第一作者,哈佛大学博士研究生刘天乐是第二作者,刘汉中副教授与加州大学伯克利分校的丁鹏副教授共同指导了相关研究与论文撰写。

群组随机化试验被广泛地应用在社会科学、公共卫生等领域。它可以避免群组内部试验个体之间的交互,是在个体水平的处理分配不可实施的情形下一种替代的试验设计方法。群组随机化试验在群组的水平分配处理,同一个群组内部的个体会分配到同一个处理。群组重随机化是在群组随机化试验中运用重随机化的试验设计方法,通过丢弃掉不平衡的分配方式来达到平衡协变量的目的。重随机化最常用的平衡性准则有马氏距离准则,加权欧氏距离准则和多层马氏距离准则。马氏距离准则把各个协变量看成是同等重要的。当存在协变量重要程度的先验信息时,加权欧氏距离准则和多层马氏距离准则是更常用的方法。

该论文首先研究了群组重随机化下平均因果效应估计的渐近理论,证明了重随机化可以提高平均因果效应的估计精度。其次该论文比较了不同群组重随机化平衡性准则的效率,即在相同接受概率下对估计量渐近方差的减小量,证明了当协变量进行正交化之后,最优的加权欧式距离准则优于多层马氏距离准测。论文最后讨论了群组重随机化下的协变量回归调整方法,证明了在重随机化下,Su & Ding (2021)提出的模型辅助的点估计和区间估计仍然适用。这一结果对于因果推断的实践具有重要指导意义。

论文链接:

https://doi.org/10.1093/biomet/asac045

#post-12345
ntry-header

2022年7月,清华大学统计学研究中心侯琳副教授课题组与生命科学学院张强锋副教授课题组合作在 Nature Communications 期刊上在线发表了题为“Differential analysis of RNA structure probing experiments at nucleotide resolution: uncovering regulatory functions of RNA structure ”的研究论文(https://www.nature.com/articles/s41467-022-31875-3)。该研究提出了一个兼容多种RNA结构探测数据的标准化及结构差异分析的计算框架。该方法可以在单碱基分辨率水平评估RNA结构差异区域,为探索RNA结构在不同生物学过程中发挥的作用提供强有力的支持。同时,该研究还开发了相应的软件包 DiffScan(https://github.com/yub18/DiffScan)供广大研究人员使用。清华大学统计学研究中心2018级博士研究生余博是该文章的第一作者,清华大学生命科学学院的博士毕业生李盼亦参与了该项研究。此外,该研究得到了国家自然科学基金和国家重点研发计划的支持。

RNA通过形成特定的结构发挥相应的功能,并且RNA结构在不同的细胞环境中往往存在差异。因此,通过对不同条件下的RNA结构组数据进行准确的结构差异区域分析,对于揭示RNA在不同生物学过程中的功能及作用机制至关重要。考虑到高通量的RNA结构探索技术产生的实验数据往往存在高维度、高噪音等特点,RNA结构的差异分析存在较大难度。在本研究中,研究团队提出针对高通量结构探测数据的标准化和差异分析计算框架DiffScan,该方法首先对结构探测数据进行标准化以移除系统性偏差,再运用扫描统计量在RNA结构组中识别结构差异区域。

DiffScan 的独特贡献在于:(1)其标准化模块能有效地移除实验间存在的系统性偏差,并充分保留结构差异信号;(2)其扫描统计量能够在单碱基分辨率水平自适应地识别结构差异区域的位置与长度;(3)该计算框架可以兼容包括icSHAPE、DMS-seq在内的多种高通量RNA结构探测技术产生的实验数据。

研究团队将DiffScan应用于不同亚细胞的RNA结构组数据中,通过结合相关的基序富集分析阐明了RNA结构变化与mRNA丰度之间的潜在联系可能是由包括serine/arginine rich splicing factors在内的特定RNA结合蛋白所介导的。因此,该研究也证明了DiffScan是破译RNA结构组数据的有效手段。

#post-12343
ntry-header

2022年7月,由清华大学统计学研究中心俞声课题组和粤港澳大湾区数字经济研究院(IDEA)AI平台技术研究中心联合开发的大型开放生物医学知识图谱——“生物医学信息学本体系统”BIOS(Biomedical Informatics Ontology System)迎来重大更新,跃升成为世界最大的开放生物医学知识图谱。(https://bios.idea.edu.cn

生物医学知识图谱是一种由生物医学概念、术语、关系以及ID系统等要素构成的特殊数据库,是生物医学信息学的重要基础设施。一直以来,由美国开发的“一体化医学语言系统”UMLS(Unified Medical Language System)是生物医学知识图谱的标杆,以455万概念、2095万关系的巨大规模和开放属性,为英文领域生物医药大数据分析、自然语言处理、人工智能开发和数据交换做出了卓越贡献。中文领域由于缺乏可开放获取的大型生物医学知识图谱,导致国内的医学大数据分析缺乏平台基础,科研与技术发展受到严重制约。同时,基于多数据库整合和专家整理的UMLS也日渐老化,其数据质量与发展速度已无法满足大数据与人工智能时代的需要。

基于算法驱动、开源开放理念,以CC BY-NC-ND 4.0协议发布的BIOS中英文知识图谱自2021年11月发布以来受到了广泛关注。BIOS是首个完全由机器学习算法生成的大型开放生物医学知识图谱,其术语发现、语义分析、概念生成、关系发现、跨语言对齐完全由模型自动实现。在本次更新中,研发团队根据真实数据效果,不断强化算法技术,终于取得了振奋人心的突破性进展,使新版BIOS(2022V2版)一举达到了2848万概念、5456万术语(3348万英文、2108万中文)的巨大体量,术语质量也得到进一步提升。

而为了满足如此体量概念的关系挖掘,研究团队创新地提出了由“基于文本的关系提取”到“基于大模型自有知识的关系生成”的模式转变,获得了1.12亿个关系三元组。目前BIOS只包含知识图谱的骨架“上下位关系”的预测,更丰富的关系将在下半年的更新中发布。

对比开发已有35年的UMLS,BIOS在短短一年半的时间里,使体量达到了UMLS的数倍,不仅扭转了中文领域缺乏大型开放生物医学知识图谱的困难局面,更充分证明了人工智能的巨大潜力。同时,通过BIOS系统的研发,统计学研究中心培养了一批具有数据科学方向理论创新与实战能力的优秀本科生与博士生。未来,统计学研究中心将与IDEA研究院以及更多国内外顶尖医院、科研机构合作,不断扩大和完善BIOS的内容、质量以及相关系统建设,带动并引领生物医学大数据与人工智能行业的发展。

#post-12342
ntry-header

2022616日,“第六届北大清华统计论坛”成功举办。北大清华统计论坛是北大清华两校统计学科的传统学术活动,由北京大学统计科学中心和清华大学统计学研究中心联合发起,至今已成功举办六届。

随着两校统计学科的发展和人才队伍的壮大,北大-清华统计论坛的参会者逐年增加,本届论坛累计共有两百余人参会,除清北两校师生外还受到了很多其他高校和业界的学者关注。在这个特殊时期,两校统计学科的师生通过线上平台“云见面”及交流,活动精彩依旧。清华大学张学工教授和北京大学的丁剑教授分别代表两校作大会特邀报告。

两校教员云合影

作为本届论坛的主办方,清华大学统计学研究中心执行主任邓柯副教授致开幕词。邓柯回顾了两校统计学科近年来取得的成绩和两校统计学者们为推动统计学科的发展所付出的努力,同时也期待两校统计学科在新一轮学科建设中再获佳绩。

特邀报告一:《单细胞数据分析、ECA与数基虚拟细胞实验》 特邀报告人:清华大学 张学工 教授
北京大学统计科学中心主任姚方教授讲话,并介绍本届论坛的另一位特邀报告嘉宾-新加入北京大学的丁剑教授,以及丁剑教授近年来所取得的学术成就。
特邀报告二:《Matching recovery from noisy network: many problems and some progress》
特邀报告人:北京大学 丁剑 教授
海报展示与评选

海报展示与评选也是北大-清华统计论坛的经典环节,北大、清华两校的博士研究生们针对各自的研究成果进行海报展示,深入沟通交流。

线上海报展示与评选场景

颁奖环节由北京大学苗旺老师主持并宣布。经过紧张激烈的评选,清华大学统计学研究中心18级博士研究生朱珂、19级博士研究生郑思捷,北京大学数学科学学院18级博士研究生王惠远、统计科学中心18级博士研究生邵凌轩获评“优秀海报奖”。

清华大学统计学研究中心17级博士研究生李杰

北京大学统计科学中心17级博士研究生杨莹

获评本年度“优秀毕业生”称号。

#post-12339