ntry-header

近日,清华大学统计学研究中心邓柯副教授课题组与美国弗吉尼亚大学臧充之教授团队合作,在生物统计学顶级期刊Nature Communications发表了题为Intrinsic bias estimation for improved analysis of bulk and single-cell chromatin accessibility profiles using SELMA的论文。该文章利用单纯形编码改进了高通量测序数据中序列偏倚的量化模型,可以更准确地估计并修正序列偏倚这一酶切内禀属性对开放染色质测序数据的影响。臧充之教授团队的胡圣恩博士为该文的第一作者,邓柯副教授和其课题组李祺博士为共同作者。

全基因组染色质开放区域的分析是研究表观遗传与基因转录调控的主要手段之一。染色质可及性(chromatin accessibility)高通量测序技术(包括基于DNaseI的DNase-seq技术以及基于Tn5转座酶的ATAC-seq技术)可以用来测定全基因组尺度的染色质开放区域图谱,并进而推断细胞核内的转录因子DNA结合位点以及基因表达调控的信息。虽然DNase-seq技术和ATAC-seq技术均为,但DNaseI和Tn5转座酶对于DNA的酶切作用仍然带有一定的序列偏好性,这种偏好性会混杂在高通量测序数据中,给数据分析带来潜在挑战。该现象曾经由哈佛大学刘小乐教授和Myles Brown教授团队在2013年提出。

将ATAC-seq技术与近年来被广泛应用的单细胞测序技术相结合,目前我们可以使用单细胞ATAC-seq(scATAC-seq)方法描绘出单细胞(single cell)或单细胞核(single nucleus)尺度上的染色质开放区域,因此可以极大的拓展数据量,但由于scATAC-seq数据在单细胞层面上极其稀疏,Tn5转座酶的序列偏好性可能造成更为严重的影响。如何对大量单细胞的开放染色质测序数据进行有效纠偏,提升高通量数据的生物学可解释性,仍是计算生物学领域内的一个重要问题。

在该文章中,作者提出了名为SELMA (Simplex Encoded Linear Model for Accessible Chromatin)的开放染色质测序数据纠偏算法。在该算法中,作者使用单纯形编码(simplex encoding)模型取代了传统的k-mer模型,从而大大减小了模型参数,参数由缩减为12k-8。在此前提下,该文章可以回收传统DNase-seq/ATAC-seq数据分析中通常被丢弃的线粒体DNA测序片段,用这些数量较小、组成多样性较低的序列片段来准确估计样品数据中的偏倚水平,以此解决了传统方法需要外加DNA酶切样品数据集作为独立参考来进行偏倚水平估计的问题。与此同时,通过分析不同平台产生的单细胞scATAC-seq数据,该方法首次研究了酶切序列内禀偏倚对单细胞开放染色质测序的影响,使用针对单细胞数据的SELMA算法纠偏后,修正的scATAC-seq数据可以获得更加准确的细胞聚类结果。

#post-12366
ntry-header

2022年8月31日至9月5日,“中国国际服务贸易交易会”(简称“服贸会”)在京隆重召开。作为“服贸会”配套的高端论坛活动之一,由中华人民共和国海关总署主办的“技术贸易措施助力经济高质量发展和国门生物安全建设高峰论坛”于9月4日在国家会议中心成功举办。论坛围绕“技术贸易措施”主题,从“新形势下技术贸易措施的独特内涵与特征”、“技术贸易措施工作助力经济高质量发展”、“国门生物安全与技术贸易措施对我国治理体系建设的重大影响”三个主题展开研讨。海关总署和北京市相关领导、多国驻华使节和相关领域的专家学者一百余人出席了高峰论坛。

论坛现场

全国人大农业与农村委员会委员、原国家质检总局副局长张沁荣,中国进出口生物安全研究会会长、中纪委原副部级巡视员王炜,中国工程院陈君石院士、陈薇院士、沈建忠院士,中国科学院陈松蹊院士和清华大学统计学研究中心邓柯副教授等专家学者受邀在论坛上做了主题发言。

部分嘉宾做主题发言

陈松蹊院士发表题为“运用统计学强化技术贸易措施研究,助力经济高质量发展”的主题演讲。陈院士在发言中指出:随着全球关税水平逐年稳步下降,以技术贸易措施为代表的非关税贸易壁垒已经成为世界各国调整贸易利益的重要手段;运用前沿数据分析方法对技术贸易措施进行深入研究,能够有效保护我国的贸易利益,减少贸易损失,保障贸易安全,助力经济高质量发展,具有重大意义。陈院士还强调:在政务大数据处理中,以先进的统计学理念做好数据治理是基础,将前沿的数据科学技术灵活运用是关键。作为统计学家的代表,陈院士还呼吁并期待统计学在各行各业中会发挥越来越重要的作用,为经济高质量发展做出更多的贡献。

陈松蹊院士在演讲中

邓柯副教授发表题为“构建技术贸易措施综合指数体系,助力经济高质量发展”的主题演讲。在演讲中,邓柯副教授简要介绍了清华大学统计学团队与海关总署标准与法规中心专家团队在构建“技术贸易措施综合指数体系”方面的研究成果。相关研究综合运用统前沿计学方法和数据科学技术,将海量非结构化、非标准化的技术贸易措施通报转化为结构化、标准化的数据库,进而构建并测算“技术贸易措施开放指数”、“技术贸易措施全球动态图谱”、“全球技术贸易措施综合指数”、“技术贸易措施损害指数”等指数体系,从不同角度和维度分析并呈现全球技术贸易措施当前现状、发展动态和演化趋势,为政府决策提供重要技术支撑。

邓柯副教授在演讲中

陈松蹊院士和邓柯副教授的发言引起了与会各界的强烈关注,在服贸会上代表统计学科发出了强音。中央电视台新闻频道报道了相关活动,新闻报道链接如下。

#post-12349
ntry-header

近日,2022年中国国际服务贸易交易会(以下简称“服贸会”)在北京成功举办,作为本届服贸会亮点之一的“首届卫生健康与工业科技创新服务大会”同期于国家会议中心召开。该会议由工业和信息化部、国家卫生健康委员会和北京市人民政府共同发起主办,聚焦医药创新、成果转化、医工交叉,探讨新形势下医药工业与卫生健康产业融合创新发展,展示前沿技术与创新成果,搭建跨领域、大协作的创新服务平台。

本届卫生健康与工业科技创新服务大会特别设立了“医工成果转化与投融资论坛”专题版块,该版块聚焦“成果转化赋能产业发展”,聚集政府部门、医疗卫生机构、高校及科研院所、企业、投资机构等创新主体,解读政策监管创新,分享成功经验,拓宽投融资渠道,助推医工融合创新科技成果产业化落地。

清华大学统计学研究中心俞声副教授课题组和粤港澳大湾区数字经济研究院(IDEA)AI平台技术研究中心联合开发的大型开放生物医学知识图谱——“生物医学信息学本体系统”BIOS(Biomedical Informatics Ontology System)受邀于“医工成果转化与投融资论坛”亮相。BIOS自去年11月发布以来受到广泛关注,今年7月历经重大更新,实现通过借助算法挖掘收录了2800万概念、5500万中英文术语和1.1亿关系三元组,规模上达美国国立卫生院国家医学图书馆开发的“一体化医学语言系统”UMLS(Unified Medical Language System,简称“UMLS”)数倍,同时在术语的纯净度和覆盖度上相比UMLS呈现明显优势,跃升为全球最大开放生物医学知识图谱。

粤港澳大湾区数字经济研究院工程总监谢育涛代表研发团队进行“开放医学知识图谱助力医疗信息平台建设”的主题分享。统计中心俞声副教授作为研发团队代表现场出席论坛。BIOS不但在技术层面达到国际领先水平,更以全公开、全开放的态度助力国内医疗信息领域和AI医疗产业的发展。

#post-12347
ntry-header

近日,清华大学统计学研究中心刘汉中副教授课题组在国际知名统计学期刊Biometrika发表题为“Design-based theory for cluster rerandomization”的研究论文。清华大学统计学研究中心2020级博士研究生卢鑫是该文的第一作者,哈佛大学博士研究生刘天乐是第二作者,刘汉中副教授与加州大学伯克利分校的丁鹏副教授共同指导了相关研究与论文撰写。

群组随机化试验被广泛地应用在社会科学、公共卫生等领域。它可以避免群组内部试验个体之间的交互,是在个体水平的处理分配不可实施的情形下一种替代的试验设计方法。群组随机化试验在群组的水平分配处理,同一个群组内部的个体会分配到同一个处理。群组重随机化是在群组随机化试验中运用重随机化的试验设计方法,通过丢弃掉不平衡的分配方式来达到平衡协变量的目的。重随机化最常用的平衡性准则有马氏距离准则,加权欧氏距离准则和多层马氏距离准则。马氏距离准则把各个协变量看成是同等重要的。当存在协变量重要程度的先验信息时,加权欧氏距离准则和多层马氏距离准则是更常用的方法。

该论文首先研究了群组重随机化下平均因果效应估计的渐近理论,证明了重随机化可以提高平均因果效应的估计精度。其次该论文比较了不同群组重随机化平衡性准则的效率,即在相同接受概率下对估计量渐近方差的减小量,证明了当协变量进行正交化之后,最优的加权欧式距离准则优于多层马氏距离准测。论文最后讨论了群组重随机化下的协变量回归调整方法,证明了在重随机化下,Su & Ding (2021)提出的模型辅助的点估计和区间估计仍然适用。这一结果对于因果推断的实践具有重要指导意义。

论文链接:

https://doi.org/10.1093/biomet/asac045

#post-12345
ntry-header

2022年7月,清华大学统计学研究中心侯琳副教授课题组与生命科学学院张强锋副教授课题组合作在 Nature Communications 期刊上在线发表了题为“Differential analysis of RNA structure probing experiments at nucleotide resolution: uncovering regulatory functions of RNA structure ”的研究论文(https://www.nature.com/articles/s41467-022-31875-3)。该研究提出了一个兼容多种RNA结构探测数据的标准化及结构差异分析的计算框架。该方法可以在单碱基分辨率水平评估RNA结构差异区域,为探索RNA结构在不同生物学过程中发挥的作用提供强有力的支持。同时,该研究还开发了相应的软件包 DiffScan(https://github.com/yub18/DiffScan)供广大研究人员使用。清华大学统计学研究中心2018级博士研究生余博是该文章的第一作者,清华大学生命科学学院的博士毕业生李盼亦参与了该项研究。此外,该研究得到了国家自然科学基金和国家重点研发计划的支持。

RNA通过形成特定的结构发挥相应的功能,并且RNA结构在不同的细胞环境中往往存在差异。因此,通过对不同条件下的RNA结构组数据进行准确的结构差异区域分析,对于揭示RNA在不同生物学过程中的功能及作用机制至关重要。考虑到高通量的RNA结构探索技术产生的实验数据往往存在高维度、高噪音等特点,RNA结构的差异分析存在较大难度。在本研究中,研究团队提出针对高通量结构探测数据的标准化和差异分析计算框架DiffScan,该方法首先对结构探测数据进行标准化以移除系统性偏差,再运用扫描统计量在RNA结构组中识别结构差异区域。

DiffScan 的独特贡献在于:(1)其标准化模块能有效地移除实验间存在的系统性偏差,并充分保留结构差异信号;(2)其扫描统计量能够在单碱基分辨率水平自适应地识别结构差异区域的位置与长度;(3)该计算框架可以兼容包括icSHAPE、DMS-seq在内的多种高通量RNA结构探测技术产生的实验数据。

研究团队将DiffScan应用于不同亚细胞的RNA结构组数据中,通过结合相关的基序富集分析阐明了RNA结构变化与mRNA丰度之间的潜在联系可能是由包括serine/arginine rich splicing factors在内的特定RNA结合蛋白所介导的。因此,该研究也证明了DiffScan是破译RNA结构组数据的有效手段。

#post-12343
ntry-header

2022年7月,由清华大学统计学研究中心俞声课题组和粤港澳大湾区数字经济研究院(IDEA)AI平台技术研究中心联合开发的大型开放生物医学知识图谱——“生物医学信息学本体系统”BIOS(Biomedical Informatics Ontology System)迎来重大更新,跃升成为世界最大的开放生物医学知识图谱。(https://bios.idea.edu.cn

生物医学知识图谱是一种由生物医学概念、术语、关系以及ID系统等要素构成的特殊数据库,是生物医学信息学的重要基础设施。一直以来,由美国开发的“一体化医学语言系统”UMLS(Unified Medical Language System)是生物医学知识图谱的标杆,以455万概念、2095万关系的巨大规模和开放属性,为英文领域生物医药大数据分析、自然语言处理、人工智能开发和数据交换做出了卓越贡献。中文领域由于缺乏可开放获取的大型生物医学知识图谱,导致国内的医学大数据分析缺乏平台基础,科研与技术发展受到严重制约。同时,基于多数据库整合和专家整理的UMLS也日渐老化,其数据质量与发展速度已无法满足大数据与人工智能时代的需要。

基于算法驱动、开源开放理念,以CC BY-NC-ND 4.0协议发布的BIOS中英文知识图谱自2021年11月发布以来受到了广泛关注。BIOS是首个完全由机器学习算法生成的大型开放生物医学知识图谱,其术语发现、语义分析、概念生成、关系发现、跨语言对齐完全由模型自动实现。在本次更新中,研发团队根据真实数据效果,不断强化算法技术,终于取得了振奋人心的突破性进展,使新版BIOS(2022V2版)一举达到了2848万概念、5456万术语(3348万英文、2108万中文)的巨大体量,术语质量也得到进一步提升。

而为了满足如此体量概念的关系挖掘,研究团队创新地提出了由“基于文本的关系提取”到“基于大模型自有知识的关系生成”的模式转变,获得了1.12亿个关系三元组。目前BIOS只包含知识图谱的骨架“上下位关系”的预测,更丰富的关系将在下半年的更新中发布。

对比开发已有35年的UMLS,BIOS在短短一年半的时间里,使体量达到了UMLS的数倍,不仅扭转了中文领域缺乏大型开放生物医学知识图谱的困难局面,更充分证明了人工智能的巨大潜力。同时,通过BIOS系统的研发,统计学研究中心培养了一批具有数据科学方向理论创新与实战能力的优秀本科生与博士生。未来,统计学研究中心将与IDEA研究院以及更多国内外顶尖医院、科研机构合作,不断扩大和完善BIOS的内容、质量以及相关系统建设,带动并引领生物医学大数据与人工智能行业的发展。

#post-12342
ntry-header

2022616日,“第六届北大清华统计论坛”成功举办。北大清华统计论坛是北大清华两校统计学科的传统学术活动,由北京大学统计科学中心和清华大学统计学研究中心联合发起,至今已成功举办六届。

随着两校统计学科的发展和人才队伍的壮大,北大-清华统计论坛的参会者逐年增加,本届论坛累计共有两百余人参会,除清北两校师生外还受到了很多其他高校和业界的学者关注。在这个特殊时期,两校统计学科的师生通过线上平台“云见面”及交流,活动精彩依旧。清华大学张学工教授和北京大学的丁剑教授分别代表两校作大会特邀报告。

两校教员云合影

作为本届论坛的主办方,清华大学统计学研究中心执行主任邓柯副教授致开幕词。邓柯回顾了两校统计学科近年来取得的成绩和两校统计学者们为推动统计学科的发展所付出的努力,同时也期待两校统计学科在新一轮学科建设中再获佳绩。

特邀报告一:《单细胞数据分析、ECA与数基虚拟细胞实验》 特邀报告人:清华大学 张学工 教授
北京大学统计科学中心主任姚方教授讲话,并介绍本届论坛的另一位特邀报告嘉宾-新加入北京大学的丁剑教授,以及丁剑教授近年来所取得的学术成就。
特邀报告二:《Matching recovery from noisy network: many problems and some progress》
特邀报告人:北京大学 丁剑 教授
海报展示与评选

海报展示与评选也是北大-清华统计论坛的经典环节,北大、清华两校的博士研究生们针对各自的研究成果进行海报展示,深入沟通交流。

线上海报展示与评选场景

颁奖环节由北京大学苗旺老师主持并宣布。经过紧张激烈的评选,清华大学统计学研究中心18级博士研究生朱珂、19级博士研究生郑思捷,北京大学数学科学学院18级博士研究生王惠远、统计科学中心18级博士研究生邵凌轩获评“优秀海报奖”。

清华大学统计学研究中心17级博士研究生李杰

北京大学统计科学中心17级博士研究生杨莹

获评本年度“优秀毕业生”称号。

#post-12339
ntry-header

#post-12333
ntry-header

近日,清华大学2022年第2期教学简报发布《本科生课程课堂教学质量学生问卷调查统计分析报告(2021-2022学年度秋季学期)》。

清华大学统计学研究中心入围全校前5%的课程如下:

邓婉璐 《初等概率论》

2021-2022学年度秋季学期理论课得分

全校排名第一(100人以上课堂),邓婉璐老师连续两年获此佳绩

周在莹 《统计计算与软件》

2021-2022学年度秋季学期理论课得分

全校排名前5%(100人以上课堂)

周在莹 《非参数统计导论》

2021-2022学年度秋季学期理论课得分

全校排名前5%(30-100人课堂)

此前,在2020-2021学年度春季学期教评中,周在莹老师讲授的两门课《线性回归分析》《实验设计和分析》也排名全校前5%

 

#post-12317
ntry-header

2022年3月8日,哈佛大学生物统计系公布本年度“统计科学领域马文泽伦领导力奖(Marvin Zelen Leadership Award in Statistical Science)”获奖人选,清华大学知名校友、哈佛大学生物统计系林希虹教授获此殊荣,祝贺林老师~也感谢林老师长期以来为清华大学统计学科发展做出的卓越贡献!

以下选自哈佛大学介绍:

We are extremely pleased to announce that internationally renowned biostatistician

Dr. Xihong Lin

Professor of Biostatistics and Coordinating Director of the Program in Quantitative Genomics at the Harvard T.H. Chan School of Public Health and Professor of Statistics at the Faculty of Arts and Sciences of Harvard University, will be the recipient of the 2022 Marvin Zelen Leadership Award in Statistical Science and will deliver a virtual lecture in May 2022.

Described by colleagues as “a force of nature”, “a major star”, and “one of the most influential statistical scientists of our time”, Dr. Lin has distinguished herself as a world leader in statistical methods and applications who has dedicated her career to advancing biostatistics, medicine, and public health.

After earning her PhD at the University of Washington and spending almost 10 years at the University of Michigan, Dr. Lin joined the faculty at Harvard in 2005. Her research has evolved over the years, motivated by the pressing analytical needs in health research. Early in her career, she focused on statistical method development and applications for analysis of longitudinal data and complex observational studies. She became a leader in mixed models, nonparametric and semiparametric regression, missing data, and measurement error for analysis of longitudinal data, and causal inference for complex clinical trials. Later in her career her research shifted to statistical genetics and genomics, with her work becoming a hallmark in statistical methods for analysis of rare variants (RVs) in whole genome sequencing studies. She founded and has been the Coordinating Director of Harvard’s Program in Quantitative of Genomics (PQG) since 2008. Most recently, Dr. Lin has been on the forefront of COVID-19 research, becoming part of a team analyzing the first data out of Wuhan, China and the effectiveness of control measures. In addition to several other efforts, she is the PI of the HowWeFeel project that launched an app in spring 2020 to collect COVID-19 health and exposure data in US and other countries.

Dr. Lin has given back to the statistical and biostatistical community in immeasurable ways through her extraordinary service and leadership. She chaired the Harvard Biostatistics department from 2015-2018, helping to launch an MS program in Health Data Science, one of the first in the nation. As coordinating director of the Program in Quantitative Genomics (PQG), she will help organize its 16th conference, “Emerging Challenges and Opportunities in Gene Editing” later this year. She is the former Chair of the COPSS, and a former member of the Committee of Applied and Theoretical Statistics (CATS) of the National Academy of Science. She is the former Coordinating Editor of Biometrics, the founding co-editor of Statistics in Biosciences, and a former Associate Editor of the Journal of the American Statistical Association and American Journal of Human Genetics.

Dr. Lin has trained 37 doctoral students as the primary dissertation advisor and 27 postdoctoral fellows, proving to be a dedicated educator, a generous mentor, and a role model throughout her career. She has always made the development and success of junior faculty and students a priority, particularly focusing on supporting women statisticians, and promoting inclusivity and equity. She has been described by her peers as a caring, supportive colleague who is always thinking about others rather than herself.

Through her groundbreaking research, countless initiatives and projects, and the community she has helped grow, Dr. Lin’s transformative ideas and innovative vision have moved the field forward. Reminiscent of the career of the late Marvin Zelen, and in the true spirit of the award, Dr. Lin has “contributed to the creation of an environment in which statistical science and its applications have flourished”.

Career Highlights

  • Mortimer Spiegelman Award, APHA
  • Presidents’ Award, COPSS
  • Janet L. Norwood Award for Outstanding Woman Statistician, University of Alabama at Birmingham
  • FN David Award, COPSS
  • Mosteller Statistician of the Year, ASA Boston Chapter
  • Adrienne Cupples Award, Boston University
  • Greenberg Distinguished Lectureship Award, UNC Chapel Hill
  • Distinguished Alumni Award, University of Washington
  • Outstanding Service Award, International Chinese Statistical Association
  • Myrto Lefkopoulou Award, Harvard University
  • Medallion Lecture Award, Institute of Mathematical Statistics
  • Coordinating Director, Program in Quantitative Genomics (PQG)
  • Elected Fellow of the American Statistical Association
  • Elected Fellow of the Institute of Mathematical Statistics
  • Elected to the National Academy of Medicine
  • Named one of 50 Changemakers in Public Health by Washington University
  • Published over 330 papers, with over 43300 citations
  • Principal Investigator or Multiple Principal Investigator on six NIH and NSF grants
  • Received the NCI MERIT Award (R37) and the NCI Outstanding Investigator Award
  • Chair of the COPSS
  • Former member of the Committee of Applied and Theoretical Statistics (CATS) of the National Academy of Science
  • Founder, North America Department of Biostatistics Chair Group
  • Co-founder, ENAR Young Researcher Workshop
  • Co-founder, co-founded the ASA Statistical Genetics and Genomics Section
  • Served on the State of Massachusetts COVID-19 Task Force
  • Editor, Computational Biology Series
  • Founding Co-Editor, Statistics in Biosciences
  • Coordinating Editor, Biometrics
  • Associate Editor: JASA, AJHG, Statistica, Biometrics, Biometrika, Biostatistics
  • Books: Past, Present and Future of Statistical Science and New Developments in Biostatistics and Bioinformatics (Frontiers of Statistics)
About the Award

This annual award, supported by colleagues, friends and family, was established to honor Dr. Marvin Zelen’s long and distinguished career as a statistician and his major role in shaping the field of biostatistics.

The award recognizes an individual in government, industry, or academia, who by virtue of his/her outstanding leadership, has greatly impacted the theory and practice of statistical science. While individual accomplishments are considered, the most distinguishing criterion is the awardee’s contribution to the creation of an environment in which statistical science and its applications have flourished. The award recipient will deliver a virtual lecture on statistical science and will be presented with a citation and an honorarium.

以上资料参考自哈佛大学官网:https://www.hsph.harvard.edu/biostatistics/zelenaward/

#post-12311