【新闻动态】统计中心知识图谱成果亮相服贸会

ntry-header

近日，2022年中国国际服务贸易交易会（以下简称“服贸会”）在北京成功举办，作为本届服贸会亮点之一的“首届卫生健康与工业科技创新服务大会”同期于国家会议中心召开。该会议由工业和信息化部、国家卫生健康委员会和北京市人民政府共同发起主办，聚焦医药创新、成果转化、医工交叉，探讨新形势下医药工业与卫生健康产业融合创新发展，展示前沿技术与创新成果，搭建跨领域、大协作的创新服务平台。

本届卫生健康与工业科技创新服务大会特别设立了“医工成果转化与投融资论坛”专题版块，该版块聚焦“成果转化赋能产业发展”，聚集政府部门、医疗卫生机构、高校及科研院所、企业、投资机构等创新主体，解读政策监管创新，分享成功经验，拓宽投融资渠道，助推医工融合创新科技成果产业化落地。

清华大学统计学研究中心俞声副教授课题组和粤港澳大湾区数字经济研究院（IDEA）AI平台技术研究中心联合开发的大型开放生物医学知识图谱——“生物医学信息学本体系统”BIOS（Biomedical Informatics Ontology System）受邀于“医工成果转化与投融资论坛”亮相。BIOS自去年11月发布以来受到广泛关注，今年7月历经重大更新，实现通过借助算法挖掘收录了2800万概念、5500万中英文术语和1.1亿关系三元组，规模上达美国国立卫生院国家医学图书馆开发的“一体化医学语言系统”UMLS（Unified Medical Language System，简称“UMLS”）数倍，同时在术语的纯净度和覆盖度上相比UMLS呈现明显优势，跃升为全球最大开放生物医学知识图谱。

粤港澳大湾区数字经济研究院工程总监谢育涛代表研发团队进行“开放医学知识图谱助力医疗信息平台建设”的主题分享。统计中心俞声副教授作为研发团队代表现场出席论坛。BIOS不但在技术层面达到国际领先水平，更以全公开、全开放的态度助力国内医疗信息领域和AI医疗产业的发展。

#post-12347

ntry-header

2022年8月31日，伦敦政经学院史成春助理教授访问我中心，并做学术报告，报告的题目是强化学习中的统计推断。

#post-12346

ntry-header

近日，清华大学统计学研究中心刘汉中副教授课题组在国际知名统计学期刊Biometrika发表题为“Design-based theory for cluster rerandomization”的研究论文。清华大学统计学研究中心2020级博士研究生卢鑫是该文的第一作者，哈佛大学博士研究生刘天乐是第二作者，刘汉中副教授与加州大学伯克利分校的丁鹏副教授共同指导了相关研究与论文撰写。

群组随机化试验被广泛地应用在社会科学、公共卫生等领域。它可以避免群组内部试验个体之间的交互，是在个体水平的处理分配不可实施的情形下一种替代的试验设计方法。群组随机化试验在群组的水平分配处理，同一个群组内部的个体会分配到同一个处理。群组重随机化是在群组随机化试验中运用重随机化的试验设计方法，通过丢弃掉不平衡的分配方式来达到平衡协变量的目的。重随机化最常用的平衡性准则有马氏距离准则，加权欧氏距离准则和多层马氏距离准则。马氏距离准则把各个协变量看成是同等重要的。当存在协变量重要程度的先验信息时，加权欧氏距离准则和多层马氏距离准则是更常用的方法。

该论文首先研究了群组重随机化下平均因果效应估计的渐近理论，证明了重随机化可以提高平均因果效应的估计精度。其次该论文比较了不同群组重随机化平衡性准则的效率，即在相同接受概率下对估计量渐近方差的减小量，证明了当协变量进行正交化之后，最优的加权欧式距离准则优于多层马氏距离准测。论文最后讨论了群组重随机化下的协变量回归调整方法，证明了在重随机化下，Su & Ding (2021)提出的模型辅助的点估计和区间估计仍然适用。这一结果对于因果推断的实践具有重要指导意义。

论文链接：

https://doi.org/10.1093/biomet/asac045

#post-12345

ntry-header

2022年7月，清华大学统计学研究中心侯琳副教授课题组与生命科学学院张强锋副教授课题组合作在 Nature Communications 期刊上在线发表了题为“Differential analysis of RNA structure probing experiments at nucleotide resolution: uncovering regulatory functions of RNA structure ”的研究论文（https://www.nature.com/articles/s41467-022-31875-3）。该研究提出了一个兼容多种RNA结构探测数据的标准化及结构差异分析的计算框架。该方法可以在单碱基分辨率水平评估RNA结构差异区域，为探索RNA结构在不同生物学过程中发挥的作用提供强有力的支持。同时，该研究还开发了相应的软件包 DiffScan（https://github.com/yub18/DiffScan）供广大研究人员使用。清华大学统计学研究中心2018级博士研究生余博是该文章的第一作者，清华大学生命科学学院的博士毕业生李盼亦参与了该项研究。此外，该研究得到了国家自然科学基金和国家重点研发计划的支持。

RNA通过形成特定的结构发挥相应的功能，并且RNA结构在不同的细胞环境中往往存在差异。因此，通过对不同条件下的RNA结构组数据进行准确的结构差异区域分析，对于揭示RNA在不同生物学过程中的功能及作用机制至关重要。考虑到高通量的RNA结构探索技术产生的实验数据往往存在高维度、高噪音等特点，RNA结构的差异分析存在较大难度。在本研究中，研究团队提出针对高通量结构探测数据的标准化和差异分析计算框架DiffScan，该方法首先对结构探测数据进行标准化以移除系统性偏差，再运用扫描统计量在RNA结构组中识别结构差异区域。

DiffScan 的独特贡献在于：（1）其标准化模块能有效地移除实验间存在的系统性偏差，并充分保留结构差异信号；（2）其扫描统计量能够在单碱基分辨率水平自适应地识别结构差异区域的位置与长度；（3）该计算框架可以兼容包括icSHAPE、DMS-seq在内的多种高通量RNA结构探测技术产生的实验数据。

研究团队将DiffScan应用于不同亚细胞的RNA结构组数据中，通过结合相关的基序富集分析阐明了RNA结构变化与mRNA丰度之间的潜在联系可能是由包括serine/arginine rich splicing factors在内的特定RNA结合蛋白所介导的。因此，该研究也证明了DiffScan是破译RNA结构组数据的有效手段。

#post-12343

ntry-header

2022年7月，由清华大学统计学研究中心俞声课题组和粤港澳大湾区数字经济研究院（IDEA）AI平台技术研究中心联合开发的大型开放生物医学知识图谱——“生物医学信息学本体系统”BIOS（Biomedical Informatics Ontology System）迎来重大更新，跃升成为世界最大的开放生物医学知识图谱。（https://bios.idea.edu.cn）

生物医学知识图谱是一种由生物医学概念、术语、关系以及ID系统等要素构成的特殊数据库，是生物医学信息学的重要基础设施。一直以来，由美国开发的“一体化医学语言系统”UMLS（Unified Medical Language System）是生物医学知识图谱的标杆，以455万概念、2095万关系的巨大规模和开放属性，为英文领域生物医药大数据分析、自然语言处理、人工智能开发和数据交换做出了卓越贡献。中文领域由于缺乏可开放获取的大型生物医学知识图谱，导致国内的医学大数据分析缺乏平台基础，科研与技术发展受到严重制约。同时，基于多数据库整合和专家整理的UMLS也日渐老化，其数据质量与发展速度已无法满足大数据与人工智能时代的需要。

基于算法驱动、开源开放理念，以CC BY-NC-ND 4.0协议发布的BIOS中英文知识图谱自2021年11月发布以来受到了广泛关注。BIOS是首个完全由机器学习算法生成的大型开放生物医学知识图谱，其术语发现、语义分析、概念生成、关系发现、跨语言对齐完全由模型自动实现。在本次更新中，研发团队根据真实数据效果，不断强化算法技术，终于取得了振奋人心的突破性进展，使新版BIOS（2022V2版）一举达到了2848万概念、5456万术语（3348万英文、2108万中文）的巨大体量，术语质量也得到进一步提升。

而为了满足如此体量概念的关系挖掘，研究团队创新地提出了由“基于文本的关系提取”到“基于大模型自有知识的关系生成”的模式转变，获得了1.12亿个关系三元组。目前BIOS只包含知识图谱的骨架“上下位关系”的预测，更丰富的关系将在下半年的更新中发布。

对比开发已有35年的UMLS，BIOS在短短一年半的时间里，使体量达到了UMLS的数倍，不仅扭转了中文领域缺乏大型开放生物医学知识图谱的困难局面，更充分证明了人工智能的巨大潜力。同时，通过BIOS系统的研发，统计学研究中心培养了一批具有数据科学方向理论创新与实战能力的优秀本科生与博士生。未来，统计学研究中心将与IDEA研究院以及更多国内外顶尖医院、科研机构合作，不断扩大和完善BIOS的内容、质量以及相关系统建设，带动并引领生物医学大数据与人工智能行业的发展。

#post-12342

ntry-header

近日，清华大学2022届毕业生党员大会暨启航出征仪式在主楼接待厅举行。我中心应届毕业生李杰和郭瀚民荣获“清华大学毕业生启航奖铜奖”。

据悉，清华大学于2006年设立清华大学毕业生启航奖，大力鼓励、支持、引导毕业生将个人成长成才与国家民族发展紧密结合起来，“到党和人民需要的地方发光发热”。作为毕业生就业领域唯一的校级荣誉，重点表彰前往西部、基层、重点行业、艰苦行业就业及创业的优秀毕业生。

李杰，中共党员，2017年进入清华大学统计学研究中心攻读博士学位，导师为杨立坚教授。博士期间曾获2021年国际统计学会ISI Jan Tinbergen Award First Prize、2020年国际数理统计协会 IMS Hannan Graduate Student Travel Award、2020第四届全国统计学博士研究生学术论坛优秀论文二等奖、2019年第四届北大-清华统计学论坛优秀海报奖、2022年第六届北大-清华统计学论坛优秀毕业生、2021年清华大学综合一等奖学金、2022年清华大学优秀博士学位论文、2018年清华大学工业工程系优秀党员等荣誉，并入选清华大学工业工程系“未来教授培养计划”。他毕业后前往中国人民大学统计学院任师资博士后。

读博期间，李杰的研究方向主要为函数型数据分析和时间序列。在研究中，他利用B样条估计了函数型时间序列的均值函数并构造了同时置信带，为脑电序列可能具有三角函数形式的均值函数提供了强有力的证据。他将等距设计的非参数回归模型扩展到局部平稳时间序列，构造了数据驱动的多步向前预测区间，为空气污染物浓度预测提供可靠的预测精度。

在李杰看来，只有将个人的理想与祖国的需要结合起来，才能实现个人的最大价值。基于个人的志向以及对学术的坚持，他最终选择去中国人民大学统计学院工作。他希望自己始终坚持“面向应用，背靠理论，写好算法”的统计学思想，不跟风，不浮躁，做理论扎实、应用价值突出的统计学研究。他将时刻谨记自己的责任和使命，践行“自强不息，厚德载物”的校训，为成为一名合格的高校教师，一名于国家、于民族有用的清华人而不断努力。

郭瀚民，中共党员，2017年进入清华大学统计学研究中心攻读博士学位，导师为侯琳副教授。博士期间曾获2019年“百济神州青年论文奖”二等奖、2021年清华大学综合二等奖学金等荣誉。他毕业后前往斯坦福大学王永雄院士课题组进行博士后培养。

博士期间，郭瀚民的研究方向主要为统计遗传学和数理统计。他开发了基于扫描统计量的局部遗传相关性统计推断方法LOGODetect，识别出了与多个精神疾病相关的基因片段，对理解精神疾病中的跨诊断现象具有重要意义。他开发了新发突变富集相关性的统计推断方法EncoreDNM，识别出了大量功能缺失突变富集相关性，为理解复杂疾病的共病现象提供启示。他还针对充分降维中的信息压缩问题，提出极小灵活充分降维σ-域的概念及其估计方法，在空气污染数据的应用中揭示了多种大气条件和空气质量的关系。

郭瀚民立志成为一名统计遗传学家和数据科学家，发展统计学理论方法，从生物数据中挖掘出科学知识，改善人类健康。基于个人的学术志趣和理想，他选择了到美国继续深造，并计划未来到国内高校任教，为祖国科研事业添砖加瓦。他希望自己能坚持“哪里有数据，哪里就有统计学”的思维方式，从实际问题出发进行科研创新，做出对人类有实际意义的科学工作。

#post-12341

ntry-header

2022年6月13日，墨尔本大学黄薇博士通过线上平台与我中心教员交流，并进行线上学术报告，报告的题目是Nonparametric Estimation of the Continuous Treatment Effect with Measurement Error Copy。

#post-12340

ntry-header

2022年6月16日，“第六届北大–清华统计论坛”成功举办。北大–清华统计论坛是北大清华两校统计学科的传统学术活动，由北京大学统计科学中心和清华大学统计学研究中心联合发起，至今已成功举办六届。

随着两校统计学科的发展和人才队伍的壮大，北大-清华统计论坛的参会者逐年增加，本届论坛累计共有两百余人参会，除清北两校师生外还受到了很多其他高校和业界的学者关注。在这个特殊时期，两校统计学科的师生通过线上平台“云见面”及交流，活动精彩依旧。清华大学张学工教授和北京大学的丁剑教授分别代表两校作大会特邀报告。

作为本届论坛的主办方，清华大学统计学研究中心执行主任邓柯副教授致开幕词。邓柯回顾了两校统计学科近年来取得的成绩和两校统计学者们为推动统计学科的发展所付出的努力，同时也期待两校统计学科在新一轮学科建设中再获佳绩。

特邀报告一：《单细胞数据分析、ECA与数基虚拟细胞实验》特邀报告人：清华大学张学工教授

北京大学统计科学中心主任姚方教授讲话，并介绍本届论坛的另一位特邀报告嘉宾-新加入北京大学的丁剑教授，以及丁剑教授近年来所取得的学术成就。

特邀报告二：《Matching recovery from noisy network: many problems and some progress》
特邀报告人：北京大学丁剑教授

海报展示与评选

海报展示与评选也是北大-清华统计论坛的经典环节，北大、清华两校的博士研究生们针对各自的研究成果进行海报展示，深入沟通交流。

颁奖环节由北京大学苗旺老师主持并宣布。经过紧张激烈的评选，清华大学统计学研究中心18级博士研究生朱珂、19级博士研究生郑思捷，北京大学数学科学学院18级博士研究生王惠远、统计科学中心18级博士研究生邵凌轩获评“优秀海报奖”。

清华大学统计学研究中心17级博士研究生李杰

北京大学统计科学中心17级博士研究生杨莹

获评本年度“优秀毕业生”称号。

#post-12339

ntry-header

2022年6月6日，复旦大学蒋斐宇青年副研究员通过线上平台与我中心教员交流，并进行线上学术报告，报告的题目是A Consistent Pivotal Specification Test。

#post-12337

ntry-header

为推进实施学校《2030高层次人才培养方案》，结合学校第26次教育工作讨论会相关安排，研究生院联合发展规划处于5月27日上午对统计学研究中心（以下简称“中心”）开展博士生培养专项调研，聚焦博士生招生选拔机制、课程体系建设、培养环节考核、学位论文质量管理等议题。调研以线上会议方式进行，工业工程系党委书记、中心学术委员会委员李志忠，工业工程系副主任赵磊，中心执行主任邓柯，数学学位评定分委员会副主席李思、委员杨瑛和扶磊，中心学术委员会、教学委员会委员，研究生院副院长肖曦，发展规划处副处长王晶，以及研究生院相关办公室人员共20余人参加，研究生院培养办公室主任孙傅主持会议。

李志忠肯定了中心成立以来在学科建设、人才培养等方面取得的成绩，并期待本次调研能够进一步凝聚中心在人才培养工作中的共识。邓柯全面介绍了中心的发展历程、组织架构、运行机制、学科建设和人才培养的理念和成效等，并分析了目前人才培养存在的问题。中心教学委员会主席李东具体介绍了中心博士生培养全过程的管理要求和工作机制。中心学术委员会和教学委员会委员、数学学位评定分委员会委员杨立坚介绍了中心博士毕业生的就业情况，并深入分析了博士生课程、培养环节考核、学位论文质量等具体问题。

在交流讨论中，参会人员积极发言，为中心博士生培养建言献策。杨瑛细致分析了中心7门核心课程的大纲和博士生资格考试方案，并介绍了国内外高校和数学系相关学科的做法，对完善课程设置和资格考试方案提出了建议。李思、扶磊建议中心要进一步明确统计学科的人才培养定位和目标，在此基础上梳理问题并提出改进方案。赵磊表示，工业工程系教务系统将继续发挥好连接学校教务部门和中心的桥梁作用，为中心人才培养做好服务保障。研究生院相关办公室也结合中心情况和其他院系经验，对博士生招生选拔、培养环节考核、培养过程分流等工作提出了建议。

会议最后，王晶表示，目前学校正在广泛开展院系治理改革的调研和讨论，人才培养模式定位是其中的重要内容，建议中心抓住契机、深入研讨、形成共识，促进统计学科更好发展。肖曦指出，2020年以来学校研究生教育改革不断深化，出台了一系列文件和方案，更加强调提高研究生培养质量、加强全过程管理，建议中心结合学校第26次教育工作讨论会，深入研讨博士生培养工作，明确培养目标定位、优化培养方案、提高培养质量。

（转发自清华大学研究生教育）

#post-12336