ntry-header

2021年11月29日,斯坦福大学助理教授通过线上平台与我中心教员深入交流,并进行线上学术报告,报告的题目是Distance-based Summaries and Modeling of Evolutionary Trees。

Julia Palacios线上报告
与会教师“云”合影
#post-12296
ntry-header

11月22-23日,深圳市福田区人民政府、深圳市福田区科技创新局和粤港澳大湾区数字经济研究院(International Digital Economy Academy,简称“IDEA”)联合举办IDEA大会。IDEA创院理事长、美国国家工程院外籍院士、英国皇家工程院外籍院士沈向洋在会上发布了由清华大学统计学研究中心俞声副教授团队与粤港澳大湾区数字经济研究院联合开发的大型开放医学知识图谱(Biomedical Informatics Ontology System,简称“BIOS”)(http://bios.idea.edu.cn)。

沈向洋院士在BIOS发布会现场讲解

医学知识图谱是一种由生物医学概念名称、概念分类、概念间关系以及相应的ID系统构成的特殊数据库,用于支持医学自然语言处理、人工智能建模以及行业数据交换,是医学大数据与人工智能领域最重要的基础设施之一,对于行业发展具有战略影响。美国国立卫生院国家医学图书馆于1986年开发并发展至今的一体化医学语言系统(Unified Medical Language System,简称“UMLS”)是目前最权威的英文医学知识图谱,为英语国家医学大数据技术与产业的发展做出了卓越贡献。而长久以来,中文领域缺少大型开放医学知识图谱,是我国医疗大数据与人工智能产业发展的主要制约因素之一。

为解决中文领域开放医学知识图谱的缺失,并在国际范围内进一步提升医学知识图谱的建设水平,清华大学统计学研究中心俞声副教授带领团队进行了长达5年的技术攻关,先后开发了基于图分割与深度学习的中文电子病历无监督多粒度分词及术语提取[1]、知识决定的医学术语向量化及正则化[2]、高通量医学关系提取[3,4]、生物医学自动翻译[5]等技术,为数据驱动的大规模图谱自动构建建立了基础,并于2020年11月与IDEA研究院沈向洋院士团队形成合作。在领先算法、强大算力和超大规模语料数据的支持下,仅用短短一年时间,双方团队便从原始底层医学术语开始,建立了全新的具有完整自主知识产权的中英文双语医学知识图谱BIOS,其规模整体接近现有权威知识图谱UMLS,并在内容质量上形成多点超越。未来,清华大学统计学研究中心将与IDEA研究院以及更多国内顶尖医院合作,不断扩大和完善BIOS的内容与质量,不仅要使我国医疗大数据与人工智能产业的薄弱基础得到全面提升,也要辐射国际,带动全球行业共同发展。

BIOS目前已在线发布(bios.idea.edu.cn)。同时,秉承全面提升发展中国医疗大数据与人工智能行业的开放理念,BIOS拟于近期以CC BY-NC-ND协议开放完整数据下载。

BIOS知识图谱包含的实体和关系数量的描述
基于BIOS知识图谱的医学命名实体识别演示

1    Yuan Z, Liu Y, Yin Q, et al. Unsupervised multi-granular Chinese word segmentation and term discovery via graph partition. Journal of Biomedical Informatics 2020;110:103542. doi:10.1016/j.jbi.2020.103542

2    Yuan Z, Zhao Z, Yu S. CODER: Knowledge infused cross-lingual medical term embedding for term normalization. arXiv:201102947 [cs] Published Online First: 5 November 2020.http://arxiv.org/abs/2011.02947 (accessed 7 Nov 2020).

3    Lin Y, Li Y, Lu K, et al. Long-distance disorder-disorder relation extraction with bootstrapped noisy data. Journal of Biomedical Informatics 2020;109:103529. doi:10.1016/j.jbi.2020.103529

4    Lin Y, Lu K, Chen Y, et al. High-throughput relation extraction algorithm development associating knowledge articles and electronic health records. arXiv:200903506 [cs, stat] Published Online First: 7 September 2020.http://arxiv.org/abs/2009.03506 (accessed 27 Sep 2020).

5    Luo S, Ying H, Yu S. Sentence Alignment with Parallel Documents Helps Biomedical Machine Translation. arXiv:210408588 [cs] Published Online First: 17 April 2021.http://arxiv.org/abs/2104.08588 (accessed 7 Jul 2021).

#post-12294
ntry-header

#post-12293
ntry-header

2021年11月22日,罗格斯大学龚若玢助理教授通过线上平台与我中心教员深入交流,并进行线上学术报告,报告的题目是Towards Good Statistical Inference from Differentially Private Data。

龚若玢线上报告

#post-12292
ntry-header

2021年11月15日,哈佛大学统计系Lucas Janson助理教授通过线上平台与我中心教员深入交流,并进行线上学术报告,报告的题目是Floodgate: inference for model-free variable importance。

Lucas Janson 线上报告
Lucas Janson与中心教员“云”合影
#post-12291
ntry-header

近日,我中心邓柯副教授课题组在统计学顶尖期刊Statistica Sinica发表题为“Total- effect Test is Superfluous for Establishing Complementary Mediation ”的研究论文,从数学上严格地证明了当直接效应和间接效应同方向且均统计显著时,利用最小二乘估计(LSE)和F-检验建立中介效应时总效应检验一定是显著的。同时本文还将类似的结果推广到了利用Sobel检验建立中介效应的场景。曾在邓柯课题组攻读博士学位的姜瑛恺博士(清华大学2015级博士生)是该文的第一作者,邓柯副教授作为通讯作者与澳门大学赵心树教授、香港浸会大学朱力行教授和哈佛大学刘军教授共同指导了该文的研究和撰写。

中介效应模型是因果推断中一类经典的模型,它是指自变量X通过中介变量M对因变量Y产生影响。在社会科学诸多领域的研究中受到研究者的青睐。通常称给定M的条件下,X对Y的影响为直接效应,X通过M对Y产生的影响为间接效应,两者之和为总效应。在建立中介效应时,文献中对于“是否需要X对Y的总效应是统计显著的”这一条件是有争议的。已经有研究指出,当直接效应和间接效应符号相反(称为竞争中介)或直接效应为零(称为完全中介)时,总效应检验有可能会错误地拒绝中介效应。然而,对于直接效应和间接效应同号(称为互补中介)的情形,总效应检验的作用并未达成共识。该文创造性地将是否需要对总效应进行检验的问题转化对相关检验拒绝域的包含关系进行几何验证的问题,从而从数学上严格证明了当直接效应和间接效应同方向且均统计显著时,在LSE-F框架下总效应检验一定显著,在LSE-Sobel框架下相关结论渐进成立。

除上述结论之外,研究团队还利用所构造的几何分析方法,对中介效应的各种情形进行了系统分析,从统计推断和几何分析的双重角度对已有文献中关于中介效应检验的结论给予了新的解读。同时,随机模拟实验的结果与理论结果也是完全契合的。以上这些结论与文献中已有的结果相互印证,支持了一个共同的论断:在各种情形下建立中介效应都不需要总效应检验。最后,研究团队通过一份社会学研究数据展示利用中介效应模型进行实际数据分析的方法。

该研究工作获得国家自然科学基金(Grants 11771242)、北京智源人工智能研究院(Grant BAAI2019ZD0103) 的资助。

论文链接:

http://www.stat.tsinghua.edu.cn/kdeng/wp-content/uploads/sites/2/2021/11/2019-0150_0326.pdf

#post-12290
ntry-header

2021年11月8日,宾州州立大学马彦源教授通过线上平台与我中心教员深入交流,并进行线上特邀报告,报告的题目是Robust and Efficient Estimation under Nonignorable Missing Response。

马彦源教授线上特邀报告
与会教员“云”合影
#post-12289
ntry-header

#post-12288
ntry-header

#post-12287
ntry-header

#post-12286