• 本系概况
    • 学科简介
    • 发展历程
    • 筹建与发展委员会
    • 顾问委员会
    • 年度报告
    • 联系方式
  • 科研团队
    • 教师队伍
    • 杰出访问教授
    • 博士后
    • 博士生
    • 访问教授
  • 科学研究
    • 科研领域
    • 学术成果
    • 计算平台
  • 人才培养
    • 本科培养
      • 统计学专业本科
      • 统计学“101计划”
      • 统计学专业辅修
      • 数据思维与实践课程证书项目
    • 博士培养
    • 终身学习项目
  • 招生信息
    • 本科申请
    • 博士申请
    • 继续教育
      • 学分课《初等概率论》
      • 学分课《统计推断》
  • 新闻动态
    • 新闻动态
    • 最热新闻
    • 近期活动
    • 就业实习信息
    • 校友风采
  • 招聘信息
    • 教研系列招聘
    • 教学系列招聘
    • 博士后招聘
    • 行政团队招聘
  • 友情链接
    • 中国现场统计研究会计算统计分会
  • EN
首页 > 友情链接 > 中国现场统计研究会计算统计分会 > 学会动态 > 正文

【新闻动态】清华大学统计学研究中心与粤港澳大湾区数字经济研究院联合打造BIOS医学知识图谱

学术成果、新闻动态、最热新闻、科研成果、科研领域
发布时间:2021年11月25日

11月22-23日,深圳市福田区人民政府、深圳市福田区科技创新局和粤港澳大湾区数字经济研究院(International Digital Economy Academy,简称“IDEA”)联合举办IDEA大会。IDEA创院理事长、美国国家工程院外籍院士、英国皇家工程院外籍院士沈向洋在会上发布了由清华大学统计学研究中心俞声副教授团队与粤港澳大湾区数字经济研究院联合开发的大型开放医学知识图谱(Biomedical Informatics Ontology System,简称“BIOS”)(http://bios.idea.edu.cn)。

沈向洋院士在BIOS发布会现场讲解

医学知识图谱是一种由生物医学概念名称、概念分类、概念间关系以及相应的ID系统构成的特殊数据库,用于支持医学自然语言处理、人工智能建模以及行业数据交换,是医学大数据与人工智能领域最重要的基础设施之一,对于行业发展具有战略影响。美国国立卫生院国家医学图书馆于1986年开发并发展至今的一体化医学语言系统(Unified Medical Language System,简称“UMLS”)是目前最权威的英文医学知识图谱,为英语国家医学大数据技术与产业的发展做出了卓越贡献。而长久以来,中文领域缺少大型开放医学知识图谱,是我国医疗大数据与人工智能产业发展的主要制约因素之一。

为解决中文领域开放医学知识图谱的缺失,并在国际范围内进一步提升医学知识图谱的建设水平,清华大学统计学研究中心俞声副教授带领团队进行了长达5年的技术攻关,先后开发了基于图分割与深度学习的中文电子病历无监督多粒度分词及术语提取[1]、知识决定的医学术语向量化及正则化[2]、高通量医学关系提取[3,4]、生物医学自动翻译[5]等技术,为数据驱动的大规模图谱自动构建建立了基础,并于2020年11月与IDEA研究院沈向洋院士团队形成合作。在领先算法、强大算力和超大规模语料数据的支持下,仅用短短一年时间,双方团队便从原始底层医学术语开始,建立了全新的具有完整自主知识产权的中英文双语医学知识图谱BIOS,其规模整体接近现有权威知识图谱UMLS,并在内容质量上形成多点超越。未来,清华大学统计学研究中心将与IDEA研究院以及更多国内顶尖医院合作,不断扩大和完善BIOS的内容与质量,不仅要使我国医疗大数据与人工智能产业的薄弱基础得到全面提升,也要辐射国际,带动全球行业共同发展。

BIOS目前已在线发布(bios.idea.edu.cn)。同时,秉承全面提升发展中国医疗大数据与人工智能行业的开放理念,BIOS拟于近期以CC BY-NC-ND协议开放完整数据下载。

BIOS知识图谱包含的实体和关系数量的描述
基于BIOS知识图谱的医学命名实体识别演示

1    Yuan Z, Liu Y, Yin Q, et al. Unsupervised multi-granular Chinese word segmentation and term discovery via graph partition. Journal of Biomedical Informatics 2020;110:103542. doi:10.1016/j.jbi.2020.103542

2    Yuan Z, Zhao Z, Yu S. CODER: Knowledge infused cross-lingual medical term embedding for term normalization. arXiv:201102947 [cs] Published Online First: 5 November 2020.http://arxiv.org/abs/2011.02947 (accessed 7 Nov 2020).

3    Lin Y, Li Y, Lu K, et al. Long-distance disorder-disorder relation extraction with bootstrapped noisy data. Journal of Biomedical Informatics 2020;109:103529. doi:10.1016/j.jbi.2020.103529

4    Lin Y, Lu K, Chen Y, et al. High-throughput relation extraction algorithm development associating knowledge articles and electronic health records. arXiv:200903506 [cs, stat] Published Online First: 7 September 2020.http://arxiv.org/abs/2009.03506 (accessed 27 Sep 2020).

5    Luo S, Ying H, Yu S. Sentence Alignment with Parallel Documents Helps Biomedical Machine Translation. arXiv:210408588 [cs] Published Online First: 17 April 2021.http://arxiv.org/abs/2104.08588 (accessed 7 Jul 2021).

在这个信息爆炸的大数据时代,通过有效的数据分析,我们可以从大规 模数据中,发现知识和规律,让数据成为推动社会进步的强大动力。

了解我们
微信公众号:清华大学统计与数据科学系
联系我们
联系地址

清华大学统计与数据科学系

北京市海淀区清华大学自强科技楼4号楼(吕大龙楼)715

联系电话

+86-10-62786091

邮箱

stats@tsinghua.edu.cn

快速导航
  • 本系概况
  • 人才培养
  • 招生信息
  • 新闻动态
  • 科学研究
  • 科研团队

版权所有 © 清华大学统计与数据科学系 京ICP备15006448号-1