医疗大数据
BIOS+GENIE生态释放医疗大数据潜力
医疗数据是医学研究与公共卫生管理研究的巨大宝库。根据一项2019年的研究[1],绝大多数医疗细节都需要从电子病历的自由文本中获取。由于病历涉及复杂专业的医学背景知识和特殊的书写习惯,因此从电子病历高效、准确地提取信息一直以来都是一项巨大的技术挑战,导致医疗数据的绝大部分价值都处于沉睡状态。
生物医学信息学本体系统BIOS | GENIE 病历精灵 |
清华大学统计与数据科学系医学信息实验室十年来致力于医学信息学技术,开发了BIOS+GENIE生态满足医疗数据结构化的需求。生物医学信息学本体系统BIOS自2021年首发以来,目前已发布到第三版,拥有2210万概念、4602万术语(3579万英文+1023万中文)和9985万关系三元组,体量达到国际标杆系统UMLS的数倍,是目前世界上最大的原生单体生物医学本体。生成式病历信息提取系统GENIE(中文名“病历精灵”)对输入的电子病历一次性将所有分析结果输出为JSON格式,分析内容包括术语识别、语义类型、叙述状态、身体部位、修饰语、数值、单位和目的等,并基于大模型实现消歧辨义、长距离信息提取、模糊关系匹配、缺失信息推断等传统系统难以具备的分析能力。作为垂直领域大模型,GENIE针对行业任务高度优化,结构化一篇千字长度的病历只需约1秒(使用A800测试)。相比之下,使用通用大模型GPT-4o获得相同的分析结果则需要1分钟以上,并且需要复杂的提示词、样例和后处理脚本。稳定、高速、简易和断网运行是GENIE适合医院部署的关键。
通过BIOS+GENIE生态将电子病历全部转化为结构化数据将充分释放其大数据潜能——医学研究将能快速提取数据,甚至能在AI的辅助下实现自动化科研;结构化数据通过本体将更容易对齐,实现多中心、省级乃至国家级医疗数据快速统计,并支持公共卫生政策制定、医保产品开发、医药市场研究和临床决策支持系统开发。
在线试用:http://117.145.189.131:7680/
[1] Kim, Ellen, Samuel M. Rubinstein, Kevin T. Nead, Andrzej P. Wojcieszynski, Peter E. Gabriel, and Jeremy L. Warner. "The evolving use of electronic health records (EHR) for research." In Seminars in radiation oncology, vol. 29, no. 4, pp. 354-361. WB Saunders, 2019.