ntry-header

2022年3月7日,角井(北京)生物技术有限公司周一鸣博士访问我中心,并做学术报告,报告的题目是人工智能技术在抗体药开发中的应用。

周一鸣博士学术报告
周一鸣博士与中心教员合影
#post-12310
ntry-header

近日,2022年第60届国际计算语言学协会年会(Annual Meeting of the Association for Computational Linguistics,简称ACL)举行,我中心邓柯课题组18级博士研究生潘长在俞声课题组17级博士研究生袁正、18级博士研究生罗声旋几位同学的多篇投稿文章被接收。ACL会议始于1962年,由国际计算语言学协会主办,是自然语言处理与计算语言学领域最高级别的学术会议。

潘长在同学的论文入选“主会长文”单元,题为“ TopWORDS-Seg:开放域中文文本领域通过贝叶斯推断同时进行文本切词和词语发现的方法 (TopWORDS-Seg: Simultaneous Text Segmentation and Word Discovery for Open-Domain Chinese Texts via Bayesian Inference)”,文章针对于几十年来计算语言学中的一个关键瓶颈,开放域中文文本处理问题展开论述。称之为瓶颈是因为在开放域这种具有挑战性的场景中,文本分词和词语发现经常相互纠缠,且并无可用的训练数据。尚无现有方法可以在开放域中同时实现有效的文本分词和单词发现。该文章通过提出一种基于贝叶斯推理的名为 TopWORDS-Seg 的新方法来填补这一空白,在没有训练语料库和领域词表的情况下具有很好的表现和解释性。该文章通过维基百科数据用一系列实验研究证明了 TopWORDS-Seg 的优势。潘长在是第一作者,邓柯副教授作为通讯作者与清华大学计算机系科学与技术系的孙茂松教授共同指导了该工作。

袁正同学共有三篇文章入选:

入选“主会短文”单元文章:“基于疾病同义词的匹配网络的自动疾病编码(Code Synonyms Do Matter: Multiple Synonyms Matching Network for Automatic ICD Coding)”通过额外利用疾病编码的同义词信息去匹配电子病历中的不同文本以达到更好的自动疾病编码效果,在MIMIC-3电子病历数据集上得到了超过以往方法的分类效果。

入选“Findings长文”单元文章 :“使用三仿射融合异质信息的嵌套命名实体识别方法(Fusing Heterogeneous Factors with Triaffine Mechanism for Nested Named Entity Recognition)”通过三仿射变换改进基于片段分类的命名实体识别模型中的片段表示和片段分类方法,在新闻和医疗命名实体识别任务上取得了超过之前的结果。以上两篇文章袁正均为第一作者,与阿里巴巴达摩院团队合作完成。

此外,袁正与浙江大学、鹏程实验室等研究团队合作的论文:“中文医学自然语言处理评测数据集(CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark)也入选了“主会长文”单元。

罗声旋同学的论文入选“Findings长文”单元,题为“联合实体对齐和悬空实体识别的高精度无监督方法 (An Accurate Unsupervised Method for Joint Entity Alignment and Dangling Entity Detection) ”,罗声旋为该文的第一作者,其导师俞声副教授为通讯作者。文章针对在对齐两个知识图谱的现实场景中的三个主要问题:(1)不存在等价对应的实体,也即悬空实体,广泛存在于知识图谱中;(2)悬空实体标签和实体对(等价的两个实体)标签难以获得,一个普适的知识图谱对齐方法需要尽可能避免对监督数据的依赖;(3)各对齐之间以及预测对齐与识别悬空实体之间是互相影响的,需要整体地考虑识别悬空实体并对齐等价的实体。该文章首先根据实体的文本语义信息和全局的相似性指导两个知识图谱中的实体嵌入的训练,从而获得实体之间的距离估计。然后,给每个知识图谱添加一个虚拟实体,从而把实体对齐和悬空实体整合为一个统一的最优运输问题,并解这个问题。最终,与虚拟实体对齐的实体为悬空实体,其余对齐为模型预测的等价实体对。一系列实验表明,该文章在不依赖监督数据的情况下,能够达到当前实体对齐任务上的最优表现,并且有高质量的悬空实体识别结果。

#post-12307
ntry-header

2月24日,在日本京都同志社大学(Doshisha University)举办的第11届国际统计计算协会亚洲分会(The Asian Regional Section of the International Association for Statistical Computing,简称ARS-IASC)会议上,我中心邓柯课题组博士后李艺超博士荣获“杰出年轻学者奖”(Outstanding Young Researcher Award)中的“一等奖”。

李艺超博士参加线上颁奖典礼

ARS-IASC成立于1993年,旨在推进亚太地区统计计算与数据科学的发展。本次会议受到新冠肺炎疫情影响,采用线上线下混合的方式举行,共有来自不同国家和地区的数百人参加。

李艺超通过线上演讲的方式在会议上进行了展示,题目为“序贯蒙特卡洛方法中的分层方法和最优重抽样(Stratification and Optimal Resampling in Sequential Monte Carlo)”,主要对序贯蒙特卡洛中不同情形下的最优重抽样方法进行了解释。

相关成果请参考链接https://academic.oup.com/biomet/article-abstract/109/1/181/6132360

#post-12306
ntry-header

2021年12月20日,加州大学伯克利分校Martin Wainwright教授通过线上平台为中心师生进行线上特邀报告,报告的题目是Beyond Worst-case: Instance-dependent Optimality in Reinforcement Learning。

#post-12304
ntry-header

2021年12月14日,新加坡国立大学黄东明助理教授通过线上平台为中心师生进行线上学术报告,报告的题目是Controlled Variable Selection with More Flexibility。

黄东明助理教授线上报告
与会教员“云”合影
#post-12303
ntry-header

2021年12月13日,杜克大学洪川助理教授通过线上平台与我中心教员深入交流,并进行线上学术报告,报告的题目是Realizing the Potential of EHR Data for Clinical Research: Overcoming Noisiness, Privacy Constraints and Heterogeneity。

洪川助理教授
与会教员“云”合影
#post-12301
ntry-header

中国科学院自动化研究所

职位描述

职位类型:软件/大数据/人工智能

有效日期:2022-01-15

工作地点: 北京 中国科学院自动化研究所

薪资待遇:10k

工作时限:2-6个月

职位描述:

岗位职责:负责配合在研软件系统的方案设计,支持数据分析方案设计与执行;与软件开发人员紧密合作,配合提供大规模人口统计,大规模人群偏好工具研发;负责观察性研究相关论文的撰写与发表;

任职要求: 应用数学或统计学相关领域博士学位或在读博士;或硕士学位,具有3年及以上使用大数据开展某类(例如社交行为)观察性研究的相关经验,有互联网相关的经验者优先考虑;至少掌握一种用于统计建模的统计软件的经验; 有协作大规模人口统计、群众满意度调查工具的经验者优先; 能独立开展工作,自驱力强;

联系方式: 010-82544744  简老师

#post-12300
ntry-header

2021年11月29日,斯坦福大学助理教授通过线上平台与我中心教员深入交流,并进行线上学术报告,报告的题目是Distance-based Summaries and Modeling of Evolutionary Trees。

Julia Palacios线上报告
与会教师“云”合影
#post-12296
ntry-header

11月22-23日,深圳市福田区人民政府、深圳市福田区科技创新局和粤港澳大湾区数字经济研究院(International Digital Economy Academy,简称“IDEA”)联合举办IDEA大会。IDEA创院理事长、美国国家工程院外籍院士、英国皇家工程院外籍院士沈向洋在会上发布了由清华大学统计学研究中心俞声副教授团队与粤港澳大湾区数字经济研究院联合开发的大型开放医学知识图谱(Biomedical Informatics Ontology System,简称“BIOS”)(http://bios.idea.edu.cn)。

沈向洋院士在BIOS发布会现场讲解

医学知识图谱是一种由生物医学概念名称、概念分类、概念间关系以及相应的ID系统构成的特殊数据库,用于支持医学自然语言处理、人工智能建模以及行业数据交换,是医学大数据与人工智能领域最重要的基础设施之一,对于行业发展具有战略影响。美国国立卫生院国家医学图书馆于1986年开发并发展至今的一体化医学语言系统(Unified Medical Language System,简称“UMLS”)是目前最权威的英文医学知识图谱,为英语国家医学大数据技术与产业的发展做出了卓越贡献。而长久以来,中文领域缺少大型开放医学知识图谱,是我国医疗大数据与人工智能产业发展的主要制约因素之一。

为解决中文领域开放医学知识图谱的缺失,并在国际范围内进一步提升医学知识图谱的建设水平,清华大学统计学研究中心俞声副教授带领团队进行了长达5年的技术攻关,先后开发了基于图分割与深度学习的中文电子病历无监督多粒度分词及术语提取[1]、知识决定的医学术语向量化及正则化[2]、高通量医学关系提取[3,4]、生物医学自动翻译[5]等技术,为数据驱动的大规模图谱自动构建建立了基础,并于2020年11月与IDEA研究院沈向洋院士团队形成合作。在领先算法、强大算力和超大规模语料数据的支持下,仅用短短一年时间,双方团队便从原始底层医学术语开始,建立了全新的具有完整自主知识产权的中英文双语医学知识图谱BIOS,其规模整体接近现有权威知识图谱UMLS,并在内容质量上形成多点超越。未来,清华大学统计学研究中心将与IDEA研究院以及更多国内顶尖医院合作,不断扩大和完善BIOS的内容与质量,不仅要使我国医疗大数据与人工智能产业的薄弱基础得到全面提升,也要辐射国际,带动全球行业共同发展。

BIOS目前已在线发布(bios.idea.edu.cn)。同时,秉承全面提升发展中国医疗大数据与人工智能行业的开放理念,BIOS拟于近期以CC BY-NC-ND协议开放完整数据下载。

BIOS知识图谱包含的实体和关系数量的描述
基于BIOS知识图谱的医学命名实体识别演示

1    Yuan Z, Liu Y, Yin Q, et al. Unsupervised multi-granular Chinese word segmentation and term discovery via graph partition. Journal of Biomedical Informatics 2020;110:103542. doi:10.1016/j.jbi.2020.103542

2    Yuan Z, Zhao Z, Yu S. CODER: Knowledge infused cross-lingual medical term embedding for term normalization. arXiv:201102947 [cs] Published Online First: 5 November 2020.http://arxiv.org/abs/2011.02947 (accessed 7 Nov 2020).

3    Lin Y, Li Y, Lu K, et al. Long-distance disorder-disorder relation extraction with bootstrapped noisy data. Journal of Biomedical Informatics 2020;109:103529. doi:10.1016/j.jbi.2020.103529

4    Lin Y, Lu K, Chen Y, et al. High-throughput relation extraction algorithm development associating knowledge articles and electronic health records. arXiv:200903506 [cs, stat] Published Online First: 7 September 2020.http://arxiv.org/abs/2009.03506 (accessed 27 Sep 2020).

5    Luo S, Ying H, Yu S. Sentence Alignment with Parallel Documents Helps Biomedical Machine Translation. arXiv:210408588 [cs] Published Online First: 17 April 2021.http://arxiv.org/abs/2104.08588 (accessed 7 Jul 2021).

#post-12294
ntry-header

2021年11月22日,罗格斯大学龚若玢助理教授通过线上平台与我中心教员深入交流,并进行线上学术报告,报告的题目是Towards Good Statistical Inference from Differentially Private Data。

龚若玢线上报告

#post-12292