ntry-header

2023年11月6日,中国科学技术大学曾靖副教授访问我中心,与中心教员座谈,并做学术报告,报告的题目是:

Robust Sliced Inverse Regression: Optimal Estimation for Heavy-Tailed Data in High Dimensions。

曾靖副教授
报告现场
与会教员合影
#post-15624
ntry-header

#post-15609
ntry-header

#post-15598
ntry-header

近日,2023年自然语言处理实证方法会议(The 2023 Conference on Empirical Methods in Natural Language Processing,简称为EMNLP 2023)公布了论文接受结果,我中心邓柯老师课题组博士研究生潘长在同学的研究论文“TopWORDS-Poetry: Simultaneous Text Segmentation and Word Discovery for Classical Chinese Poetry via Bayesian Inference”入选“主会长文”单元。自然语言处理实证方法会议(EMNLP)是自然语言处理和人工智能领域的顶级会议,由国际计算语言学协会的语言数据特别兴趣小组 (SIGDAT) 组织于 1996 年发起,是在早期超大型语料库研讨会 (Workshop on Very Large Corpora, WVLC) 基础上发展起来的。

潘长在同学的入选论文针对于中国古典诗歌的文本分析展开研究,力图运用贝叶斯统计方法解决这类特殊文本的命名实体识别和分词问题。中国古代诗歌具有独特的写作风格和格律要求,富含在其他通用文本中罕见的特殊诗歌词汇,其分析至今仍充满挑战。

潘长在的论文从中国古典格律诗歌主要具有两种模式(如图一所示)的事实出发,建立了一种可以对诗歌文本分词进行有效指导的贝叶斯先验分布;并将这个先验分布与无监督中文分析方法TopWORDS的分析框架相结合,提出了一种同时进行文本分词和词语发现的无监督中国古代诗歌分析方法TopWORDS-Poetry,可以借助诗歌本身隐含的格律信息对诗歌文本进行精准分词,并有效发现诗歌中的特殊词汇(如人名、地名、典故等)。

将该方法应用到《全唐诗》诗歌文本的分析,我们通过小样本人工验证证实了TopWORDS-Poetry方法能够挖掘出大量有意义的人名、地名、文学典故等词汇,并在诗歌分词上有优良的表现。相关实验还表明,TopWORDS-Poetry方法相比于通用大语言模型ChatGPT和文献中其他已有方法,在综合表现上有明显的优势。

该论文是清华大学数字人文团队共同合作的成果,潘长在是第一作者,邓柯副教授作为通讯作者与清华大学中文系的李飞跃副教授共同指导了相关研究工作。清华大学数字人文团队由来自清华大学人文学院、计算机系和统计学研究中心3家单位的学者组成,凝聚了横跨文科、工科、理科的跨学科交叉研究力量,致力于运用前沿人工智能技术和统计学方法,解决新兴交叉领域“数字人文”中的重要问题。

该研究工作得到了国家科技部创新研究计划、清华大学国强研究院、北京市自然科学基金的支持。

 

#post-15584
ntry-header

#post-15581
ntry-header

#post-15570
ntry-header

北京生物医学统计与数据管理研究会(BBA),成立于2015年1月30日,至今为止已经开展过多次生物医学统计与数据管理研究、学术交流、专业培训、理论研讨、对外交流等活动。

BBA 2023年第四季度研讨会将于11月3日下午于位于清华大学东南门的紫清大厦(原紫光国际交流中心)召开。此次会议由北京生物医学统计与数据管理研究会、清华大学和百济神州生物科技有限公司三方联合主办,将围绕“智慧研究与智慧医疗”,由来自国内学界及企业的多位讲者展开汇报和讨论。

讨论内容涉及多个方面,包括:因果推断前沿方法及应用,AI辅助临床决策,数据科学助力临床开发,数智化在临床研究中的应用。

本次会议秉持开放交流,免费参与的原则,线下现场参与名额有限(约100人),欢迎广大业界同仁踊跃报名。

报名方式:扫描下方二维码填写报名信息。

报名截止日期:2023年11月1日

线下会议时间:2023年11月3日13:30-17:35.

线下会议地点:北京市海淀区中关村东路1-10号紫清大厦(原紫光国际交流中心)二层宴会厅

会务联系人:Yushan Hou, houyushan@tsinghua.edu.cn

Rui Chen, ruc_bba@163.com

 

#post-15557
ntry-header

2023年10月16日,清华大学杨宇红教授访问我中心,与中心教员交流座谈,并做特邀报告,报告的题目是:Profile Electoral College Cross-Validation。

杨宇红教授与中心侯琳副教授交流
杨宇红教授特邀报告
报告现场
与会师生合影
#post-15544
ntry-header

2023年10月9日,字节跳动公司许晶晶研究员访问我中心,与中心师生交流,并做学术报告,报告的题目是基于代码大模型的代码智能体。

许晶晶研究员
报告现场
与会师生合影
#post-15536
ntry-header

#post-15530